Opis procedury pozyskania i ujednolicenia danych w eksploracyjnej analizie artykułów naukowych

Pełen tekst

(1)Zeszyty Naukowe nr. 838. 2010. Uniwersytetu Ekonomicznego w Krakowie. Mariusz Grabowski Katedra Systemów Obliczeniowych. Opis procedury pozyskania i ujednolicenia danych w eksploracyjnej analizie artykułów naukowych Streszczenie. Obserwowany w ostatniej dekadzie rozwój metod i środków przechowywania oraz udostępniania danych zaowocował zwiększeniem dostępności zbiorów informacji, w szczególności dokumentów tekstowych. Umożliwia to prowadzenie gruntownych analiz zawartości bardzo dużych zbiorów dokumentów. W artykule omówiono wybrane aspekty eksploracyjnej analizy artykułów naukowych ze szczególnym uwzględnieniem faz pozyskania i ujednolicenia danych. Zaproponowano procedurę wykorzystującą język XML oraz narzędzia pokrewne, będącą sposobem na organizację, walidację i prezentację kolekcji dokumentów i stanowiącą punkt wyjścia do pozostałych etapów eksploracyjnej analizy tekstów. Słowa kluczowe: eksploracyjna analiza tekstu, fazy pozyskania i ujednolicenia dokumentów, XML, CSS, walidacja.. 1. Wprowadzenie W ostatnim dziesięcioleciu rozwój metod i środków przechowywania i udostępniania danych spowodował wykładnicze zwiększenie się dostępności zbiorów informacji, w szczególności dokumentów tekstowych. Choć są łatwe do tworzenia i interpretacji dla człowieka, dokumenty takie stanowią poważne wyzwanie przy każdej próbie ich automatycznego przetwarzania (np. metodami informatycznymi). Ich swobodna struktura sprawia, że trudno jest znaleźć jednoznaczne reguły ich interpretacji. Jednak obecnie, gdy przewidziany przez R.L. Ackoffa [1967] zalew informacji stał się faktem, owa trudność stanowi nie hamulec działań, lecz motywację do opracowywania metod pozwalających na automatyzację przynajmniej.

(2) 20. Mariusz Grabowski. pewnej części procesu interpretacji dokumentów tekstowych. Dziedziną, której przedmiotem zainteresowania jest automatyzacja pozyskiwania informacji z dokumentów tekstowych, jest text mining, czyli eksploracyjna analiza tekstu (EAT). Chociaż początki komputerowego przetwarzania tekstu obejmującego zagadnienia takie jak indeksowanie, klasyfikacja, grupowanie czy pomiar podobieństwa dokumentów sięgają lat 50., dopiero ostatnie lata przyniosły wyodrębnienie się EAT jako dziedziny o własnej specyfice. Zdecydowały o tym dwa czynniki: dostępność dokumentów w postaci cyfrowej oraz sprzętu i oprogramowania komputerowego mogącego realizować często złożone obliczeniowo algorytmy na dużych zbiorach danych. Jedna z pierwszych powszechnie cytowanych definicji eksploracyjnej analizy tekstu została zaproponowana przez M. Hearst [2003], według której jest nią „odkrywanie przez komputer nowych, wcześniej nieznanych informacji dzięki automatycznemu wydobywaniu informacji z różnych źródeł tekstowych”. Chociaż można kwestionować jakość tej definicji, trudno nie zgodzić się co do jej istoty – z tym, że metody i środki informatyki są niezwykle pomocne w selekcji i zestawianiu danych uzyskiwanych z dokumentów tekstowych. Tak przygotowane zestawienia znacząco ułatwiają człowiekowi wyciąganie wartościowych wniosków i czynienie cennych spostrzeżeń. Obecnie, gdy coraz większa liczba publikacji naukowych jest udostępniana w formie elektronicznej, narzędzia EAT mogą okazać się pomocne również w pracy naukowo-badawczej. W działalności tej tekst jest podstawowym nośnikiem informacji, a przeprowadzenie gruntownych studiów bibliograficznych stanowi najczęściej pierwszy krok badań. W poprzednich dekadach rzetelne studia bibliograficzne ograniczały się do przeczytania kilkudziesięciu lub, w skrajnych przypadkach, kilkuset publikacji – obecnie liczba ta może sięgać nawet tysięcy. Metody EAT mogą okazać się szczególnie pomocne na etapie selekcji publikacji oraz znacząco wspomóc etap analizy koncepcji w nich zawartych. 2. Przebieg procesu eksploracyjnej analizy tekstu Proces eksploracyjnej analizy tekstu składa się najczęściej z kilku faz. Został on zilustrowany na rys. 1. Pozyskanie tekstów stanowi pierwszy etap EAT. W niektórych przypadkach określona kolekcja tekstów może być już dana, ale w większości jej pozyskanie jest częścią zadania badawczego. Zwykle główne źródło tekstów stanowi Internet, a podstawową aplikacją pozwalającą na pozyskiwanie dokumentów jest przeglądarka internetowa. Można również skorzystać ze specjalnych aplikacji do groma-.

(3) 21. Opis procedury pozyskania…. dzenia tekstów, tzw. pająków sieciowych (web spiders) lub (web crawlers), które samoczynnie zapisują teksty z Internetu według zleconego harmonogramu.. Pozyskanie. Ujednolicenie. Transformacja. Analiza. Rys. 1. Przebieg procesu eksploracyjnej analizy tekstu Źródło: opracowanie własne.. Celem etapu ujednolicenia jest dokonanie konwersji wszystkich dokumentów do jednego spójnego formatu tekstowego, ponieważ dokumenty pozyskane z różnych źródeł mogą znacząco się od siebie różnić. Oprócz tekstu mogą one zawierać znaki sterujące umieszczane w tekście w celu określenia struktury dokumentu i (lub) wzbogacenia jego warstwy prezentacyjnej1. W przypadku dokumentów napisanych w językach innych niż angielski, np. języku polskim, konieczne jest również ujednolicenie standardu kodowania znaków. Celem fazy transformacji jest przekształcenie kolekcji tekstów na postać umożliwiającą dalszą analizę. Zasadniczo można wyróżnić dwa rodzaje reprezentacji docelowej: częstościową i strukturalną. Reprezentacja częstościowa. Używa się jej, gdy celem prowadzonych badań jest określenie częstościowej charakterystyki kolekcji dokumentów. W postaci tej traci się jednak informacje o związkach zachodzących pomiędzy poszczególnymi słowami w dokumencie, w szczególności związane z kolejnością wyrazów. Reprezentacja częstościowa polega na przedstawieniu kolekcji dokumentów w postaci macierzy X, której wiersze odnoszą się do poszczególnych słów, a kolumny do. 1. Do tego typu dokumentów należą np. dość powszechne formaty zapisu plików tekstowych: format Microsoft Word – doc, format Acrobat Studio – pdf, oraz format OpenOffice Writer – odt. Mimo że dokumenty te służą do prezentacji tekstu, nie są dokumentami tekstowymi zgodnie z kryterium systemu operacyjnego, gdyż wspomniane znaki sterujące nie są znakami tekstowymi. Pliki pdf są dodatkowo skompresowane..

(4) 22. Mariusz Grabowski. zawierających je dokumentów2, zwanej macierzą częstości, czasem określaną mianem worka słów (bag-of-words representation). W klasycznej postaci element xij oznacza liczbę wystąpień i-tego słowa w j-tym dokumencie. Macierz X jest poddawana przekształceniom. W zastosowaniach EAT występuje przeważnie w przekształconej postaci. Najczęściej spotyka się następujące jej modyfikacje: postać binarną, ważoną, logarytmiczną, logarytmiczną ważoną [Weiss i in. 2005; Manning i Schütze 1999]. Reprezentacja strukturalna. Celem reprezentacji strukturalnej jest zachowanie informacji o relacjach zachodzących w poszczególnych dokumentach, kolejności następujących po sobie słów czy związków pomiędzy wyrazami, frazami, zdaniami oraz sekcjami. Postać tę uzyskuje się w wyniku ręcznego przetwarzania tekstu wejściowego. Można również dokonać tego za pomocą algorytmów analizy syntaktycznej i semantycznej, ale jest to zadanie bardzo złożone. Strukturami przydatnymi do przechowywania informacji tego typu są grafy, listy, struktury drzewiaste oraz tablice relacyjnej bazy danych. Ostatnim etapem EAT jest analiza. Reprezentacja częstościowa kolekcji dokumentów jest znacznie bardziej popularna na ostatnim etapie postępowania badawczego EAT. Stanowi ona wygodną strukturę przy dużej liczbie narzędzi eksploracyjnej analizy danych. Po dokonaniu tej transformacji w zasadzie zanikają już czynniki odróżniające EAT od eksploracyjnej analizy danych (data mining) [Witten i Frank 2000], dlatego na tym etapie nie ma już formalnych przeszkód do zastosowania dowolnych narzędzi takiej analizy. Podstawowa różnica pomiędzy macierzą częstości a innymi strukturami eksploracyjnej analizy danych jest taka, że zawiera ona jedynie wartości nieujemne, w przypadku macierzy częstości lub binarnej macierzy częstości są one ponadto zawsze całkowite. Wiersze macierzy częstości niosą informacje o słowach, a kolumny o dokumentach. Każdy dokument może być interpretowany jako punkt w przestrzeni słów, a słowo jako punkt w przestrzeni dokumentów. O podobieństwie dokumentów lub słów decydują relacje sąsiedztwa zachodzące pomiędzy nimi w rozpatrywanej wielowymiarowej przestrzeni. Dlatego na etapie analizy wykorzystywane są metody statystycznej analizy wielowymiarowej lub rozpoznawania obrazów [Pociecha i in. 1988; Grabiński, Wydymus i Zeliaś 1989; Jajuga 1990, 1993; Tadeusiewicz 1985; Metody statystycznej analizy… 2004]. Trudno opisać wszystkie metody wykorzystywane na etapie analizy, można jednak wymienić kilka bardziej popularnych. Należą do nich metody klasyfikacji (kNN, SVM, drzewa decyzyjne, sieci neuronowe MLP 2. W niektórych przypadkach mamy do czynienia z macierzą częstości będącą transpozycją macierzy opisanej w tym punkcie, tzn. takiej, w której wiersze opisują dokumenty, a kolumny opisują słowa. Oczywiście nie ma to wpływu na relacje pomiędzy słowami a dokumentami w niej prezentowanymi. Konieczne jest jedynie uwzględnienie tego faktu w dalszej analizie..

(5) Opis procedury pozyskania…. 23. i RBF), grupowania (taksonomiczne metody hierarchiczne i niehierarchiczne, sieci neuronowe SOM) oraz metody redukcji wymiarowości macierzy częstości lub jej modyfikacji (metoda LSI / SVD). W dalszej części niniejszego opracowania omówione zostały dwa pierwsze etapy EAT. Są one najbardziej czasochłonne i niewątpliwie warunkują sukces dalszych badań. 3. Pozyskanie dokumentów do analizy 3.1. Uwagi ogólne. Pomimo dynamicznego rozwoju multimedialnych metod prezentacji podstawowym środkiem wymiany informacji środowisk naukowych jest tekst. W formie tekstowej publikowane są raporty badawcze, artykuły naukowe oraz książki. W dobie Internetu coraz większa liczba publikacji (głównie artykułów, gdyż książki na ogół publikowane są jedynie w formie papierowej) jest udostępniana w formie elektronicznej. Z uwagi na obostrzenia związane z prawami autorskimi nie oznacza to jednak ich publicznej dostępności. W związku z tym w ostatnim czasie wyodrębniły się dwie klasy systemów zapewniających dostęp do publikacji (lub ich części): – odpłatne systemy udostępniające na ogół pełne wersje publikacji, do których prawa autorskie zabraniają ich nieodpłatnego upowszechniania; – systemy nieodpłatne udostępniające pełne wersje publikacji, których prawa autorskie zezwalają na ich nieodpłatne upowszechnianie, lub te części publikacji, które mogą zostać upowszechnione, podczas gdy prawa autorskie zabraniają upowszechnienia tych publikacji w pełnej formie. Obie grupy systemów często zapewniają dodatkową funkcję taką jak zaawansowane wyszukiwanie, analiza cytowań, możliwość tworzenia zestawień itp. Nie umożliwiają jednak zastosowania wielu metod EAT, takich jak np. niektóre zadania klasyfikacji, grupowania czy redukcji wymiarowości, i dlatego systemy te stanowią głównie źródło pozyskiwania dokumentów do dalszej analizy. 3.2. Odpłatne systemy dostępu do publikacji. Zdecydowana większość wartościowych czasopism naukowych udostępniana jest odpłatnie, po wykupieniu subskrypcji elektronicznej. Najprostszym rozwiązaniem jest skorzystanie z dostępu elektronicznego zapewnionego przez wydawcę określonego czasopisma. Jest to jednak na ogół rozwiązanie najdroższe, gdyż obecnie cena wersji elektronicznej czasopisma nie odbiega od ceny wersji papierowej, co może oznaczać wydatek rzędu kilkuset złotych rocznie na jeden tylko tytuł..

(6) 24. Mariusz Grabowski. W wielu przypadkach subskrypcję pewnej grupy czasopism dziedzinowych uzyskuje się jako jedną z korzyści związanych z przynależnością do organizacji naukowych (wydatek: kilkadziesiąt–kilkaset złotych rocznie). W ten sposób można np. dzięki przynależności do stowarzyszenia AIS (Association of Information Systems, http://home.aisnet.org/) uzyskać dostęp do najbardziej prestiżowego czasopisma dziedziny SIZ (systemów informacyjnych zarządzania) – „MIS Quarterly” oraz dodatkowo do innych uznanych periodyków, takich jak: „Journal of the AIS”, „Communications of the AIS” oraz „MIS Quarterly Executive”. Wydaje się jednak, że najbardziej efektywnym sposobem na dostęp do recenzowanych tekstów naukowych jest subskrypcja usług jednego lub kilku systemów udostępniania informacji naukowej. Systemy te zapewniają dostęp do licznych periodyków z wielu dziedzin naukowych. Choć nie ma gwarancji, że znajdują się w nich wszystkie tytuły z danej dziedziny, na pewno są tam wszystkie najistotniejsze. Użycie jednego z systemów udostępniania informacji naukowej na ogół gwarantuje możliwość przeprowadzenia rzetelnych studiów literaturowych z określonego obszaru badawczego. Dostęp do tego typu systemów zapewniają najczęściej określone instytucje (np. biblioteki uczelni wyższych). Do najpopularniejszych systemów należą: Business Source Complete (http://search.ebscohost. com/), ABI/INFORM-ProQuest (http://il.proquest.com/) oraz Jstor (http://www. jstor.org/). Na ogół pozwalają one na dostęp do pełnych wersji periodyków, chociaż w zależności od rodzaju wykupionej licencji, zwłaszcza w przypadku najnowszych wydań, dostęp ten może być ograniczony jedynie do abstraktu. 3.3. Nieodpłatne systemy dostępu do publikacji. Swój rozwój i popularność Internet zawdzięcza przede wszystkim synergii związanej z powszechnym użyciem otwartych darmowych protokołów: TCP / IP, HTTP, URL oraz HTML [Hamel 2000, s. 105]. Dlatego dla wielu Internet jawi się jako darmowe źródło informacji. Historia pokazuje, że firmy, które zaistniały i zbudowały swoją potęgę dzięki Internetowi, oferują usługi informacyjne użytkownikowi końcowemu nieodpłatnie. Do takich firm należy Google3. Oprócz swego podstawowego serwisu (http:// www.google.com/) firma oferuje również m.in. usługi wyszukiwania dla środowiska naukowego. Serwis ten nosi nazwę Google Scholar (http://scholar.google. com/). Jest on zintegrowany z innym serwisem udostępniającym publikacje 3. Firma ta należy niewątpliwie do największych tygrysów ery internetowej. Jako jedna z nielicznych przetrwała załamanie rynku dotcomów. Firma ta stworzyła własny model biznesowy opierający się na wysokiej jakości usługach wyszukiwania i udostępniania informacji, finansując swój rozwój z reklam skojarzonych z mechanizmami wyszukiwania oraz umieszczanych w swoich serwisach..

(7) Opis procedury pozyskania…. 25. książkowe (w tym naukowe) Google Books (http://books.google.com/). Systemy te pozwalają na wyszukiwanie informacji o publikacjach naukowych z uwzględnieniem wielu kryteriów, takich jak: tytuł, wystąpienie określonych słów kluczowych, nazwisko autora, okres, w którym zostały opublikowane. W odpowiedzi system zwraca listę publikacji najlepiej dopasowanych do zapytania. Dodatkowo otrzymuje się informację o ewentualnej liczbie cytowań, artykułach pokrewnych i miejscach w Internecie, gdzie znajduje się określona publikacja. W zależności od zasad udostępniania określonej publikacji system umożliwia jej pozyskanie lub odsyła do strony internetowej organizacji, która udostępnia określoną publikację odpłatnie lub nieodpłatnie. Innym publicznie dostępnym serwisem zawierającym informacje związane ze środowiskiem naukowym jest CiteSeer.LST (Scientific Literature Digital Library, http://citeseer.ist.psu.edu/). Serwis pozwala na wyszukanie określonej publikacji ze względu na wiele kryteriów (tytuł, autor, słowa kluczowe). W wyniku otrzymuje się listę publikacji najlepiej spełniających kryteria określone w zapytaniu. Każda znaleziona publikacja jest dokładnie opisana oraz wskazane jest miejsce jej udostępnienia. Opis zawiera abstrakt, kontekst cytowań danej publikacji, inne publikacje, w których została zacytowana, artykuły o podobnym charakterze, opis bibliograficzny publikacji w formacie BibTeX oraz w przypadku dużej liczby cytowań wykres słupkowy prezentujący cytowania w poszczególnych latach. Z kolei serwis CiteULike (http://www.citeulike.org/) umożliwia organizację wyników studiów literaturowych. Pozwala na dostęp do tytułów artykułów z ostatnich wydań wybranych magazynów naukowych oraz dopisanie not bibliograficznych w wybranym spośród kilku formatów, w tym BibTeX, do bazy danych umieszczonej na utworzonym na serwisie koncie. Można również korzystać ze znaczników tematycznych zawężających obszar poszukiwań do określonej dziedziny zainteresowań. System umożliwia także dołączenie do bazy danych dowolnego artykułu umieszczonego w Internecie. CiteULike należy do tzw. sieci społecznych, czyli rozwiązań technologicznych wspierających dzielenie się zasobami i wymianę informacji między ludźmi. Dlatego możliwe jest korzystanie z baz bibliograficznych stworzonych przez innych użytkowników w obrębie tworzonych w ramach systemu grup zainteresowań. 3.4. Dobór dokumentów stanowiących kolekcję badawczą. Na ocenę jakości publikacji naukowej wpływa prestiż wydawnictwa oraz liczba powołań na dany tekst w innych publikacjach. W wielu kręgach naukowo-badawczych jakość i liczba publikacji świadczy o jakości kariery naukowej ich autora. Wyniki prac naukowo-badawczych nabierają szczególnego znaczenia, gdy są opublikowane w jednym z renomowanych czasopism naukowych należących do.

(8) 26. Mariusz Grabowski. tzw. listy filadelfijskiej. Lista ta jest przygotowywana przez organizację o nazwie Thomson Scientific (http://scientific.thomson.com/index.html) z siedzibą w Filadelfii. Obecność czasopisma naukowego na tej liście gwarantuje jej najwyższy poziom merytoryczny. Kryterium, na podstawie którego określone czasopismo jest wpisywane na listę filadelfijską, są punkty obliczone na podstawie publikowanego corocznie w Journal Citation Report wskaźnika o nazwie impact factor4, który zależy przede wszystkim od liczby cytowań ostatnio opublikowanych artykułów z danego periodyku w innych renomowanych czasopismach. W Polsce ocena dorobku naukowego pracowników i jednostek naukowych dokonywana jest na podstawie publikowanej przez Ministra Nauki i Szkolnictwa Wyższego listy rankingowej czasopism punktowanych [List Ministra… 2007; Wykaz wybranych czasopism… 2007]. Zawiera ona czasopisma z listy filadelfijskiej (część A) oraz wybrane periodyki polskie niebędące na tej liście (część B). W zależności od wartości impact factor dla czasopism z listy filadelfijskiej przyznawane są punkty: 30, 24, 20, 15 lub 10. Punktacja dla publikacji spoza tej listy jest na ogół niższa i wynosi 10, 6, 4, 2 lub 1 pkt. Im większa liczba punktów przyznana jest danej publikacji, tym wyższa jest jej jakość i ranga. Dobór dokumentów stanowiących bazę analityczną ma największe znaczenie. Stosowanie najlepszych, wspomaganych komputerowo technik analitycznych nie przyniesie żadnych wartościowych rezultatów, jeśli wartość naukowa tekstów będzie niska. Można przyjąć założenie, że kolekcja empiryczna powinna uwzględniać przede wszystkim periodyki należące do listy filadelfijskiej o najwyższej punktacji. Ze względu na stosowanie metod EAT jej wielkość nie stanowi problemu. Możliwe jest zatem włączenie wszystkich dostępnych publikacji danego periodyku lub grupy periodyków. Autor niniejszego opracowania w prowadzonych przez siebie studiach literaturowych dotyczących dziedziny systemów informacyjnych zarządzania włączył do kolekcji empirycznej wszystkie dostępne artykuły z pięciu wysoko punktowanych kwartalników należących do listy filadelfijskiej: „MIS Quarterly”, „Information Systems Research”, „Journal of Information Technology”, „Information Systems Journal” oraz „European Journal of Information Systems”. Pozyskana dzięki systemom Business Source Complete oraz ABI/INFORM-ProQuest kolekcja empiryczna zawiera 2348 artykułów naukowych opublikowanych w latach 1977–2006. Wydaje się, że stanowi ona wiarygodne źródło do analizy w aspekcie czasowym (trendy rozważanych koncepcji), jak i strukturalnym (różnorodność i procentowy udział rozważanych koncepcji).. 4. Chociaż impact factor jest czasem krytykowany, np. z powodu jego właściwości statystycznych (skośność) czy braku odporności na powoływanie się na własne publikacje, jest uznawany za jeden z najbardziej obiektywnych wskaźników jakości publikacji..

(9) Opis procedury pozyskania…. 27. 4. Ujednolicenie kolekcji dokumentów 4.1. Struktura artykułu naukowego. Artykuł naukowy, w odróżnieniu od tekstu beletrystycznego, ma na ogół wyraźnie określoną strukturę. Oprócz tytułu artykułu oraz informacji o autorach i ich afiliacjach tekst składa się przeważnie z kilku sekcji. Należą do nich: – wstęp omawiający motywy napisania pracy oraz prezentujący jej strukturę; – na ogół od trzech do siedmiu punktów, w których omawiane są podstawy teoretyczne rozważań, przeprowadzane są studia literaturowe, formułowana jest hipoteza badawcza lub cel pracy oraz prezentowane są wyniki badań empirycznych; – podsumowanie, w którym omawiane są osiągnięte wyniki, sygnalizowane problemy badawcze oraz kierunki przyszłych prac; – bibliografia zawierająca wszystkie prace, na które powołano się w tekście. Chociaż poszczególne publikacje różnią się od siebie tematyką, specyfiką oraz zakresem, większość prac naukowych jest ujęta w zaprezentowaną strukturę. Zdecydowana większość periodyków naukowych wymaga, aby tekst główny był poprzedzony zwięzłym streszczeniem artykułu w postaci tzw. abstraktu. W niniejszym opracowaniu pojęcie abstraktu jest rozumiane dwojako. W ujęciu węższym abstrakt stanowi po prostu streszczenie artykułu, w szerszym zaś w skład abstraktu wchodzi tytuł artykułu, informacja o autorach, lista terminów pozwalających na identyfikację najważniejszych zagadnień w nim omawianych (słowa kluczowe) oraz samo streszczenie. Czasami abstrakt jest uzupełniony o system kodów klasyfikujący go do określonej tematyki. System taki zapewniają najczęściej programy dostępu do publikacji omówione w poprzednim punkcie. Z racji swego ogólnego przeznaczenia systemy kodów zapewniane przez programy dostępu do publikacji nie są zorientowane dziedzinowo, co niewątpliwie utrudnia prowadzenie na ich podstawie szczegółowych studiów bibliograficznych5. 4.2. Pełny tekst artykułu i abstrakt w kontekście EAT. W przypadku analizy dużych kolekcji dokumentów naukowych uzyskanie pełnych wersji wszystkich artykułów może okazać się niemożliwe. Jednym z powodów może być po prostu ich niedostępność. Drugim powodem może być brak 5. Do nielicznych powszechnie stosowanych dziedzinowych systemów klasyfikacyjnych należy zaliczyć strukturę MeSH przeznaczoną dla nauk medycznych, system klasyfikacyjny ACM (Association for Computing Machinery) stosowany w informatyce (http://www.acm.org/class/) oraz używany w latach 1993–2003 system ISRL (Information Systems Research Library, http://www.misq. org/roadmap/codes.html) stosowany przez „MIS Quarterly”, odnoszący się do dziedziny systemów informacyjnych..

(10) 28. Mariusz Grabowski. formy tekstowej danego artykułu. Dzieje się tak dlatego, że chociaż dokumenty są zapisane najczęściej w postaci plików PDF, poszczególne ich strony są zapisane w formie graficznej (często bardzo słabej jakości). Sytuacja taka ma miejsce zwłaszcza w przypadku starszych dokumentów. Wtedy skonwertowany do postaci tekstowej dokument zawiera, niestety, bardzo dużą liczbę błędów. Problem ten nie występuje w przypadku dokumentów w formacie PDF z tekstem zakodowanym w postaci zestawów znaków. Przedstawiony problem można rozwiązać, analizując jedynie abstrakty artykułów. W niektórych przypadkach wydaje się, że wykorzystanie abstraktu może przynieść lepsze rezultaty niż całego tekstu. Do takich przypadków można zaliczyć np. identyfikację najistotniejszych zagadnień zawartych w dużych zbiorach publikacji naukowych [Grabowski 2008]. W innych zadaniach EAT, jak np. klasyfikacja i grupowanie dokumentów, trudno jest jednoznacznie określić, która forma jest lepsza, choć pewną przewagę wykazuje pełny tekst [Zheng i in. 2005; Cohen, Yang i Hersh 2005]. Dodatkowym atutem użycia abstraktów, a nie pełnych tekstów, jest ich łatwe ujednolicenie w postaci stworzonej na potrzeby badań ontologii. Oczywiście najważniejszym zagadnieniem jest jakość samego abstraktu. Wyraża się ona we właściwym doborze słów kluczowych oraz treści samego streszczenia. Jakość abstraktu nabiera szczególnego znaczenia w dobie elektronicznego dostępu do publikacji [Weber 2003]. Od umiejętności autora artykułu w zakresie zwięzłego precyzowania myśli zależy bowiem, czy dany tekst zostanie dostrzeżony przez środowisko naukowe. Jakość abstraktu wpływa na efektywność mechanizmów indeksujących elektronicznych systemów udostępniania dokumentów opisanych w poprzednim punkcie, które stanowią obecnie podstawowe źródło prowadzenia przez badaczy studiów literaturowych. W dalszej części niniejszego opracowania przyjęto, że artykuł naukowy jest reprezentowany przez abstrakt, składający się z tytułu, listy autorów, listy słów kluczowych oraz streszczenia. 4.3. Poziomy ujednolicenia kolekcji empirycznej. W prezentowanej procedurze proponuje się, aby dokonać ujednolicenia kolekcji empirycznej na dwóch poziomach. Pierwszy z nich polega na stworzeniu spójnego systemu nazewnictwa plików i abstraktów w celu łatwej identyfikacji oraz umożliwienia pozycjonowania poszczególnych artykułów w czasie. Dlatego w skład nazwy powinny wchodzić atrybuty niosące informację np. o roku wydania, numerze woluminu, numerze zeszytu oraz identyfikatorze czasopisma. W prowadzonych przez autora niniejszego opracowania badaniach identyfikator dokumentu składa się z czterech części, oddzielonych od siebie kreskami, oraz rozszerzenia. Pierwszą część identyfikatora stanowi rok publikacji (4 cyfry), druga to numer.

(11) Opis procedury pozyskania…. 29. zeszytu (1 cyfra), trzecia to numer publikacji w zeszycie (2 cyfry – nie ma on jednak charakteru porządkowego, ale jedynie identyfikacyjny), a czwarta to kod periodyku (MSQ, ISR, JIT, ISJ i EJS). Rozszerzenie określa typ pliku. Zasadniczo w badaniach stosowane są dwa typy plików: XML, będący typem podstawowym, oraz TXT, będący rezultatem automatycznej transformacji pliku XML. Pozyskane dokumenty charakteryzują się niejednolitym formatem. Dlatego drugi poziom standaryzacji materiału empirycznego ma na celu stworzenie jednolitej struktury plików. Abstrakty pozyskane z programów zapewniających dostęp do publikacji są plikami zapisanymi w formacie HTML. Oprócz znaczników HTML, definiujących i wzbogacających warstwę prezentacyjną określonego dokumentu, zawierają również wiele danych nieistotnych w prowadzonych badaniach. Do tych danych należą np. teksty komunikatów i elementy menu programów dostępowych. Dlatego ważnym zadaniem jest przekształcenie pozyskanych dokumentów zapisanych w formacie HTML na strukturę w postaci pliku XML zawierającego jedynie abstrakt artykułu. Strukturę zaprojektowanej na potrzeby badań ontologii prezentuje rys. 2. Analiza struktury plików z abstraktami zapisanymi w formacie HTML pozwala na określenie reguł konwersji do formatu XML. Reguły te umożliwiają z kolei automatyzację całego procesu konwersji. Realizowane jest to za pomocą kilku skryptów napisanych w języku Perl. Ważną cechą języka XML jest możliwość sprawdzenia poprawności stworzonego w nim dokumentu. Istnieją dwa zasadnicze sposoby realizacji tego zadania. W pierwszym analizowany jest sam dokument XML pod kątem poprawności jego struktury. Sprawdza się w nim np., czy określone znaczniki mają swe pary domykające, czy są właściwie zagnieżdżone. W wyniku otrzymuje się informację, czy dany dokument jest prawidłowo sformatowany (well formed). Drugi, bardziej złożony sposób, to tzw. walidacja dokumentu – oprócz struktury dokumentu weryfikuje również jego typ (typy i zakresy danych, ich relacje, zasady związane z ich wymagalnością bądź opcjonalnością). W wyniku procesu walidacji otrzymuje się informację o tym, czy dokument jest poprawny (valid), co oznacza, że jest również prawidłowo sformatowany. Obecnie stosuje się dwa schematy pozwalające na walidację dokumentu XML: wywodzący się z języka SGML Document Type Definition (DTD) [Ray 2004] oraz XML Schema (http:// www.w3.org/XML/Schema). W omawianych badaniach do walidacji ontologii abstraktu (rys. 2) zdecydowano się na użycie mechanizmu XML Schema (plik scripts/paper.xsd). Mechanizm ten pozwala również, podobnie jak DTD, na rozróżnienie pomiędzy typami tekstowymi (np. <tytuł>) a liczbowymi (np. <year>) oraz dodatkowo pozwala m.in. na ograniczenie zakresu danych (np. definiując zakres analizy, można ograniczyć przedział czasowy na lata 1977–2006)..

(12) 30. Mariusz Grabowski. Rys. 2. Ujednolicona struktura pliku z abstraktem: 1977-1-02-MSQ.xml Źródło: opracowanie własne.. Dzięki zawartej w pliku scripts/paper.xsd definicji struktury pliku XML możliwa jest weryfikacja poprawności zawartości plików zawierających poszczególne abstrakty. Można tego dokonać w sposób automatyczny za pomocą jednego z programów walidujących6.. 6. Wiele edytorów kodu XML ma wbudowane walidatory XMLShema lub DTD. Walidacji pojedynczych dokumentów można dokonać również online (np. na stronie http://tools.decisionsoft.com/ schemaValidate/ – XML Schema Validator pozwala na walidację dokumentów względem XML Schema). W niniejszych badaniach autor wykorzystał dostępny nieodpłatnie program AltovaXML (http://www.altova.com/altovaxml.html). Program ten działa w trybie linii poleceń, co umożliwia automatyczną walidację dowolnej liczby plików..

(13) Opis procedury pozyskania…. 31. Rys. 3. Prezentacja dokumentu z rys. 2 za pomocą CSS (plik scripts/paper.css) Źródło: opracowanie własne.. Język XML pozwala również na oddzielenie warstwy prezentacyjnej dokumentu od danych. Zdefiniowanie wyglądu dokumentu (pliku script/paper.css) znacznie zwiększa jego czytelność (rys. 3), co jest istotne zwłaszcza w sytuacji konieczności wzrokowej weryfikacji treści dokumentu, podczas kolejnych etapów prowadzenia studiów bibliograficznych. 5. Podsumowanie Celem niniejszego opracowania było przybliżenie problematyki eksploracyjnej analizy tekstów naukowych. W szczególności autor skupił się na przedstawieniu kryteriów i procedury pozyskania oraz ujednolicenia kolekcji dokumentów, mając na celu usprawnienie realizacji kolejnych kroków EAT: transformacji i analizy. W wyniku zaprezentowanej procedury pozyskania i ujednolicenia materiału empirycznego uzyskano kolekcję dokumentów charakteryzującą się następującymi cechami. Dzięki starannemu doborowi czasopism kolekcja ma wysoką wartość merytoryczną. Konwencja nazewnictwa kolekcji jest ujednolicona. Pozwoliło to.

(14) 32. Mariusz Grabowski. na identyfikowalność i jednoznaczne osadzenie określonego dokumentu w analizowanym okresie. Dzięki zdefiniowaniu przy użyciu języka XML struktury dokumentu każdy tekst jest podzielony na sekcje o różnym, lecz jednoznacznie określonym znaczeniu. Pozwala to na wygodną transformację dowolnych sekcji dokumentów na postać tekstową, przy jednoczesnej eliminacji wszelkich danych nieistotnych (np. znaczników, danych identyfikujących). Proces konwersji poszczególnych elementów składowych dokumentu umieszczonego w strukturze XML może być realizowany w sposób automatyczny, np. z wykorzystaniem udostępnianej nieodpłatnie biblioteki języka Perl: XML::Xpath (http://search.cpan. org/~msergeant/XML-XPath-1.13/XPath.pm). Mechanizmy języka XML oraz XML Schema pozwoliły zarówno na automatyczną weryfikację struktury dokumentu, jak i na definicję oraz weryfikację poprawności używanych w nim typów danych. Oddzielenie warstwy prezentacyjnej od danych w języku XML umożliwiło określenie wyglądu dokumentu ergonomicznego i czytelnego w ewentualnej analizie wzrokowej. Opisane w niniejszym artykule etapy pozyskania i ujednolicenia materiału empirycznego odpowiadają jednemu z najbardziej czasochłonnych etapów eksploracyjnej analizy danych – czyszczeniu danych. Wydaje się, że zaproponowane wykorzystanie do tego celu języka XML definiującego strukturę dokumentu wraz z jego rozszerzeniami, tj. XML Schema (zapewniającym poprawność typu dokumentu) oraz CSS (definiującym warstwę prezentacyjną), pozwala na znaczące zorganizowanie i uproszczenie tego zadania w kontekście eksploracyjnej analizy tekstu. Literatura Ackoff R.L. [1967], Management Misinformation Systems, „Management Science”, vol. 14, nr 4. Cohen A.M., Yang J., Hersh W.R. [2005], A Comparison of Techniques for Classification and Ad Hoc Retrieval of Biomedical Documents, NIST Special Publication: SP 500-266, The Fourteenth Text Retrieval Conference, Gaithersburg, MD, USA, http://trec.nist.gov/ pubs/trec14/papers/ohsu-geo.pdf. Grabiński T., Wydymus S., Zeliaś A. [1989], Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych, WNT, Warszawa. Grabowski M. [2008], Wykorzystanie metod eksploracyjnej analizy tekstu do identyfikacji kluczowych zagadnień zawartych w dużych zbiorach publikacji naukowych [w:] Taksonomia 15. Klasyfikacja i analiza danych – teoria i zastosowanie, red. K. Jajuga, M. Walesiak, Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu, Wrocław. Hamel G. [2000], Leading the Revolution, Harvard Business School Press, Boston. Hearst M. [2003], What Is Text Mining?, http://www.sims.berkeley.edu/~hearst/text-mining.html, data dostępu: 30 stycznia 2008. Jajuga K. [1990], Statystyczna teoria rozpoznawania obrazów, PWN, Warszawa..

(15) Opis procedury pozyskania…. 33. Jajuga K. [1993], Statystyczna analiza wielowymiarowa, PWN, Warszawa. List Ministra w sprawie listy czasopism punktowanych, Zn. DBB/4901/2007 [2007], Ministerstwo Nauki i Szkolnictwa Wyższego, Warszawa, http://www.nauka.gov.pl/mn/_gAllery/32/66/32663/20071119_list_ministra.pdf, data dostępu: 30.01.2008. Manning C., Schütze H. [1999], Foundations of Statistical Natural Language Processing, MIT Press, Cambridge. Metody statystycznej analizy wielowymiarowej w badaniach marketingowych [2004], red. E. Gatnar, M. Walesiak, Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław. Pociecha J. i in. [1988], Metody taksonomiczne w badaniach społeczno-ekonomicznych, PWN, Warszawa. Ray E.T. [2004], XML. Wprowadzenie, Helion, Gliwice. Tadeusiewicz R. [1985], Rozpoznawanie obrazów w zastosowaniach ekonomicznych, Akademia Ekonomiczna w Krakowie, Kraków. Weber R. [2003], The Problem of the Problem. Editor’s Comments, „MIS Quarterly”, vol. 27, nr 1. Weiss S.M. i in. [2005], Text Mining. Predictive Methods for Analyzing Unstructured Information, Springer Science + Business Media, New York. Witten I.H., Frank E. [2000], Data Mining, Morgan-Kaufmann, New York. Wykaz wybranych czasopism wraz z liczbą punktów za umieszczoną w nich publikację naukową [2007], Ministerstwo Nauki i Szkolnictwa Wyższego, Warszawa, http:// www.nauka.gov.pl/mn/_gAllery/32/66/32664/20071119_Wykaz_czasopism.pdf, data dostępu: 30.01.2008. Zheng Z.H. i in. [2005], Applying Probabilistic Thematic Clustering for Classification in the TREC 2005 Genomics Track, NIST Special Publication: SP 500-266, The Fourteenth Text Retrieval Conference, Gaithersburg, MD, USA, http://trec.nist.gov/pubs/trec14/ papers/queensu.geo.pdf. Data Gaining Procedure and Data Unification in Explorative Analysis of Scientific Papers The development of data storage tools and of means and methods enabling data accessibility, which can be observed in last decade, has caused an increase of information sets availability, particularly concerning text documents. This fact allows performing the detailed analyses of contents of very large documents sets. The article submits selected aspects of explorative analysis of scientific papers, with special consideration of data gaining and data unification stages. A procedure that uses XML language and some related tools have been proposed as a method of organisation, validation and presentation of documents collection which is a starting point for next stages of explorative texts analysis. Key words: explorative text analysis, documents gaining and unification stages, XML, CSS, validation..

(16)