Ekstrakcja wiedzy i metody eksploracji danych

2 Ekstrakcja wiedzy ze źródła internetowego

2.3 Ekstrakcja wiedzy i metody eksploracji danych

Tematyką znajdującą się na pograniczu ekstrakcji informacji ze źródeł interneto-wych oraz eksploracji danych są trzy pokrewne zagadnienia określane zbiorczo

poję-ciem Web mining⁷⁷. Do zagadnień kryjących się pod tym terminem zaliczają się:

eks-ploracja struktury witryn, ekseks-ploracja danych z treści witryn, ekseks-ploracja informacji o użyciu witryn⁷⁸.

Eksploracja danych webowych definiuje się jako „zastosowanie technik odkrywa-nia wiedzy do automatycznego odkrywaodkrywa-nia i ekstrahowaodkrywa-nia informacji z dokumentów i usług webowych” [Kosala2000]. Zaznaczyć należy, że przytoczona definicja jest po-prawna w stosunku do trzeciego i częściowo pierwszego z omawianych w ramach tego podrozdziału zagadnień. Dzieje się tak dlatego, że zagadnienie drugie, a częściowo także i pierwsze, porusza raczej kwestie operowania na metadanych – rozumianych tutaj jako informacje o witrynie, niekoniecznie lub czasem na pewno nie znajdujące się bezpośrednio w ramach treści dokumentów na niej zamieszczonych. Oznacza to, że takie metadane pochodzić będą z innego źródła niż sama analizowana witryna79. W pracy wykorzystamy rozwiązania nawiązujące do eksploracji danych webowych.

Eksploracja struktury witryn

Eksploracja struktury witryn polega na analizie i wyciąganiu użytecznych wnio-sków dotyczących struktury powiązań pomiędzy dokumentami zamieszczonymi

we-wnątrz danej witryny oraz dokumentami zewnętrznymi80. Dokumenty w sieci WWW

są węzłami w grafach, a wiedza o ich cechach oraz topologii stanowi często cenny zasób biznesowy oraz interesujący przedmiot badawczy. W szczególności wiedza

77 Eksploracji danych webowych.

78 ang. odpowiedniki kolejno to: Web structure mining, Web content mining, Web usage mining.

np., logi z serwera w przypadku analizy danych o użyciu witryn.

ta może sprowadzać się do wskazówek odnośnie ważności dokumentów lub całej wi-tryny w sieci – dobrymi przykładami zastosowania są tutaj algorytmy wspierające

sys-temy wyszukiwawcze, takie jak PageRank[Page1998] wraz z jego rozwinięciami czy

wcześniejszy HITS81

Istotnym zastosowaniem analizy struktury jest również mierzenie stopnia

skom-plikowania witryn⁸² oraz - rzadziej spotykana – kategoryzacja witryn w oparciu

o strukturę. Inne zastosowania obejmują także zagadnienie detekcji zgrupowań oraz społeczności tematycznych, czemu poświęcone było również szereg badań.

Eksploracja danych z treści witryn

Stanowi kategorię badań w zakresie Web mining najsilniej skojarzoną z zaprezen-towaną w kolejnych rozdziałach metodą ekstrakcji modeli wyceny składki. Na typowe zadania zawierające się w tym nurcie składa się sekwencja działań polegająca na iden-tyfikacji zasobu (dokumentu), selekcji i przetworzenia informacji, wykryciu występu-jących wzorców poprzez analizę treści oraz sprawdzeniu poprawności i interpretacji zagregowanej wiedzy.

Eksploracja danych z treści witryn ma szereg praktycznych zastosowań, chociaż względnie rzadko metody takiego odkrywania wiedzy występują samodzielnie. Znacznie częściej są one wykorzystywane na potrzeby realizacji celów wytyczanych w ramach innych pokrewnych dziedzin, takich jak: ekstrakcja informacji czy wyszu-kiwanie informacji. Taki stan rzeczy, jak również trudności w ostrym wyznaczeniu

zakresu metod drążenia danych83

, powoduje problemy w jednoznacznej klasyfikacji prac prowadzonych w ramach opisywanego nurtu. W jednym z opracowań podjęto próbę podsumowania prowadzonych prac przez wprowadzenie podziału poszczegól-nych podejść na perspektywy: wyszukiwania daposzczegól-nych nieustrukturyzowaposzczegól-nych, ustruk-turyzowanych oraz bazodanowej. Zdecydowanie prostszym sposobem podsumowania prac wydaje się jednak kryterium realizowanych zadań.

Hyperlink-Induced Topic Search [Kleinberg1999]

82 Zagadnienie istotne praktycznie ze względu na konsekwencje marketingowe w przypadku witryn o charakterze komercyjnym.

83 Przykładowo autorzy [Kosala2000] rozróżniają metody data mining-u oraz uczenia maszynowego choć wydaje się, że niektóre metody uczenia maszynowego należą do standardowego arsenału podejść w drążeniu danych – np. sztuczne sieci neuronowe.

W ramach prac prowadzonych w nurcie eksploracji danych z witryn

wyszczegól-nić można następujące zadania[Zhang2008]:

 grupowanie, kategoryzacja lub klasyfikacja treści,

 identyfikacja i wzbogacanie treści84,

 generowanie skrótów i podsumowań,

 odkrywanie pojęć, relacji, budowa słowników oraz ontologii,

 zastosowania społeczne – odkrywanie opinii, emocji etc.

Wspomniany wcześniej podział na treści ustrukturyzowane oraz nie posiadające struktury jest o tyle istotny, że powyżej wynotowane zadania realizuje się z użyciem nieco odmiennych metod dla obydwu typów informacji. Nowo powstającym, ale po-siadającym spory potencjał, jest nurt związany z jeszcze innym rodzajem danych,

a mianowicie z danymi multimedialnymi⁸⁵.

Zadanie i metoda jego realizacji stanowiąca przedmiot niniejszej pracy wpisuje się w nurt badań prowadzonych w ramach eksploracji danych z treści witryn. Zwłaszcza

dobrze dopasowana jest do definicji omawianego podejścia ekstrakcji wiedzy86

. Mimo to sformułowanie problemu badawczego w takiej wersji nie nastąpiło wcześniej w ra-mach omawianego nurtu, a co za tym idzie, nie ma doniesień o próbach realizacji po-dobnego zadania.

Eksploracja informacji o użyciu witryn

Najbardziej odmiennym spośród trzech omawianych podejść eksploracji danych webowych jest eksploracja informacji o użyciu witryn. Idea tego podejścia sprowadza się do wykorzystania różnego rodzaju informacji, w szczególności nie zawartej bezpo-średnio w treści witryny, do odkrycia zależności i wzorców związanych z użytkowymi aspektami korzystania z witryny. Wzorce używania i nawigowania po lub pomiędzy witrynami mają istotne znaczenie w wielu zastosowaniach. Warte zauważenia jest, iż wzorce takie wykorzystywane są również w zadaniach ekstrakcji informacji z inter-netu oraz w zadaniu, którego metoda realizacji stanowi przedmiot prezentowanej pra-cy.

84 Poprzez automatyczne adnotowanie dokumentów.

85 Obrazy, strumienie dźwiękowe oraz filmy.

„Drążenie danych z witryn opisuje odkrywanie użytecznej informacji z treści webowej/danych/dokumentów. Niemniej, to co składa się na treści webowe stanowi bardzo szeroką gamę danych„ [Kosala2000].

W dokumencie Metoda ekstrakcji modeli wyceny składki ubezpieczeniowej ze źródeł internetowych (Stron 35-38)