• Nie Znaleziono Wyników

Szczegółowy opis właściwej eksploracji danych tekstowych

4. Procedura integracji metod klasyfikacji danych tekstowych i numerycznych w procesie

4.3. Szczegółowy opis właściwej eksploracji danych tekstowych

W celu transformacji danych ze zbioru Z'T do postaci danych numerycznych (stanowiących zbiór Z''T), które mogą zostać uwzględnione w systemie informacyjnym SI wykorzystywanym w dalszych etapach procedury, zgodnie z etapem 3 procedury z rysunku 11, realizowana jest właściwa eksploracja danych tekstowych ze zbioru Z'T. Dane ze zbioru Z''T

stanowią zatem wynik eksploracji danych tekstowych ze zbioru Z'T. Schematycznie kolejne podetapy etapu 3 procedury z rysunku 11 zaprezentowano na rysunku 13.

Rysunek 13. Części składowe etapu 3 procedury z rysunku 11 Źródło: opracowanie własne

3.1. Budowa macierzy reprezentującej dokumenty tekstowe i występujące w nich rzeczowe informacje

3.2. Obliczenie wag dla poszczególnych rzeczowych informacji przy użyciu funkcji istotności

3.3. Zastosowanie niejawnej analizy semantycznej LSI

3.4. Obliczanie podobieństwa za pomocą miary kosinusowej

3.5. Klasyfikacja za pomocą klasyfikatora kNN

75 W celu przeprowadzenia właściwej eksploracji danych tekstowych w pierwszej kolejności (etap 3.1 z rysunku 13) opracowywana jest macierz reprezentująca wyekstrahowane i zweryfikowane za pomocą analizy fleksyjnej w poprzednim etapie 2 procedury z rysunku 11 rzeczowe informacyjne oraz dokumenty tekstowe. Wielkość macierzy określa liczba dokumentów tekstowych oraz liczba wyekstrahowanych z dokumentów tekstowych rzeczowych informacji, które uwzględniają w swojej budowie różne formy fleksyjnej wyrazów.

Przykładowa, fragmentaryczna macierz rzeczowych informacji i dokumentów tekstowych, w której elementy macierzy wyrażone są za pomocą wagi binarnej przedstawiono w tabeli 11.

Tabela 11. Fragmentaryczna macierz rzeczowych informacji i tekstów.

Lp. Rzeczowe informacje Tekst 1 Tekst2 Tekst 3 Tekst 4 …

1 inwestor związany z zarządem 1 0 0 1 …

2 inwestora związanego z zarządem 0 0 0 0 …

3 inwestor związany z osobą 0 1 1 0

4 inwestora związanego z osobą 1 1 0 0

… … … …

Źródło: opracowanie własne

Kolejno dobierane są odpowiednie metody i techniki eksploracji, które umożliwią uzyskanie wyniku o jak najwyższej jakości. Na wynik uzyskany za pomocą określonych metody eksploracji danych tekstowych mają wpływ poszczególne techniki wykorzystywane w ramach tych metod. Jest to szczególnie istotne w przypadku eksploracji danych tekstowych z wykorzystaniem modelu przestrzeni wektorowej VSM, w której istnieje możliwość wykorzystania wielu różnych technik wspomagających eksplorację. Wybór poszczególnych technik może być zrealizowany za pomocą metody eksperymentalnej (na podstawie wyniku eksploracji) lub poprzez wskazanie eksperta wynikające z określonych zależności, wymagań lub ograniczeń np. ograniczeń wydajnościowych jednostki obliczeniowej. Przykładowe techniki, które mogą być użyte w procesie eksploracji danych tekstowych zostały szczegółowo opisane w rozdziale 2.2.

Jedną z podstawowych technik wykorzystywanych w eksploracji danych tekstowych w modelu przestrzeni wektorowej VSM, którą wykorzystano w etapie 3.2 z rysunku 13, jest funkcji istotności, która elementom (termom) opracowanej reprezentacji nadaje odpowiednie wagi. Mogą to być wagi lokalne, globalne lub mieszane, co opisano w rozdziale 2.2 niniejszej pracy. Zadaniem wag jest podkreślenie znaczenia poszczególnych elementów reprezentacji (podkreślenie znaczenia właściwych rzeczowych informacji wyekstrahowanym

76 z dokumentów tekstowych), które są istotne w kontekście postawionego problemu decyzyjnego.

Kolejną techniką zastosowaną w etapie 3.3 z rysunku 13 jest niejawna analiza semantyczna (ang. Latent Semantic Indexing - LSI). W standardowym rozwiązaniu niejawną indeksację semantyczną stosuje się do wykrycia ukrytych struktur semantycznych istniejących w tekście pomiędzy pojedynczymi wyrazami (elementami reprezentacji).

W pracy analogicznie wykorzystano niejawną analizę semantyczną do wykrycia ukrytych struktur semantycznych pomiędzy elementami reprezentacji dokumentu tekstowego. W tym przypadku elementami reprezentacji są jednak rzeczowe informacje wydobyte za pomocą zdefiniowanych przez eksperta wzorców. Przy użyciu metody LSI dokonuje się redukcji wymiaru reprezentacji do określonej liczby wykrytych struktur semantycznych pomiędzy rzeczowymi informacyjnymi. W celu uzyskania określonej liczby wykrytych struktur semantycznych pomiędzy rzeczowymi informacjami, macierz wartości osobliwych oraz macierz rzeczowych informacji zostaje zredukowana do oz kolumn, zgodnie ze wzorem (14). Do dobrania wartości oz w badaniach testowych przyjęto regułę wyznaczoną przez autora pracy, która została zweryfikowana eksperymentalnie. Jest to taka liczba wartości osobliwych idąc od największej, że ich suma przekracza połowę sumy wszystkich wartości osobliwych.

Ostatecznie, ilość obliczona w powyższy sposób jest zwiększana o jedną, kolejną wartość osobliwą. Dzięki zastosowaniu metody LSI teksty, których reprezentacje zawierają rzeczowe informacje o podobnym znaczeniu, ale wyekstrahowane za pomocą odmiennych konstrukcji zdefiniowanych we wzorcach lub zbudowane z odmiennych form fleksyjnych wyrazów, uzyskają wysoką miarę podobieństwa.

W etapie 3.4 z rysunku 13 obliczane jest podobieństwo klasyfikowanych dokumentów tekstowych w stosunku do treningowych (wzorcowych) dokumentów tekstowych reprezentujących poszczególne kategorii za pomocą miary kosinusowej, zgodnej ze wzorem (15).

W końcowym etapie 3.5 z rysunku 13 dokonywana jest klasyfikacja danych tekstowych za pomocą klasyfikatora kNN (ang. k-Nearest Neighbor), który został opisany w rozdziale 2.2. Ze względu na integrację metod eksploracji danych tekstowych i numerycznych wynik eksploracji danych tekstowych nie jest jednak przedstawiany w standardowej formie jako ostateczna decyzja przypisania klasyfikowanego dokumentu tekstowego do wybranej kategorii w formie binarnej (0 lub 1), ale jako znormalizowana wartość średniego podobieństwa pomiędzy klasyfikowanym dokumentem, a treningowymi dokumentami tekstowymi reprezentującymi daną kategorię. Dzięki przedstawieniu wyniku

77 eksploracji tekstowej w formie ciągłych danych numerycznych z przedziału <0,1> możliwe jest lepsze dostosowanie reprezentacji danych numerycznych za pomocą dyskretyzacji do rozważanego problemu decyzyjnego. Standardowo metoda kNN klasyfikuje tekst do kategorii, dla której osiągnięta została wyższa wartość podobieństwa. Również w przypadku gdy różnica pomiędzy wartościami podobieństwa do poszczególnych kategorii jest minimalna. Może to powodować błędną klasyfikację i wpływać niekorzystnie na wynik procesu PD. W przypadku dyskretyzacji danych numerycznych w etapie 4 z rysunku 11, będących wynikiem eksploracji danych tekstowych możliwe, jest dobranie odpowiednich przedziałów, które pozwolą na sklasyfikowaniu dokumentu tekstowego do danej kategorii z większą pewnością np. w przypadku osiągnięcia znormalizowanej średniej wartości podobieństwa do dokumentów tekstowych reprezentujących daną kategorię powyżej wartości 0,6.

Ostatecznie, po przeprowadzeniu klasyfikacji danych tekstowych, otrzymywany jest zbiór danych Z''T stanowiący wynik eksploracji danych tekstowych ze zbioru Z'T, który podlega dyskretyzacji w kolejnym etapie procedury z rysunku 11.

4.4. Opracowanie reprezentacji danych numerycznych poprzez