Koncepcja informacji topologicznej w reprezentowaniu tekstów

(1)

Koncepcja informacji topologicznej

w reprezentowaniu tekstów

(2)

Plan wystąpienia

•  Teksty a dokumenty

•  Cel i środki postępowania

•  Podejścia typu bag-of-words

•  Tekst w różnych wymiarach

•  Tekst jako sekwencja

•  Informacja topologiczna w reprezentacji tekstu

•  Macierz opisowa i topologiczne deskryptory strukturalne

•  Skalaryzacja topologicznych deskryptorów strukturalnych

•  Reprezentacja topologiczna wielu tekstów

(3)

Teksty a dokumenty

•  Tekst a dokument:

tekst jest elementem składowym dokumentów

Dokument

tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst tekst

tekst tekst tekst

(4)

Teksty a dokumenty

•  Nietekstowe elementy składowe dokumentów:

–  ilustracje –  ryciny –  wykresy –  tabele –  podpisy –  dopiski –  iluminacje –  ozdobniki –  znaki wodne –  …

•  Nietekstowe elementy dokumentu mogą same w sobie

zawierać teksty (lub ich fragmenty), teksty te jednak są

(w większości przypadków) wyłączane z dalszej analizy

(5)

Teksty a dokumenty

•  Teksty mogą zawierać trudno interpretowalne elementy

–  cyfry i liczby

–  oznaczenia (muzyczne/matematyczne/fizyczne/techniczne/ chemiczne/…), które mogą zawierać znaki spoza przyjętego alfabetu

–  wzory (matematyczne/fizyczne/techniczne/chemiczne/…), które mogą zawierać znaki spoza przyjętego alfabetu

–  nazwy własne, potencjalnie w innych językach –  cytaty, potencjalnie w innych językach

–  …

•  Trudno interpretowalne elementy mogą zawierać znaki

lub symbole spoza przyjętego alfabetu, i dlatego zostają

(w większości przypadków) wyłączane z dalszej analizy

(6)

Teksty a dokumenty

•  Robocza definicja tekstu

–  założenia:

•  język alfabetyczny

•  rozszerzony alfabet tego języka

–  alfabet (litery)

–  rozszerzenia alfabetu (cyfry, znaki przestankowe i pomocnicze) –  formułka:

•  sekwencja znaków rozszerzonego alfabetu utworzona zgodnie z regułami poprawnościowymi (ortograficznymi/gramatycznymi/…) funkcjonującymi w języku

(7)

Cel i środki postępowania

•  Cel: reprezentowanie tekstów

(czyli znalezienie dla niego dobrych deskryptorów)

•  Środki: deskryptory (numeryczne)

(8)

Cel i środki postępowania

•  Podział i charakterystyka deskryptorów

–  skalarne (skalary)

•  łatwiejsze w przetwarzaniu, a więc bardziej pożądane •  niosące mniej informacji (od strukturalnych)

–  strukturalne (zbiory/listy/wektory/macierze/… skalarów)

•  trudniejsze w przetwarzaniu, a więc mniej pożądane •  niosące więcej informacji (od skalarnych)

(9)

Cel i środki postępowania

•  Deskryptory strukturalne i ich skalaryzacja

–  deskryptory strukturalne często dają się dobrze opisywać różnymi wartościami skalarnymi

–  opis ten może dotyczyć

•  pojedynczych deskryptorów strukturalnych •  par deskryptorów strukturalnych

•  zbiorów deskryptorów strukturalnych

–  operacja staje się łatwiejsza zazwyczaj po nadaniu deskryptorom strukturalnym pewnej interpretacji

(10)

Cel i środki postępowania

•  Przykładowe (mocno wyidealizowane!)

strukturalne deskryptory skalaryzowalne

–  przykład 1 – obiekt: plik JPG przedstawiający grupę osób

•  deskryptor strukturalny: obszar obejmujący sylwetkę pewnej osoby •  potencjalny deskryptor skalarny: szacunkowy wiek osoby

–  przykład 2 – obiekt: plik MP3 zawierający utwór muzyczny

•  deskryptor strukturalny: fragment obejmujący refren utworu

•  potencjalny deskryptor skalarny: szacunkowy liczba wykonawców

(11)

Cel i środki postępowania

•  Cel i środki: (ponownie)

Reprezentowanie tekstów w postaci deskryptorów,

najlepiej skalaryzowalnych deskryptorów strukturalnych,

posiadających naturalne interpretacjach i pozwalających

na trafne charakteryzowanie poszczególnych tekstów

oraz skuteczne odróżnianie jednych tekstów od drugich

(12)

Podejścia typu bag-of-words

•  Do najbardziej popularnych podejść do analizy

dokumentów (w praktyce: do analizy tekstów) należą

podejścia typu „bag-of-words” (ang. dosł. „torba słów”,

inaczej /lepiej?/ „worek słów”), traktujące teksty jako

„bags”, czyli torby (worki) słów

•  Jednak angielskie słowo „bag” posiada, oprócz ogólnego

znaczenia „torba”, także specjalistyczne znaczenie

„multizbiór” (inaczej: „wielozbiór”), i właśnie to słowo

powinno być używane do charakteryzowania tego

podejścia

(13)

Podejścia typu bag-of-words

•  Zbiór a multizbiór

–  zbiór

•  struktura matematyczna zdefiniowana aksjomatycznie

•  cechą charakterystyczną zbioru jest fakt „jednokrotnego” należenia do niego elementów (elementy są z definicji różne od siebie)

–  albo dany element należy (1), albo nie należy (0) –  multizbiór (lub wielozbiór)

•  struktura matematyczna zdefiniowana aksjomatycznie

•  cechą charakterystyczną zbioru jest fakt „wielokrotnego” należenia do niego elementów (elementy są z definicji różne od siebie)

–  albo dany element należy jednokrotnie (1), albo wielokrotnie (N>1), albo nie należy (0)

•  Dowolny multizbiór pewnych elementów może być

reprezentowany jako

(14)

Podejścia typu bag-of-words

•  Podsumowując, podejścia typu bag-of-words traktują

dany tekst jako multizbiór pewnych z góry ustalonych

słów (tzw. słów kluczowych)

–  czyli:

tekst ≈ zbiór słów kluczowych + zbiór liczności słów kluczowych

•  Szkic reprezentacji tekstu w postaci multizbioru:

{ słowo słowo słowo … }

{ liczność liczność liczność … }

(15)

Podejścia typu bag-of-words

•  Multizbiór a wektor liczności

–  w praktyce w metodach typu bag-of-words multizbiór

reprezentujący tekst jest traktowany jako wektor liczności

słów kluczowych (który także jest deskryptorem strukturalnym)

•  Cel: nadanie interpretacji

•  (dobry przykład skalaryzowalnych deskryptorów strukturalnych)

–  po przyjęciu tego samego zbioru słów kluczowych dla wszystkich analizowanych tekstów, teksty te są reprezentowane jednolicie jako wektory (w pewnej przestrzeni wielowymiarowej)

–  kąt pomiędzy wektorami (podawany zwykle w postaci cosinusa) wyraża podobieństwo reprezentowanych tekstów

•  kąt bliski 0°: teksty „zgodne”

(16)

Podejścia typu bag-of-words

•  Posługiwanie się dosłownymi postaciami słów w

analizach tekstów przynosi bardzo słabe rezultaty

z powodu zjawiska fleksji (odmiany słów)

–  np.: „jest”, „są”, „bądźmy”, … zamiast „być”

•  Aby uniknąć wynikających stąd niejednoznaczności

stosuje się (za wyjątkiem odosobnionych przypadków)

lematyzację, czyli operację przywracającą odmienionym

słowom ich nieodmienione (podstawowe, słownikowe)

formy

–  (właściwa) lematyzacja (ang. lemmatization)

•  potencjalnie bardziej skuteczna, ale trudniejsza w implementacji

–  quasi-lematyzacja (ang. stemming)

(17)

Podejścia typu bag-of-words

•  Zestawy ustalonych słów multizbioru dobiera

się uwzględniając wiele czynników, które mają

reprezentować potencjalną przydatność słów

w bieżącym zastosowaniu

•  Decydują tu m.in.

–  znaczenia słów (np. wybrane nazwy własne, rzeczowniki, …)

–  liczności występowania słów (niezbyt rzadkie, niezbyt częste, …) –  …

(18)

Podejścia typu bag-of-words

•  Podsumowując, reprezentowanie tekstu w postaci

multizbioru możemy stwierdzić, że:

–  jest to informacja intra-tekstowa

•  pochodzi w całości z tekstu

–  jest to informacja niekompletna

•  ilość informacji pozyskiwanej w ten sposób z danego tekstu jest niewielka (w porównaniu z ilością informacji zawartej w tekście)

(19)

Podejścia typu bag-of-words

•  Pomimo małej ilości informacji pozyskiwanej

z analizowanych tekstów, skuteczność podejść

typu bag-of-words w zadaniach dyskryminacyjnych

jest zaskakująco wysoka

•  Potencjalne wyjaśnienia teoretyczne:

–  przekształcanie danych (na różnych etapach):

•  wstępne przetwarzanie słów (np. lematyzacja) •  odszumianie danych (np. SVD)

–  dalsze pozyskiwanie danych:

•  informacje inter-tekstowe (np. TF-IDF)

•  Wyjaśnienie praktyczne:

–  gdy zbiór słów kluczowych jest odpowiednio duży, to znajdą się słowa występujące częściej w jednym tekście niż w drugim –  najbardziej oczywista metoda na polepszanie wyników

(20)

Podejścia typu bag-of-words

•  Kiedy spada skuteczność podejść typu bag-of-words?

–  gdy teksty dotyczą tej samej tematyki (nawet jeśli wyrażają odmienne opinie czy poglądy na dany temat)

•  i w rezultacie zawierają podobną liczbę wystąpień tych samych słów kluczowych

–  gdy teksty są wariacjami (różnymi wersjami) tekstu podstawowego

•  i w rezultacie zawierają podobną liczbę wystąpień tych samych słów kluczowych

(21)

Podejścia typu bag-of-words

•  Problematyki

–  identyfikowanie tematyki w tekstach sformułowanych przy użyciu zasadniczo różnych słów

–  odróżnianie od siebie tekstów sformułowanych przy użyciu zasadniczo tych samych słów

•  Analogia do

–  rozpoznawania mowy –  rozpoznawania mówcy

(22)

Podejścia typu bag-of-words

•  Pożądane właściwości postulowanego podejścia

–  skuteczne charakteryzowanie tekstów na podstawie możliwie małego zbioru słów kluczowych

–  skuteczne dyskryminowanie tekstów na podstawie możliwie małego zbioru słów kluczowych

•  także wtedy, gdy słowa z tego zbioru charakteryzują się zbliżonymi (względnymi/bezwględnymi) licznościami wystąpień w tych tekstach

•  Aby to osiągnąć konieczne wydaje się

(23)

Podejścia typu bag-of-words

•  Dotychczasowe formy pozyskiwania większej ilości

informacji z tekstu w rozszerzeniach metod typu

bag-of-words skupiały się raczej na zastąpieniu

słów kluczowych

–  N-gramami

•  znakowymi •  wyrazowymi

–  frazami

•  Tak rozszerzone podejścia były wykorzystywane w

–  identyfikacji podobieństwa tekstów o tej samej tematyce, ale wykorzystujących różne słowa kluczowe do wyrażenia tej samej treści (np. synonimy)

–  odróżnianiu tekstów o odmiennej tematyce, ale zawierających identyczne słowa kluczowe (np. homonimy)

(24)

Podejścia typu bag-of-words

•  Pewne spostrzeżenie

–  podstawowe podejścia typu bag-of-words są „ślepe” na pewne przekształcenia tekstów (tzn. pozyskują identyczne informacje z tekstu przed przekształceniem i po przekształceniu)

–  przykład takiego przekształcenia: odwrócenie kolejności słów

•  wynik zrozumiały (formalnie), choć błędny (trywialny tekst)

–  „Tom knows John.” –  „John knows Tom.”

•  wynik niezrozumiały (nietrywialny tekst)

–  „.waters the of face the upon moved God of Spirit the And .deep the of face the upon was darkness and ;void and ,form without was earth the And .earth the and heaven the created God beginning the In”

–  „In the beginning God created the heaven and the earth. And the earth was without form, and void; and darkness was upon the face of the deep. And the Spirit of God moved upon the face of the waters.”

(25)

Więcej niż bag-of-words

•  Pewien wniosek

–  informacje o licznościach słów w tekście należy wzbogacić informacjami o położeniach słów w tekście (czyli informacjami topologicznymi!)

•  Szkic postulowanej reprezentacji tekstu:

{ słowo słowo słowo … }

{ liczność liczność liczność … }

(26)

Więcej niż bag-of-words

•  Aby pozyskać informację o położeniach słów,

trzeba mieć możliwość jednoznacznego

identyfikowania położeń tych słów w tekście

•  A więc trzeba odpowiedzieć na pytanie:

co rozumiemy przez pozycję słowa w tekście?

–  nr strony

–  nr słowa na stronie

–  współrzędne (x,y) początku/środka/końca słowa na stronie –  ...

•  Do tego potrzebna jest reprezentacja tekstu, w której

położenie każdego słowa jest jednoznacznie określone

(27)

Tekst w różnych wymiarach

•  Wymiarowość tekstu: czy tekst jest strukturą

jedno- czy dwu- (a może więcej-) wymiarową?

–  jeden wymiar:

•  tekst stanowi jednowymiarową sekwencję znaków

–  dwa wymiary:

•  tekst stanowią dwuwymiarowe znaki na dwuwymiarowych stronach

–  więcej wymiarów:

(28)

Tekst w różnych wymiarach

•  Tekst w swej najbardziej naturalnej postaci

–  jako obraz?

•  reprezentacja w postaci (prostokątnych) stron

•  analogia do rysunku, zdjęcia, itp. (istotna dwuwymiarowość) •  forma naturalna, często spotykana

–  dokumenty historyczne

–  książki, gazety, wydruki (teksty w formie drukowanej)

–  wyświetlacze elektroniczne (teksty w formie elektronicznej) –  …

–  jako sekwencja?

•  reprezentacja w postaci „paska telegraficznego”

•  analogia do mowy, muzyki, itp. (istotna sekwencyjność/kolejność) •  forma nienaturalna, rzadko spotykana

–  sygnały Morse’a –  paski telegraficzne

–  paski informacyjne na kanałach TV –  …

(29)

Tekst jako sekwencja

•  Popularne sposoby zapisywania tekstu na stronie

–  poziome (wierszowe)

•  wiersze: od góry do dołu, znaki w wierszu: od lewej do prawej •  wiersze: od góry do dołu, znaki w wierszu: od prawej do lewej

–  pionowe (kolumnowe)

•  kolumny: od lewej do prawej, znaki w kolumnie: od góry do dołu •  kolumny: od prawej do lewej, znaki w kolumnie: od góry do dołu

(30)

Tekst jako sekwencja

•  Tekst (w języku alfabetycznym) po ustaleniu kolejności

–  stron –  sekcji –  znaków

staje się sekwencją, która może być

(31)

Tekst jako sekwencja

•  Tekst w postaci wektora znaków

–  znaki: elementy alfabetu rozszerzonego –  długość tekstu: liczba znaków (Z)

•  Uwagi:

–  znaki nie są zwyczajowo używanymi jednostkami długości tekstu

•  częściej: strony, linie •  rzadziej: zdania, słowa

(32)

Tekst jako sekwencja

•  Tekst w postaci wektora jednostek leksykalnych

–  jednostki leksykalne: słowa i elementy interpunkcyjne –  długość tekstu: liczba jednostek leksykalnych (J)

•  Uwagi:

–  rola interpunkcji jest podrzędna (porządkowanie słów)

–  elementów interpunkcyjnych nie uwzględnia się przy ustalaniu długości tekstu

(33)

Tekst jako sekwencja

•  Tekst w postaci wektora słów

–  słowa: ciągi znaków po usunięciu elementów interpunkcyjnych oraz rozróżnienia duże/małe litery (przez zapisanie wszystkiego małymi literami)

–  długość tekstu: liczba słów (T)

•  Uwagi:

–  jedyny problem stanowi w tym momencie zjawisko fleksji (czyli fakt, że słowa występują w postaci odmienionej)

(34)

Tekst jako sekwencja

•  Tekst w postaci wektora zlematyzowanych słów

–  zlematyzowane słowa: słowa poddane procesowi lematyzacji

•  lematyzacji należy w praktyce dokonywać na wcześniejszych etapach, ponieważ do jej przeprowadzenia potrzebny może być tekst w pełni (gramatycznie/ortograficznie/…) poprawny (a więc przed usunięciem z niego jakiejkolwiek informacji, w tym przed usunięciem interpunkcji)

–  długość tekstu: liczba słów (T)

•  Uwagi:

(35)

Tekst jako sekwencja

•  Podsumowując, po zapisaniu tekstu w postaci wektora

(zlematyzowanych) słów, każdemu wystąpieniu słowa

w tekście można przypisać jego jednoznaczne położenie

–  położenie określa numer (indeks, adres) słowa w wektorze reprezentującym tekst

–  położenie to może od tego momentu być wykorzystywane w deskryptorach tekstu

(36)

•  King James Bible, Genesis 1:1–5 (jako obraz)

(37)

Tekst jako sekwencja

•  Genesis 1:1–5 jako wektor jednostek leksykalnych

•  J = 103 (jednostki leksykalne)

(38)

Tekst jako sekwencja

•  Genesis 1:1–5 jako wektor słów

•  T = 89 (słów)

(39)

Tekst jako sekwencja

•  Genesis 1:1–5 jako wektor zlematyzowanych słów

•  T = 89 (zlematyzowanych słów)

(40)

Informacja topologiczna w reprezentacji

•  Jeżeli jakieś słowo występuje w tekście jednokrotnie,

to informacja o tym wystąpieniu może być przedstawiona

w postaci (pojedynczego) położenia

•  Jeżeli jakieś słowo występuje w tekście wielokrotnie,

to informacja o tych wystąpieniach może być

(41)

Informacja topologiczna w reprezentacji

•  Pomysł na reprezentację nr 1

–  wybrać słowa kluczowe

–  ustalić liczności wystąpień (słów kluczowych) –  ustalić listy położeń (słów kluczowych)

(42)

Informacja topologiczna w reprezentacji

•  Reprezentacja nr 1:

słowo słowo słowo …

liczność liczność liczność …

{ { {

położenie położenie położenie …

} położenie położenie …

położenie }

}

•  Deskryptorami topologicznymi są

(43)

Informacja topologiczna w reprezentacji

•  Charakterystyka reprezentacji nr 1

–  deskryptory topologiczne dostępne wyłącznie w postaci strukturalnej

–  uwaga:

•  przedstawiona reprezentacja pozwala na odróżnienie (w ogólności) tekstu oryginalnego od tekstu odwróconego

•  Problemy reprezentacji nr 1

–  listy położeń słów kluczowych mogą być różnej długości (co utrudnia ich porównywanie)

•  Potencjalne remedium

–  wprowadzenie charakterystyk skalarnych dla list położeń słów kluczowych (np. wartości średnich arytmetycznych), co umożliwi ich opisywanie i porównywanie

(44)

Informacja topologiczna w reprezentacji

•  Pomysł na reprezentację nr 2

–  charakteryzowanie list położeń słów kluczowych wielkościami skalarnymi

•  liczności wystąpień (czyli – obecne już wcześniej! – liczności) •  wartości średnie (arytmetyczne, geometryczne, …)

(45)

Informacja topologiczna w reprezentacji

•  Reprezentacja nr 2:

liczność liczność liczność …

śred_poł śred_poł śred_poł …

{ { {

położenie położenie położenie …

} położenie położenie …

położenie }

}

•  Deskryptorami topologicznymi są

–  listy położeń słów kluczowych (wielkości strukturalne) –  średnie położeń słów kluczowych (wielkości skalarne)

(46)

Informacja topologiczna w reprezentacji

•  Charakterystyka reprezentacji nr 2

–  deskryptory topologiczne dostępne zarówno w postaci strukturalnej jak i skalarnej

–  uwaga:

•  Problemy reprezentacji nr 2

–  listy położeń słów kluczowych nadal mogą być różnej długości (co utrudnia ich porównywanie)

–  słowa kluczowe o istotnie różnych rozkładach wystąpień mogą mieć nieistotnie różne (lub wręcz równe) położenia uśrednione

•  Potencjalne remedium

–  wprowadzenie charakterystyk strukturalnych dla list położeń słów kluczowych (np. rozkłady zmienności), co umożliwi ich opisywanie i porównywanie

(47)

Informacja topologiczna w reprezentacji

•  Pomysł na reprezentację nr 3

–  podzielenie tekstu na ustaloną z góry liczbę segmentów będących kolejnymi fragmentami tekstu

•  segmenty stanowią odpowiedniki koszyków w rozkładzie zmienności

–  potraktowanie każdego segmentu jak osobnego tekstu –  przedstawienie informacji o każdym segmencie w postaci

(48)

Informacja topologiczna w reprezentacji

•  Reprezentacja nr 3:

liczn_w_seg_1 liczn_w_seg_1 liczn_w_seg_1 …

… … … …

•  Deskryptorami topologicznymi są

–  wektory liczności poszczególnych słów w danym segmencie –  wektory liczności danego słowa w poszczególnych segmentach

(49)

Macierz opisowa

•  Reprezentacja nr 3 w postaci macierzowej:

(tzw. macierz opisowa tekstu)

słowo 1 słowo 2 … słowo N

segment 1 liczność liczność … liczność

segment 2 liczność liczność … liczność

… … … … …

(50)

Macierz opisowa

•  Charakterystyka reprezentacji nr 3

–  dla M segmentów i N słów kluczowych tekst reprezentuje macierz S = [s_ij] o rozmiarach MxN

–  element macierzy s_ij wyraża liczność wystąpienia słowa j-tego w segmencie i-tym

–  uwaga:

•  Problemy reprezentacji nr 3

(51)

Macierz opisowa

•  Genesis 1:1–5 w reprezentacji nr 1

(52)

Macierz opisowa

•  Genesis 1:1–5 w reprezentacji nr 2

(53)

Macierz opisowa

•  Genesis 1:1–5 w reprezentacji nr 3 (macierzowej)

•  K = {‘god’, ‘darkness’, ‘light’, ‘day’, ‘earth’, ‘face’}

•  M = 3 (segmenty)

(54)

Macierz opisowa

•  Podział tekstu na M segmentów

–  teoretyczne założenie: 2 ≤ M ≤ T –  praktyczne założenie: 2 ≤ M << T

(tekst musi być odpowiednio długi)

•  Możliwe metody podziału

–  segmenty równej długości

–  segmenty nierównej (ale zbliżonej) długości (np. wynikające z naturalnego podziału tekstu)

(55)

Macierz opisowa

•  Macierz opisowa jest uogólnieniem multizbioru

–  w praktyce macierz opisowa zawiera M multizbiorów charakteryzujących poszczególne segmenty tekstu

–  dla M = 1 otrzymujemy jeden multizbiór charakteryzujący cały tekst (identycznie jak w metodach typu bag-of-words)

(56)

Topologiczne deskryptory strukturalne

•  Deskryptory z macierzy opisowej

–  skalarne

•  wszystkie elementy macierzy (w dowolnie ustalonej kolejności), stanowiące M·N deskryptorów skalarnych

–  strukturalne

•  wiersze macierzy, stanowiące M deskryptorów strukturalnych jednowymiarowych (każdy jest wektorem o rozmiarze N)

•  kolumny macierzy, stanowiące N deskryptorów strukturalnych jednowymiarowych (każdy jest wektorem o rozmiarze M)

•  cała macierz, stanowiąca jeden deskryptor strukturalny, dwuwymiarowy (o rozmiarach MxN)

(57)

Topologiczne deskryptory strukturalne

•  Najlepsze deskryptory: kolumny macierzy opisowej

–  mają jasne interpretacje, ponieważ odpowiadają słowom kluczowym

–  stanowią strukturalne deskryptory skalaryzowalne, ponieważ są strukturalne, ale można z nich łatwo generować deskryptory skalarne

(58)

Skalaryzacja deskryptorów strukturalnych

•  Suma elementów kolumny j-tej

–  stanowi liczność wystąpień –  zakres zmienności: 〈0, T〉

•  min: odpowiadające słowo nie występuje wcale w tekście •  max: odpowiadające słowo „wypełnia” cały tekst

–  liczba tego rodzaju deskryptorów: N

∑

=

M i ij j

s

S

1

(59)

M

s

A

M i ij j

∑

=

1

Skalaryzacja deskryptorów strukturalnych

•  Średnia elementów kolumny j-tej

–  typowa miara położenia

–  zakres zmienności: 〈0, T/M〉

•  min: odpowiadające słowo nie występuje wcale w tekście •  max: odpowiadające słowo „wypełnia” cały tekst

(60)

Skalaryzacja deskryptorów strukturalnych

•  Oczekiwany segment elementów kolumny j-tej

–  miara położenia

–  zakres zmienności: 〈1, M〉

•  min: odpowiadające słowo występuje tylko w pierwszym segmencie •  max: odpowiadające słowo występuje tylko w ostatnim segmencie

j M i ij j

S

s

i

E

∑

=

⋅

=

1

)

(

(61)

Skalaryzacja deskryptorów strukturalnych

•  Problemy sumy/średniej i oczekiwanego segmentu

–  suma/średnia jest niewrażliwa na kolejność elementów kolumny –  żadna z miar nie wyraża poziomu (ani formy) zmienności

(62)

Skalaryzacja deskryptorów strukturalnych

•  Wariancja elementów kolumny j-tej

–  miara rozproszenia

–  zakres zmienności: 〈0, (M–1)(A_j)2_〉

•  min: odpowiadające słowo występuje równomiernie w segmentach •  max: odpowiadające słowo występuje tylko w jednym segmencie

∑

=

−

=

M i j ij j

s

A

M

V

1 2

)

(

1

(63)

Skalaryzacja deskryptorów strukturalnych

•  Kowariancja dwóch kolumn: j-tej i k-tej

–  miara zależności liniowej

–  zakres zmienności: 〈–(M–1)A_jA_k, +(M–1)A_jA_k_〉

•  min: odpowiadające słowa występują w różnych segmentach

•  max: odpowiadające słowa występują w tych samych segmentach

–  liczba tego rodzaju deskryptorów: N2

∑

=

−

=

M i k ik j ij jk

s

A

s

A

M

C

1

)

)(

(

1

(64)

Skalaryzacja deskryptorów strukturalnych

•  Korelacja dwóch kolumn: j-tej i k-tej

–  miara zależności liniowej –  zakres zmienności: 〈–1, +1〉

•  min: odpowiadające słowa występują w różnych segmentach

•  max: odpowiadające słowa występują w tych samych segmentach

–  liczba tego rodzaju deskryptorów: N2

∑

= = =

−

=

_M i k ij M i j ij M i k ik j ij jk

A

s

A

s

A

s

A

s

R

1 2 1 2 1

)

(

)

(

)

)(

(

(65)

Skalaryzacja deskryptorów strukturalnych

•  Problemy wariancji wektora

–  charakteryzuje się pewną trudnością interpretacyjną

•  gdy dla parzystego M

–  połowa elementów wektora jest równa S/(M/2) = 2S/M, –  połowa elementów wektora jest równa 0,

to wariancja wynosi: (A_j)2

•  a wiec jest mniejsza od maksymalnej (M–1) razy

–  wartość maksymalna wynosi (M–1)(A_j)2_{i występuje wtedy,}

gdy dochodzi do całkowitej koncentracji wartości wektora w jego jednym elemencie (wszystkie wartości wektora są równe 0 oprócz jednej, która wynosi S_j)

–  jest niewrażliwa na kolejność elementów

0 10 20 30 40 50 60 70 1 2 3 4 5 6 0 10 20 30 40 50 60 70 1 2 3 4 5 6

(66)

Skalaryzacja deskryptorów strukturalnych

•  Autokowariancja kolumny j-tej

–  miara postaci zmienności

–  zakres zmienności: 〈–P_j, +P_j_〉(gdzie P zależy od S_j i M)

•  min: odpowiadające słowa występują w segmentach na przemian •  max: odpowiadające słowa występują w segmentach sąsiednich

∑

− = +

−

=

1 1 1

)

)(

(

1

M i j j i j ij j

s

A

s

A

M

AC

(67)

Skalaryzacja deskryptorów strukturalnych

•  Autokorelacja kolumny j-tej

–  miara postaci zmienności –  zakres zmienności: 〈–1, +1〉

•  min: odpowiadające słowa występują w segmentach na przemian •  max: odpowiadające słowa występują w segmentach sąsiednich

∑

− = − = +

−

=

₁ 1 2 1 1 1

)

(

)

)(

(

M i j ij M i j j i j ij j

A

s

A

s

A

s

AR

(68)

Skalaryzacja deskryptorów strukturalnych

•  Dalsze możliwe parametry pojedynczych kolumn

–  (skalarne) inne miary położenia (np. moda), rozproszenia (np. zakres), zmienności (np. autokowariancje/autokorelacje dla różnych wartości przesunięcia)

–  (strukturalne) współczynniki Fouriera, rozkłady wartości –  …

•  Dalsze możliwe parametry par kolumn

–  (skalarne) miary zależności nieliniowych (np. typu χ2₎

–  …

•  Dalsze możliwe parametry zbiorów kolumn

–  (strukturalne) normalizacje inter-segmentowe (np. typu TF-IDF) –  …

(69)

Reprezentacja topologiczna wielu tekstów

•  Dzięki:

–  przyjęciu wspólnej liczby segmentów –  przeskalowaniu wszystkich liczności

(podzielenie przez długość tekstu)

możliwe jest generowanie kompatybilnych macierzy

opisowych dla tekstów o różnych długościach

(70)

Reprezentacja topologiczna wielu tekstów

(71)

Reprezentacja topologiczna wielu tekstów

•  Przeskalowanie wpływa na niektóre parametry kolumn

•  (korelacje i autokorelacje nie ulegają zmianie)

–  pewne stają się parametrami względnymi

•  sumy (czyli liczności) i średnie

•  wariancje, kowariancje i autokowariancje

–  inne powinny zostać parametrami bezwzględnymi

(72)

Reprezentacja topologiczna wielu tekstów

•  Ewangelie (w języku angielskim, z „King James Bible”)

–  Św. Mateusza (ang. St. Matthew)

•  85 stron, 28 rozdziałów, 25936 słów

–  Św. Marka (ang. St. Mark)

•  54 strony, 16 rozdziałów, 16593 słowa

–  Św. Łukasza (ang. St. Luke)

•  92 strony, 24 rozdziały, 28314 słów

•  Ewangelie powyższe są zwyczajowo nazywane

synoptycznymi

–  słowo „synoptyczne” (gr.) oznacza „mające wspólny punkt widzenia”

–  w praktyce: ewangelie te są podobne do siebie w budowie i wielu swoich fragmentach

(73)

Reprezentacja topologiczna wielu tekstów

•  Wybrane do analizy słowa kluczowe

K = {‘temple’, ‘devil’, ‘judea’, ‘word’}

•  (zlematyzowane, zapisane małymi literami)

•  Słowa te wybrano, ponieważ

–  dotyczą tematyki „ewangelicznej”

–  względne liczności ich występowania w rozważanych tekstach są mocno zbliżone do siebie

•  Pomimo tego (niekorzystnego dla dyskryminacji) faktu

słowa te zostaną wykorzystane do zademonstrowania

deskryptorów topologicznych

(74)

Reprezentacja topologiczna wielu tekstów

•  Liczności słów kluczowych

0 5 10 15 20 25 30 35

'templ*' 'devil*' 'judea*' 'word*'

(75)

Reprezentacja topologiczna wielu tekstów

•  Względne liczności słów kluczowych

0 0,0002 0,0004 0,0006 0,0008 0,001 0,0012 0,0014

'temple' 'devil' 'judea' 'word'

(76)

Reprezentacja topologiczna wielu tekstów

•  Macierze

opisowe

(77)

Reprezentacja topologiczna wielu tekstów

•  Względne liczności słowa „temple” w segmentach

'temple' in: 0 0,00005 0,0001 0,00015 0,0002 0,00025 0,0003 0,00035 0,0004 1 2 3 4 5 6 7

(78)

Reprezentacja topologiczna wielu tekstów

•  Oczekiwane segmenty słów kluczowych

0 1 2 3 4 5 6 7

(79)

Reprezentacja topologiczna wielu tekstów

•  Względne wariancje słów kluczowych

0 0,0001 0,0002 0,0003 0,0004 0,0005 0,0006 0,0007 0,0008 0,0009

(80)

Reprezentacja topologiczna wielu tekstów

•  Autokorelacje słów kluczowych

-0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8

(81)

Reprezentacja topologiczna wielu tekstów

•  Korelacje par słów kluczowych

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 'temple'-'devil' 'temple'-'judea' 'temple'-'word' 'devil'-'judea' 'devil'-'word' 'judea'-'word'

(82)

Podsumowanie reprezentacji topologicznej

•  Potencjalne zastosowania podejścia

–  MDS na kolumnach macierzy opisowej –  PCA na kolumnach macierzy opisowej –  FA na kolumnach macierzy opisowej

–  CA na kolumnach/wierszach macierzy opisowej

•  Potencjalne rozszerzenia podejścia

–  uwzględnienie innych niż zupełny porządków tekstu (występujących np. dokumentach hipertekstowych)

(83)

Podsumowanie reprezentacji topologicznej

•  Podstawowe zalety reprezentacji macierzowej

–  posiada strukturalne deskryptory skalaryzowalne o naturalnej interpretacji

–  pozwala na łatwe porównywanie wielu tekstów o różnych długościach

–  jest skuteczna w dyskryminowaniu tekstów przy małej liczbie słów kluczowych

(84)

Podsumowanie reprezentacji topologicznej

•  (Teoretyczny) Problem porządku segmentów tekstu

–  wymagany porządek segmentów tekstu: zupełny (liniowy)

•  (Teoretyczno-praktyczny) Problem liczby segmentów

–  zbyt mała liczba segmentów lub nieodpowiednio dobrane ich zakresy mogą doprowadzić do redukcji poziomu zmienności

kolumn macierzy opisowej, a tym samym do zmiany parametrów opisujących tę kolumnę

–  zbyt duża liczba segmentów lub nieodpowiednio dobrane ich zakresy mogą doprowadzić do wzrostu poziomu zależności par kolumn macierzy opisowej, a tym samym do zmiany parametrów opisujących tę parę

•  (Praktyczny) Problem wymaganej długości tekstu

–  brak dużego zbioru dużych tekstów, który mógłby być wykorzystany w doświadczeniach dyskryminacyjnych

Koncepcja informacji topologicznej w reprezentowaniu tekstów