7pa´zdziernika2019 drin˙z.JulianSienkiewicz Wykład2-reprezentacjatekstu EksploracjaTekstuiAnalizaDanychOn-line

(1)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Eksploracja Tekstu i Analiza Danych On-line

Wykład 2 - reprezentacja tekstu

dr in˙z. Julian Sienkiewicz

7 pa´zdziernika 2019

(2)

W jaki sposób mo˙zemy przedstawi´c dokument?

w “codziennym ˙zyciu” zwykle nie mamy z tym wi ˛ekszych problemów – u˙zywamyopisu, okre-

´slaj ˛ac, mniej lub bardziej składnie, zawarto´s´c dokumentu,

w ten sam sposób jeste´smy w stanie dokona´c porównania dwóch dokumentów

w przypadku automatycznym, chcieliby´smy otrzyma´c jak ˛a´s okre´slon ˛a reprezentacj ˛e dokumentu,

dobrze byłoby, aby taka reprezentacja umo˙z- liwiała wyznaczanie statystyk, czyli była taka sama dla róznych tekstów,

potrzebne b ˛edzie równie˙z wykonywanieporów- na ´n

(3)

W jaki sposób mo˙zemy przedstawi´c dokument?

w “codziennym ˙zyciu” zwykle nie mamy z tym wi ˛ekszych problemów – u˙zywamyopisu, okre-

´slaj ˛ac, mniej lub bardziej składnie, zawarto´s´c dokumentu,

w ten sam sposób jeste´smy w stanie dokona´c porównania dwóch dokumentów

w przypadku automatycznym, chcieliby´smy otrzyma´c jak ˛a´s okre´slon ˛a reprezentacj ˛e dokumentu,

dobrze byłoby, aby taka reprezentacja umo˙z- liwiała wyznaczanie statystyk, czyli była taka sama dla róznych tekstów,

potrzebne b ˛edzie równie˙z wykonywanieporów- na ´n

(4)

Miary długo´sci

Najprostszymi do wyznaczenia i cz ˛esto te˙z bardzo wygodnymi statystykami s ˛a:

liczba znaków (liter i znaków interpunkcyjnych lub samych liter), liczba słów,

Te zmienne s ˛a jednak cz ˛esto do´s´c mocno skorelowane ze sob ˛a i ci ˛e˙zko uwa˙za´c je za odr ˛ebne.

Miary zło˙zono´sci

W wielu przypadkach mo˙zliwe jest równie˙z okre´slenie poziomuzło˙zono ´sci tekstu. Tu pomocne s ˛a np. nast ˛epuj ˛ace miary:

miara (indeks) Herdana C, zmodyfikowana miara Herdana z indeks (wska´znik czytelno´sci ) FOG,

(5)

Miary długo´sci

Najprostszymi do wyznaczenia i cz ˛esto te˙z bardzo wygodnymi statystykami s ˛a:

liczba znaków (liter i znaków interpunkcyjnych lub samych liter), liczba słów,

Te zmienne s ˛a jednak cz ˛esto do´s´c mocno skorelowane ze sob ˛a i ci ˛e˙zko uwa˙za´c je za odr ˛ebne.

Miary zło˙zono´sci

W wielu przypadkach mo˙zliwe jest równie˙z okre´slenie poziomuzło˙zono ´sci tekstu. Tu pomocne s ˛a np. nast ˛epuj ˛ace miary:

miara (indeks) Herdana C, zmodyfikowana miara Herdana z indeks (wska´znik czytelno´sci ) FOG,

(6)

Miara Herdana

zdefiniowana jako C = ^{log V}_{log M},

V - liczba tokenów (liczba ró˙znych słów), M - długo´s´c tekstu, dla tekstu bez powtórze ´n C = 1,

logarytmy umo˙zliwiaj ˛a “spłaszczenie” funkcji

w przypadku wielu dokumentów mo˙zna u˙zy´c zmodyfikowanego indeksu Herdana, który jest po prostu indeksem C poddanym standaryzacji (standaryzacji Z),

z przedstawia si ˛e wzorem

zN,M=N − µ(M) σ(M)

µ(M) oraz σ(M) wyznaczane s ˛a po zestawie dokumentów – umo˙zliwia to wzi ˛ecie pod uwag ˛e efektu fluktuacji

(7)

Wska´znik FOG zdefiniowana jako

F = 0.4 liczba słów

liczba zda ´n+100liczba zło˙zonych słów liczba słów

zło˙zone słowa to takie (w j ˛ez. angielskim), które maj ˛a ponad dwie sylaby, problemy: nie zawsze zło˙zone słowa s ˛a trudne

Interpretacja wska´znika FOG

liczba lat formalnej edukcji potrzebnej do zorumienie tekstu

np. teksty dla szerokiej publiczno´sci powinny mie´c F co najwy˙zej 12 – ocna to poziom maturzysty

istnieje sporo podobnych wska´zników, np. Flesch-Kincaid

(8)

Bag-of-words

bag-of-words (BOW) jest chyba najprostsz ˛a reprezentacj ˛a tekstu,

jak sama nazwa wskazuje, zakładamy w nim, ˙ze zawarto´sc dokumentu to po prostu poszczególne słowa, bez wzgl ˛edu na ich kolejno´s´c pojawiania si ˛e w tek´scie,

Przykład

John likes to watch movies, Mary likes movies too John also likes football,

Innymi słowy tworzymy po prostu słownik słów, zaznaczaj ˛ac w nim ilo´s´c ich wyst ˛epowania.

(9)

Bag-of-words

Przykład

(10)

Bag-of-words

Przykład

(11)

oczywi´scie z takiej reprezentacji nie da si ˛e stworzy´c sensownego tekstu (brak informacji o pozycji słów i gramatyce),

BOW jest jednak przydatne do tworzenia klasyfikatorów opartych na czynnikach (features)

problem rozsn ˛acego słownika zwykle rozwi ˛azywany przezhashing trick

(12)

oczywi´scie z takiej reprezentacji nie da si ˛e stworzy´c sensownego tekstu (brak informacji o pozycji słów i gramatyce),

BOW jest jednak przydatne do tworzenia klasyfikatorów opartych na czynnikach (features)

problem rozsn ˛acego słownika zwykle rozwi ˛azywany przezhashing trick

(13)

Model Przestrzeni Wektorowej Model Przestrzeni Wektorowej (Vector Space Model - VSM) jest poj ˛eciem zwi ˛azanym z BOW, ale nie to˙zsamym z nim,

odwołujemy si ˛e tu do poj ˛ecia wektora

Model Przestrzeni Wektorowej

zakładamy, ˙ze ka˙zde słowo too ´s (czyli jest kierunkiem) w przestrzeni, w efekcie ka˙zdy obiekt (np. dokument albo słowo) mo˙ze by´c reprezento- wane przez wektor w tak skonstrukowanej przestrzeni

(14)

Prosty przykład

(15)

Jak wyznaczy´c podobie ´nstwo dwóch dokumentów?

Najpro´sciej za pomoc ˛a iloczynu skalarnego:

D(A, B) =

i=N

X

i=1

AiBi

gdzie N to liczba słów w słowniku, a Aii Bito informacja, czy słowo i wyst ˛apiło, odpowiednio, w dokumecie A i B.

poka´znym problemem takiego podej´scia jest to, ˙ze nie zakłada ono, i˙z dokumenty mog ˛a mie´c ró˙zn ˛a długo´s´c.

w przypadku np. wyszukiwania, jest wi ˛eksza sznasa na to, ˙ze dłu˙zszy dokuemnt b ˛edzie zawierał dane słowo

(16)

Jak wyznaczy´c podobie ´nstwo dwóch dokumentów?

Najpro´sciej za pomoc ˛a iloczynu skalarnego:

D(A, B) =

i=N

X

i=1

AiBi

gdzie N to liczba słów w słowniku, a Aii Bito informacja, czy słowo i wyst ˛apiło, odpowiednio, w dokumecie A i B.

poka´znym problemem takiego podej´scia jest to, ˙ze nie zakłada ono, i˙z dokumenty mog ˛a mie´c ró˙zn ˛a długo´s´c.

w przypadku np. wyszukiwania, jest wi ˛eksza sznasa na to, ˙ze dłu˙zszy dokuemnt b ˛edzie zawierał dane słowo

(17)

Odległo´s´c

Innym sposobem jest wyznaczenie odległo´sci (Euklidesowej) pomi ˛edzy poszczególnymi dokumentami / zdaniami

D(A, B) = v u u t

i=N

X

i=1

(Ai− Bi)²

Podobie ´nstwo Cosinusowe

Mo˙zna równie˙z wyznaczy´c tzw. podobie ´nstwo cosinusowe

D(A, B) = cos(A, B) = P

iAiBi

q P

iA²_i q

P

iB_i²

dokumenty “w tym samym kierunku” s ˛a do siebie podobne, w odró˙znieniu od odległo´sci ograniczona miara D ∈ h0; 1i

(18)

Odległo´s´c

D(A, B) = v u u t

i=N

X

i=1

(Ai− Bi)²

D(A, B) = cos(A, B) = P

iAiBi

qP

iA²_iq P

iB_i²

(19)

Odległo´s´c

D(A, B) = v u u t

i=N

X

i=1

(Ai− Bi)²

D(A, B) = cos(A, B) = P

iAiBi

qP

iA²_iq P

iB_i²

(20)

We´zmy realny przykład

(21)

Co nam da zliczanie słów:

(22)

Ale wszystkie one s ˛ a tak samo dla nas wa˙zne?

(23)

Potrzebujemy wi ˛ec sposobu, aby jako´s “wyró˙zni´c” te słowa, które faktycznie odnosz ˛a si ˛e do istotnej tre´sci.

Mo˙zna oczywi´scie dokonać stopword reduction, czyli pozbyć si ˛e takic słów jaka, the, is... traktuj ˛ac je jako funkcyjne, ale to nie do ko ńca jest

rozwi ˛azanie “systemowe”.

Mo˙zna oceni´c jak relatywnie wa˙zne jest słowo, w odniesieniu do innych dokumentów.

idfi=log M dfi

gdzie M to liczba dokumentów, które rozpatrujemy, a dfi to liczba dokumentów, w których wyst ˛epuje słowo i.

Daje to tzw.odwrotn ˛a cz ˛esto ´s ´c w dokumentach (IDF – inverse term frequency).

(24)

idfi=log M dfi

(25)

idfi=log M dfi

(26)

idfi=log M dfi

(27)

Daje to nast ˛epuj ˛ acy efekt:

(28)

czynnik IDF jest tym wi ˛ekszy im dany wyrazrzadziej wyst ˛epuje w całym zbiorze dokumentów

nie musi to jednak oznacza´c, ˙ze jest bardzo istotny dla tego konkretnego dokumentu – mo˙ze to by´c np. bł ˛ad lub jakie´s mało popularne, wyszukane słowo

potrzebny jest jeszcze czynnik, który odnosi si ˛e do cz ˛esto´sci wyst ˛epowania słowa w danym tek´scie, czylicz ˛esto ´s ´c termów

tfi,j= ni,j

P

knk ,j

gdzie ni.jto liczba wyst ˛apie ´n wyrazu i w dokumencie j razem daje to tzw.TF-IDF

(tf − idf)i,j=tfi,j× idfi

(29)

I ko ´ncowo mamy:

(30)

tak otrzymane warto´sci mog ˛a stanowi´c współrz ˛edne wektorów problem zwi ˛azany z zało˙zeniemniezale˙zno ´sci bazy – Generalized Vector Space Model