Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Eksploracja Tekstu i Analiza Danych On-line
Wykład 2 - reprezentacja tekstu
dr in˙z. Julian Sienkiewicz
7 pa´zdziernika 2019
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
W jaki sposób mo˙zemy przedstawi´c dokument?
w “codziennym ˙zyciu” zwykle nie mamy z tym wi ˛ekszych problemów – u˙zywamyopisu, okre-
´slaj ˛ac, mniej lub bardziej składnie, zawarto´s´c do- kumentu,
w ten sam sposób jeste´smy w stanie dokona´c porównania dwóch dokumentów
w przypadku automatycznym, chcieliby´smy otrzyma´c jak ˛a´s okre´slon ˛a reprezentacj ˛e dokumentu,
dobrze byłoby, aby taka reprezentacja umo˙z- liwiała wyznaczanie statystyk, czyli była taka sama dla róznych tekstów,
potrzebne b ˛edzie równie˙z wykonywanieporów- na ´n
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
W jaki sposób mo˙zemy przedstawi´c dokument?
w “codziennym ˙zyciu” zwykle nie mamy z tym wi ˛ekszych problemów – u˙zywamyopisu, okre-
´slaj ˛ac, mniej lub bardziej składnie, zawarto´s´c do- kumentu,
w ten sam sposób jeste´smy w stanie dokona´c porównania dwóch dokumentów
w przypadku automatycznym, chcieliby´smy otrzyma´c jak ˛a´s okre´slon ˛a reprezentacj ˛e dokumentu,
dobrze byłoby, aby taka reprezentacja umo˙z- liwiała wyznaczanie statystyk, czyli była taka sama dla róznych tekstów,
potrzebne b ˛edzie równie˙z wykonywanieporów- na ´n
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Miary długo´sci
Najprostszymi do wyznaczenia i cz ˛esto te˙z bardzo wygodnymi statystykami s ˛a:
liczba znaków (liter i znaków interpunkcyjnych lub samych liter), liczba słów,
Te zmienne s ˛a jednak cz ˛esto do´s´c mocno skorelowane ze sob ˛a i ci ˛e˙zko uwa˙za´c je za odr ˛ebne.
Miary zło˙zono´sci
W wielu przypadkach mo˙zliwe jest równie˙z okre´slenie poziomuzło˙zono ´sci tekstu. Tu pomocne s ˛a np. nast ˛epuj ˛ace miary:
miara (indeks) Herdana C, zmodyfikowana miara Herdana z indeks (wska´znik czytelno´sci ) FOG,
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Miary długo´sci
Najprostszymi do wyznaczenia i cz ˛esto te˙z bardzo wygodnymi statystykami s ˛a:
liczba znaków (liter i znaków interpunkcyjnych lub samych liter), liczba słów,
Te zmienne s ˛a jednak cz ˛esto do´s´c mocno skorelowane ze sob ˛a i ci ˛e˙zko uwa˙za´c je za odr ˛ebne.
Miary zło˙zono´sci
W wielu przypadkach mo˙zliwe jest równie˙z okre´slenie poziomuzło˙zono ´sci tekstu. Tu pomocne s ˛a np. nast ˛epuj ˛ace miary:
miara (indeks) Herdana C, zmodyfikowana miara Herdana z indeks (wska´znik czytelno´sci ) FOG,
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Miara Herdana
zdefiniowana jako C = log Vlog M,
V - liczba tokenów (liczba ró˙znych słów), M - długo´s´c tekstu, dla tekstu bez powtórze ´n C = 1,
logarytmy umo˙zliwiaj ˛a “spłaszczenie” funkcji
w przypadku wielu dokumentów mo˙zna u˙zy´c zmodyfikowanego indeksu Herdana, który jest po prostu indeksem C poddanym standaryzacji (standaryzacji Z),
z przedstawia si ˛e wzorem
zN,M=N − µ(M) σ(M)
µ(M) oraz σ(M) wyznaczane s ˛a po zestawie dokumentów – umo˙zliwia to wzi ˛ecie pod uwag ˛e efektu fluktuacji
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Wska´znik FOG zdefiniowana jako
F = 0.4 liczba słów
liczba zda ´n+100liczba zło˙zonych słów liczba słów
zło˙zone słowa to takie (w j ˛ez. angielskim), które maj ˛a ponad dwie sylaby, problemy: nie zawsze zło˙zone słowa s ˛a trudne
Interpretacja wska´znika FOG
liczba lat formalnej edukcji potrzebnej do zorumienie tekstu
np. teksty dla szerokiej publiczno´sci powinny mie´c F co najwy˙zej 12 – ocna to poziom maturzysty
istnieje sporo podobnych wska´zników, np. Flesch-Kincaid
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Bag-of-words
bag-of-words (BOW) jest chyba najprostsz ˛a re- prezentacj ˛a tekstu,
jak sama nazwa wskazuje, zakładamy w nim, ˙ze zawarto´sc dokumentu to po prostu poszczególne słowa, bez wzgl ˛edu na ich kolejno´s´c pojawiania si ˛e w tek´scie,
Przykład
John likes to watch movies, Mary likes movies too John also likes football,
Innymi słowy tworzymy po prostu słownik słów, zaznaczaj ˛ac w nim ilo´s´c ich wyst ˛epowania.
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Bag-of-words
bag-of-words (BOW) jest chyba najprostsz ˛a re- prezentacj ˛a tekstu,
jak sama nazwa wskazuje, zakładamy w nim, ˙ze zawarto´sc dokumentu to po prostu poszczególne słowa, bez wzgl ˛edu na ich kolejno´s´c pojawiania si ˛e w tek´scie,
Przykład
John likes to watch movies, Mary likes movies too John also likes football,
Innymi słowy tworzymy po prostu słownik słów, zaznaczaj ˛ac w nim ilo´s´c ich wyst ˛epowania.
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Bag-of-words
bag-of-words (BOW) jest chyba najprostsz ˛a re- prezentacj ˛a tekstu,
jak sama nazwa wskazuje, zakładamy w nim, ˙ze zawarto´sc dokumentu to po prostu poszczególne słowa, bez wzgl ˛edu na ich kolejno´s´c pojawiania si ˛e w tek´scie,
Przykład
John likes to watch movies, Mary likes movies too John also likes football,
Innymi słowy tworzymy po prostu słownik słów, zaznaczaj ˛ac w nim ilo´s´c ich wyst ˛epowania.
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
oczywi´scie z takiej reprezentacji nie da si ˛e stworzy´c sensownego tekstu (brak informacji o pozycji słów i gramatyce),
BOW jest jednak przydatne do tworzenia klasyfikatorów opartych na czynnikach (features)
problem rozsn ˛acego słownika zwykle rozwi ˛azywany przezhashing trick
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
oczywi´scie z takiej reprezentacji nie da si ˛e stworzy´c sensownego tekstu (brak informacji o pozycji słów i gramatyce),
BOW jest jednak przydatne do tworzenia klasyfikatorów opartych na czynnikach (features)
problem rozsn ˛acego słownika zwykle rozwi ˛azywany przezhashing trick
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Model Przestrzeni Wektorowej Model Przestrzeni Wektorowej (Vector Space Model - VSM) jest poj ˛eciem zwi ˛azanym z BOW, ale nie to˙zsamym z nim,
odwołujemy si ˛e tu do poj ˛ecia wektora
Model Przestrzeni Wektorowej
zakładamy, ˙ze ka˙zde słowo too ´s (czyli jest kierunkiem) w przestrzeni, w efekcie ka˙zdy obiekt (np. dokument albo słowo) mo˙ze by´c reprezento- wane przez wektor w tak skonstrukowanej przestrzeni
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Prosty przykład
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Jak wyznaczy´c podobie ´nstwo dwóch dokumentów?
Najpro´sciej za pomoc ˛a iloczynu skalarnego:
D(A, B) =
i=N
X
i=1
AiBi
gdzie N to liczba słów w słowniku, a Aii Bito informacja, czy słowo i wyst ˛apiło, odpowiednio, w dokumecie A i B.
poka´znym problemem takiego podej´scia jest to, ˙ze nie zakłada ono, i˙z dokumenty mog ˛a mie´c ró˙zn ˛a długo´s´c.
w przypadku np. wyszukiwania, jest wi ˛eksza sznasa na to, ˙ze dłu˙zszy dokuemnt b ˛edzie zawierał dane słowo
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Jak wyznaczy´c podobie ´nstwo dwóch dokumentów?
Najpro´sciej za pomoc ˛a iloczynu skalarnego:
D(A, B) =
i=N
X
i=1
AiBi
gdzie N to liczba słów w słowniku, a Aii Bito informacja, czy słowo i wyst ˛apiło, odpowiednio, w dokumecie A i B.
poka´znym problemem takiego podej´scia jest to, ˙ze nie zakłada ono, i˙z dokumenty mog ˛a mie´c ró˙zn ˛a długo´s´c.
w przypadku np. wyszukiwania, jest wi ˛eksza sznasa na to, ˙ze dłu˙zszy dokuemnt b ˛edzie zawierał dane słowo
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Odległo´s´c
Innym sposobem jest wyznaczenie odległo´sci (Euklidesowej) pomi ˛edzy poszczególnymi dokumentami / zdaniami
D(A, B) = v u u t
i=N
X
i=1
(Ai− Bi)2
Podobie ´nstwo Cosinusowe
Mo˙zna równie˙z wyznaczy´c tzw. podobie ´nstwo cosinusowe
D(A, B) = cos(A, B) = P
iAiBi
q P
iA2i q
P
iBi2
dokumenty “w tym samym kierunku” s ˛a do siebie podobne, w odró˙znieniu od odległo´sci ograniczona miara D ∈ h0; 1i
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Odległo´s´c
Innym sposobem jest wyznaczenie odległo´sci (Euklidesowej) pomi ˛edzy poszczególnymi dokumentami / zdaniami
D(A, B) = v u u t
i=N
X
i=1
(Ai− Bi)2
Podobie ´nstwo Cosinusowe
Mo˙zna równie˙z wyznaczy´c tzw. podobie ´nstwo cosinusowe
D(A, B) = cos(A, B) = P
iAiBi
qP
iA2iq P
iBi2
dokumenty “w tym samym kierunku” s ˛a do siebie podobne, w odró˙znieniu od odległo´sci ograniczona miara D ∈ h0; 1i
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Odległo´s´c
Innym sposobem jest wyznaczenie odległo´sci (Euklidesowej) pomi ˛edzy poszczególnymi dokumentami / zdaniami
D(A, B) = v u u t
i=N
X
i=1
(Ai− Bi)2
Podobie ´nstwo Cosinusowe
Mo˙zna równie˙z wyznaczy´c tzw. podobie ´nstwo cosinusowe
D(A, B) = cos(A, B) = P
iAiBi
qP
iA2iq P
iBi2
dokumenty “w tym samym kierunku” s ˛a do siebie podobne, w odró˙znieniu od odległo´sci ograniczona miara D ∈ h0; 1i
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
We´zmy realny przykład
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Co nam da zliczanie słów:
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Ale wszystkie one s ˛ a tak samo dla nas wa˙zne?
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Potrzebujemy wi ˛ec sposobu, aby jako´s “wyró˙zni´c” te słowa, które faktycznie odnosz ˛a si ˛e do istotnej tre´sci.
Mo˙zna oczywi´scie dokona´c stopword reduction, czyli pozby´c si ˛e takic słów jaka, the, is... traktuj ˛ac je jako funkcyjne, ale to nie do ko ´nca jest
rozwi ˛azanie “systemowe”.
Mo˙zna oceni´c jak relatywnie wa˙zne jest słowo, w odniesieniu do innych dokumentów.
idfi=log M dfi
gdzie M to liczba dokumentów, które rozpatrujemy, a dfi to liczba dokumentów, w których wyst ˛epuje słowo i.
Daje to tzw.odwrotn ˛a cz ˛esto ´s ´c w dokumentach (IDF – inverse term frequency).
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Potrzebujemy wi ˛ec sposobu, aby jako´s “wyró˙zni´c” te słowa, które faktycznie odnosz ˛a si ˛e do istotnej tre´sci.
Mo˙zna oczywi´scie dokona´c stopword reduction, czyli pozby´c si ˛e takic słów jaka, the, is... traktuj ˛ac je jako funkcyjne, ale to nie do ko ´nca jest
rozwi ˛azanie “systemowe”.
Mo˙zna oceni´c jak relatywnie wa˙zne jest słowo, w odniesieniu do innych dokumentów.
idfi=log M dfi
gdzie M to liczba dokumentów, które rozpatrujemy, a dfi to liczba dokumentów, w których wyst ˛epuje słowo i.
Daje to tzw.odwrotn ˛a cz ˛esto ´s ´c w dokumentach (IDF – inverse term frequency).
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Potrzebujemy wi ˛ec sposobu, aby jako´s “wyró˙zni´c” te słowa, które faktycznie odnosz ˛a si ˛e do istotnej tre´sci.
Mo˙zna oczywi´scie dokona´c stopword reduction, czyli pozby´c si ˛e takic słów jaka, the, is... traktuj ˛ac je jako funkcyjne, ale to nie do ko ´nca jest
rozwi ˛azanie “systemowe”.
Mo˙zna oceni´c jak relatywnie wa˙zne jest słowo, w odniesieniu do innych dokumentów.
idfi=log M dfi
gdzie M to liczba dokumentów, które rozpatrujemy, a dfi to liczba dokumentów, w których wyst ˛epuje słowo i.
Daje to tzw.odwrotn ˛a cz ˛esto ´s ´c w dokumentach (IDF – inverse term frequency).
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Potrzebujemy wi ˛ec sposobu, aby jako´s “wyró˙zni´c” te słowa, które faktycznie odnosz ˛a si ˛e do istotnej tre´sci.
Mo˙zna oczywi´scie dokona´c stopword reduction, czyli pozby´c si ˛e takic słów jaka, the, is... traktuj ˛ac je jako funkcyjne, ale to nie do ko ´nca jest
rozwi ˛azanie “systemowe”.
Mo˙zna oceni´c jak relatywnie wa˙zne jest słowo, w odniesieniu do innych dokumentów.
idfi=log M dfi
gdzie M to liczba dokumentów, które rozpatrujemy, a dfi to liczba dokumentów, w których wyst ˛epuje słowo i.
Daje to tzw.odwrotn ˛a cz ˛esto ´s ´c w dokumentach (IDF – inverse term frequency).
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
Daje to nast ˛epuj ˛ acy efekt:
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
czynnik IDF jest tym wi ˛ekszy im dany wyrazrzadziej wyst ˛epuje w całym zbiorze dokumentów
nie musi to jednak oznacza´c, ˙ze jest bardzo istotny dla tego konkretnego dokumentu – mo˙ze to by´c np. bł ˛ad lub jakie´s mało popularne, wyszukane słowo
potrzebny jest jeszcze czynnik, który odnosi si ˛e do cz ˛esto´sci wyst ˛epowania słowa w danym tek´scie, czylicz ˛esto ´s ´c termów
tfi,j= ni,j
P
knk ,j
gdzie ni.jto liczba wyst ˛apie ´n wyrazu i w dokumencie j razem daje to tzw.TF-IDF
(tf − idf)i,j=tfi,j× idfi
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
I ko ´ncowo mamy:
Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów
tak otrzymane warto´sci mog ˛a stanowi´c współrz ˛edne wektorów problem zwi ˛azany z zało˙zeniemniezale˙zno ´sci bazy – Generalized Vector Space Model