• Nie Znaleziono Wyników

7pa´zdziernika2019 drin˙z.JulianSienkiewicz Wykład2-reprezentacjatekstu EksploracjaTekstuiAnalizaDanychOn-line

N/A
N/A
Protected

Academic year: 2022

Share "7pa´zdziernika2019 drin˙z.JulianSienkiewicz Wykład2-reprezentacjatekstu EksploracjaTekstuiAnalizaDanychOn-line"

Copied!
30
0
0

Pełen tekst

(1)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Eksploracja Tekstu i Analiza Danych On-line

Wykład 2 - reprezentacja tekstu

dr in˙z. Julian Sienkiewicz

7 pa´zdziernika 2019

(2)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

W jaki sposób mo˙zemy przedstawi´c dokument?

w “codziennym ˙zyciu” zwykle nie mamy z tym wi ˛ekszych problemów – u˙zywamyopisu, okre-

´slaj ˛ac, mniej lub bardziej składnie, zawarto´s´c do- kumentu,

w ten sam sposób jeste´smy w stanie dokona´c porównania dwóch dokumentów

w przypadku automatycznym, chcieliby´smy otrzyma´c jak ˛a´s okre´slon ˛a reprezentacj ˛e dokumentu,

dobrze byłoby, aby taka reprezentacja umo˙z- liwiała wyznaczanie statystyk, czyli była taka sama dla róznych tekstów,

potrzebne b ˛edzie równie˙z wykonywanieporów- na ´n

(3)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

W jaki sposób mo˙zemy przedstawi´c dokument?

w “codziennym ˙zyciu” zwykle nie mamy z tym wi ˛ekszych problemów – u˙zywamyopisu, okre-

´slaj ˛ac, mniej lub bardziej składnie, zawarto´s´c do- kumentu,

w ten sam sposób jeste´smy w stanie dokona´c porównania dwóch dokumentów

w przypadku automatycznym, chcieliby´smy otrzyma´c jak ˛a´s okre´slon ˛a reprezentacj ˛e dokumentu,

dobrze byłoby, aby taka reprezentacja umo˙z- liwiała wyznaczanie statystyk, czyli była taka sama dla róznych tekstów,

potrzebne b ˛edzie równie˙z wykonywanieporów- na ´n

(4)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Miary długo´sci

Najprostszymi do wyznaczenia i cz ˛esto te˙z bardzo wygodnymi statystykami s ˛a:

liczba znaków (liter i znaków interpunkcyjnych lub samych liter), liczba słów,

Te zmienne s ˛a jednak cz ˛esto do´s´c mocno skorelowane ze sob ˛a i ci ˛e˙zko uwa˙za´c je za odr ˛ebne.

Miary zło˙zono´sci

W wielu przypadkach mo˙zliwe jest równie˙z okre´slenie poziomuzło˙zono ´sci tekstu. Tu pomocne s ˛a np. nast ˛epuj ˛ace miary:

miara (indeks) Herdana C, zmodyfikowana miara Herdana z indeks (wska´znik czytelno´sci ) FOG,

(5)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Miary długo´sci

Najprostszymi do wyznaczenia i cz ˛esto te˙z bardzo wygodnymi statystykami s ˛a:

liczba znaków (liter i znaków interpunkcyjnych lub samych liter), liczba słów,

Te zmienne s ˛a jednak cz ˛esto do´s´c mocno skorelowane ze sob ˛a i ci ˛e˙zko uwa˙za´c je za odr ˛ebne.

Miary zło˙zono´sci

W wielu przypadkach mo˙zliwe jest równie˙z okre´slenie poziomuzło˙zono ´sci tekstu. Tu pomocne s ˛a np. nast ˛epuj ˛ace miary:

miara (indeks) Herdana C, zmodyfikowana miara Herdana z indeks (wska´znik czytelno´sci ) FOG,

(6)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Miara Herdana

zdefiniowana jako C = log Vlog M,

V - liczba tokenów (liczba ró˙znych słów), M - długo´s´c tekstu, dla tekstu bez powtórze ´n C = 1,

logarytmy umo˙zliwiaj ˛a “spłaszczenie” funkcji

w przypadku wielu dokumentów mo˙zna u˙zy´c zmodyfikowanego indeksu Herdana, który jest po prostu indeksem C poddanym standaryzacji (standaryzacji Z),

z przedstawia si ˛e wzorem

zN,M=N − µ(M) σ(M)

µ(M) oraz σ(M) wyznaczane s ˛a po zestawie dokumentów – umo˙zliwia to wzi ˛ecie pod uwag ˛e efektu fluktuacji

(7)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Wska´znik FOG zdefiniowana jako

F = 0.4 liczba słów

liczba zda ´n+100liczba zło˙zonych słów liczba słów



zło˙zone słowa to takie (w j ˛ez. angielskim), które maj ˛a ponad dwie sylaby, problemy: nie zawsze zło˙zone słowa s ˛a trudne

Interpretacja wska´znika FOG

liczba lat formalnej edukcji potrzebnej do zorumienie tekstu

np. teksty dla szerokiej publiczno´sci powinny mie´c F co najwy˙zej 12 – ocna to poziom maturzysty

istnieje sporo podobnych wska´zników, np. Flesch-Kincaid

(8)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Bag-of-words

bag-of-words (BOW) jest chyba najprostsz ˛a re- prezentacj ˛a tekstu,

jak sama nazwa wskazuje, zakładamy w nim, ˙ze zawarto´sc dokumentu to po prostu poszczególne słowa, bez wzgl ˛edu na ich kolejno´s´c pojawiania si ˛e w tek´scie,

Przykład

John likes to watch movies, Mary likes movies too John also likes football,

Innymi słowy tworzymy po prostu słownik słów, zaznaczaj ˛ac w nim ilo´s´c ich wyst ˛epowania.

(9)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Bag-of-words

bag-of-words (BOW) jest chyba najprostsz ˛a re- prezentacj ˛a tekstu,

jak sama nazwa wskazuje, zakładamy w nim, ˙ze zawarto´sc dokumentu to po prostu poszczególne słowa, bez wzgl ˛edu na ich kolejno´s´c pojawiania si ˛e w tek´scie,

Przykład

John likes to watch movies, Mary likes movies too John also likes football,

Innymi słowy tworzymy po prostu słownik słów, zaznaczaj ˛ac w nim ilo´s´c ich wyst ˛epowania.

(10)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Bag-of-words

bag-of-words (BOW) jest chyba najprostsz ˛a re- prezentacj ˛a tekstu,

jak sama nazwa wskazuje, zakładamy w nim, ˙ze zawarto´sc dokumentu to po prostu poszczególne słowa, bez wzgl ˛edu na ich kolejno´s´c pojawiania si ˛e w tek´scie,

Przykład

John likes to watch movies, Mary likes movies too John also likes football,

Innymi słowy tworzymy po prostu słownik słów, zaznaczaj ˛ac w nim ilo´s´c ich wyst ˛epowania.

(11)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

oczywi´scie z takiej reprezentacji nie da si ˛e stworzy´c sensownego tekstu (brak informacji o pozycji słów i gramatyce),

BOW jest jednak przydatne do tworzenia klasyfikatorów opartych na czynnikach (features)

problem rozsn ˛acego słownika zwykle rozwi ˛azywany przezhashing trick

(12)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

oczywi´scie z takiej reprezentacji nie da si ˛e stworzy´c sensownego tekstu (brak informacji o pozycji słów i gramatyce),

BOW jest jednak przydatne do tworzenia klasyfikatorów opartych na czynnikach (features)

problem rozsn ˛acego słownika zwykle rozwi ˛azywany przezhashing trick

(13)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Model Przestrzeni Wektorowej Model Przestrzeni Wektorowej (Vector Space Model - VSM) jest poj ˛eciem zwi ˛azanym z BOW, ale nie to˙zsamym z nim,

odwołujemy si ˛e tu do poj ˛ecia wektora

Model Przestrzeni Wektorowej

zakładamy, ˙ze ka˙zde słowo too ´s (czyli jest kierunkiem) w przestrzeni, w efekcie ka˙zdy obiekt (np. dokument albo słowo) mo˙ze by´c reprezento- wane przez wektor w tak skonstrukowanej przestrzeni

(14)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Prosty przykład

(15)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Jak wyznaczy´c podobie ´nstwo dwóch dokumentów?

Najpro´sciej za pomoc ˛a iloczynu skalarnego:

D(A, B) =

i=N

X

i=1

AiBi

gdzie N to liczba słów w słowniku, a Aii Bito informacja, czy słowo i wyst ˛apiło, odpowiednio, w dokumecie A i B.

poka´znym problemem takiego podej´scia jest to, ˙ze nie zakłada ono, i˙z dokumenty mog ˛a mie´c ró˙zn ˛a długo´s´c.

w przypadku np. wyszukiwania, jest wi ˛eksza sznasa na to, ˙ze dłu˙zszy dokuemnt b ˛edzie zawierał dane słowo

(16)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Jak wyznaczy´c podobie ´nstwo dwóch dokumentów?

Najpro´sciej za pomoc ˛a iloczynu skalarnego:

D(A, B) =

i=N

X

i=1

AiBi

gdzie N to liczba słów w słowniku, a Aii Bito informacja, czy słowo i wyst ˛apiło, odpowiednio, w dokumecie A i B.

poka´znym problemem takiego podej´scia jest to, ˙ze nie zakłada ono, i˙z dokumenty mog ˛a mie´c ró˙zn ˛a długo´s´c.

w przypadku np. wyszukiwania, jest wi ˛eksza sznasa na to, ˙ze dłu˙zszy dokuemnt b ˛edzie zawierał dane słowo

(17)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Odległo´s´c

Innym sposobem jest wyznaczenie odległo´sci (Euklidesowej) pomi ˛edzy poszczególnymi dokumentami / zdaniami

D(A, B) = v u u t

i=N

X

i=1

(Ai− Bi)2

Podobie ´nstwo Cosinusowe

Mo˙zna równie˙z wyznaczy´c tzw. podobie ´nstwo cosinusowe

D(A, B) = cos(A, B) = P

iAiBi

q P

iA2i q

P

iBi2

dokumenty “w tym samym kierunku” s ˛a do siebie podobne, w odró˙znieniu od odległo´sci ograniczona miara D ∈ h0; 1i

(18)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Odległo´s´c

Innym sposobem jest wyznaczenie odległo´sci (Euklidesowej) pomi ˛edzy poszczególnymi dokumentami / zdaniami

D(A, B) = v u u t

i=N

X

i=1

(Ai− Bi)2

Podobie ´nstwo Cosinusowe

Mo˙zna równie˙z wyznaczy´c tzw. podobie ´nstwo cosinusowe

D(A, B) = cos(A, B) = P

iAiBi

qP

iA2iq P

iBi2

dokumenty “w tym samym kierunku” s ˛a do siebie podobne, w odró˙znieniu od odległo´sci ograniczona miara D ∈ h0; 1i

(19)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Odległo´s´c

Innym sposobem jest wyznaczenie odległo´sci (Euklidesowej) pomi ˛edzy poszczególnymi dokumentami / zdaniami

D(A, B) = v u u t

i=N

X

i=1

(Ai− Bi)2

Podobie ´nstwo Cosinusowe

Mo˙zna równie˙z wyznaczy´c tzw. podobie ´nstwo cosinusowe

D(A, B) = cos(A, B) = P

iAiBi

qP

iA2iq P

iBi2

dokumenty “w tym samym kierunku” s ˛a do siebie podobne, w odró˙znieniu od odległo´sci ograniczona miara D ∈ h0; 1i

(20)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

We´zmy realny przykład

(21)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Co nam da zliczanie słów:

(22)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Ale wszystkie one s ˛ a tak samo dla nas wa˙zne?

(23)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Potrzebujemy wi ˛ec sposobu, aby jako´s “wyró˙zni´c” te słowa, które faktycznie odnosz ˛a si ˛e do istotnej tre´sci.

Mo˙zna oczywi´scie dokona´c stopword reduction, czyli pozby´c si ˛e takic słów jaka, the, is... traktuj ˛ac je jako funkcyjne, ale to nie do ko ´nca jest

rozwi ˛azanie “systemowe”.

Mo˙zna oceni´c jak relatywnie wa˙zne jest słowo, w odniesieniu do innych dokumentów.

idfi=log M dfi



gdzie M to liczba dokumentów, które rozpatrujemy, a dfi to liczba dokumentów, w których wyst ˛epuje słowo i.

Daje to tzw.odwrotn ˛a cz ˛esto ´s ´c w dokumentach (IDF – inverse term frequency).

(24)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Potrzebujemy wi ˛ec sposobu, aby jako´s “wyró˙zni´c” te słowa, które faktycznie odnosz ˛a si ˛e do istotnej tre´sci.

Mo˙zna oczywi´scie dokona´c stopword reduction, czyli pozby´c si ˛e takic słów jaka, the, is... traktuj ˛ac je jako funkcyjne, ale to nie do ko ´nca jest

rozwi ˛azanie “systemowe”.

Mo˙zna oceni´c jak relatywnie wa˙zne jest słowo, w odniesieniu do innych dokumentów.

idfi=log M dfi



gdzie M to liczba dokumentów, które rozpatrujemy, a dfi to liczba dokumentów, w których wyst ˛epuje słowo i.

Daje to tzw.odwrotn ˛a cz ˛esto ´s ´c w dokumentach (IDF – inverse term frequency).

(25)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Potrzebujemy wi ˛ec sposobu, aby jako´s “wyró˙zni´c” te słowa, które faktycznie odnosz ˛a si ˛e do istotnej tre´sci.

Mo˙zna oczywi´scie dokona´c stopword reduction, czyli pozby´c si ˛e takic słów jaka, the, is... traktuj ˛ac je jako funkcyjne, ale to nie do ko ´nca jest

rozwi ˛azanie “systemowe”.

Mo˙zna oceni´c jak relatywnie wa˙zne jest słowo, w odniesieniu do innych dokumentów.

idfi=log M dfi



gdzie M to liczba dokumentów, które rozpatrujemy, a dfi to liczba dokumentów, w których wyst ˛epuje słowo i.

Daje to tzw.odwrotn ˛a cz ˛esto ´s ´c w dokumentach (IDF – inverse term frequency).

(26)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Potrzebujemy wi ˛ec sposobu, aby jako´s “wyró˙zni´c” te słowa, które faktycznie odnosz ˛a si ˛e do istotnej tre´sci.

Mo˙zna oczywi´scie dokona´c stopword reduction, czyli pozby´c si ˛e takic słów jaka, the, is... traktuj ˛ac je jako funkcyjne, ale to nie do ko ´nca jest

rozwi ˛azanie “systemowe”.

Mo˙zna oceni´c jak relatywnie wa˙zne jest słowo, w odniesieniu do innych dokumentów.

idfi=log M dfi



gdzie M to liczba dokumentów, które rozpatrujemy, a dfi to liczba dokumentów, w których wyst ˛epuje słowo i.

Daje to tzw.odwrotn ˛a cz ˛esto ´s ´c w dokumentach (IDF – inverse term frequency).

(27)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

Daje to nast ˛epuj ˛ acy efekt:

(28)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

czynnik IDF jest tym wi ˛ekszy im dany wyrazrzadziej wyst ˛epuje w całym zbiorze dokumentów

nie musi to jednak oznacza´c, ˙ze jest bardzo istotny dla tego konkretnego dokumentu – mo˙ze to by´c np. bł ˛ad lub jakie´s mało popularne, wyszukane słowo

potrzebny jest jeszcze czynnik, który odnosi si ˛e do cz ˛esto´sci wyst ˛epowania słowa w danym tek´scie, czylicz ˛esto ´s ´c termów

tfi,j= ni,j

P

knk ,j

gdzie ni.jto liczba wyst ˛apie ´n wyrazu i w dokumencie j razem daje to tzw.TF-IDF

(tf − idf)i,j=tfi,j× idfi

(29)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

I ko ´ncowo mamy:

(30)

Reprezentacja tekstu Statystyki tekstu Miary zło˙zono´sci Bag-of-words Vector Space Model Wa˙zenie termów

tak otrzymane warto´sci mog ˛a stanowi´c współrz ˛edne wektorów problem zwi ˛azany z zało˙zeniemniezale˙zno ´sci bazy – Generalized Vector Space Model

Cytaty

Powiązane dokumenty

Een baggerlepel met trillende beitel (slagbeitels) en een zuigmond bevestigd aan een graafarm waarbij continu op hydraulische wijze het zand/grind gewonnen wordt en het

Six variable property cases with di fferent relations for density and viscosity as a function of temperature were studied to analyse scaling of turbulent statistics and modulation

Singling out th e set of legal rules th a t govern relations in city planning from oth er fields of law will allow organizing them and identifying prom ising areas

To demonstrate the working of the designed process the concept is applied. Subject of the proof of concept is the implementation of Silver phase at Zoeterwoude

a) Pisząc tekst po każdym spójniku zamiast zwykłej spacji należy wstawić spację nierozdzielającą przy pomocy kombinacji klawiszy Ctrl Shift spacja. b) W

 zmiana języka klawiatury (najczęściej polski maszynisty na polski programisty ( m.in pod literą „z” pojawia się „y”) przytrzymując CTRL naciskam SHIFT i

Gazeta powinna z jednej strony zaatakować czytelnika (tytuły) a z drugiej przekazać treść w sposób konkretny oraz umożliwiający szybkie odczytanie.. W obu przypadkach przydatne

Waszym drugim zadaniem będzie przepisanie tekstu o Koziołku Matołku ćwicząc wyrównanie tekstu oraz stawianie cudzysłowia.