7pa´zdziernika2019 drin˙z.JulianSienkiewicz Wykład1-sprawyorganizacyjne,wst˛ep,przykłady EksploracjaTekstuiAnalizaDanychOn-line

35  Download (0)

Pełen tekst

(1)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Eksploracja Tekstu i Analiza Danych On-line

Wykład 1 - sprawy organizacyjne, wst ˛ep, przykłady

dr in˙z. Julian Sienkiewicz

7 pa´zdziernika 2019

(2)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Kontakt, organizacja przedmiotu

Kontakt

dr in˙z. Julian Sienkiewicz

Pracownia Fizyki w Ekonomii i Naukach Społecznych Gmach Matematyki, pokój 529

tel. 22 234 5808, email: julian.sienkiewicz@pw.edu.pl WWW: www.fizyka.pw.edu.pl/~julas/TEXT

Organizacja przedmiotu

wykład 15h (pierwsza połowa semestru), laboratorium 30h,

2 grupy laboratorium: 10

15

-11

45

oraz 16

15

-17

45

, wykład: ogólny opis,

laboratorium: konkretne przykłady w pakiecie R

(3)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Kontakt, organizacja przedmiotu

Kontakt

dr in˙z. Julian Sienkiewicz

Pracownia Fizyki w Ekonomii i Naukach Społecznych Gmach Matematyki, pokój 529

tel. 22 234 5808, email: julian.sienkiewicz@pw.edu.pl WWW: www.fizyka.pw.edu.pl/~julas/TEXT

Organizacja przedmiotu

wykład 15h (pierwsza połowa semestru), laboratorium 30h,

2 grupy laboratorium: 10

15

-11

45

oraz 16

15

-17

45

, wykład: ogólny opis,

laboratorium: konkretne przykłady w pakiecie R

(4)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Kontakt, organizacja przedmiotu

Zasady zaliczania przedmiotu wykład:

kolokwium na ostatnich zaj ˛eciach (18 listopada), 20 punktów do zdobycia,

dwadzie´scia pyta ´n zamkni ˛etych (test wyboru) po 0.5 pkt ka˙zde + 4 pytania otwarte po 2.5 pkt. ka˙zde,

przykładowe kolokwium na stronie najpo´zniej 4 listopada

laboratorium:

13 zaj ˛e´c + zaj ˛ecia organizacyjne + wst ˛ep do R, 8 punktowanych zada ´n po max. 10 punktów =80 pkt, brak kolokwium

na ocen ˛e składa si ˛e suma punktów z wykładu i lab.

standardowa skala: 51-60 dst, 61-70 dst+, 71-80 db, 81-90 db+, 91-100 bdb

brak warunków koniecznych uzyskania co najmniej połowy

dost ˛epnych punktów z wykładu lub laboratorium

(5)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Literatura

Brakuje konkretnej literatury w j ˛ezyku polskim

D. Spinczyk, M. Dzieci ˛atko, Text mining. Metody, narz ˛edzia, zastosowania, PWN (2016),

Polecam równie˙z poni˙zsze pozycje w j ˛ez. angielskim:

Ch. Aggarwal, Ch-X Zhai, C. O’Neil Mining Text Data, Springer (2012).

D. Robinson, J. Silge, Text Mining with R, O’Reilly (2017)

(6)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Text mining wg Wikipedii (ang.)

Text mining, also referred to as text data mining, roughly equivalent to text analytics, is the process of deriving high-quality information from text.

Text mining wg Wikipedii (pol.)

Text mining (eksploracja tekstu) — ogólna nazwa metod eksploracji danych słu˙z ˛acych do wydobywania danych z tekstu i ich pó´zniejszej obróbki.

Text mining wg Marti Hearst

Another way to view text data mining is as a process of exploratory data analysis that leads to heretofore unknown information, or to answers for questions for which the answer is not currently known.

[Grafika pobrana z: https://www.ischool.

berkeley.edu]

(7)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Text mining wg Wikipedii (ang.)

Text mining, also referred to as text data mining, roughly equivalent to text analytics, is the process of deriving high-quality information from text.

Text mining wg Wikipedii (pol.)

Text mining (eksploracja tekstu) — ogólna nazwa metod eksploracji danych słu˙z ˛acych do wydobywania danych z tekstu i ich pó´zniejszej obróbki.

Text mining wg Marti Hearst

Another way to view text data mining is as a process of exploratory data analysis that leads to heretofore unknown information, or to answers for questions for which the answer is not currently known.

[Grafika pobrana z: https://www.ischool.

berkeley.edu]

(8)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Text mining wg Wikipedii (ang.)

Text mining, also referred to as text data mining, roughly equivalent to text analytics, is the process of deriving high-quality information from text.

Text mining wg Wikipedii (pol.)

Text mining (eksploracja tekstu) — ogólna nazwa metod eksploracji danych słu˙z ˛acych do wydobywania danych z tekstu i ich pó´zniejszej obróbki.

Text mining wg Marti Hearst

Another way to view text data mining is as a process of exploratory data analysis that leads to heretofore unknown information, or to answers for questions for which the answer is not currently known.

[Grafika pobrana z:

https://www.ischool.

berkeley.edu]

(9)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Po co text mining?

Z drugiej strony, warto zada´c sobie pytaniepo co potrzebujemy eksploracji tekstu? lub jakie jest zadanie eksploracji tekstu?. Ogóln ˛a odpowiedzi ˛a jest oczywi´scie:aby (w automatyczny sposób) zrozumie ´c zawarto ´s ´c danego tekstu...

Po co text mining?

... niestety to zało˙zenie wydaje si ˛e by´c zbyt trudne. Dlatego skupiamy si ˛e raczej pomniejszych zdaniach.

(10)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Po co text mining?

Z drugiej strony, warto zada´c sobie pytaniepo co potrzebujemy eksploracji tekstu? lub jakie jest zadanie eksploracji tekstu?. Ogóln ˛a odpowiedzi ˛a jest oczywi´scie:aby (w automatyczny sposób) zrozumie ´c zawarto ´s ´c danego tekstu...

Po co text mining?

... niestety to zało˙zenie wydaje si ˛e by´c zbyt trudne. Dlatego skupiamy si ˛e raczej pomniejszych zdaniach.

(11)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Dlaczego analiza tekstu jest trudna?

Ci ˛e˙zko jest odda´c abstrakcyjne poj ˛ecia w postaci innych, dobrze zdefiniowanych poj ˛e´c

Time flies like an

arrow.

Niezliczone kombinacje subtelnych i abstrakcyjnych relacji pomi ˛edzy pojeciami

Wiele sposobów opisywania tych samych poj ˛e´c

Wysoka wymiarowo´s´c problemu

Bardzo wiele cech (features)

(12)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Dlaczego analiza tekstu jest trudna?

Ci ˛e˙zko jest odda´c abstrakcyjne poj ˛ecia w postaci innych, dobrze zdefiniowanych poj ˛e´c

Time flies like an

arrow.

Niezliczone kombinacje subtelnych i abstrakcyjnych relacji pomi ˛edzy pojeciami

Wiele sposobów opisywania tych samych poj ˛e´c

Wysoka wymiarowo´s´c problemu

Bardzo wiele cech (features)

(13)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Dlaczego analiza tekstu jest trudna?

Ci ˛e˙zko jest odda´c abstrakcyjne poj ˛ecia w postaci innych, dobrze zdefiniowanych poj ˛e´c

Time flies like an

arrow.

Niezliczone kombinacje subtelnych i abstrakcyjnych relacji pomi ˛edzy pojeciami

Wiele sposobów opisywania tych samych poj ˛e´c

Wysoka wymiarowo´s´c problemu

Bardzo wiele cech (features)

(14)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Dlaczego analiza tekstu jest trudna?

Ci ˛e˙zko jest odda´c abstrakcyjne poj ˛ecia w postaci innych, dobrze zdefiniowanych poj ˛e´c

Time flies like an

arrow.

Niezliczone kombinacje subtelnych i abstrakcyjnych relacji pomi ˛edzy pojeciami

Wiele sposobów opisywania tych samych poj ˛e´c

Wysoka wymiarowo´s´c problemu

Bardzo wiele cech (features)

(15)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Dlaczego analiza tekstu jest trudna?

Ci ˛e˙zko jest odda´c abstrakcyjne poj ˛ecia w postaci innych, dobrze zdefiniowanych poj ˛e´c

Time flies like an

arrow.

Niezliczone kombinacje subtelnych i abstrakcyjnych relacji pomi ˛edzy pojeciami

Wiele sposobów opisywania tych samych poj ˛e´c

Wysoka wymiarowo´s´c problemu

Bardzo wiele cech (features)

(16)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Dlaczego analiza tekstu mo˙ze by´c łatwa?

W tek´scie zwykle jest spora ilo´sc nadmiarowych lub powtarzaj ˛acych si ˛e informacji.

W zasadzie wi ˛ekszo´s´c prostych algorytmów mo˙ze osi ˛agn ˛a´c całkiem dobre wyniki przy wykonywaniu w nast ˛epuj ˛acych nieskomplikowanych zada ´n:

wydob ˛ad´z “istotne” wyra˙zenia, znajd´z istotnie powi ˛azane słowa,

stwórz pewnego rodzaju podsumowanie dokumentów

(17)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Dlaczego analiza tekstu mo˙ze by´c łatwa?

W tek´scie zwykle jest spora ilo´sc nadmiarowych lub powtarzaj ˛acych si ˛e informacji.

W zasadzie wi ˛ekszo´s´c prostych algorytmów mo˙ze osi ˛agn ˛a´c całkiem dobre wyniki przy wykonywaniu w nast ˛epuj ˛acych nieskomplikowanych zada ´n:

wydob ˛ad´z “istotne” wyra˙zenia, znajd´z istotnie powi ˛azane słowa,

stwórz pewnego rodzaju podsumowanie dokumentów

(18)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Dlaczego analiza tekstu mo˙ze by´c łatwa?

W tek´scie zwykle jest spora ilo´sc nadmiarowych lub powtarzaj ˛acych si ˛e informacji.

W zasadzie wi ˛ekszo´s´c prostych algorytmów mo˙ze osi ˛agn ˛a´c całkiem dobre wyniki przy wykonywaniu w nast ˛epuj ˛acych nieskomplikowanych zada ´n:

wydob ˛ad´z “istotne” wyra˙zenia, znajd´z istotnie powi ˛azane słowa,

stwórz pewnego rodzaju podsumowanie dokumentów

(19)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Mo˙zna równie˙z próbowa´c zilustrowa´c powi ˛ azania pomi ˛edzy

eksploracj ˛ a tekstu a innymi dziedzinami:

(20)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Mo˙zna równie˙z próbowa´c zilustrowa´c powi ˛ azania pomi ˛edzy

eksploracj ˛ a tekstu a innymi dziedzinami:

(21)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Przykłady: analiza sentymentu – wybory

(22)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Przykłady: podsumowywanie dokumentów

(23)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Przykłady: systemy rekomenduj ˛ ace

(24)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Przykłady: analiza tekstu w serwisach finansowych

(25)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Przykłady: analiza danych medycznych

(26)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

Ogólny plan wykładu

1 reprezentacja tekstu

2 prawo Zipfa

3 przetwarzanie j ˛ezyka naturalnego (NLP)

4 analiza sentymentu

5 topic modeling

6 analiza mediów społeczno´sciowych

(27)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

2

Reprezentacja tekstu...

[http://bitsearch.blogspot.com/2011/01/vector-space-model-for-scoring.html]

(28)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

3

Prawo Zipfa i pokrewne...

[Altmann, Gerlach, Statistical laws in Lingustics, Creativity and Universality in Language, Springer (2017)]

(29)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

4

przetwarzanie j ˛ezyka naturalnego (NLP)

[Hirschberg, Manning, Advances in natural language processing, Science 349, 261 (2015)]

(30)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

5

Analiza sentymentu

[Blei, Probabilistic topic models, Communications of the ACM 55 (4), Apr 2012]

(31)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

5

Analiza sentymentu: klasyfikatory słownikowe vs uczenie pod nadzorem

[https://www.slideshare.net/jchoi7s/cs571-sentiment- analysis]

[https://medium.com/nlpython/sentiment-analysis- analysis-part-2-support-vector-machines-31f78baeee09]

(32)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

6

Topic modelling

[Blei, Probabilistic topic models, Communications of the ACM 55 (4), Apr 2012]

(33)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

6

Topic modelling

[Gerlach, Peixoto, Atlmann, A network approach to topic models, Science Advances (2018)]

(34)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

7

Analiza mediów społeczno´sciowych

[Bovet, Morone, Makse, Validation of Twitter opinion trends with national polling aggregates: Hillary Clinton vs Donald Trump, Scientific Reports (2018)]

(35)

Sprawy organizacyjne Czym jest ‘text mining’? Przykłady text mining wokół nas Ogólny plan wykładu

7

Analiza mediów społeczno´sciowych

[Bovet, Morone, Makse, Validation of Twitter opinion trends with national polling aggregates: Hillary Clinton vs Donald Trump, Scientific Reports (2018)]

Obraz

Updating...

Cytaty

Powiązane tematy :