• Nie Znaleziono Wyników

Rozwiązania komercyjne dotyczące analizy wydźwięku dla języka polskiego 68

3.5 Drążenie opinii w tekstach w języku polskim

3.5.3 Rozwiązania komercyjne dotyczące analizy wydźwięku dla języka polskiego 68

Warto w tym miejscu przeanalizować również ofertę komercyjnych podmiotów zajmujących się zagadnieniami związanymi z drążeniem opinii. Firmy te świadczą przede wszystkim usługi mo-nitorowania reputacji marki w Internecie (z uwzględnieniem momo-nitorowania serwisów społeczno-ściowych). Ciekawą publikacją ukazującą stan zaawansowania systemów proponowanych przez te firmy na rok 2011 jest raport „Emotrack: Marki RTV w wypowiedziach internautów”, opubli-kowany przez firmy Think Kong i Zetema10. Poddano w nim analizie wypowiedzi internautów pochodzące z prawie 6000 serwisów internetowych marek i produktów z branży RTV. Badania miały na celu określenie:

• opinii o markach RTV oferujących szeroką gamę produktów (dla ośmiu wybranych marek), • opinii o produktach,

• uniwersalnych aspektów ocenianych w domenie urządzeń RTV,

10

• opinii o rozpoznanych aspektach.

W trakcie badań wykorzystywano odpowiednio skonstruowane słowniki, wzorce ekstrakcji oraz analizę składniową. Niestety, metody te nie zostały dokładnie opisane, nie opublikowano również oceny poprawności ich działania. Dostępne są natomiast wyniki analizy wydźwięku, dzięki którym można poznać to, w jaki sposób w polskim Internecie oceniane są poszczególne marki, produkty i ich aspekty.

3.6 Zidentyfikowane braki w istniejących metodach

Z zaprezentowanej analizy literatury wynika, że zagadnieniu drążenia opinii poświęcono już wiele badań. Jednocześnie, wskazuje się na liczne wyzwania stojące przed dziedziną. Wynikają one m.in. z bogactwa języka, w którym pisane są recenzje. Spośród tych trudności warto wymienić:

• przetwarzanie pytań oraz zdań warunkowych – tego typu zdania w wielu przypadkach nie zawierają opinii nawet wówczas, gdy znajdują się w nich słowa zazwyczaj wyrażające opinie. Przykładowo, pytanie „Czy ktoś zna dobrą kamerę firmy XYZ” nie wyraża żadnej opinii, pomimo tego, że występuje w nim słowo „dobrą”. Z drugiej strony, w pytaniu „Czy ktoś mógłby mi powiedzieć, dlaczego ten aparat wciąż się psuje?” zawiera negatywną opinię o produkcie. Właściwe rozróżnienie takich przypadków bywa bardzo kłopotliwe [Liu 2011], • wielowyrazowe sformułowania wyrażające opinię nie wprost, gdzie nie pojawiają się ani

słowa wyrażające opinię, ani odnoszące się wprost do aspektu [Hu i Liu 2004a]; przykładowo, sformułowanie Telefon nie mieści się łatwo w kieszeni odnosi się do rozmiaru (lub też kształtu) telefonu w negatywny sposób, jednak automatycznie wywnioskowanie tego faktu ciągle pozostaje znaczącym wyzwaniem [Moghaddam i Ester 2012],

• recenzje porównujące – w wielu recenzjach mogą pojawić się odniesienia do konkurencyjnych produktów. W tym przypadku odróżnienie tego, które sformułowania odnoszą się do któ-rego produktu wymaga bardzo głębokiego zrozumienia wypowiedzi. Przykładem trudności związanych z tym zagadnieniem jest interpretacja zaimków (tzw. problem ujednoznacznia-nia koreferencji, ang. coreference resolution), [Liu 2011] (przykładowo ”Telefon A jest lżejszy od B, natomiast nieco gorzej od niego wygląda”),

• sarkazm – w recenzjach nieraz można natknąć się sarkazm czy ironię, których występowanie zazwyczaj odwraca znaczenie poszczególnych słów występujących w tekście (przykładowo

w zdaniu „Co za świetny aparat, zepsuł się tydzień po zakupie”) [Chaovalit i Zhou 2005; Liu 2011],

• uczenie maszynowe z wykorzystaniem nadzorowania odległego – w wielu przypadkach, za-łożenia dotyczące posiadania dwóch kolekcji, w których wyrażone zostały te same opinie, nie jest spełnione. Dokładniej ten problem zostanie opisany w sekcji 4.1.

3.7 Podsumowanie

W rozdziale zaprezentowano wyniki analizy literatury z zakresu wybranych zagadnień związa-nych z drążeniem opinii. W rozdziale poświęcono uwagę metodom analizy wydźwięku, określaniu aspektów ocenianych w recenzjach oraz metodom konstrukcji leksykonów sformułowań służących do wyrażania opinii. Następnie w sekcji 3.5 przeanalizowano stan rozwoju drążenia opinii w tek-stach w języku polskim, na końcu zaś przedstawiono zidentyfikowane trudności, jakie wciąż stoją przed dziedziną analizy wydźwięku.

Z przedstawionej analizy wynika, że zagadnieniu drążenia opinii w tekstach angielskojęzycz-nych poświęcono już wiele badań. Jednocześnie, badania dla języka polskiego są na znacznie wcześniejszym stadium zaawansowania. Niezależnie jednak od języka, istnieje wciąż wiele nieroz-wiązanych problemów, które utrudniają przeprowadzanie drążenia opinii.

Rozdział 4

Wykorzystanie podsumowań opinii

o produktach i usługach do identyfikacji

polarności – zarys podejścia

Celem rozdziału jest zaprezentowanie koncepcji autorskiej metody nauki polarności sformułowań wykorzystywanych przez recenzentów do oceny różnych aspektów produktów i usług. Koncepcja ta łączy obserwacje poczynione w trakcie analizy literatury i analizy dziedziny recenzji konsu-menckich, wyniki których zostały zawarte w poprzednich dwóch rozdziałach pracy. Głównymi źródłami inspiracji przy formułowaniu koncepcji była analiza różnych sposobów wyrażania opi-nii oraz identyfikacja problemów związanych z automatycznym przypisywaniem polarności do sformułowań wyrażających opinie.

W rozdziale wyjaśnione zostanie obrane podejście, zaprezentowane zostaną wybrane warian-ty metody (zależne od danych, na których metoda ma działać oraz scenariuszy wykorzystania), a następnie sformułowane zostaną przyjęte założenia dla metody. Należy zaznaczyć, że w tym rozdziale skupiono się wyłącznie na metodzie bezpośrednio powiązanej z tezą pracy i pominięto szerszy kontekst innych etapów przetwarzania, które konieczne są do umożliwienia przeprowa-dzenia identyfikacji polarności analizy wydźwięku. Szerszy opis metody, uzupełniający obszary pominięte w tym rozdziale, zostanie przedstawiony w rozdziale 6.

Obszerne fragmenty niniejszego rozdziału opublikowano w artykułach [Bernatowicz i Małyszko 2014; Małyszko 2013; Małyszko i Filipowska 2013].

4.1 Nadzorowanie odległe a identyfikacja polarności – problem

z założeniami

Wiele z podejść opisanych w rozdziale 3 można zaliczyć do nurtu nadzorowania odległego, opisane-go w sekcji 3.4.4. Podejście to wymaga spełnienia przez posiadany korpus pewnych specyficznych założeń, które warto przytoczyć i przeanalizować.

Jak wspomniano, w nadzorowaniu odległym konieczne jest dysponowania dwiema kolekcjami: niestrukturyzowaną oraz strukturyzowaną, traktowaną jako opis tej pierwszej. Przykładami takich kolekcji są:

• w pracy [Rill i in. 2012] na kolekcję niestrukturyzowaną składały się tytuły recenzji nada-wane przez ich autorów, natomiast kolekcją strukturyzowaną, służącą do opisu niestruktu-ryzowanej, były przypisane przez recenzentów oceny punktowe,

• w artykule [Higashinaka, Prasad i Walker 2006] wykorzystano korpus, w którym do każdej recenzji tekstowej przypisanych jest kilka ocen punktowych, odpowiadających zdefiniowa-nym aspektom produktu; kolekcja strukturyzowana składa się z ocen punktowych przypi-sanych do danej recenzji,

• w pracach [Broß 2013; Kaji i Kitsuregawa 2007] wykorzystywano kolekcję list zalet i wad, gdzie poszczególne zalety i wady miały postać dowolnych wypowiedzi tekstowych wyraża-nych przez recenzentów; te wypowiedzi były traktowane jako kolekcja niestrukturyzowana, natomiast kolekcją strukturyzowaną były informacje o tym, czy dana wypowiedź znalazła się na liście zalet czy na liście wad.

W każdym z opisanych podejść konieczne jest, aby opinia została wyrażona przez tego sa-mego recenzenta i w tym samym momencie na więcej niż jeden sposób – wówczas możliwe jest równoczesne przetwarzanie obu kolekcji w celu przeprowadzenia, przykładowo, nauki polarności sformułowań użytych w kolekcji niestrukturyzowanej. Nie zawsze jednak dysponujemy takimi da-nymi. W wielu przypadkach, opinie wyrażane są tylko na jeden sposób, przykładowo tylko za pomocą ocen punktowych (np. oceny filmów nadawane przez użytkowników portalu filmweb.pl) lub tylko w postaci wypowiedzi tekstowej (np. opinie wygłaszane w wypowiedziach zamieszcza-nych na portalach społecznościowych). Dodatkowo, nawet wówczas, gdy dysponujemy takimi dwiema kolekcjami (strukturyzowaną i niestrukturyzowaną, gdzie w obu kolekcjach posiadamy

opinie wyrażone przez tych samych recenzentów), kolekcje te mogą być niekompletne. Przykład takiej sytuacji opisany zostanie w sekcji 4.3.2.

Celem proponowanej metody jest zniesienie wspomnianych powyżej ograniczeń stosowania nadzorowania odległego. Poniżej wyjaśniono sposób, w jaki proponowane rozwiązanie ma to osią-gnąć.