• Nie Znaleziono Wyników

Jak wspomniano, w wielu pracach dotyczących drążenia opinii, wprowadzane są pewne ograni-czenia w definicji problemu, który usiłuje się rozwiązać. Przykładowo, często usiłuje się jedynie przypisać pojedynczą wartość polarności do całego dokumentu tekstowego. Jednak zgodnie z defi-nicją podaną w sekcji 3.1, drążenie opinii ma na celu określenie szczegółowych opinii, wyrażanych o poszczególnych bytach i ich aspektach wspominanych w tekście. W tej sekcji skupimy się wła-śnie na pojęciu aspektu. Poniżej przedstawiona zostanie analiza definicji tego pojęcia oraz metod określania, o jakich aspektach danego bytu w tekście wyrażane są opinie.

3.2.1 Aspekt produktu - przegląd definicji

Jednoznaczne zdefiniowanie aspektu bytu jest zadaniem kłopotliwym i w wielu pracach nie wyja-śniono, jakie jest dokładne rozumienie tego pojęcia. W takich przypadkach, autorzy opierają się

1

na jego intuicyjnym rozumieniu. W literaturze anglojęzycznej zamiennie używa się dwóch słów w odniesieniu do aspektu: feature oraz aspect. W trakcie analizy literatury, zidentyfikowano liczne próby definicji tego pojęcia, gdzie jako aspekt rozumiano2:

• komponenty (np. obiektyw w aparacie fotograficznym), atrybuty (np. ciężar i wymiary) lub funkcje produktu [Chan i King 2009; Hu i Liu 2004a],

• atrybuty bądź komponenty produktu, do którego recenzenci odnoszą się w swoich opiniach [Liu, Hu i Cheng 2005; Sun i in. 2009],

• kolekcje (zazwyczaj niewielu) termów (czyli pojedynczych słów lub dłuższych sformuło-wań będących nośnikami znaczenia), mających podobne znaczenie w pewnym kontekście i charakteryzujących określony podtemat pewnej domeny, np. cechy produktu lub atrybuty usługi [Lu i in. 2011; Lu, Zhai i Sundaresan 2009; Wang, Lu i Zhai 2010],

• właściwości, części, cechy części, powiązane koncepty oraz właściwości powiązanych kon-ceptów bytu, gdzie przez powiązane koncepty rozumiane są koncepty istotne dla wrażeń podmiotu wyrażającego opinię o ocenianym bycie [Popescu i Etzioni 2005].

W pracy, jako aspekt bytu (w naszym przypadku dobra, czyli produktu lub usługi) będziemy rozumieć wszystko, co może wpływać na opinię innych podmiotów o tym bycie i co jest z nim bezpośrednio powiązane. Przykładowo, na opinię pewnej osoby o usłudze może wpłynąć jej zły nastrój; czynnik ten nie jest bezpośrednio powiązany z recenzowaną usługą, nie może więc być traktowany jako aspekt tej usługi. Opinia podmiotów o aspekcie może być odmienna od ich opinii o całym bycie lub o innych jego aspektach, jednak musi posiadać pewien wpływ na całościową ocenę bytu przynajmniej dla niektórych podmiotów oceniających dany byt. Dodatkowo, taki wpływ ceteris paribus (w tym przypadku, przy założeniu niezmienności oceny innych aspektów) nie może być odwrotny, tj. niemożliwa jest sytuacja, w której pozytywna ocena aspektu pogarsza całościową ocenę podmiotu o danym bycie.

Co istotne, w różnych systemach informatycznych, lista aspektów, które mogą podlegać ocenie przez recenzentów, może być różna. Związane jest z tym pojęcie konceptualizacji, czyli specyfi-kacji „warstwy pojęciowej tworzącej abstrakcyjny, uproszczony obraz świata” [Abramowicz 2008].

2

W części z prac cytowanych poniżej skupiano się na drążeniu opinii wyłącznie o produktach, w związku z czym aspekty były definiowane tylko w odniesieniu do produktów (pomijano w definicjach znaczenie tego słowa w kontekście usług).

Każda osoba może dokonywać innej konceptualizacji otaczającego ją fragmentu rzeczywistości [Abramowicz 2008]. Tym samym, w różnych systemach listy aspektów, które mogą być recenzowa-ne z wykorzystaniem różnych formatów wyrażania opinii i dla których mogą być przeprowadzarecenzowa-ne wnioskowania, mogą być inne.

Do każdego aspektu przypisana jest kolekcja termów, dla których dany aspekt jest desygna-tem. Poszczególne termy tworzące opisaną kolekcję będziemy określać jako nazwy aspektu. Opinie o aspektach w tekście mogą być wyrażane albo wprost, jeśli w tekście pojawia się słowo będące nazwą danego aspektu lub też pośrednio, jeśli nazwa się nie pojawia, jednak możliwe jest wywnioskowanie, że dany aspekt podlega ocenie na podstawie innych słów pojawiających się w tekście [Liu, Hu i Cheng 2005; Popescu i Etzioni 2005]. Przykładowo, słowa ciężki i duży nie są nazwami aspektów, lecz mogą być ich ocenami (w tym przypadku przykładowo takich aspektów jak waga i rozmiar ). Jeśli słowa te wystąpią w tekście, aspekty, do których się odnoszą, mogą być łatwo rozpoznane przez czytelnika.

Dla danego podmiotu, różne aspekty mają różny wpływ na całościową ocenę bytu. Inaczej mówiąc, niektóre aspekty mogą być dla tego podmiotu ważniejsze niż inne. Przykładowo, dla wielu konsumentów, w ocenie telefonu komórkowego ważniejsza będzie wytrzymałość baterii niż fakt wyposażenia go w czujnik wilgoci [Yu i in. 2011], jednak nie należy oczekiwać, że zależność ta będzie prawdziwa dla wszystkich bez wyjątku konsumentów.

Aspekty mogą pozostawać względem siebie w relacji hierarchicznej. Przykładowo, produkt laptop może posiadać aspekt bateria, który z kolei może być uszczegóławiany przez takie aspekty, jak rozmiar baterii, waga baterii, pojemność baterii itd. [Liu, Hu i Cheng 2005]. Z tego powodu może okazać się, że system podsumowujący opinie pokazuje użytkownikowi oceny na zbyt mało szczegółowym poziomie. Przykładowo, często ocenianym w recenzjach restauracji aspektem jest jedzenie, jednak prosta polarność oceny tego aspektu nie mówi nic o tym, z jakiego punktu widze-nia został on oceniony. Przykładowo, czy brany był pod uwagę jedynie smak dawidze-nia, temperatura podania, czy może także jego wpływ na zdrowie konsumentów itp. [Lu, Zhai i Sundaresan 2009]. Kolekcję dóbr, które mogą być opisane za pomocą tej samej kolekcji aspektów, będziemy nazywać kategorią dóbr. Takie kategorie to np. restauracje czy telefony komórkowe. Również tutaj możliwe byłoby wskazanie istnienia hierarchii kategorii bytów, jednak dla potrzeb pracy nie jest konieczne głębsze analizowanie tego zagadnienia.

3.2.2 Leksykony nazw aspektów

Aby przeprowadzić analizę wydźwięku z uwzględnieniem opinii o poszczególnych aspektach bytów, konieczne jest posiadanie zasobu wiedzy o tym, jakie aspekty dany byt może posiadać oraz jakie są ich nazwy.

Aspekty bytów oraz nazwy, jakie można tym aspektom przypisać, dla danej kategorii mogą być określone przez eksperta na podstawie znajomości domeny lub przeprowadzonej analizy korpusu tekstów (jak np. w pracach [Lula i Wójcik 2011; Taboada i in. 2011]). Należy jednak pamiętać, że dla każdej kategorii taka lista może być inna (np. inne aspekty będą miały kategorie telefonów komórkowych i restauracji), co znacząco zwiększa nakład pracy eksperta.

Identyfikację aspektów i ich nazw można również przeprowadzać automatycznie na podstawie analizy korpusu recenzji. Zadanie to jest podobne do ekstrakcji słów kluczowych specyficznych dla danej domeny. Problem ten porusza m.in. praca [Frank i in. 1999]. Podstawową informacją, wykorzystywaną przez takie metody, jest informacja o częściach mowy dla poszczególnych słów w tekście ze względu na fakt, że nazwami aspektów zazwyczaj są rzeczowniki [Hu i Liu 2004a]. Słowa wykorzystywane w recenzjach i będące rzeczownikami są więc naturalnymi kandydatami na nazwy aspektów.

Wybór rzeczowników faktycznie będących nazwami aspektów i odfiltrowywanie słów niewła-ściwych często odbywa się na drodze statystycznej analizy korpusu. W pracy [Scaffidi i in. 2007] analizuje się częstość występowania poszczególnych rzeczowników w korpusie recenzji bytów z danej kategorii oraz w drugim korpusie, zawierającym dokumenty na różnorodne tematy (tzw. korpus generyczny). Wyrazy, które zdecydowanie częściej pojawiają się w korpusie recenzji niż w korpusie generycznym, są prawdopodobnie istotne dla danej kategorii produktów, stąd istnieje prawdopodobieństwo, że są nazwami aspektów.

Inny, heurystyczny rodzaj podejścia do identyfikacji nazw aspektów zaproponowano w pracach [Hu i Liu 2004a,b]. Heurystyka działała w ten sposób, że jako nazwy aspektów identyfikowano te rzeczowniki, w pobliżu których pojawiały się znane systemowi sformułowania służące do wy-rażania opinii. Przykładowo, jeśli w recenzji aparatu fotograficznego pojawiło się sformułowanie zdjęcia są fantastyczne, a wyraz fantastyczne jest znanym sformułowaniem służącym do wyra-żania opinii, możliwe jest automatyczne wywnioskowanie, że zdjęcia są nazwą pewnego aspektu aparatu.

Warto wspomnieć również o podejściach wykorzystujących gotową, predefiniowaną taksono-mię aspektów konkretnego bytu, które następnie usiłują automatycznie poszerzyć ją o inne nazwy

znanych już aspektów, z wykorzystaniem różnego rodzaju zasobów leksykalnych [Carenini, Ng i Zwart 2005; Liu, Hu i Cheng 2005].

Podsumowując, analiza tekstu w celu identyfikacji aspektów, których dany tekst dotyczy, wymaga wykorzystania odpowiednich zasobów dotyczących aspektów i ich nazw. Zasoby te mogą być przygotowane manualnie, jednak istnieją również prace z zakresu automatyzacji tego procesu.