• Nie Znaleziono Wyników

5.4 Eksperyment 2. Badanie spójności opinii wielu recenzentów

5.4.2 Miary odległości między podsumowaniami

W celu przeprowadzenia operacji opisanych w poprzedniej sekcji, konieczne jest wypracowanie miary odległości pomiędzy podsumowaniami. W trakcie prac przygotowano kilka miar, za pomocą których porównywano podobieństwa, a następnie analizowano uzyskane za ich pomocą wyniki. Zastosowano następujące oznaczenia:

• X oraz Y to zbiory podsumowań recenzji, gdzie w każdym zbiorze znajduje się dokładnie jedno podsumowanie opinii o danym produkcie, wygenerowane na podstawie innych recenzji, niż podsumowanie opinii o tym produkcie znajdujące się w drugim zbiorze,

• d(si,X, sj,Y) to odległość pomiędzy podsumowaniem recenzji i-tego produktu pochodzącym ze zbioru X a podsumowaniem recenzji produktu j-tego pochodzącym z zbioru Y ,

• A to zbiór wszystkich aspektów, na temat których recenzenci się wypowiadali oceniając dany produkt lub usługę,

• pi,a,o to liczba pozytywnych, a ni,a,o negatywnych ocen, jakie zostały nadane aspektowi a,

należącemu do produktu i w recenzjach należących do zbioru o (o ∈ {X, Y }),

• ri,j,X,Y to maksymalna liczba opinii nadanych dowolnemu aspektowi spośród podsumowań

si,X oraz sj,Y.

Jak wspomniano, przygotowano kilka miar, za pomocą których przeprowadzono eksperymenty opisane w poprzedniej sekcji. Ostatecznie zdecydowano się na miarę zaprezentowaną w formule 5.4.

d(si,X,sj,Y)=X

a∈A

|(pi,a,X− pj,a,Y)| + |(ni,a,X− nj,a,Y)|

2 ∗ ri,j,X,Y

Miara ta została wypracowana przez autora pracy i wybrana ze względu na fakt, że pozwala na otrzymanie znormalizowanego wyniku niezależne od liczby recenzji nadanej danemu produktowi czy usłudze. Dla każdego aspektu, oblicza się różnice pomiędzy liczbą recenzji, w których dany aspekt został uznany jako zaleta w obu zbiorach (X i Y ) oraz jako wada. Wartości bezwzględne otrzymanych różnic podlegają sumowaniu, którego rezultat dzieli się przez maksymalną liczbę opinii nadanych aspektowi w analizowanych podsumowaniach, co poddaje otrzymają wartość normalizacji. Następnie, sumuje się wyniki opisanego działania dla wszystkich analizowanych aspektów.

Dla zobrazowania działania omówionej formuły, warto zamieścić przykład jej działania na da-nych zawartych w tabeli 5.3. Składnik funkcji podobieństwa dla aspektu „wytrzymałość” zostałby obliczony w następujący sposób:

|(pi,a,X− pj,a,Y)| + |(ni,a,X− nj,a,Y)|

2r = |(12 − 22)| + |(71 − 56)| 2 ∗ 102 = 25 204 = 0, 1225 (5.5) dla: • i = Samsung U700, • a = wytrzymałość.

Współczynnik ri,j,X,Y ma wartość 102, ponieważ maksymalna liczba opinii nadanych dowolne-mu aspektowi wśród analizowanych podsumowań to 99 + 3 dla aspektu waga w Podsumowaniu 1. Aby uzyskać ostateczną odległość pomiędzy podsumowaniami, analogiczną operację należałoby następnie przeprowadzić dla wszystkich aspektów, a uzyskane wartości zsumować.

5.4.3 Procedura eksperymentu i uzyskane wyniki

Opisywany eksperyment nie wymagał przeprowadzania ręcznej adnotacji, w związku z czym prze-prowadzany był na całym dostępnym korpusie recenzji (nie przeprowadzano losowania). Na po-czątku wygenerowano tablice odległości (o strukturze analogicznej do tabeli 5.4) z wykorzysta-niem przyjętej miary odległości i na posiadanym zestawie danych, składającym się z podsumowań 1529 produktów (w sumie 3058 podsumowań w dwóch zbiorach X i Y ). Taką liczbę produktów uzyskano po odrzuceniu produktów posiadających tylko jedną recenzję (gdyż wtedy nie było możliwe podzielenie zbioru recenzji danego produktu na dwie części zawierające recenzje). Eks-peryment przeprowadzono z wykorzystaniem skryptu przygotowanego w języku programowania Python.

Test istotności dla dwóch średnich

Pierwsze z badań polegało na przeprowadzeniu statystycznego testu istotności dla dwóch średnich, odpowiadających dwóm populacjom, gdzie na populację pierwszą składały się wartości odległości d(siX, sjY) dla i = j (ich średnią będziemy oznaczać jako µ1), zaś na populację drugą wartości d(siX, sjY) dla i 6= j (średnią oznaczamy jako µ2). Przyjęto następujące hipotezy:

• H0 : µ1 = µ2 (średnie dla obu populacji są sobie równe),

• H1 : µ1 < µ2 (średnia dla i = j jest niższa niż dla pozostałych przypadków).

Ze względu na dużą liczbę obserwacji (odległości dla i = j było 1529, zaś pozostałych odle-głości dla różnych wartości i i j 2336312, tj. są to wszystkie wartości z macierzy o rozmiarze 1529 na 1529 bez wartości na przekątnej tej macierzy), uzasadnione było wykorzystanie odchyleń stan-dardowych z prób jako szacunkowych wartości odchyleń stanstan-dardowych populacji oraz statystyki U do jej weryfikacji1: U = rdi=j − di6=j s2 i=j ni=j + s 2 i6=j ni6=j (5.6) gdzie:

• di=j to średnia odległości, gdy i = j, zaś di6=j to średnia odległości, gdy i 6= j, • si=j i si6=j to odchylenia standardowe wartości d dla i = j i i 6= j,

• ni=j i ni6=j to liczebności odpowiednich zbiorów.

Jako poziom istotności w teście przyjęto wartość α = 0.01. W związku z tak postawionymi hipotezami oraz przyjętym poziomem istotności, jako wartość krytyczną przyjęto -2,326 (kwan-tyl rzędu 0,01 rozkładu normalnego N (0, 1)), zaś obszarem odrzucenia jest przedział liczbowy (−∞; −2, 326].

Dla miary przedstawionej w formule 5.4, średnią odległością pomiędzy podsumowaniami tych samych produktów (dla i = j) było 2,186 (przy odchyleniu standardowym 1,613), natomiast pomiędzy podsumowaniami różnych produktów było to 3,297 (odchylenie standardowe 1,04). W przeprowadzonym teście uzyskano wartość statystyki U na poziomie -26,673, co przy przyjętej wartości krytycznej (-2,326) spowodowało odrzucenie hipotezy zerowej na korzyść hipotezy, że

średnia odległość pomiędzy podsumowaniami tych samych produktów (wygenerowanych na pod-stawie różnych recenzji) jest mniejsza niż pomiędzy podsumowaniami produktów różnych.

2 4 6 8 10 -7 -6 -5 -4 -3 -2 LiczbaUrecenzjiUproduktów warto ść UstatystykiUU WartośćUU WartośćUkrytycznaUdlaUalfaU=U0.01 WartośćUkrytycznaUdlaUalfaU=U0.05

Rysunek 5.3: Wartości statystyki U w testach istotności dla dwóch średnich przy różnych po-pulacjach produktów o niewielkiej liczbie recenzji. Źródło: opracowanie własne

Dodatkowo, przeprowadzono analogiczne badania dla podsumowań wygenerowanych na pod-stawie niewielkiej liczby recenzji. Miały on wskazać, czy w przypadku takich podsumowań wystę-pować będzie podobieństwo pomiędzy podsumowaniami tych samych produktów. Istniało tutaj bowiem ryzyko, że w przypadku niewielkiej liczby recenzji, subiektywne opinie różnych recen-zentów mogą mieć zbyt duży wpływ na otrzymane podsumowania. Mogłoby to spowodować, że podsumowania tych samych produktów nie będą do siebie podobne.

Aby przeanalizować opisane zagadnienie, przeprowadzono testy dla produktów o liczbach re-cenzji od 2 do 10 (tj. przeprowadzono test dla produktów o liczbie rere-cenzji 2, następnie dla produktów o liczbie recenzji 3 itd.). W każdym z przypadków, liczba takich podsumowań

prze-kraczała 30, co pozwalało na traktowanie odchyleń standardowych z prób jako szacunkowych wartości odchyleń standardowych populacji i korzystanie ze statystyki U . Warto zwrócić uwa-gę na fakt, że dla produktów o liczbie recenzji równej 2 oba podsumowania były generowane na podstawie tylko pojedynczych recenzji (czyli de facto były identyczne z tymi pojedynczymi recenzjami).

Otrzymane wyniki zaprezentowano na rysunku 5.3. Przedstawia on, jak zmieniała się wartość statystyki U dla produktów o różnej liczebności recenzji. Najważniejszymi wnioskami z przepro-wadzonych testów są:

• dla produktów o liczbie recenzji co najmniej 3, za każdym razem hipoteza zerowa (o równości średnich w obu populacjach) została odrzucona,

• dla produktów o liczbie recenzji równej dwa (czyli gdy podsumowania były generowane na podstawie tylko jednej recenzji) dla α = 0, 01 nie było podstaw do odrzucenia H0, natomiast hipotezę tę można było odrzucić dla α = 0, 05,

• zaobserwowano wyraźny spadek wartości U wraz z coraz większą liczbą recenzji opisujących dany produkt.

Przeprowadzony eksperyment potwierdza postawioną hipotezę, że w przypadku niewielkiej liczby recenzji, podsumowania opinii o tym samym produkcie są coraz mniej do siebie podobne. Jednak wraz ze wzrostem liczby recenzji, coraz wyraźniej możemy zaobserwować, że produkty są postrzegane przez wielu recenzentów w spójny sposób.

Test Manna-Whitneya

Test Manna-Whitneya to nieparametryczny test istotności, który umożliwia przeprowadzanie po-równań pomiędzy dwiema zbiorowościami pod względem pewnej cechy mierzalnej [Szwed 2009]. Wykorzystano ten test w celu ponownego potwierdzenia, że odległości pomiędzy podsumowania-mi tych samych produktów są mniejsze, niż popodsumowania-między podsumowaniapodsumowania-mi produktów różnych. Na rysunku 5.4 porównano rozkłady dwóch próbek, z których jedna została wylosowana z populacji odległości pomiędzy podsumowaniami tych samych produktów, a druga z populacji odległości pomiędzy podsumowaniami produktów różnych. Analiza wykresu wykazuje, że rozkłady te zna-cząco się od siebie różnią (wykres skumulowanego rozkładu dla odległości pomiędzy różnymi podsumowaniami jest przesunięty w prawo). Test Manna-Whitneya ma za zadanie zweryfikować tę obserwację w sposób formalny.

0 1 2 3 4 5 6 7 0.2 0.4 0.6 0.8 1.0 odleglosc dy str ybu an ta e m pir yc zn a Te same produkty Ró ne produkty

Rysunek 5.4: Skumulowane rozkłady odległości pomiędzy podsumowaniami tych samych pro-duktów oraz pomiędzy podsumowaniami propro-duktów różnych. Źródło: opracowanie własne

W teście przyjęto następujące hipotezy:

• H0: rozkłady odległości pomiędzy podsumowaniami produktów z analizowanej populacji są takie same niezależnie od tego czy bierze się pod uwagę podsumowania tych samych, czy też różnych produktów,

• H1: w analizowanej populacji, odległości pomiędzy podsumowaniami tych samych produk-tów są statystycznie mniejsze, niż pomiędzy podsumowaniami produkproduk-tów różnych.

Losowo wybrano dwie próbki, gdzie jedna z nich zawierała odległości pomiędzy podsumo-waniami tych samych produktów, natomiast na drugą składały się odległości pomiędzy podsu-mowaniami produktów różnych. Obie próbki składały się z 20 obserwacji. Dla poziomu ufności α = 0, 025 wartością krytyczną testu jest 127, a obszar krytyczny obejmuje zakres poniżej tej

wartości.

Opisany test przeprowadzono czterokrotnie, za każdym razem ponownie przeprowadzając lo-sowanie. Za każdym razem otrzymano wartości wpadające w obszar krytyczny, gdzie statystyki z testu miały wartości z zakresu od 75 do 88. Na podstawie uzyskanych statystyk, podjęto decyzję o odrzuceniu hipotezy zerowej na korzyść hipotezy, że odległości pomiędzy podsumowaniami tych samych produktów są statystycznie mniejsze, niż pomiędzy podsumowaniami produktów różnych.