5.4 Eksperyment 2. Badanie spójności opinii wielu recenzentów
5.4.2 Miary odległości między podsumowaniami
W celu przeprowadzenia operacji opisanych w poprzedniej sekcji, konieczne jest wypracowanie miary odległości pomiędzy podsumowaniami. W trakcie prac przygotowano kilka miar, za pomocą których porównywano podobieństwa, a następnie analizowano uzyskane za ich pomocą wyniki. Zastosowano następujące oznaczenia:
• X oraz Y to zbiory podsumowań recenzji, gdzie w każdym zbiorze znajduje się dokładnie jedno podsumowanie opinii o danym produkcie, wygenerowane na podstawie innych recenzji, niż podsumowanie opinii o tym produkcie znajdujące się w drugim zbiorze,
• d(si,X, sj,Y) to odległość pomiędzy podsumowaniem recenzji i-tego produktu pochodzącym ze zbioru X a podsumowaniem recenzji produktu j-tego pochodzącym z zbioru Y ,
• A to zbiór wszystkich aspektów, na temat których recenzenci się wypowiadali oceniając dany produkt lub usługę,
• pi,a,o to liczba pozytywnych, a ni,a,o negatywnych ocen, jakie zostały nadane aspektowi a,
należącemu do produktu i w recenzjach należących do zbioru o (o ∈ {X, Y }),
• ri,j,X,Y to maksymalna liczba opinii nadanych dowolnemu aspektowi spośród podsumowań
si,X oraz sj,Y.
Jak wspomniano, przygotowano kilka miar, za pomocą których przeprowadzono eksperymenty opisane w poprzedniej sekcji. Ostatecznie zdecydowano się na miarę zaprezentowaną w formule 5.4.
d(si,X,sj,Y)=X
a∈A
|(pi,a,X− pj,a,Y)| + |(ni,a,X− nj,a,Y)|
2 ∗ ri,j,X,Y
Miara ta została wypracowana przez autora pracy i wybrana ze względu na fakt, że pozwala na otrzymanie znormalizowanego wyniku niezależne od liczby recenzji nadanej danemu produktowi czy usłudze. Dla każdego aspektu, oblicza się różnice pomiędzy liczbą recenzji, w których dany aspekt został uznany jako zaleta w obu zbiorach (X i Y ) oraz jako wada. Wartości bezwzględne otrzymanych różnic podlegają sumowaniu, którego rezultat dzieli się przez maksymalną liczbę opinii nadanych aspektowi w analizowanych podsumowaniach, co poddaje otrzymają wartość normalizacji. Następnie, sumuje się wyniki opisanego działania dla wszystkich analizowanych aspektów.
Dla zobrazowania działania omówionej formuły, warto zamieścić przykład jej działania na da-nych zawartych w tabeli 5.3. Składnik funkcji podobieństwa dla aspektu „wytrzymałość” zostałby obliczony w następujący sposób:
|(pi,a,X− pj,a,Y)| + |(ni,a,X− nj,a,Y)|
2r = |(12 − 22)| + |(71 − 56)| 2 ∗ 102 = 25 204 = 0, 1225 (5.5) dla: • i = Samsung U700, • a = wytrzymałość.
Współczynnik ri,j,X,Y ma wartość 102, ponieważ maksymalna liczba opinii nadanych dowolne-mu aspektowi wśród analizowanych podsumowań to 99 + 3 dla aspektu waga w Podsumowaniu 1. Aby uzyskać ostateczną odległość pomiędzy podsumowaniami, analogiczną operację należałoby następnie przeprowadzić dla wszystkich aspektów, a uzyskane wartości zsumować.
5.4.3 Procedura eksperymentu i uzyskane wyniki
Opisywany eksperyment nie wymagał przeprowadzania ręcznej adnotacji, w związku z czym prze-prowadzany był na całym dostępnym korpusie recenzji (nie przeprowadzano losowania). Na po-czątku wygenerowano tablice odległości (o strukturze analogicznej do tabeli 5.4) z wykorzysta-niem przyjętej miary odległości i na posiadanym zestawie danych, składającym się z podsumowań 1529 produktów (w sumie 3058 podsumowań w dwóch zbiorach X i Y ). Taką liczbę produktów uzyskano po odrzuceniu produktów posiadających tylko jedną recenzję (gdyż wtedy nie było możliwe podzielenie zbioru recenzji danego produktu na dwie części zawierające recenzje). Eks-peryment przeprowadzono z wykorzystaniem skryptu przygotowanego w języku programowania Python.
Test istotności dla dwóch średnich
Pierwsze z badań polegało na przeprowadzeniu statystycznego testu istotności dla dwóch średnich, odpowiadających dwóm populacjom, gdzie na populację pierwszą składały się wartości odległości d(siX, sjY) dla i = j (ich średnią będziemy oznaczać jako µ1), zaś na populację drugą wartości d(siX, sjY) dla i 6= j (średnią oznaczamy jako µ2). Przyjęto następujące hipotezy:
• H0 : µ1 = µ2 (średnie dla obu populacji są sobie równe),
• H1 : µ1 < µ2 (średnia dla i = j jest niższa niż dla pozostałych przypadków).
Ze względu na dużą liczbę obserwacji (odległości dla i = j było 1529, zaś pozostałych odle-głości dla różnych wartości i i j 2336312, tj. są to wszystkie wartości z macierzy o rozmiarze 1529 na 1529 bez wartości na przekątnej tej macierzy), uzasadnione było wykorzystanie odchyleń stan-dardowych z prób jako szacunkowych wartości odchyleń stanstan-dardowych populacji oraz statystyki U do jej weryfikacji1: U = rdi=j − di6=j s2 i=j ni=j + s 2 i6=j ni6=j (5.6) gdzie:
• di=j to średnia odległości, gdy i = j, zaś di6=j to średnia odległości, gdy i 6= j, • si=j i si6=j to odchylenia standardowe wartości d dla i = j i i 6= j,
• ni=j i ni6=j to liczebności odpowiednich zbiorów.
Jako poziom istotności w teście przyjęto wartość α = 0.01. W związku z tak postawionymi hipotezami oraz przyjętym poziomem istotności, jako wartość krytyczną przyjęto -2,326 (kwan-tyl rzędu 0,01 rozkładu normalnego N (0, 1)), zaś obszarem odrzucenia jest przedział liczbowy (−∞; −2, 326].
Dla miary przedstawionej w formule 5.4, średnią odległością pomiędzy podsumowaniami tych samych produktów (dla i = j) było 2,186 (przy odchyleniu standardowym 1,613), natomiast pomiędzy podsumowaniami różnych produktów było to 3,297 (odchylenie standardowe 1,04). W przeprowadzonym teście uzyskano wartość statystyki U na poziomie -26,673, co przy przyjętej wartości krytycznej (-2,326) spowodowało odrzucenie hipotezy zerowej na korzyść hipotezy, że
średnia odległość pomiędzy podsumowaniami tych samych produktów (wygenerowanych na pod-stawie różnych recenzji) jest mniejsza niż pomiędzy podsumowaniami produktów różnych.
2 4 6 8 10 -7 -6 -5 -4 -3 -2 LiczbaUrecenzjiUproduktów warto ść UstatystykiUU WartośćUU WartośćUkrytycznaUdlaUalfaU=U0.01 WartośćUkrytycznaUdlaUalfaU=U0.05
Rysunek 5.3: Wartości statystyki U w testach istotności dla dwóch średnich przy różnych po-pulacjach produktów o niewielkiej liczbie recenzji. Źródło: opracowanie własne
Dodatkowo, przeprowadzono analogiczne badania dla podsumowań wygenerowanych na pod-stawie niewielkiej liczby recenzji. Miały on wskazać, czy w przypadku takich podsumowań wystę-pować będzie podobieństwo pomiędzy podsumowaniami tych samych produktów. Istniało tutaj bowiem ryzyko, że w przypadku niewielkiej liczby recenzji, subiektywne opinie różnych recen-zentów mogą mieć zbyt duży wpływ na otrzymane podsumowania. Mogłoby to spowodować, że podsumowania tych samych produktów nie będą do siebie podobne.
Aby przeanalizować opisane zagadnienie, przeprowadzono testy dla produktów o liczbach re-cenzji od 2 do 10 (tj. przeprowadzono test dla produktów o liczbie rere-cenzji 2, następnie dla produktów o liczbie recenzji 3 itd.). W każdym z przypadków, liczba takich podsumowań
prze-kraczała 30, co pozwalało na traktowanie odchyleń standardowych z prób jako szacunkowych wartości odchyleń standardowych populacji i korzystanie ze statystyki U . Warto zwrócić uwa-gę na fakt, że dla produktów o liczbie recenzji równej 2 oba podsumowania były generowane na podstawie tylko pojedynczych recenzji (czyli de facto były identyczne z tymi pojedynczymi recenzjami).
Otrzymane wyniki zaprezentowano na rysunku 5.3. Przedstawia on, jak zmieniała się wartość statystyki U dla produktów o różnej liczebności recenzji. Najważniejszymi wnioskami z przepro-wadzonych testów są:
• dla produktów o liczbie recenzji co najmniej 3, za każdym razem hipoteza zerowa (o równości średnich w obu populacjach) została odrzucona,
• dla produktów o liczbie recenzji równej dwa (czyli gdy podsumowania były generowane na podstawie tylko jednej recenzji) dla α = 0, 01 nie było podstaw do odrzucenia H0, natomiast hipotezę tę można było odrzucić dla α = 0, 05,
• zaobserwowano wyraźny spadek wartości U wraz z coraz większą liczbą recenzji opisujących dany produkt.
Przeprowadzony eksperyment potwierdza postawioną hipotezę, że w przypadku niewielkiej liczby recenzji, podsumowania opinii o tym samym produkcie są coraz mniej do siebie podobne. Jednak wraz ze wzrostem liczby recenzji, coraz wyraźniej możemy zaobserwować, że produkty są postrzegane przez wielu recenzentów w spójny sposób.
Test Manna-Whitneya
Test Manna-Whitneya to nieparametryczny test istotności, który umożliwia przeprowadzanie po-równań pomiędzy dwiema zbiorowościami pod względem pewnej cechy mierzalnej [Szwed 2009]. Wykorzystano ten test w celu ponownego potwierdzenia, że odległości pomiędzy podsumowania-mi tych samych produktów są mniejsze, niż popodsumowania-między podsumowaniapodsumowania-mi produktów różnych. Na rysunku 5.4 porównano rozkłady dwóch próbek, z których jedna została wylosowana z populacji odległości pomiędzy podsumowaniami tych samych produktów, a druga z populacji odległości pomiędzy podsumowaniami produktów różnych. Analiza wykresu wykazuje, że rozkłady te zna-cząco się od siebie różnią (wykres skumulowanego rozkładu dla odległości pomiędzy różnymi podsumowaniami jest przesunięty w prawo). Test Manna-Whitneya ma za zadanie zweryfikować tę obserwację w sposób formalny.
0 1 2 3 4 5 6 7 0.2 0.4 0.6 0.8 1.0 odleglosc dy str ybu an ta e m pir yc zn a Te same produkty Ró ne produkty
Rysunek 5.4: Skumulowane rozkłady odległości pomiędzy podsumowaniami tych samych pro-duktów oraz pomiędzy podsumowaniami propro-duktów różnych. Źródło: opracowanie własne
W teście przyjęto następujące hipotezy:
• H0: rozkłady odległości pomiędzy podsumowaniami produktów z analizowanej populacji są takie same niezależnie od tego czy bierze się pod uwagę podsumowania tych samych, czy też różnych produktów,
• H1: w analizowanej populacji, odległości pomiędzy podsumowaniami tych samych produk-tów są statystycznie mniejsze, niż pomiędzy podsumowaniami produkproduk-tów różnych.
Losowo wybrano dwie próbki, gdzie jedna z nich zawierała odległości pomiędzy podsumo-waniami tych samych produktów, natomiast na drugą składały się odległości pomiędzy podsu-mowaniami produktów różnych. Obie próbki składały się z 20 obserwacji. Dla poziomu ufności α = 0, 025 wartością krytyczną testu jest 127, a obszar krytyczny obejmuje zakres poniżej tej
wartości.
Opisany test przeprowadzono czterokrotnie, za każdym razem ponownie przeprowadzając lo-sowanie. Za każdym razem otrzymano wartości wpadające w obszar krytyczny, gdzie statystyki z testu miały wartości z zakresu od 75 do 88. Na podstawie uzyskanych statystyk, podjęto decyzję o odrzuceniu hipotezy zerowej na korzyść hipotezy, że odległości pomiędzy podsumowaniami tych samych produktów są statystycznie mniejsze, niż pomiędzy podsumowaniami produktów różnych.