Rezultaty dziaªania systemu - Algorytmy wyznaczania podobie«stw wirtualnych to»samo±ci

7.3 Algorytmy wyznaczania podobie«stw wirtualnych to»samo±ci

8.1.4 Rezultaty dziaªania systemu

W wyniku testów, opisanych w poprzednim punkcie, zebrano zestaw rezultatów ró»ni¡-cych si¦ od siebie dwoma parametrami:

• parametrem P okre±laj¡cym graniczn¡ warto±¢ podobie«stwa to»samo±ci wirtual-nych, dziel¡c¡ zbiór wszystkich par na podzbiory "podobnych" i "ró»nych", zmienia-j¡cym si¦ o 0,25 w przedziale od 0,8 do 1,

• ilo±ci¡ informacji prezentowanych arbitrom w seriach BASIC, FEATURES i FSIM. Dla ka»dej z warto±ci parametru P oraz ka»dej serii testów, wyliczono warto±ci wska¹-ników "dokªadno±¢", "precyzja", "czuªo±¢" i "miara-F" opisanych szczegóªowo w rozdziale 3.1.3. Na wykresach przedstawiono warto±ci wska¹ników "dokªadno±¢" i "miara-F", które s¡ kluczowe w ocenie skuteczno±ci dziaªania algorytmów klasykacji.

Seria BASIC - arbitrzy oceniaj¡ wyª¡cznie na podstawie danych dotycz¡cych wirtual-nych to»samo±ci.

Wyniki poszczególnych testów serii BASIC i wyliczone na ich podstawie warto±ci miar skuteczno±ci algorytmu, zgromadzone s¡ w tabeli 2. Warto zauwa»y¢, »e w »adnym przy-padku nie uzyskano podobie«stwa to»samo±ci na poziomie wy»szym ni» 0,975, w zwi¡zku z czym nie mo»liwe jest obliczenie dla tych przypadków warto±ci miary-F. Dodatkowo, w wynikach prezentowany jest wiersz z tytuªem "niejednoznaczno±¢". Zaliczane s¡ tutaj wyniki, kiedy model s¦dziego sceptycznego nie uzyskaª wymaganej ilo±ci 2/3 gªosów.

Na ich podstawie wygenerowany zostaª wykres przedstawiony na rysunku 8.3, na któ-rym mo»na zaobserwowa¢ zale»no±¢ skuteczno±ci algorytmów od przyj¦tego progu P, dzie-l¡cego zbiory par na "podobne" i "ró»ne".

Tabela 2: Wyniki i skuteczno±¢ systemu dla serii BASIC parametr P 0,8 0,825 0,85 0,875 0,9 0,925 0,95 0,975 1 TruePositive 1 5 5 6 6 7 3 0 0 FalsePositive 9 10 8 7 4 4 2 0 0 FalseNegative 0 0 0 0 1 1 1 1 1 TrueNegative 20 20 20 18 18 18 18 18 17 niejednozn. 10 5 7 9 11 10 2 1 2 suma prób 40 40 40 40 40 40 26 20 20 dokªadno±¢ 0,70 0,71 0,76 0,77 0,83 0,83 0,88 0,95 0,94 precyzja 0,10 0,33 0,38 0,46 0,60 0,64 0,60 - -czuªo±¢ 1,0 1,0 1,0 0,86 0,86 0,88 0,75 0,0 0,0 miara-F 0,18 0,50 0,56 0,63 0,71 0,74 0,67 -

Tabela 3: Wyniki i skuteczno±¢ systemu dla serii FEATURES parametr P 0,8 0,825 0,85 0,875 0,9 0,925 0,95 0,975 1 TruePositive 1 6 10 9 8 10 4 0 0 FalsePositive 11 10 8 7 4 3 2 0 0 FalseNegative 0 0 0 0 0 1 1 1 1 TrueNegative 20 20 20 18 18 18 18 18 17 niejednozn. 8 4 2 6 10 8 1 1 2 suma prób 40 40 40 40 40 40 26 20 20 dokªadno±¢ 0,66 0,72 0,79 0,79 0,87 0,88 0,88 0,95 0,94 precyzja 0,08 0,38 0,56 0,56 0,64 0,77 0,67 - -czuªo±¢ 1,0 1,0 1,0 1,0 1,0 0,91 0,8 0,0 0,0 miara-F 0,15 0,55 0,71 0,72 0,80 0,83 0,73 -

-Wyniki wskazuj¡ na ci¡gªy wzrost warto±ci "dokªadno±¢" wraz ze wzrostem warto±ci parametru P . Ostatnie dwa wyniki (dla warto±ci parametrów P = 0,975 i 1) znacz¡co ró»ni¡ si¦ od reszty, ale s¡ one wyliczane jedynie dla przypadków, gdy system nie zwracaª to»samo±ci podobnych. Z tego powodu, nie zostaªa wyliczona dla tych przypadków miara-F. Jako reprezentatywne nale»y wi¦c traktowa¢ wyniki do warto±ci parametru P równej 0,95.

Bazuj¡c na wynikach liczbowych i mierze-F mo»na stwierdzi¢, »e optymalne warto±ci (pod wzgl¦dem ich liczby i jako±ci) system zwraca dla parametru P = 0,925. Przy sto-sunkowo maªej liczbie rezultatów FalsePositive (zakwalikowaniu przez system pary jako podobnej przy ocenie arbitrów jako ró»nej) oraz du»ej ilo±ci wyników TruePositive (zgodnej kwalikacji systemu i arbitrów jako para podobna).

Seria FEATURES - arbitrzy oceniaj¡ na podstawie danych dotycz¡cych wirtualnych to»samo±ci oraz charakterystyk zbudowanych na ich podstawie.

Wyniki poszczególnych serii testów serii FEATURES oraz wyliczone na ich podstawie warto±ci miar skuteczno±ci zgromadzone s¡ w tabeli 3.

Wpªyw parametru P na warto±ci "dokªadno±¢" i "miara-F", okre±laj¡ce skuteczno±¢ algorytmu, zostaª przedstawiony na rysunku 8.4.

Zmiana kwalikacji czªowieka po prezentacji cech, wprowadziªa znacz¡ce zmniejszenie niejednoznaczno±ci ocen arbitrów. Rezultatem tego jest wyra¹na poprawa zarówno para-metrów dokªadno±ci, jak i miary-F. Jako optymalny próg parametru P mo»na przyj¡¢ ponownie warto±¢ 0,925, przy której dla zwracanych rezultatów par podobnych system osi¡ga najwy»sze wska¹niki "dokªadno±ci" i "miary-F".

Rysunek 8.4: Wykres miar skuteczno±ci w serii FEATURES

Seria FSIM - arbitrzy oceniaj¡ na podstawie danych dotycz¡cych wirtualnych to»sa-mo±ci, charakterystyk zbudowanych na ich podstawie oraz warto±ci podobie«stw tych cha-rakterystyk.

Wyniki poszczególnych serii testów serii FSIM oraz wyliczone na ich podstawie warto±ci miar skuteczno±ci, zgromadzone s¡ w tabeli 4. Wpªyw parametru P na warto±ci "dokªad-no±¢" i "miara-F", okre±laj¡ce skuteczno±¢ algorytmu, zostaª przedstawiony na rysunku 8.5.

Podobnie jak w poprzednich seriach testów, mo»na zaobserwowa¢ kilka prawidªowo±ci: • dynamiczny wzrost warto±ci "miary-F" dla pierwszych trzech testów i ustabilizowanie

poziomu dla kolejnych parametrów,

• obni»enie niejednoznacznych decyzji arbitrów,

• najkorzystniejsze wyniki dla parametru P o warto±ci 0,925 - wysoka dokªadno±¢, du»a ilo±¢ zwracanych rezultatów, maªa liczba niejednoznaczno±ci oraz wysoka warto±¢ "miary-F"

Przykªadowy rezultat TRUE POSITIVE z testu przy parametrze P = 9.5 zaprezen-towany jest na rysunku 8.6. S¡ na nim dwie wirtualne to»samo±ci, które jednego dnia

Tabela 4: Wyniki i skuteczno±¢ systemu dla serii FSIM parametr P 0,8 0,825 0,85 0,875 0,9 0,925 0,95 0,975 1 TruePositive 1 7 12 12 10 13 4 0 0 FalsePositive 10 10 6 6 4 3 2 0 0 FalseNegative 0 0 0 0 0 0 1 1 1 TrueNegative 20 20 20 18 18 18 18 18 17 niejednozn. 9 3 2 4 8 6 1 1 2 suma prób 40 40 40 40 40 40 26 20 20 dokªadno±¢ 0,68 0,73 0,84 0,83 0,88 0,91 0,88 0,95 0,94 precyzja 0,09 0,41 0,67 0,67 0,71 0,81 0,67 - -czuªo±¢ 1,0 1,0 1,0 1,0 1,0 1,0 0,80 0,0 0,0 miara-F 0,17 0,58 0,80 0,80 0,83 0,90 0,73 -

Rysunek 8.6: Przykªadowy wynik TRUE POSITIVE w serii FSIM z wysokim stopniem podobie«stwa wirtualnych to»samo±ci

Rysunek 8.7: Porównanie warto±ci miary "dokªadno±¢" dla serii BASIC, FEATURES i FSIM

wygenerowaªy podobne w tre±ci opinie pozytywne dla jednego biura podró»y. U»ywaj¡ wspólnych sªów powi¡zanych z tematem "miejsce", "hotel", "poleca¢" oraz maj¡ wysok¡ warto±¢ sentymentu swoich wypowiedzi. Podobie«stwo pary tych to»samo±ci zostaªo przez system oszacowane na 0,954, co sugeruje bardzo wysokie prawdopodobie«stwo zjawiska faªszywego spamu opiniotwórczego, generowanego przy pomocy multito»samo±ci wirtual-nych.

Porównanie serii. Rysunek 8.7 przedstawia wykres, na którym porównano warto±ci wska¹nika "dokªadno±¢" w przedstawionych wcze±niej seriach BASIC, FEATURES oraz FSIM. Analogicznie, na rysunku 8.8 przedstawiona jest "miara-F". Z danych oraz opartych na nich wykresów mo»na wnioskowa¢, »e prezentacja charakterystyk zwi¦ksza zgodno±¢ oceny czªowieka z ocen¡ systemu. Prezentacja miar podobie«stw charakterystyk nie ma ju» tak du»ego wpªywu na zmian¦ rezultatów.

Dodatkowo, w trakcie testów zaobserwowano, »e niejednoznaczno±ci ocen ludzkich cz¦-±ciej wyst¦powaªy w przypadkach dotycz¡cych negatywnych opinii. Mogªo by¢ to spowodo-wane sytuacj¡, jaka ma miejsce po powrocie niezadowolonej grupy turystów z nieudanego wypoczynku. Takie przypadki bywaj¡ bardzo zbli»one w objawach do przypadków czar-nego PRu, i sprawiaj¡ kªopoty w ich identykacji nawet specjalistom z dziedziny detekcji

Rysunek 8.8: Porównanie warto±ci miary "miara-F" dla serii BASIC, FEATURES i FSIM spamu.

Test TOP10 Jako dodatkowy test, wykonano ocen¦ 10 najbardziej podobnych do siebie to»samo±ci wirtualnych, które zostaªy odnalezione w systemie. Wyniki serii BASIC, FEATURES i FSIM nie ró»niªy si¦ od siebie, wi¦c dane zebrano w tabeli 5.

Dla tego rodzaju testu wymiern¡ warto±¢ przedstawia parametr "precyzja", który wy-nosz¡c 0,89 ±wiadczy o bardzo dobrej skuteczno±ci systemu, przy wyznaczeniu 10 naj-bardziej podobnych wirtualnych to»samo±ci. Przygl¡daj¡c si¦ ich charakterystykom, które s¡ do siebie podobne praktycznie w oparciu o ka»d¡ cech¦, ±miaªo mo»na zaryzykowa¢ Tabela 5: Wyniki i skuteczno±¢ dla 10 najbardziej podobnych to»samo±ci wskazanych przez system parametr warto±¢ TruePositive 8 FalsePositive 1 niejednoznaczne 1 suma prób 10 precyzja 0,89

Rysunek 8.9: Kolejna para podejrzana o faªszywe opinie

stwierdzenie, »e 8 z 10 wytypowanych par byªo przykªadem faªszywych (prawdopodobnie pªatnych) opinii.

Dodatkowo, w przypadkach prezntowanych na rysunkach 8.6 oraz 8.9, pary charak-teryzuj¡ si¦ bardzo zbli»onymi charakterystykami i wysokim stopniem podobie«stwa, co sugeruje u»ycie 3 to»samo±ci w celu sztucznego wypromowania biura podró»y.

W dokumencie Index of /rozprawy2/10722 (Stron 83-91)