• Nie Znaleziono Wyników

Dane testowe i ocena skuteczno±ci

W dokumencie Index of /rozprawy2/10722 (Stron 36-39)

3.4 Trudno±ci i rozwi¡zania w problemach du»ej skali

3.4.3 Dane testowe i ocena skuteczno±ci

. W problemie identykacji faªszywych lub zduplikowanych wirtualnych to»samo±ci w skali sieci Internet, traamy na dwa gªówne problemy. Pierwszym jest brak wiarygodnego ¹ródªa danych dotycz¡cych to»samo±ci i opinii faªszywych [117], [65], gdy» uzyskanie ich od samych twórców jest praktycznie niewykonalne. Drugim zagadnieniem jest niska sku-teczno±¢ identykacji wirtualnych to»samo±ci przy u»yciu metod opartych o klasykatory. Spowodowane jest to ogromn¡ liczb¡ potencjalnych kandydatów oraz stosunkowo niewielk¡ liczb¡ informacji, w oparciu o które mo»na budowa¢ ich charakterystyki.

Uzyskiwanie wiarygodnych ¹ródeª danych. W pracy [117] dotycz¡cej wyszukiwania opinii spamerskich, zlecono napisanie faªszywych opinii, maj¡cych mo»liwie najbardziej przypomina¢ prawdziwe. Zrealizowano to w oparciu o usªugi crowdsourcingu 8 w ramach portalu Mechanical Turk9, który skupia osoby nazwane potocznie Turkami (ang: "Turk") lub crowdsourcerami. W wyniku pracy takich osób zebrano 400 faªszywych opinii u»ytych pó¹niej do testów.

Podobne podej±cie zaprezentowano w kolejnej pracy [48]. Wynajeto tam dwie grupy crowdsourcerów, jedn¡ w celu wygenerowania faªszywych opinii, a drug¡ do ich pó¹niejszej oceny

Inn¡ metod¦ zaproponowano w badaniach dotycz¡cych wykrywania "pªatnych poste-rów" [32]. W oparciu o do±wiadczenie jednego z badaczy z jego pracy jako pªatnego postera, wyodr¦bniono 70 "potencjalnych pªatnych posterów" spo±ród grupy 552 u»ytkowników, na podstawie tre±ci postów (du»a liczba bezsensownych lub sprzecznych postów).

Brak wiarygodnego ¹ródªa zduplikowanych danych dotycz¡cych multi-to»samo±ci jest poruszany tak»e w badaniach dotycz¡cych blogów[114]. Jako rozwi¡zanie tego problemu zaproponowano podziaª postów jednego autora na dane ucz¡ce i testowe i traktowanie ich, jako dwie oddzielne to»samo±ci. Autorzy bada« obawiali si¦, »e taka metoda ewaluacji mo»e by¢ podatna na cechy zwi¡zane z tematem bloga lub rodzajem systemu blogerskiego. Jed-nak rezultaty testów na maªym zbiorze autorów, prowadz¡cych wiele blogów, potwierdziªy skuteczno±¢ tej metody szacowania wyników, bez uzale»nienia jej od tematu i struktury bloga.

Inny model uzyskiwania faªszywych to»samo±ci zaproponowano w przypadku bada« portali spoªecznych Facebook 10 i Renren 11 [162]. Do grupy proli "podejrzanych" zali-czano u»ytkowników, których zdj¦cia prolowe byªy w minimum 90% indeksowane przez "google image search", co sugerowaªo, »e s¡ to zdj¦cia pobrane z sieci. Do grupy proli "faªszywych" zakwalikowano wszystkie prole z grupy "podejrzanych", które znikn¦ªy z portalu w ci¡gu 6 tygodni, co mo»e oznacza¢, »e zostaªy usuni¦te z niego z powodu dzia-ªania w sieci spamerskiej. Dane z drugiej sieci spoªeczno±ciowej byªy zbierane w podobny sposób, z tym »e werykacji proli spamerskich dokonali w ramach wspóªpracy z badacza-mi sabadacza-mi adbadacza-ministratorzy tej sieci. Ta metoda tak»e opiera si¦ na specycznych zaªo»eniach i nie gwarantuje 100% pewno±ci co do posiadanych danych.

W oparciu o powy»sze przykªady mo»na stwierdzi¢, »e nie ma aktualnie sposobu na uzyskanie 100% pewnych danych dotycz¡cych u»ytkowników posªuguj¡cych si¦ faªszywy-mi to»samo±ciafaªszywy-mi. Ró»nyfaªszywy-mi sposobafaªszywy-mi symuluje si¦ modele reprezentuj¡ce takie dane i

8pªatne zlecenie wykonania zadania szerokiej grupie anonimowych ludzi dziaªaj¡cych w ramach sieci Internet

9www.mturk.com

10www.facebook.com

zakªada ich zgodno±¢ z sytuacj¡ rzeczywist¡. Na podobnej zasadzie domniemania i przy-puszczenia opiera si¦ tak»e wi¦kszo±¢ ltrów anty-spamowych z forów dyskusyjnych [162]. Skuteczno±¢ wyszukiwania i klasykacji. Identykacja autorów w skali sieci Internet byªa przedmiotem bada« w roku 2012 [114]. Badania dotyczyªy analizy autorstwa w opar-ciu o lingwistyczne cechy stylistyczne i zostaªy pobrane z ponad 2,4 mln postów spo±ród 100 tysi¦cy blogów. Skuteczno±¢ poª¡czonych klasykatorów NN i RLSC, celem wykrycia autora 3 postów spo±ród próbki 100 000 postów, jest na poziomie 20%, a autor pojawia si¦ w pierwszej 20tce typów w 35% badanych przypadków. W przypadku testów opartych na jedynie 1 po±cie, skuteczno±¢ wynosi 7,5%. Je±li liczba postów ro±nie do 10, dokªadno±¢ wzrasta do 25%. Przy du»ej ilo±ci próbek (postów) w zbiorze ucz¡cym okoªo 40tu -skuteczno±¢ si¦ga okoªo 30% (dla 3 postów w zbiorze testowym).

Efektywno±¢ metod opartych o analiz¦ podobie«stw byªa tak»e przedmiotem bada« dotycz¡cych problemów skali sieci Internet[84]. Dane pochodziªy z 10 000 blogów i oparte byªy o teksty dªugo±ci 2000 sªów, a do testów wykorzystywano próbki o dªugo±ci 100 do 500 sªów. Badanie opieraªo si¦ na metodzie n-gramów i wielokrotnych klasykacjach miar¡ kosinusow¡. Rezultaty wskazuj¡ »e autora klasykowano w przypadku nie wi¦cej ni» 20% tekstów z precyzj¡ od okoªo 60% do 90%. Autora mo»na byªo okre±li¢ dla okoªo 70% tekstów, ale precyzja wynosiªa wtedy okoªo 20%.

Popularnym sposobem oceny skuteczno±ci wyników jest ich szacowanie przez ludz-kich arbitrów [172][163][75]. Skuteczno±¢ wykrywania faªszywych to»samo±ci przez czªo-wieka zostaªa przebadana w 2012 roku [162]. Testowano skuteczno±¢ klasykacji trzech grup arbitrów: ekspertów w dziedzinie sieci spoªecznych, wynaj¦tych crowdsourcerów oraz studentów-wolontariuszy. Najwy»sz¡ skuteczno±¢ osi¡gn¦li eksperci (okoªo 90%) nieco mniej-sz¡ studenci-wolontariusze, a najni»mniej-sz¡ crowdsourcerzy (okoªo 65%). Potwierdziªy si¦ tak»e badania [165] stwierdzaj¡ce, »e ludzie du»o cz¦±ciej myl¡ si¦ nie wychwytuj¡c proli faª-szywych (FalseNegative), ni» klasykuj¡c prawdziwe prole jako faªszywe (FalsePositive). Skuteczno±¢ klasykacji znacznie poprawia si¦ po zastosowaniu techniki klasykacji grupowej [88], polegaj¡cej na zagregowaniu gªosów wszystkich testerów i uwzgl¦dnieniu decyzji na podstawie decyzji wi¦kszo±ci. Jest to podej±cie podobne do modelu "s¦dziego-sceptycznego" stosowanego we wcze±niejszych badaniach w tej dziedzinie[117]. Bª¦dy kla-sykacji klakla-sykacji FP spadaj¡ wtedy praktycznie do zera, a klasykacja FN do okoªo 10% dla grupy ekspertów i studentów-wolontariuszy i 40% dla crowdsourcerów. W wy-niku symulacji stwierdzono, »e do skutecznego wychwycenia spamu metod¡ wi¦kszo±ci gªosów wystarcza 6 osób z grupy crowsoucerów. Wyniki kolejnych bada« wskazuj¡ tak»e na zwi¦kszenie skuteczno±ci ludzkiej oceny wyników przy wsparciu procesu decyzyjnego przez prezentacje warto±ci charakterystyk, opisuj¡cych oceniane przypadki [48].

Wyniki potwierdzaj¡ du»¡ zªo»ono±¢ problemu, jak i brak metod, które charakteryzo-waªyby si¦ ª¡czeniem wysokiej warto±ci zarówno precyzji, czuªo±ci oraz pokrycia tekstów. Udowodniono tak»e, »e istniej¡ przypadki szczególnie dobrze spreparowanych faªszywych proli, których nie s¡ w stanie wychwyci¢ klasykatory ani testerzy. Jednak przy zastoso-waniu poª¡czonych grup klasykuj¡cych ich liczba znacznie spada [162].

Badania dowodz¡, »e na obecnym poziomie rozwoju metod identykacji to»samo±ci w skali sieci Internet, nie ma jeszcze metod, które zapewni¡ automatyczn¡ i jednoznaczn¡ identykacj¦ [114]. Istnieje jednak mo»liwo±¢ wykorzystania tych metod, do skutecznego wyszukania kilkudziesi¦ciu potencjalnych podobnych kandydatów, których w pó¹niejszym etapie mo»na podda¢ werykacji przez czªowieka. Bior¡c pod uwag¦ rozmiar danych ¹ró-dªowych, umo»liwia to rozwi¡zanie problemu identykacji, który bez wsparcia takich me-chanizmów byªby nierozwi¡zywalny przez czªowieka, z powodu nadmiaru informacji. Takie metody wyszukiwania anonimowych blogerów znalazªy ju» praktyczne zastosowanie i do-prowadziªy do procesów s¡dowych i aresztowa« [134].

W dokumencie Index of /rozprawy2/10722 (Stron 36-39)