• Nie Znaleziono Wyników

Eksperyment: multito»samo±ci na forach dyskusyjnych

W dokumencie Index of /rozprawy2/10722 (Stron 91-97)

Drugi przypadek, który wykorzystano do przetestowania prezentowanego systemu, sta-nowiªy multito»samo±ci u»ytkowników wykryte w ramach forów dyskusyjnych. Problem braku wiarygodnych ¹ródeª danych do testów takich systemów zostaª opisany szczegóªowo w rozdziale 3.4.3. Praktycznie nie spotyka si¦ ju» serwisów, w ramach których udost¦p-niane s¡ dane osobowe, mog¡ce posªu»y¢ do identykacji u»ytkownika (email, PESEL, nr telefonu). W zwi¡zku z tym, w ramach przygotowa« do testów systemu dokonano przegl¡-du ogólnie otwartych forów dyskusyjnych, w ramach których ich administratorzy jawnie wskazuj¡, u»ytkowników posªuguj¡cych si¦ "multikontami". Administratorzy serwisów

ma-j¡ mo»liwo±¢ wykrycia takich "multikont", b¦d¡cych odpowiednikami "multito»samo±ci", na podstawie adresu email podanego przy rejestracji oraz adresu IP komputera, z jakiego loguj¡ si¦ u»ytkownicy na dane konta. Informacje te, niedost¦pne dla zwykªych u»ytkow-ników, s¡ jednocze±nie wystarczaj¡co wiarygodnym dowodem, pozwalaj¡cym zastosowa¢ tak wskazane multikonta jako ¹ródªo danych do testów systemu.

8.2.1 ™ródªa danych

W opisywanym przypadku, dane do testów pochodziªy z serwisu otwartych forów dyskusyjnych portalu Nasze Forum13. Multito»samo±ci do testów zostaªy pobrane z dziaªu "Ostrze»enia u»ytkowników", po wyselekcjonowaniu z nich 3 par "multikont", dotycz¡cych opinii spamerskich.

W ramach przygotowa« do testów, zaimplementowano parser dla opisywanego ¹ródªa danych, oraz pobrano z serwisu dane, które dotyczyªy:

• 860 wirtualnych to»samo±ci (369 370 par), • 1913 komentarzy,

• 281 w¡tków w 3 tematach ("szkoªa ±rednia", "studia", "kosz").

Crawl caªego serwisu trwaª 23 minuty, na komputerze klasy PC. Baza danych zawiera-j¡ca informacje ¹ródªowe, po zako«czeniu crawlu miaªa obj¦to±¢ 1,2MB.

8.2.2 Metoda wyszukiwania podobie«stw

Z uwagi na charakterystyk¦ ¹ródªa, które nie udost¦pniaªo danych osobowych, do wy-znaczania podobie«stw wirtualnych to»samo±ci wybrany zostaª algorytm oparty o wa»one zestawy miar podobie«stwa cech, opisany w rozdziale 7.3. Do ustalenia ko«cowego zesta-wu cech oraz wag ich podobie«stw wymagane byªo 28 iteracji algorytmu uczenia. Po tym czasie zestaw cech i ich wagi uksztaªtowaªy si¦ w nast¦puj¡cej postaci:

• aktywno±¢ czasowa - punkty kluczowe - 1.8 • aktywno±¢ czasowa - okno czasowe 1.77 • wspólne linkowania zewn¦trzne - 1,46 • dziedzinowe sªowa kluczowe - 1,33 • obiekty wspólne - 1,21

• sentyment - 1,21

• sªowa funkcyjne - 0,65

• ±rednia dªugo±¢ zdania (w ilo±ci sªów) - 0,35 • ±rednia dªugo±¢ wypowiedzi (w ilo±ci sªów) - 0,28 • ±rednia ilo±¢ znaków specjalnych - 0,22

• ±rednia ilo±¢ sªów zawieraj¡cych cyfry - 0,22

• ±rednia ilo±¢ sªów zawieraj¡cych znaki specjalne - 0,2 • ilo±¢ postów - 0,2;

Cz¦±¢ cech nie byªa brana pod uwag¦ w obliczaniu warto±ci podobie«stw to»samo±ci. Zostaªy usuni¦te na etapie uczenia z nadzorem, gdy warto±¢ ich wag spadªa poni»ej progu szumu - parametr wl ze wzoru (7.5).

Lista tych cech jest nast¦puj¡ca: • ±rednia ilo±¢ cyfr - 0,18

• ±rednia dªugo±¢ zdania (w ilo±ci znaków) - 0,18 • caªkowita ilo±¢ znaków - 0,17;

• ±rednia ilo±¢ znaków przestankowych - 0,17 • ±rednia dªugo±¢ wyrazu (w literach) - 0.17, • ±rednia dªugo±¢ wypowiedzi (w ilo±ci zda«) - 0,15 • caªkowita ilo±¢ sªów - 0,15

• caªkowita ilo±¢ wypowiedzi - 0,13, 8.2.3 Metoda werykacji wyników

Werykacja wyników zostaªa przeprowadzona poprz obliczenie warto±ci podobie«stw wir-tualnych to»samo±ci, wyliczonych przez system, dla par to»samo±ci, które administratorzy serwisu oznaczyli jako "multikonta". Nast¦pnie sprawdzono warto±ci tych podobie«stw, oraz ich miejsce na li±cie posortowanej wedgªug warto±ci podobie«stw. Ostatnim etapem byªo okre±lenie procentowego wyniku warto±ci podobie«stwa par badanych to»samo±ci, w porównaniu do warto±ci podobie«stw wszystkich par obecnych w systemie.

Rysunek 8.10: Podobie«stwa to»samo±ci posiadaj¡cych "multikonto" 8.2.4 Rezultaty dziaªania systemu

Na podstawie danych ¹ródªowych pobranych w trakcie crawlu, wygenerowano charakte-rystyki dla 860 u»ytkowników. Proces ten trwaª okoªo 6 minut, a nast¦pnie na podstawie ich warto±ci obliczono podobie«stwa wszystkich cech, co dla prawie 370 tysi¦cy par trwaªo 1 godzin¦ i 7 minut. Kolejny etap stanowiªo wyznczenie podobie«stwa dla wszystkich par, w oparciu o algorytm opisany w poprzednim punkcie, co zaj¦ªo okoªo 1 godziny i 20 minut. Do testów wybrano 3 pary wirtualnych to»samo±ci, które zostaªy okre±lone przez admi-nistratorów jako multikonta. Byli to u»ytkownicy o nickach "rozowaradosc", "tomaszkrol" i "princkaania". Tre±¢ komentarzy wszystkich trzech analizowanych par dotyczyªa pozy-tywnych opinii na temat jednej z prywatnych szkóª policealnych. Mo»na przypuszcza¢, »e miaªa miejsce sytuacja, gdzie jedna osoba zalogowaªa si¦ na forum w dniu 2013-07-03 i na-pisaªa 2 "promocyjne" opinie na temat szkoªy, której dotyczy ten przypadek. Po 9 dniach ponownie kto± zalogowaª si¦ z tego samego adresu IP, i utworzyª (prawdopodobnie przy u»yciu tego samego adresu email) w przeci¡gu 10 minut dwie nowe wirtualne to»samo±ci, które zaraz potem umie±ciªy na forum 3 komentarze dotycz¡ce tej szkoªy. Dziaªanie to zostaªo wychwycone przez administratora i w oparciu o te przesªanki, zablokowano konta

Tabela 6: Wyniki podobie«stw dla par wirtualnych to»samo±ci zidentykowanych jako mul-tikonta

para warto±¢ podobie«stwa miejsce na li±cie skuteczno±¢

rozowaradosc X tomaszkrol 0,91 8 99,99%

tomaszkrol X princkaania 0,741 3 723 98,99%

rozowaradosc X princkaania 0,735 4 388 98,81%

opisywanych wirtualnych to»samo±ci, za niezgodne z regulaminem posªugiwanie si¦ multi-kontami.

Rezultat dziaªania systemu przy obliczaniu podobie«stwa dla pary u»ytkowników "roz-owaradosc" i "tomaszkrol" jest zaprezentowany na rysunku 8.10.

Wyniki wyznaczania podobie«stw dla testowych par przedstawione s¡ w tabeli 6. W pierwszej kolumnie umieszczone s¡ nicki to»samo±ci, które tworzyªy par¦. W drugiej ko-lumnie widnieje warto±¢ podobie«stwa, która zostaªa wyliczona przez system dla danej pary. Warto±¢ w trzeciej kolumnie wskazuje na miejsce, które na li±cie par posortowanej wg uzyskanej warto±ci podobie«stwa zajmuje dana para (spo±ród 369 370 par). W ostatniej kolumnie wyliczony jest wspóªczynnik skuteczno±ci klasykacji Sk , obliczony ze wzoru:

Sk = lp − ml + 1

lp ∗ 100%

gdzie:

lp - caªkowita liczba par, dla których wyliczano podobie«stwa

ml - miejsce danej pary na posortowanej pod wzgl¦dem warto±ci podobie«stwa li±cie wy-ników

Wyniki potwierdzaj¡ wysok¡ skuteczno±¢ systemu. Pierwsza para ("rozowaradosc" oraz "tomaszkrol") uplasowaªa si¦ na 8 miejscu na li±cie podobie«stw wirtualnych to»samo±ci. Warto±¢ ich podobie«stwa byªa wy»sza ni» 99,99% pozostaªych par. Kolejne dwie pary uplasowaªy si¦ znacznie ni»ej (na 3 723 oraz 4 388 miejscu), jednak ich wyniki tak»e plasuj¡ je wy»ej, ni» odpowiednio pozostaªe 98,99% i 98,81% par.

Otrzymane wyniki wskazuj¡ na wyra¹n¡ ró»nic¦ warto±ci podobie«stwa, a co za tym idzie miejsca na li±cie, pomi¦dzy pierwsz¡ par¡ a pozostaªymi dwiema parami. Jest to spowodowane przez to, »e wirtualne to»samo±ci o nickach "rozowaradosc" i "tomaszkrol" zarejestrowaªy si¦ na forum oraz dokonaªy swojego wpisu w tym samym dniu (2013-07-12

Rysunek 8.11: Podobie«stwa to»samo±ci posiadaj¡cych "multikonto" rejestrowanych w od-st¦pie 9 dni

o godzinach 16:21, 16:29 i 16:31). Z kolei wirtualna to»asmo±¢ o nicku "princkaania" zare-jestrowaªa si¦ i dokonaªa wpisów 9 dni wcze±niej (2013-07-03 o godzinach 11:00 i 11:07), co przedstawia rysunek 8.11. Z podanych informacji wynikaj¡ ni»sze warto±ci podobie«stw wspólnych aktywno±ci oraz daty rejestracji dla par, w których jednym z elementów jest wir-tualna to»samo±¢ "princkaania". Natomiast wyra¹ne podobie«stwa (odnalezione w ró»nych w¡tkach forum), charakteryzuj¡ce par¦ "rozowaradosc" i "tomaszkrol", zostaªy wychwy-cone przez system, co poskutkowaªo bardzo wysok¡ warto±ci¡ podobie«stwa tej pary.

W dokumencie Index of /rozprawy2/10722 (Stron 91-97)