Wykrywanie osób ukrywaj¡cych si¦ w sieciach spoªeczno±ciowych jest stosunkowo mªod¡ dziedzin¡, w której badania pojawiªy si¦ dopiero w ostatnich kilku latach. Badania te wi¡»¡ si¦ dodatkowo z problemem wiarygodnych ¹ródeª danych, na których mo»na przeprowadza¢ testy [117].
W badaniach danych pochodz¡cych z sieci WEB ich ilo±¢ powoduje, »e przeprowadzenie procesu identykacji wirtualnych to»samo±ci przez czªowieka, nawet na podstawie dobrze zdeniowanego zestawu cech, jest zbyt czasochªonne, lub nawet niemo»liwe. Niezb¦dne staje si¦ wi¦c wykorzystanie metod automatycznych, które stanowi¡ wsparcie czªowieka przy wyszukiwaniu podobie«stw to»samo±ci, aby zidentykowa¢ osoby celowo ukrywaj¡ce w sieci pod ró»nymi wirtualnymi to»samo±ciami.
Problemem jest tak»e fakt, »e przez odpowiedni¡ modykacj¦ stylu wypowiedzi i za-chowania oraz ukrywanie adresu IP, czªowiek jest w stanie oszuka¢ automatyczne metody wykrywania oszustw tego typu.
Cz¦±¢ systemów stosowanych w celu identykacji wirtualnych to»samo±ci opiera si¦ o dane osobowe (imiona, nazwiska), rzadko wyst¦puj¡ce w przypadkach zwi¡zanych z cyber-przest¦pczo±ci¡ czy faªszywymi opiniami.
Wi¦kszo±¢ bada« opiera si¦ na rozwi¡zaniach z dziedziny analizy autorstwa tekstów, które maj¡ pewne ograniczenia. Najwa»niejszym z nich jest stosunkowo niewielka liczba autorów, na których operuj¡ takie systemy. Dziaªaj¡ one skutecznie dla maksymalnie kil-kudziesi¦ciu autorów. Wraz ze zbli»aniem si¦ ich liczebno±ci do stu, skuteczno±¢ takich klasykatorów znacz¡co spada. Prace oparte o to podej±cie dotycz¡ce kilkuset autorów lub
wi¦cej praktycznie nie wyst¦puj¡.
Jedynie kilka prac dotyczy klasykacji du»ej liczby autorów (liczonej w tysi¡cach) i s¡ to albo klasykatory binarne, rozpatruj¡ce jedynie teksty w kategorii spamu, oferuj¡ce po-krycie rz¦du 20%[84], albo algorytmy osi¡gaj¡ skuteczno±¢ klasykacji na poziomie 20-30% [114]. Okoªo 70% skuteczno±ci klasykacji u»ytkowników do grupy spamerów/niespamerów osi¡gni¦to w pracy [107], jednak zaproponowane rozwi¡zanie nie wyznacza podobie«stw mi¦dzy poszczególnymi to»samo±ciami, a jedynie okre±la ich prawdopodobie«stwo bycia spamerem. Stosuje si¦ tam uproszczone metody wyznaczania podobie«stw tekstów oraz nie uwzgl¦dnia si¦ sentymentu wypowiedzi.
Po rozpoznaniu dziedziny, nie znaleziono tak»e bada«, które testowaªyby charaktery-styki, oparte o typy zawarto±ci odno±ników oraz charakterystyki czasowej aktywno±ci du»ej liczby autorów, operuj¡cych na danych z forów dyskusyjnych lub portali rekomendacyjnych, zawieraj¡cych takie informacje, mog¡ce skutecznie posªu»y¢ identykacji multito»samo±ci wirtualnych.
Nowatorstwo prezentowanego w rozprawie podej±cia, polega na zastosowaniu systemu do wyszukiwania i analizy to»samo±ci w problemach du»ej skali. System mo»e dziaªa¢ w oparciu o dane dotycz¡ce setek tysi¦cy u»ytkowników. Dodatkowo, zaprezentowano nowe elementy charakterystyk bazuj¡cych na typach odno±ników wychodz¡cych, które cz¦sto wy-st¦puj¡ w problemach dotycz¡cych opinii spamerskich. Kolejnym novum jest zastosowanie analizy podobie«stw aktywno±ci czasowej, nie rozpatrywanej wcze±niej w rozwi¡zaniach dotycz¡cych identykacji to»samo±ci wirtualnych.
Prezentowana rozprawa testuje skuteczno±¢ dziaªania nowych zestawów charaktery-styk, w porównaniu i w poª¡czeniu ze standardowymi typami charakterystyk dotychczas badanych.
Zaprezentowane rozwi¡zanie pozwala operowa¢ na du»ej liczbie autorów i ogromnych ilo±ciach danych. W zwi¡zku z tym, mo»e ono by¢ wykorzystane jako element wspoma-gaj¡cy ocen¦ ludzk¡, przy rozwi¡zywaniu problemów wyszukiwania multito»samo±ci w cy-berprzestrzeni. System implementuj¡cy takie rozwi¡zanie mo»e dziaªa¢ jako pierwszy etap selekcji, typuj¡cy potencjalne to»samo±ci podobne, w celu poddania ich dalszej ocenie za pomoc¡ metod ludzkiej inteligencji, których nie udaªo si¦ jeszcze do tej pory zaimplemento-wa¢ w formie maszynowej (w oparciu o kontekst, sens, lokalizacj¦, dziedzin¦). Rozwi¡zuje to problem skali i ilo±ci danych, z którym czªowiek nie jest w stanie sobie poradzi¢, a klasykatory nie osi¡gaj¡ z jego powodu wystarczaj¡cej skuteczno±ci.
4 Cel pracy i teza rozprawy doktorskiej
W poprzednim rozdziale opisano niedoskonaªo±ci aktualnych rozwi¡za«, sªu»¡cych wyszu-kiwaniu i identykacji wirtualnych to»samo±ci. Najwa»niejsze z nich to:
• operowanie na niewielkiej liczbie autorów (kilkadziesi¡t,kilkaset),
• brak uwzgl¦dnienia charakterystyk bazuj¡cych na czasowej analizie aktywno±ci i ty-pach odno±ników wychodz¡cych, w oparciu o dane z forów dyskusyjnych i portali rekomendacyjnych,
• brak mo»liwo±ci zastosowania, lub niska skuteczno±¢ dla problemów du»ej skali. Celem prezentowanej pracy badawczej byªo zaprojektowanie rozwi¡zania i zaimplemen-towanie go w postaci systemu, który w oparciu o istniej¡ce metody i rozwi¡zania autorskie, pozwala wyszukiwa¢ i identykowa¢ osoby ukrywaj¡ce si¦ w sieci pod ró»nymi to»samo-±ciami wirtualnymi. W praktyce znajdzie to zastosowanie przy rozwi¡zywaniu problemów takich jak:
• wykrywanie osób generuj¡cych masowo faªszywe opinie na portalach rekomendacyj-nych,
• identykacja prawdziwych to»samo±ci osób zaanga»owanych w szeroko rozumian¡ cyberprzest¦pczo±¢ (handel towarami kradzionymi, propagowanie nienawi±ci rasowej, pornograi dzieci¦cej, dziaªania terrorystyczne).
Poª¡czenie nast¦puj¡cych cech odró»nia prezentowane rozwi¡zanie od aktualnie istnie-j¡cych :
• system nie traci skuteczno±ci dziaªania wraz ze wzrostem ilo±ci wirtualnych to»sa-mo±ci, w odró»nieniu do klasycznych systemów analizy autorstwa tekstów opartych o klasykatory,
• w systemie u»yto nie stosowanego wcze±niej zestawu cech, skªadaj¡cego si¦ z: cha-rakterystyki tekstu, sentymentu wypowiedzi, aktywno±ci czasowej u»ytkownika oraz wspólnych elementów ª¡cz¡cych,
• system nie wymaga u»ycia danych osobowych do skutecznego wyszukiwania to»sa-mo±ci podobnych
Teza prezentowanej rozprawy brzmi nast¦puj¡co: "Istnieje mo»liwo±¢ utworzenia systemu wspomagaj¡cego wyszukiwanie multito»samo±ci wirtualnych ukrywaj¡-cych si¦ w sieciach spoªecznych. System dziaªa w oparciu o dane zgromadzone
w otwartych zasobach sieci Internet. Proponowana koncepcja bazuje na niesto-sowanym wcze±niej poª¡czeniu cech z dziedzin analizy stylometrycznej tekstu, sentymentu wypowiedzi, analizy aktywno±ci czasowej oraz pewnych powi¡za« elementów wspólnych, takich jak na przykªad tematy w¡tków, oceniane produk-ty, linki wychodz¡ce itp. Istotnym elementem systemu s¡ algorytmy wyznacza-nia podobie«stwa wirtualnych to»samo±ci, oparte na miarach podobie«stw cech, rozszerzone o wagi cech, ustalane w procesie uczenia z nadzorem. W odró»nie-niu do innych systemów analizy autorstwa tekstów, system nie traci skutecz-no±ci wraz ze wzrostem ilo±ci badanych wirtualnych to»samo±ci. Natomiast, w porównaniu z grup¡ rozwi¡za« stosowanych w badaniach z dziedziny iden-tykacji to»samo±ci, istotn¡ ró»nic¡ proponowanego podej±cia jest to, »e nie wymaga ono stosowania danych osobowych, w celu skutecznego wyszukiwania wirtualnych to»samo±ci podobnych."
Do osi¡gni¦cia celu pracy i udowodnienia tezy rozprawy przeananalizowano tematyk¦ bada« dotycz¡cych cyberprzest¦pczo±ci w sieciach spoªecznych i wybrano do rozwi¡zania problem opinii spamerskich na portalach rekomendacyjnych. Zaproponowano koncepcj¦ rozwi¡zania przy u»yciu aktualnie stosowanych metod (analiza stylometryczna tekstu, sen-tyment wypowiedzi) i rozwi¡za« stosowanych w dziedzinach pokrewnych (analiza czasowa aktywno±ci, lista elementów wspólnych). Zaprojektowano i zaimplementowano system za-wieraj¡cy niestosowane wcze±niej zestawy cech oraz algorytmy wyszukiwania podobie«stw, rozbudowane o faz¦ uczenia z nadzorem, wpªywaj¡c¡ na system wag cech, w algorytmach wyszukiwania podobie«stw to»samo±ci.
W celu werykacji sªuszno±ci przyj¦tej koncepcji i przydatno±ci zaproponowanego roz-wi¡zania niezb¦dne byªo zaimplementowanie parserów, pozwalaj¡cych pozyska¢ danych z ró»nych ¹ródeª (portal rekomendacyjny, forum dyskusyjne). Po pobraniu danych wyzna-czono charakterystyki dla wszystkich wirtualnych to»samo±ci w przetwarzanym zbiorze danych, i w oparciu o nie przetestowano algorytmy wyszukiwania to»samo±ci podobnych. Szczegóªowy opis i rezultaty testów s¡ opisane w rozdziale 8.
Wyniki badania systemu w praktycznych zastosowaniach potwierdzaj¡ jego wysok¡ skuteczno±¢ i stanowi¡ dowód sªuszno±ci prezentowanej tezy. System pozwala na wyszuki-wanie podobnych wirtualnych to»samo±ci, a tak»e wspomaga u»ytkownika systemu w ich ostatecznej identykacji. Proponowane rozwi¡zanie mo»e w przyszªo±ci znale¹¢ praktycz-ne zastosowanie przy rozwi¡zywaniu ró»norakich problemów zwi¡zanych ze zwalczaniem cyberprzest¦pczo±ci.
5 Koncepcja systemu
Rozwi¡zanie przedstawionego problemu oraz udowodnienie tezy rozprawy, wymaga-ªo stworzenia unikatowego systemu, ª¡cz¡cego elementy z wielu dziedzin nauki, in»ynierii wiedzy i in»ynierii oprogramowania. Schemat ideowy procesu wyznaczania podobie«stw wirtualnych to»samo±ci jest przedstawiony na rysunku 5.1. Projekt i architektura systemu zostaªy opisane w rozdziale 6, a jego gªówne komponenty przedstawiono na rysunku 6.1. W zwi¡zku z oryginaln¡ i unikatow¡ budow¡ systemu, niezb¦dne okazaªo si¦ wprowadze-nie, na potrzeby opisu elementów tej architektury, nowych poj¦¢, w celu precyzyjnego i adekwatnego nazwania i scharakteryzowania jej elementów. S¡ to :
• checha i charakterystyka to»samo±ci wirtualnej, • miara podobie«stwa wzgl¦dem danej cechy,
• wielowymiarowe metody okre±laj¡ce podobie«stwo wirtualnych to»samo±ci. Wszystkie te poj¦cia zostaªy szczegóªowo opisane w kolejnych cz¦±ciach tego rozdziaªu.
Jak przedstawiono na rysunku 5.1, wyznaczanie podobie«stwa wirtualnych to»samo±ci mo»na podzieli¢ na 3 najwa»niejsze etapy:
• etap ekstrakcji danych z sieci Web,
• etap generowania charakterystyk i okre±lania ich podobie«stw, • etap wyznaczania podobie«stw wirtualnych to»samos¢i.
Pierwszy etap polega na przeszukiwaniu sieci i wybieraniu z niej potencjalnie warto±cio-wych informacji, dotycz¡cych jej u»ytkowników. Zostaª on dokªadnie opisany w rozdziale 6.2.
Drugi etap polega na ekstrakcji, z wcze±niej pobranych danych, charakterystyk opi-suj¡cych cechy wirtualnych to»samo±ci i okre±lenie podobie«stw pomi¦dzy tymi charakte-rystykami dla ró»nych to»samo±ci wirtualnych. Na podstawie tych danych dziaªaj¡ dalej algorytmy decyzyjne, wyznaczaj¡ce podobie«stwo pomi¦dzy wirtualnymi to»samo±ciami, opisane dokªadnie w rozdziale 6.4.
5.1 Opis formalny systemu
Model formalny systemu, w oparciu o który dziaªaj¡ wspomniane wcze±niej algorytmy decyzyjne, mo»na przedstawi¢ w nast¦puj¡cy sposób:
Wybór cech, ustalanie wag Miary podobieństwa cech
Algorytmy decyzyjne
Charakterystyki wirtualnych tożsamości cyberprzestrzeń
Crawlery + parsery
Etap ekstrakcji danych
Etap generowania charakterystyk oraz wyznaczanie podobieństw
w ramach pojedynczej cechy
Etap wyznaczania podobieństw wirtualnych tożsamości w oparciu o algorytmy decyzyjne Etap nauki z nadzorem
Rysunek 5.1: Schemat ideowy procesu wyznaczania podobie«stw to»samo±ci wirtualnych. system wyznaczania podobie«stw Wirtualnych To»samo±ci, dziaªa w oparciu o czwórk¦ uporz¡dkowan¡ :
S ≡ (W T, RC, M P C, AP ) (5.1)
gdzie:
W T - zbiór badanych Wirtualnych To»samo±ci, t ∈ W T RC - rodzina stosowanych Cech
M P C - rodzina stosowanych Miar podobie«stw cechy
AP - zbiór stosowanych Algorytmów wyznaczania podobie«stwa Wirtualnych To»samo±ci Wirtualn¡ To»samo±ci¡ (t) nazywamy obiekt opisuj¡cy wirtualny byt odnaleziony w sieci.
Cech¡ (C) nazywamy zbiór wszystkich spotykanych warto±ci ch (charakterystyk) dla jednego rodzaju zmiennych, którymi mo»emy opisa¢ wirtualn¡ to»samo±¢.
ch ∈ C ∈ RC (5.2) Funkcj¡ charakterystyki nazywamy funkcj¦ fch, odwzorowuj¡c¡ elementy zbioru Wir-tualnych To»samo±ci w elementy zbioru Cech - charakterystyki.
fch(ti) → chk, ti∈ W T, chk ∈ C (5.3) Zbiór wszystkich stosowanych funkcji charakterystyk oznaczamy przez F Char.
Miar¡ podobie«stwa cechy nazywamy funkcj¦ m okre±lon¡ na iloczynie kartezja«skim (C ×C), która parom warto±ci charakterystyk przyporz¡dkuje stopie« podobie«stwa z prze-dziaªu [0,1]
m : C × C → [0, 1], C ∈ RC (5.4)
tak¡ »e:
∀chi∈ C, m(chi, chi) = 1
Zbiór wszystkich u»ywanych miar podobie«stw cechy oznaczamy przez MP C
Algorytmem wyznaczania podobie«stwa to»samo±ci wirtualnych nazwyamy funkcj¦ ap okre±lon¡ na iloczynie kartezja«skim (W T × W T ), która parom Wirtualnych To»samo±ci przyporz¡dkuje ich stopie« podobie«stwa z przedziaªu [0,1]
ap: W T × W T → [0, 1], (5.5)
tak¡ »e:
∀ti ∈ W T, ap(ti, ti) = 1
Algorytmy wyznaczaj¡ce podobie«stwo Wirtualnych To»samo±ci wykorzystuj¡ do dzia-ªania elementy zbiorów (W T, RC, MP C). Ogólnych schemat ich dziadzia-ªania opisany jest dokªadnie w rozdziale 6.4, a szczegóªy implementacji ka»dego z algorytmów wykorzysty-wanych w systemie znajduje si¦ w rozdziale 7.3.