Niedoskonaªo±ci istniej¡cych rozwi¡za«, motywacja podj¦cia bada«

Wykrywanie osób ukrywaj¡cych si¦ w sieciach spoªeczno±ciowych jest stosunkowo mªod¡ dziedzin¡, w której badania pojawiªy si¦ dopiero w ostatnich kilku latach. Badania te wi¡»¡ si¦ dodatkowo z problemem wiarygodnych ¹ródeª danych, na których mo»na przeprowadza¢ testy [117].

W badaniach danych pochodz¡cych z sieci WEB ich ilo±¢ powoduje, »e przeprowadzenie procesu identykacji wirtualnych to»samo±ci przez czªowieka, nawet na podstawie dobrze zdeniowanego zestawu cech, jest zbyt czasochªonne, lub nawet niemo»liwe. Niezb¦dne staje si¦ wi¦c wykorzystanie metod automatycznych, które stanowi¡ wsparcie czªowieka przy wyszukiwaniu podobie«stw to»samo±ci, aby zidentykowa¢ osoby celowo ukrywaj¡ce w sieci pod ró»nymi wirtualnymi to»samo±ciami.

Problemem jest tak»e fakt, »e przez odpowiedni¡ modykacj¦ stylu wypowiedzi i za-chowania oraz ukrywanie adresu IP, czªowiek jest w stanie oszuka¢ automatyczne metody wykrywania oszustw tego typu.

Cz¦±¢ systemów stosowanych w celu identykacji wirtualnych to»samo±ci opiera si¦ o dane osobowe (imiona, nazwiska), rzadko wyst¦puj¡ce w przypadkach zwi¡zanych z cyber-przest¦pczo±ci¡ czy faªszywymi opiniami.

Wi¦kszo±¢ bada« opiera si¦ na rozwi¡zaniach z dziedziny analizy autorstwa tekstów, które maj¡ pewne ograniczenia. Najwa»niejszym z nich jest stosunkowo niewielka liczba autorów, na których operuj¡ takie systemy. Dziaªaj¡ one skutecznie dla maksymalnie kil-kudziesi¦ciu autorów. Wraz ze zbli»aniem si¦ ich liczebno±ci do stu, skuteczno±¢ takich klasykatorów znacz¡co spada. Prace oparte o to podej±cie dotycz¡ce kilkuset autorów lub

wi¦cej praktycznie nie wyst¦puj¡.

Jedynie kilka prac dotyczy klasykacji du»ej liczby autorów (liczonej w tysi¡cach) i s¡ to albo klasykatory binarne, rozpatruj¡ce jedynie teksty w kategorii spamu, oferuj¡ce po-krycie rz¦du 20%[84], albo algorytmy osi¡gaj¡ skuteczno±¢ klasykacji na poziomie 20-30% [114]. Okoªo 70% skuteczno±ci klasykacji u»ytkowników do grupy spamerów/niespamerów osi¡gni¦to w pracy [107], jednak zaproponowane rozwi¡zanie nie wyznacza podobie«stw mi¦dzy poszczególnymi to»samo±ciami, a jedynie okre±la ich prawdopodobie«stwo bycia spamerem. Stosuje si¦ tam uproszczone metody wyznaczania podobie«stw tekstów oraz nie uwzgl¦dnia si¦ sentymentu wypowiedzi.

Po rozpoznaniu dziedziny, nie znaleziono tak»e bada«, które testowaªyby charaktery-styki, oparte o typy zawarto±ci odno±ników oraz charakterystyki czasowej aktywno±ci du»ej liczby autorów, operuj¡cych na danych z forów dyskusyjnych lub portali rekomendacyjnych, zawieraj¡cych takie informacje, mog¡ce skutecznie posªu»y¢ identykacji multito»samo±ci wirtualnych.

Nowatorstwo prezentowanego w rozprawie podej±cia, polega na zastosowaniu systemu do wyszukiwania i analizy to»samo±ci w problemach du»ej skali. System mo»e dziaªa¢ w oparciu o dane dotycz¡ce setek tysi¦cy u»ytkowników. Dodatkowo, zaprezentowano nowe elementy charakterystyk bazuj¡cych na typach odno±ników wychodz¡cych, które cz¦sto wy-st¦puj¡ w problemach dotycz¡cych opinii spamerskich. Kolejnym novum jest zastosowanie analizy podobie«stw aktywno±ci czasowej, nie rozpatrywanej wcze±niej w rozwi¡zaniach dotycz¡cych identykacji to»samo±ci wirtualnych.

Prezentowana rozprawa testuje skuteczno±¢ dziaªania nowych zestawów charaktery-styk, w porównaniu i w poª¡czeniu ze standardowymi typami charakterystyk dotychczas badanych.

Zaprezentowane rozwi¡zanie pozwala operowa¢ na du»ej liczbie autorów i ogromnych ilo±ciach danych. W zwi¡zku z tym, mo»e ono by¢ wykorzystane jako element wspoma-gaj¡cy ocen¦ ludzk¡, przy rozwi¡zywaniu problemów wyszukiwania multito»samo±ci w cy-berprzestrzeni. System implementuj¡cy takie rozwi¡zanie mo»e dziaªa¢ jako pierwszy etap selekcji, typuj¡cy potencjalne to»samo±ci podobne, w celu poddania ich dalszej ocenie za pomoc¡ metod ludzkiej inteligencji, których nie udaªo si¦ jeszcze do tej pory zaimplemento-wa¢ w formie maszynowej (w oparciu o kontekst, sens, lokalizacj¦, dziedzin¦). Rozwi¡zuje to problem skali i ilo±ci danych, z którym czªowiek nie jest w stanie sobie poradzi¢, a klasykatory nie osi¡gaj¡ z jego powodu wystarczaj¡cej skuteczno±ci.

4 Cel pracy i teza rozprawy doktorskiej

W poprzednim rozdziale opisano niedoskonaªo±ci aktualnych rozwi¡za«, sªu»¡cych wyszu-kiwaniu i identykacji wirtualnych to»samo±ci. Najwa»niejsze z nich to:

• operowanie na niewielkiej liczbie autorów (kilkadziesi¡t,kilkaset),

• brak uwzgl¦dnienia charakterystyk bazuj¡cych na czasowej analizie aktywno±ci i ty-pach odno±ników wychodz¡cych, w oparciu o dane z forów dyskusyjnych i portali rekomendacyjnych,

• brak mo»liwo±ci zastosowania, lub niska skuteczno±¢ dla problemów du»ej skali. Celem prezentowanej pracy badawczej byªo zaprojektowanie rozwi¡zania i zaimplemen-towanie go w postaci systemu, który w oparciu o istniej¡ce metody i rozwi¡zania autorskie, pozwala wyszukiwa¢ i identykowa¢ osoby ukrywaj¡ce si¦ w sieci pod ró»nymi to»samo-±ciami wirtualnymi. W praktyce znajdzie to zastosowanie przy rozwi¡zywaniu problemów takich jak:

• wykrywanie osób generuj¡cych masowo faªszywe opinie na portalach rekomendacyj-nych,

• identykacja prawdziwych to»samo±ci osób zaanga»owanych w szeroko rozumian¡ cyberprzest¦pczo±¢ (handel towarami kradzionymi, propagowanie nienawi±ci rasowej, pornograi dzieci¦cej, dziaªania terrorystyczne).

Poª¡czenie nast¦puj¡cych cech odró»nia prezentowane rozwi¡zanie od aktualnie istnie-j¡cych :

• system nie traci skuteczno±ci dziaªania wraz ze wzrostem ilo±ci wirtualnych to»sa-mo±ci, w odró»nieniu do klasycznych systemów analizy autorstwa tekstów opartych o klasykatory,

• w systemie u»yto nie stosowanego wcze±niej zestawu cech, skªadaj¡cego si¦ z: cha-rakterystyki tekstu, sentymentu wypowiedzi, aktywno±ci czasowej u»ytkownika oraz wspólnych elementów ª¡cz¡cych,

• system nie wymaga u»ycia danych osobowych do skutecznego wyszukiwania to»sa-mo±ci podobnych

Teza prezentowanej rozprawy brzmi nast¦puj¡co: "Istnieje mo»liwo±¢ utworzenia systemu wspomagaj¡cego wyszukiwanie multito»samo±ci wirtualnych ukrywaj¡-cych si¦ w sieciach spoªecznych. System dziaªa w oparciu o dane zgromadzone

w otwartych zasobach sieci Internet. Proponowana koncepcja bazuje na niesto-sowanym wcze±niej poª¡czeniu cech z dziedzin analizy stylometrycznej tekstu, sentymentu wypowiedzi, analizy aktywno±ci czasowej oraz pewnych powi¡za« elementów wspólnych, takich jak na przykªad tematy w¡tków, oceniane produk-ty, linki wychodz¡ce itp. Istotnym elementem systemu s¡ algorytmy wyznacza-nia podobie«stwa wirtualnych to»samo±ci, oparte na miarach podobie«stw cech, rozszerzone o wagi cech, ustalane w procesie uczenia z nadzorem. W odró»nie-niu do innych systemów analizy autorstwa tekstów, system nie traci skutecz-no±ci wraz ze wzrostem ilo±ci badanych wirtualnych to»samo±ci. Natomiast, w porównaniu z grup¡ rozwi¡za« stosowanych w badaniach z dziedziny iden-tykacji to»samo±ci, istotn¡ ró»nic¡ proponowanego podej±cia jest to, »e nie wymaga ono stosowania danych osobowych, w celu skutecznego wyszukiwania wirtualnych to»samo±ci podobnych."

Do osi¡gni¦cia celu pracy i udowodnienia tezy rozprawy przeananalizowano tematyk¦ bada« dotycz¡cych cyberprzest¦pczo±ci w sieciach spoªecznych i wybrano do rozwi¡zania problem opinii spamerskich na portalach rekomendacyjnych. Zaproponowano koncepcj¦ rozwi¡zania przy u»yciu aktualnie stosowanych metod (analiza stylometryczna tekstu, sen-tyment wypowiedzi) i rozwi¡za« stosowanych w dziedzinach pokrewnych (analiza czasowa aktywno±ci, lista elementów wspólnych). Zaprojektowano i zaimplementowano system za-wieraj¡cy niestosowane wcze±niej zestawy cech oraz algorytmy wyszukiwania podobie«stw, rozbudowane o faz¦ uczenia z nadzorem, wpªywaj¡c¡ na system wag cech, w algorytmach wyszukiwania podobie«stw to»samo±ci.

W celu werykacji sªuszno±ci przyj¦tej koncepcji i przydatno±ci zaproponowanego roz-wi¡zania niezb¦dne byªo zaimplementowanie parserów, pozwalaj¡cych pozyska¢ danych z ró»nych ¹ródeª (portal rekomendacyjny, forum dyskusyjne). Po pobraniu danych wyzna-czono charakterystyki dla wszystkich wirtualnych to»samo±ci w przetwarzanym zbiorze danych, i w oparciu o nie przetestowano algorytmy wyszukiwania to»samo±ci podobnych. Szczegóªowy opis i rezultaty testów s¡ opisane w rozdziale 8.

Wyniki badania systemu w praktycznych zastosowaniach potwierdzaj¡ jego wysok¡ skuteczno±¢ i stanowi¡ dowód sªuszno±ci prezentowanej tezy. System pozwala na wyszuki-wanie podobnych wirtualnych to»samo±ci, a tak»e wspomaga u»ytkownika systemu w ich ostatecznej identykacji. Proponowane rozwi¡zanie mo»e w przyszªo±ci znale¹¢ praktycz-ne zastosowanie przy rozwi¡zywaniu ró»norakich problemów zwi¡zanych ze zwalczaniem cyberprzest¦pczo±ci.

5 Koncepcja systemu

Rozwi¡zanie przedstawionego problemu oraz udowodnienie tezy rozprawy, wymaga-ªo stworzenia unikatowego systemu, ª¡cz¡cego elementy z wielu dziedzin nauki, in»ynierii wiedzy i in»ynierii oprogramowania. Schemat ideowy procesu wyznaczania podobie«stw wirtualnych to»samo±ci jest przedstawiony na rysunku 5.1. Projekt i architektura systemu zostaªy opisane w rozdziale 6, a jego gªówne komponenty przedstawiono na rysunku 6.1. W zwi¡zku z oryginaln¡ i unikatow¡ budow¡ systemu, niezb¦dne okazaªo si¦ wprowadze-nie, na potrzeby opisu elementów tej architektury, nowych poj¦¢, w celu precyzyjnego i adekwatnego nazwania i scharakteryzowania jej elementów. S¡ to :

• checha i charakterystyka to»samo±ci wirtualnej, • miara podobie«stwa wzgl¦dem danej cechy,

• wielowymiarowe metody okre±laj¡ce podobie«stwo wirtualnych to»samo±ci. Wszystkie te poj¦cia zostaªy szczegóªowo opisane w kolejnych cz¦±ciach tego rozdziaªu.

Jak przedstawiono na rysunku 5.1, wyznaczanie podobie«stwa wirtualnych to»samo±ci mo»na podzieli¢ na 3 najwa»niejsze etapy:

• etap ekstrakcji danych z sieci Web,

• etap generowania charakterystyk i okre±lania ich podobie«stw, • etap wyznaczania podobie«stw wirtualnych to»samos¢i.

Pierwszy etap polega na przeszukiwaniu sieci i wybieraniu z niej potencjalnie warto±cio-wych informacji, dotycz¡cych jej u»ytkowników. Zostaª on dokªadnie opisany w rozdziale 6.2.

Drugi etap polega na ekstrakcji, z wcze±niej pobranych danych, charakterystyk opi-suj¡cych cechy wirtualnych to»samo±ci i okre±lenie podobie«stw pomi¦dzy tymi charakte-rystykami dla ró»nych to»samo±ci wirtualnych. Na podstawie tych danych dziaªaj¡ dalej algorytmy decyzyjne, wyznaczaj¡ce podobie«stwo pomi¦dzy wirtualnymi to»samo±ciami, opisane dokªadnie w rozdziale 6.4.

5.1 Opis formalny systemu

Model formalny systemu, w oparciu o który dziaªaj¡ wspomniane wcze±niej algorytmy decyzyjne, mo»na przedstawi¢ w nast¦puj¡cy sposób:

Wybór cech, ustalanie wag Miary podobieństwa cech

Algorytmy decyzyjne

Charakterystyki wirtualnych tożsamości cyberprzestrzeń

Crawlery + parsery

Etap ekstrakcji danych

Etap generowania charakterystyk oraz wyznaczanie podobieństw

w ramach pojedynczej cechy

Etap wyznaczania podobieństw wirtualnych tożsamości w oparciu o algorytmy decyzyjne Etap nauki z nadzorem

Rysunek 5.1: Schemat ideowy procesu wyznaczania podobie«stw to»samo±ci wirtualnych. system wyznaczania podobie«stw Wirtualnych To»samo±ci, dziaªa w oparciu o czwórk¦ uporz¡dkowan¡ :

S ≡ (W T, RC, M P C, AP ) (5.1)

gdzie:

W T - zbiór badanych Wirtualnych To»samo±ci, t ∈ W T RC - rodzina stosowanych Cech

M P C - rodzina stosowanych Miar podobie«stw cechy

AP - zbiór stosowanych Algorytmów wyznaczania podobie«stwa Wirtualnych To»samo±ci Wirtualn¡ To»samo±ci¡ (t) nazywamy obiekt opisuj¡cy wirtualny byt odnaleziony w sieci.

Cech¡ (C) nazywamy zbiór wszystkich spotykanych warto±ci ch (charakterystyk) dla jednego rodzaju zmiennych, którymi mo»emy opisa¢ wirtualn¡ to»samo±¢.

ch ∈ C ∈ RC (5.2) Funkcj¡ charakterystyki nazywamy funkcj¦ fch, odwzorowuj¡c¡ elementy zbioru Wir-tualnych To»samo±ci w elementy zbioru Cech - charakterystyki.

f_ch(t_i) → ch_k, t_i∈ W T, ch_k ∈ C (5.3) Zbiór wszystkich stosowanych funkcji charakterystyk oznaczamy przez F Char.

Miar¡ podobie«stwa cechy nazywamy funkcj¦ m okre±lon¡ na iloczynie kartezja«skim (C ×C), która parom warto±ci charakterystyk przyporz¡dkuje stopie« podobie«stwa z prze-dziaªu [0,1]

m : C × C → [0, 1], C ∈ RC (5.4)

tak¡ »e:

∀ch_i∈ C, m(ch_i, chi) = 1

Zbiór wszystkich u»ywanych miar podobie«stw cechy oznaczamy przez MP C

Algorytmem wyznaczania podobie«stwa to»samo±ci wirtualnych nazwyamy funkcj¦ ap okre±lon¡ na iloczynie kartezja«skim (W T × W T ), która parom Wirtualnych To»samo±ci przyporz¡dkuje ich stopie« podobie«stwa z przedziaªu [0,1]

a_p: W T × W T → [0, 1], (5.5)

tak¡ »e:

∀t_i ∈ W T, a_p(ti, ti) = 1

Algorytmy wyznaczaj¡ce podobie«stwo Wirtualnych To»samo±ci wykorzystuj¡ do dzia-ªania elementy zbiorów (W T, RC, MP C). Ogólnych schemat ich dziadzia-ªania opisany jest dokªadnie w rozdziale 6.4, a szczegóªy implementacji ka»dego z algorytmów wykorzysty-wanych w systemie znajduje si¦ w rozdziale 7.3.

W dokumencie Index of /rozprawy2/10722 (Stron 39-45)