• Nie Znaleziono Wyników

Index of /rozprawy2/10722

N/A
N/A
Protected

Academic year: 2021

Share "Index of /rozprawy2/10722"

Copied!
116
0
0

Pełen tekst

(1)Akademia Górniczo - Hutnicza im. Stanisªawa Staszica w Krakowie. Wydziaª Informatyki, Elektroniki i Telekomunikacji Katedra Informatyki Rozprawa doktorska. Wielowymiarowe charakterystyki proli osobowych spoªecze«stw wirtualnych. mgr in». Andrzej Opali«ski Promotor: dr hab. in». Krzysztof Cetnarowicz, prof. n. AGH. Kraków, 2013.

(2) Chciaªbym serdecznie podzi¦kowa¢ Panom dr hab. in». Krzysztofowi Cetnarowiczowi, profesorowi n. AGH i prof. dr hab. in». Edwardowi Nawareckiemu, za wszystkie pomysªy, rady, wskazówki i wsparcie merytotyczne, które stanowiªy nieocenion¡ pomoc podczas pisania niniejszej pracy..

(3) Spis tre±ci 1 Wst¦p. 5. 2 Era cyberspoªecze«stwa. 9. 2.1 2.2 2.3. Wirtualne spoªeczno±ci internetu . . . . . . . . . . . . . . . . . . . . . . . . 10 Wirtualna to»samo±¢ i anonimowo±¢ w sieci . . . . . . . . . . . . . . . . . . 13 Przykªadowe problemy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16. 3 Identykacja wirtualnych to»samo±ci 3.1. 3.2 3.3. 3.4. 3.5. 18. Klasyczna analiza autorstwa tekstów . . . . . . . . . . . . . . . . . 3.1.1 Charakterystyki w analizie autorstwa tekstów . . . . . . . . 3.1.2 Techniki analizy autorstwa tekstów . . . . . . . . . . . . . . 3.1.3 Miary skuteczno±ci klasykatorów . . . . . . . . . . . . . . Charakterystyki to»samo±ci wirtualnych . . . . . . . . . . . . . . . Badania w dziedzinach pokrewnych, oparte na danych z sieci WEB 3.3.1 Systemy identykacji to»samo±ci w oparciu o dane osobowe 3.3.2 Analiza autorstwa danych z sieci WEB . . . . . . . . . . . . 3.3.3 Wykrywanie i analiza spamu . . . . . . . . . . . . . . . . . Trudno±ci i rozwi¡zania w problemach du»ej skali . . . . . . . . . . 3.4.1 Redukcja zªo»ono±ci obliczeniowej . . . . . . . . . . . . . . . 3.4.2 Szacowanie podobie«stw w systemach du»ej skali . . . . . . 3.4.3 Dane testowe i ocena skuteczno±ci . . . . . . . . . . . . . . Niedoskonaªo±ci istniej¡cych rozwi¡za«, motywacja podj¦cia bada«. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. 18 19 20 22 23 27 28 28 31 33 33 35 36 39. 4 Cel pracy i teza rozprawy doktorskiej. 41. 5 Koncepcja systemu. 43. 5.1 5.2 5.3 5.4. Opis formalny systemu . . . . . . . . . . . . . . . . . . . . . . . . . Cechy i charakterystyki to»samo±ci wirtualnej . . . . . . . . . . . . Miary podobie«stwa cech . . . . . . . . . . . . . . . . . . . . . . . Wielowymiarowe algorytmy wyznaczaj¡ce podobie«stwo to»samo±ci. . . . .. . . . .. . . . .. . . . .. . . . .. 6 Projekt systemu 6.1 6.2 6.3 6.4. Architektura systemu . . . . . . . . . . . . . . . . . . . . . . . . Komponent crawlu i pobierania danych . . . . . . . . . . . . . . Komponent charakterystyk i miar podobie«stw cech . . . . . . Komponent wyszukiwania to»samo±ci podobnych . . . . . . . . 6.4.1 Wybór algorytmu wyszukiwania podobie«stw to»samo±ci 6.4.2 Etap uczenia z nadzorem . . . . . . . . . . . . . . . . .. 43 45 46 48. 49 . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. 49 50 53 56 57 58.

(4) 6.5 6.6 6.7. 6.4.3 Wyszukanie wªa±ciwe podobnych to»samo±ci wirtualnych . . . Tryby wyszukiwania podobie«stw to»samo±ci. . . . . . . . . . . . . . Metody werykacji i ewaluacji wyników . . . . . . . . . . . . . . . . Aspekt prawny przetwarzania danych osobowych w ramach systemu. . . . .. . . . .. . . . .. . . . .. 7 Implementacja systemu 7.1 7.2. 7.3. 65. Zastosowane technologie i rozwi¡zania sprz¦towe . . . . . . . . . Zaimplementowane charakterystyki i miary podobie«stw cech . . 7.2.1 Metody oparte o charakterystyk¦ tekstu . . . . . . . . . . 7.2.2 Metody oparte o analiz¦ czasowej aktywno±ci u»ytkownika 7.2.3 Metody oparte o wspólne powi¡zania obiektów . . . . . . Algorytmy wyznaczania podobie«stw wirtualnych to»samo±ci . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. 8 Zastosowanie systemu w praktyce i ocena jego efektywno±ci 8.1. 8.2. 8.3. Eksperyment: faªszywe opinie w portalach rekomendacyjnych 8.1.1 ™ródªa danych . . . . . . . . . . . . . . . . . . . . . . 8.1.2 Metoda wyszukiwania podobie«stw . . . . . . . . . . . 8.1.3 Metoda werykacji wyników . . . . . . . . . . . . . . . 8.1.4 Rezultaty dziaªania systemu . . . . . . . . . . . . . . . Eksperyment: multito»samo±ci na forach dyskusyjnych . . . . 8.2.1 ™ródªa danych . . . . . . . . . . . . . . . . . . . . . . 8.2.2 Metoda wyszukiwania podobie«stw . . . . . . . . . . . 8.2.3 Metoda werykacji wyników . . . . . . . . . . . . . . . 8.2.4 Rezultaty dziaªania systemu . . . . . . . . . . . . . . . Podsumowanie serii testów . . . . . . . . . . . . . . . . . . . .. 9 Wnioski ko«cowe. 59 60 61 63. . . . . . . . . . . .. 65 67 67 71 72 73. 78 . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . .. 78 79 80 81 83 91 92 92 93 94 97. 98.

(5) Wst¦p. 1 Wst¦p XX wiek byª kolejnym przeªomowym etapem w rozwoju cywilizacji czªowieka. Poprzednie stulecie, wiek pary i elektryczno±ci, zapocz¡tkowaªo post¦p w dziedzinie przemysªu, nauki i technologii na niespotykan¡ wcze±niej skal¦. W ci¡gu ostatnich stu lat poprzedniego tysi¡clecia pojawiaªy si¦ kolejne wynalazki, maj¡ce znacz¡cy wpªyw na rozwój ludzko±ci. W dziedzinie techniki mo»na w±ród nich wymieni¢ m.in.: nadajnik radiowy, przekaz obrazu za pomoc¡ elektryczno±ci, reaktor j¡drowy, laser czy ukªady scalone. To wszystko poskutkowaªo skokiem cywilizacyjnym w er¦ elektroniki i komputerów. Pierwsze komputery oparte na tranzystorach pojawiªy si¦ we wczesnych latach sze±¢dziesi¡tych.[9] Nast¦pne generacje, oparte na ukªadach scalonych maªej i ±redniej skali integracji, takie jak IBM 360 czy Odra 1305, sªu»yªy do oblicze« w du»ych centrach naukowo-obliczeniowych. Wraz z rozwojem, miniaturyzacj¡ i obni»aniem kosztów elektroniki i mikroprocesorów, w szybkim tempie ulepszano kolejne modele komputerów. Kolejn¡ generacj¡, powstaª¡ na przeªomie lat 70 i 80tych, byªa klasa komputerów osobistych, które ze wzgl¦du na cen¦ i rozmiary byªy ju» jak sama nazwa wskazuje - dost¦pne dla przeci¦tnego u»ytkownika. Wraz z rozwojem komputerów, pojawiª si¦ równie» problem przenoszenia danych pomi¦dzy poszczególnymi maszynami. Na przeªomie lat 60. i 70. z inicjatywy Departamentu Obrony USA powstaªa sie¢ ARPANET, ª¡cz¡ca pocz¡tkowo kilkana±cie komputerów znajduj¡cych si¦ na ró»nych uniwersytetach w Stanach Zjednoczonych. Na pocz¡tku lat 80tych, po podª¡czeniu si¦ do ARPANETu kolejnych sieci uczelnianych, ze wzgl¦dów bezpiecze«stwa nast¡piªo odª¡czenie wojskowej cz¦±ci sieci, która zachowaªa star¡ nazw¦ ARPANET. Natomiast cz¦±¢ akademicka ocjalnie zostaªa nazwana Internetem [123]. Od tego momentu rozpoczyna si¦ okres dynamicznego rozwoju sieci globalnej na ±wiecie. W Polsce pierwsze ª¡cze internetowe zostaªo uruchomione w 1990 roku w Instytucie Fizyki J¡drowej w Krakowie. Pierwszy polski portal internetowy zadebiutowaª w 1995 roku, a rok pó¹niej Telekomunikacja Polska zaoferowaªa mo»liwo±¢ dost¦pu do internetu poprzez modemy. Pocz¡tkowo byªa to do±¢ droga usªuga o sªabych parametrach poª¡czenia, aczkolwiek wraz z upªywem czasu zyskiwaªa na jako±ci i popularno±ci i traaªa do coraz wi¦kszej liczby u»ytkowników. Dynamiczny rozwój popularno±ci sieci Internet na ±wiecie przypada na przeªom stuleci i obecnie przebiega bardzo gwaªtownie. Jednym z podstawowych praw, które poznaj¡ studenci kierunków technicznych jest prawo Moore'a [112], wg którego liczba tranzystorów w ukªadzie scalonym podwaja si¦ w ci¡gu 18-24 miesi¦cy. Wywodzi si¦ ono z elektroniki, aczkolwiek znalazªo tak»e zastosowanie w wielu aspektach informatyki, odnosz¡c si¦ do. 5.

(6) Wst¦p podzespoªów komputerowych oraz ilo±ci dost¦pnych i przetwarzanych danych oraz informacji. Przez ostatnie kilkadziesi¡t lat prawo Moore'a znajdowaªo potwierdzenie w wielu dziedzinach nauki i techniki, natomiast w ostatnich latach mo»emy zauwa»y¢ ciekawe anomalie. Je±li rozwa»ymy je pod k¡tem sprz¦towym, staje si¦ ono faªszywe, z powodu spowolnienia rozwoju technologii miniaturyzacji mikroprocesorów, która nie rozwija si¦ ju» tak dynamicznie jak w drugiej poªowie XX wieku. Rozwa»aj¡c z koleji ilo±¢ dost¦pnych danych i informacji, sytuacja jest wr¦cz odwrotna. Dynamiczny rozwój sieci Internet z pocz¡tku tego stulecia poskutkowaª lawinowym przyrostem danych, udost¦pnianych za jej po±rednictwem. Rosn¡ca ilo±¢ informacji wynika z liczby u»ytkowników, którzy z niej korzystaj¡. Wedªug bada« z lipca 2012 roku [103] [60] ju» 2,4 miliarda ludzi na ±wiecie ma dost¦p do internetu, co daje 34% populacji. W Europie liczba ta wynosi ponad 63% a w Ameryce Póªnocnej ponad 78% populacji. W porównaniu z pocz¡tkiem tego stulecia zanotowano wzrost o 566% w skali ±wiatowej. Interesuj¡cym wska¹nikiem rozwoju sieci jest te» liczba stron internetowych, dost¦pnych w sieci WWW [115]. W grudniu 2012 roku odnotowano ich okoªo 633 miliony, podczas gdy w grudniu 2000 roku byªo to jedynie 25 milionów. Ten wska¹nik wzrósª o ponad 2500%. Przyczyn¡ takiego wzrostu liczby stron internetowych jest ewolucja sieci Internet do modelu WEB 2.0, w którym u»ytkownik ma mo»liwo±¢ tworzenia i umieszczania na stronach wªasnych informacji. Najpopularniejszymi przykªadami takich serwisów s¡ blogi, listy dyskusyjne, sieci spoªeczne oraz portale, w których u»ytkownik ma mo»liwo±¢ komentowania umieszczanych tam materiaªów. Inn¡ kwesti¡ jest te» rodzaj i jako±¢ danych umieszczanych w sieci, do której dost¦p jest obecnie powszechny. Rozpatruj¡c to pod aspektem "jako±ci informacji" zawartych w danych umieszczonych na stronach WWW, mo»emy mówi¢ o znacznym obni»eniu jej warto±ci merytorycznej. Wynika to gªównie z ogromnego przyrostu ¹ródeª niespecjalistycznych. Skutkuje to jednak tak»e znaczne ilo±ci¡ danych, które ze wzgl¦du na swoj¡ charakterystyk¦, mog¡ by¢ interesuj¡ce w aspekcie mo»liwo±ci przeprowadzenia bada« spoªecze«stwa informacyjnego. Z upowszechnieniem dost¦pu do internetu wi¡»e si¦ nie tylko zwi¦kszenie ilo±ci danych umieszczanych sieci. Ma ona tak»e gª¦bszy aspekt spoªeczny. Wraz z popularyzacj¡ modelu WEB 2.0 sieci Internet, mo»emy zauwa»y¢ przenoszenie si¦ coraz bardziej rozlegªych obszarów »ycia spoªecznego w wirtualn¡ rzeczywisto±¢. Powstaje nowy obszar, który mo»na nazwa¢ cyberprzestrzeni¡, b¦d¡c¡ równolegª¡ przestrzeni¡ wirtualn¡, dziaªaj¡c¡ w oparciu o sie¢ Internet. [80][66] Rozwój aktywno±ci w cyberprzestrzeni mo»na zaobserwowa¢ w wielu dziedzinach »ycia ludzkiego, pocz¡wszy od gospodarki, której przykªadem s¡ sklepy 6.

(7) Wst¦p internetowe, portale aukcyjne czy wirtualne gieªdy i banki, a ko«cz¡c na czysto spoªecznych jej domenach, takich jak portale randkowe, sieci spoªeczno±ciowe i grupy dyskusyjne. Mo»na wi¦c mówi¢ o powstawaniu nowego rodzaju wirtualnego spoªecze«stwa. Jednym z bardziej interesuj¡cych badawczo elementów cyberprzestrzeni s¡ sieci spoªeczno±ciowe, w których mo»na zaobserwowa¢ mapowanie spoªecze«stwa na wirtualne sieci powi¡za« u»ytkowników pomi¦dzy sob¡. W ramach takich sieci mo»na zaobserwowa¢ interakcje, wymian¦ informacji oraz tworzenie grup u»ytkowników, odwzorowuj¡ce w pewien sposób relacje mi¦dzy osobami w rzeczywisto±ci[7][113]. Takie przeniesienie tych elementów nie odpowiada jednak dokªadnie sytuacji w rzeczywisto±ci ze wzgl¦du na dwa czynniki. Pierwszym jest ograniczona struktura sieci spoªeczno±ciowych, w których taka aktywno±¢ ma miejsce, nie pozwalaj¡ca na odwzorowanie wszystkich elementów »ycia spoªecznego. Drugim czynnikiem jest kwestia kreowania i werykacji cech wirtualnych to»samo±ci, które reprezentuj¡ ludzi w cyberprzestrzeni[41]. Wzgl¦dnie du»a swoboda w kreowaniu wªasnego wizerunku oraz ograniczone mo»liwo±ci jego werykacji tworz¡ sytuacj¦, w której wirtualna to»samo±¢ niekoniecznie reprezentuje prawdziwe cechy realnej osoby, wyst¦puj¡cej pod ow¡ to»samo±ci¡. Tworzenie wirtualnych to»samo±ci u»ytkowników powoduje szereg zarówno pozytywnych, jak i negatywnych skutków [34]. Za skutek pozytywny mo»na z pewno±ci¡ uwa»a¢ wi¦ksz¡ swobod¦ kontaktów mi¦dzyludzkich w ramach wirtualnych sieci spoªeczno±ciowych. Ukrycie za wirtualnymi to»samo±ciami pozwala przezwyci¦»y¢ nie±miaªo±¢, lub ukry¢ niektóre cechy lub wady, które maj¡ negatywny wpªyw na samoocen¦ danej osoby i ograniczaj¡ jej zdolno±ci do nawi¡zywania kontaktów w realnym ±wiecie. Kolejnym pozytywnym aspektem jest mo»liwo±¢ anonimowego wyra»ania opinii na dany temat w ±rodowiskach, w których ze wzgl¦du na ograniczenie wolno±ci wypowiedzi jest to niemo»liwe, np. w systemach totalitarnych. Przykªadem tego mog¡ by¢ cho¢by anonimowe relacje z zamieszek podczas rewolucji w Egipcie, która miaªa miejsce w 2011 roku [143]. Dzi¦ki anonimowo±ci gwarantowanej przez sieci spoªeczno±ciowe ±wiat otrzymywaª informacje od naocznych ±wiadków zaj±¢, o tym co dzieje si¦ na ulicach miast ogarni¦tych zamieszkami, w czasie gdy kontrolowana przez rz¡d telewizja przekazywaªa zupeªnie inne wiadomo±ci. Taka charakterystyka sieci spoªecznych ma te» niestety negatywne efekty. Wysoki stopie« anonimowo±ci i brak mo»liwo±ci werykacji danych, przyczynia si¦ do rozwoju cyberprzest¦pczo±ci, czyli kryminalnej aktywno±ci w sieci Internet[24]. Wykradanie haseª, podszywanie si¦ pod to»samo±ci, czarny PR, gªoszenie nienawi±ci rasowej, handel nielegalnymi towarami czy rozprzestrzenianie materiaªów pedolskich to jedynie wierzchoªek góry lodowej, przedstawiaj¡cej negatywne aspekty rozwoju cyberprzestrzeni [118]. W zwi¡zku z obserwowanym w ostatnich latach dynamicznym rozwojem sieci Inter7.

(8) Wst¦p net, wyrosªej z niej cyberprzestrzeni oraz sieci spoªecznych, b¦d¡cych jej cz¦±ci¡, rozwijaj¡ si¦ tak»e badania naukowe zwi¡zane z tymi zjawiskami[31][32][48][65]. Jedn¡ z wielu gaª¦zi owych bada« s¡ metody przeciwdziaªania pojawiaj¡cym si¦ równocze±nie negatywnym aspektom zwi¡zanym ze wzrostem popularno±ci sieci spoªeczno±ciowych. Istnieje wyra¹nie rysuj¡ca si¦ potrzeba rozwoju mechanizmów, które wspomagaªyby walk¦ z cyberprzest¦pczo±ci¡, i to wªa±nie tej dziedziny dotycz¡ badania opisane w prezentowanej rozprawie. Celem pracy, jest zaproponowanie i przetestowanie nowego modelu, który pozwoliªby wykrywa¢ osoby, ukrywaj¡ce si¦ w sieci WEB pod ró»nymi to»samo±ciami wirtualnymi. Prezentowany system opiera si¦ na aktualnych rozwi¡zaniach i wzbogaca je o nowe elementy, nie stosowane dotychczas w tej dziedzinie. Zastosowanie zaproponowanych charakterystyk umo»liwia wykrycie osób, których nie udaªoby si¦ zidentykowa¢ stosuj¡c standardowe podej±cia w tej dziedzinie Kolejne rozdziaªy niniejszej rozprawy zawieraj¡ nast¦puj¡ce tre±ci. W rozdziale 2. opisany jest rozwój sieci WEB, ksztaªtuj¡ce si¦ w jej ramach wirtualne spoªeczno±ci i tworz¡ce je wirtualne to»samo±ci. Rozdziaª ten przedstawia tak»e problemy wynikaj¡ce z anonimowo±ci charakteryzuj¡cej sie¢ Internet, szczegóªowo te, w których rozwi¡zaniu mo»e pomóc prezentowana praca. W rozdziale 3. opisane s¡ aktualne badania dotycz¡ce poruszanej tematyki. Na pocz¡tku znajduje si¦ opis metod klasycznej analizy autorstwa tekstów, charakterystyk stosowanych do opisu wirtualnych to»samo±ci oraz przegl¡d bada« dotycz¡cych gªównych zagadnie« z tej dziedziny. Nast¦pnie omówione s¡ problemy wynikaj¡ce ze skali zjawiska, jakiej dotyczy prezentowany system oraz proponowane metody ich rozwi¡za«. Na ko«cu tego rozdziaªu wskazano na braki aktualnych rozwi¡za« w dziedzinie wyszukiwania i identykacji wirtualnych to»samo±ci b¦d¡ce motywacj¡ do przeprowadzenia bada«. 4 rozdziaª przedstawia propozycj¦ rozwi¡zania problemów, tez¦ pracy oraz krótko streszcza zaprezentowane rozwi¡zanie. W 5. rozdziale opisane s¡ modele i poj¦cia, na których oparty jest system. W 6 rozdziale zawarty jest opis architektury systemu wraz ze sposobem dziaªania jego poszczególnych elementów. Szczegóªy techniczne implementacji systemu, oraz opis metod wyznaczania podobie«stwa przedstawione s¡ w rozdziale 7. W 8. rozdziale zaprezentowane s¡ przypadki u»ycia systemu w celu identykacji wirtualnych to»samo±ci w ramach zasobów sieci WEB. Oceniona jest tam tak»e skuteczno±¢ dziaªania systemu. 9. rozdziaª zawiera wnioski oraz plany dalszego rozwoju prac, opartych o przedstawione rozwi¡zanie.. 8.

(9) Era cyberspoªecze«stwa. 2 Era cyberspoªecze«stwa Druga poªowa, a szczególnie koniec XX wieku, to okres dynamicznego rozwoju komputerów, oraz stworzenie mo»liwo±ci przesyªania danych pomi¦dzy nimi. Komputery, stosowane pocz¡tkowo jedynie do oblicze«, stawaªy si¦ coraz bardziej popularne i sªu»yªy ludziom do pracy, zabawy i u»ytku codziennego. W ostatnich kilkunastu latach dwudziestego wieku, po spopularyzowaniu sieci Internet oplotªy caªy glob, tworz¡c cyberprzestrze« [12],[80], w ramach której ludzie tworz¡ cyberspoªecze«stwo [66]. Komputer staª si¦ wirtualnym domem, z którego wychodzi si¦ do wirtualnych miejsc w wirtualnym ±wiecie - stron, portali, grup dyskusyjnych [78]. Tak samo Internet jest kolejnym, bardzo wa»nym dla ludzko±ci medium. Badania wykazaªy [149], »e w przeciwie«stwie do telewizji, która ma wpªyw na ksztaªtowanie spoªecze«stwa jako masy, Internet sªu»y bardziej ksztaªtowaniu to»samo±ci indywidualnych. Zaspokaja on zró»nicowane potrzeb u»ytkowników, zamiast d¡»y¢ do ich unikacji. Coraz wi¦cej dziedzin »ycia ludzkiego pªynnie wkracza w cyberprzestrze«. Ludzie zacz¦li po±wi¦ca¢ coraz wi¦cej czasu aktywno±ciom w wirtualnej rzeczywisto±ci kosztem ±wiata rzeczywistego - rozumianego jako ten niewirtualny, zyczny. [150], [130]. W skrajnych przypadkach, cz¦±¢ osób po±wi¦ca wi¦cej czasu na rozwój swojej wirtualnej to»samo±ci ni» na »ycie w ±wiecie realnym. Mo»na z tego wnioskowa¢, »e »ycie w ±wiecie wirtualnym jest dla nich bardziej warto±ciowe ni» w realnym [23]. Do sieci przeniosªa si¦ tak»e gospodarka, ekonomia, handel. Internetowe banki, gieªdy, aukcje, to tylko jedne z niewielu przykªadów tej migracji. Cz¦±¢ osób pracuje w ±wiecie wirtualnym, tworz¡c jego elementy (programi±ci sieciowi, twórcy stron www), lub oferuj¡c w jego ramach pewne usªugi (wirtualne sklepy, pªatne portale tematyczne). Rezultatem tego jest dynamiczny rozwój ró»nych form uporz¡dkowania elementów tworz¡cych sie¢ Internet. Portale informacyjne, strony domowe, blogi, fora dyskusyjne, sieci spoªeczno±ciowe, portale aukcyjne, systemy opiniuj¡ce i rekomenduj¡ce i wiele innych. Praktycznie ka»dy aspekt »ycia ludzkiego ma swoje odzwierciedlenie w sieci Internet. Niestety ten rozwój poci¡ga te» za sob¡ negatywne aspekty, zwi¡zane z szeroko rozumian¡ cyberprzest¦pczo±ci¡ [24],[19]. Niniejszy rozdziaª dotyczy¢ b¦dzie kilku wa»nych aspektów zwi¡zanych z tym zjawiskiem. Na pocz¡tku opisane zostan¡ wirtualne spoªeczno±ci internetu, nast¦pnie wirtualna to»samo±¢ i zwi¡zane z ni¡ zjawisko anonimowo±ci. Na ko«cu rozdziaªu wymienione zostanie kilka przykªadowych problemów wynikaj¡cych z opisywanych zjawisk, których dotyczy niniejsza rozprawa doktorska.. 9.

(10) Era cyberspoªecze«stwa. 2.1 Wirtualne spoªeczno±ci internetu Czªowiek jest z natury gatunkiem prospoªecznym, odczuwaj¡cym potrzeb¦ do ª¡czenia si¦ w grupy i przebywania w towarzystwie innych ludzi. Takie grupy ludzi, wraz z relacjami mi¦dzy nimi zachodz¡cymi mo»emy nazwa¢ sieciami spoªecznymi. Jednym z pierwszych propagatorów i badaczy poj¦cia sieci spoªecznych (ang. "social network") byª A.Barnes [8]. Poj¦cie to byªo pó¹niej przedmiotem szerokich bada« wielu dziedzin nauki, takich jak socjologia, antropologia, geograa czy ogólnie poj¦ta informatyka. Ogromny wkªad w badanie wspóªczesnych sieci spoªecznych miaª S.Milgram, badaj¡c m.in. sªynny "smallworld problem", dotycz¡cy ±redniej ilo±ci relacji znajomo±ci, dziel¡cej dwie osoby [111]. Jedna z pierwszych denicji wirtualnej spoªeczno±ci (z ang: "virtual community") zostaªa zaproponowana ju» w 1993 przez Howarda Rheingolda. Zdeniowaª j¡ jako spoªeczne skupisko, które wyªania si¦ z sieci WEB, kiedy wystarczaj¡ca ilo±¢ osób kontynuuje publiczne dyskusje dostatecznie dªugo, z odpowiednim zaanga»owaniem emocjonalnym, by utworzy¢ sie¢ osobistych relacji w cyberprzestrzeni.[127]. Dokªadnego przegl¡du, podziaªu i charakterystyki sieci spoªecznych opartych na medium jakim jest Internet dokonali K.Musiaª i P.Kazienko [113]. Prezentuj¡ oni przykªady okre±lania tego poj¦cia w literaturze angloj¦zycznej jako "online social networks" [54], "web-based social networks" [47], "computer-supported social networks" [164] czy "web communities" [45][71]. We wspomnianej pracy wymieniaj¡ szereg cech, jakie odró»niaj¡ internetowe sieci spoªeczne od relacji ª¡cz¡cych ludzi w ±wiecie rzeczywistym. S¡ to:. • brak zycznego kontaktu (kontakt jedynie na odlegªo±¢), • brak wyra¹nego powi¡zania pomi¦dzy liczb¡ wirtualnych to»samo±ci a to»samo±ciami w realnym ±wiecie, • mo»liwo±¢ jednoczesnej wielokanaªowej komunikacji z wieloma czªonkami grupy, • ªatwo±¢ zerwania lub zawieszenia kontaktu lub relacji, • wzgl¦dna ªatwo±¢ gromadzenia danych do pó¹niejszego przetwarzania, dotycz¡cych komunikacji i aktywno±ci w ramach tych sieci, • niska sprawdzalno±¢ autentyczno±ci danych dotycz¡cych u»ytkowników. Badania nad taksonomi¡ i podziaªami spoªeczno±ci opartych na sieci WEB byªy prowadzone od pocz¡tku ich istnienia.[122], [102], [70],[113]. Ich podziaª mo»na rozpatrywa¢ pod wzgl¦dem tre±ci zawarto±ci sieci, charakteru relacji, ±rodowiska i platformy interakcji, grupy docelowej czy modelu biznesowego. Upraszczaj¡c, mo»na podzieli¢ je na nast¦puj¡ce grupy: 10.

(11) Era cyberspoªecze«stwa. • ±wiaty wirtualne,.  spoªeczne (np. Second Life, Habbo Hotel, Cyberworld, Moove),  oparte na grach (np. World of Warcraft, The Sims, Internet Scrabble, FPS), • internetowe sieci spoªeczne (online social networking),.  systemy wspóªdzielenia multimediów (ang: "multimedia sharing system") - (np. Youtube, Flickr),.  portale spoªeczno±ciowe (ang: "social networking sites") - (np. Facebook, Orkut, MySpace, LinkedIn),.  projekty wspóªpracy (ang: "collaborative projects") - (np. Wikipedia),  blogi (ang: "blog services ") - (np. WordPress, Blogger, Twitter),  fora dyskusyjne (ang: "internet forums") - (Gaia Online Forum, Devian Art Forum). Gªówne cechy charakteryzuj¡ce pierwsz¡ grup¦ (wirtualne ±wiaty), które odró»niaj¡ je od drugiej (internetowe sieci spoªeczne) s¡ nast¦puj¡ce:. • przestrzenne, trójwymiarowe ±rodowisko, • wspóªdziaªanie w czasie rzeczywistym (bez opó¹nie«), identycznie jak w ±wiecie rzeczywistym, • wi¦ksza mo»liwo±¢ personalizacji wirtualnej to»samo±ci za pomoc¡ awatara, b¦d¡cego odwzorowaniem osoby w trzech wymiarach, • szerszy zakres rodzajów aktywno±ci i interakcji z innymi u»ytkownikami. Wirtualne ±wiaty dziel¡ si¦ na wirtualne ±wiaty spoªeczno±ciowe (np. Second Life [79]) , oraz skupione wokóª gier komputerowych (np. World of Warcraft [20]). W ±wiatach opartych o gry komputerowe, u»ytkownicy maj¡ ±ci±le okre±lone zasady zachowania, dziaªania i wspóªpracy oraz cz¦sto okre±lone do realizacji cele. W wirtualnych ±wiatach spoªecznych nie ma takich ogranicze«, a tak»e istnieje du»o wi¦ksza dowolno±¢ w rodzaju zachowa« i aktywno±ci. U»ytkownicy dziaªaj¡ w ±wiecie wirtualnym za pomoc¡ awatarów reprezentuj¡cych ich posta¢. Awatary mog¡ si¦ porusza¢, rozmawia¢ z innymi awatarami, wyra»a¢ swoje uczucia, uczestniczy¢ w wydarzeniach (spotkania, dyskoteki, itp), pracowa¢, kupowa¢ i sprzedawa¢ przedmioty, budowa¢ nowe obiekty, czyli oddziaªywa¢ na ±rodowisko. Tak wi¦c zostaj¡ odwzorowane ró»ne aspekty rzeczywisto±ci.[23]. 11.

(12) Era cyberspoªecze«stwa W 2011 roku zanotowano w sumie 1,4 miliarda zarejestrowanych kont w najpopularniejszych systemach ±wiatów wirtualnych[86]. Warto±¢ towarów w Second Life z roku 2010 jest szacowana na okoªo 2,1mld USD [138]. Druga grupa, internetowe sieci spoªeczne, ª¡czy w sobie wiele rodzajów grup spoªecznych tego typu. Zwykle nie s¡ to systemy komunikacji w czasie rzeczywistym, a aktywno±¢ nie odbywa si¦ w trójwymiarowej rzeczywisto±ci, lecz w ramach dwuwymiarowego medium, zwykle opartego o tekst pisany. Cech¡ wspóln¡ tej grupy jest to, »e ich zawarto±¢ jest tworzona i modykowana przez czªonków tych spoªecze«stw, co ró»ni je, od tradycyjnego modelu portali internetowych, tworzonego i zarz¡dzanego przez wydawc¦ lub administratora. Systemy wspóªdzielenia multimediów pozwalaj¡ u»ytkownikom zarz¡dza¢ swoimi obiektami multimedialnymi. S¡ to najcz¦±ciej zdj¦cia, muzyka, graka lub lmy. Istnieje te» zwykle mo»liwo±¢ oceniania i komentowania materiaªów umieszczonych przez innych u»ytkowników. Podstawow¡ funkcjonalno±ci¡ portali spoªeczno±ciowych jest tworzenie, utrzymywanie i prezentowanie relacji mi¦dzy u»ytkownikami portalu. W tym celu u»ytkownicy mog¡ u»ywa¢ specjalnych, dedykowanych kanaªów komunikacji takich jak maile, czaty czy komunikatory. Przy u»yciu mechanizmów dost¦pnych w ramach sieci maj¡ oni mo»liwo±¢ prezentacji swojej osoby, swoich osi¡gni¦¢, emocji i relacji z innymi u»ytkownikami danej sieci. Gªównym celem realizowanym w ramach projektów wspóªpracy jest tworzenie przez grupy u»ytkowników odpowiednich sieci wspólnych tre±ci. U»ytkownicy mog¡ tworzy¢ i poprawia¢ tre±ci znajduj¡ce si¦ w zasobach takich systemów. Taka wspóªpraca skutkuje zazwyczaj otrzymaniem lepszych rezultatów, ni» w przypadku, gdyby tre±ci tworzone byªy przez jednego u»ytkownika. Blogi pozwalaj¡ swoim twórcom tworzy¢ i publikowa¢ tre±ci wªasnego autorstwa w postaci "postów". Dotycz¡ ró»nego rodzaju dziedzin i zainteresowa«, b¦d¡c czasami rodzajem pami¦tnika. Pozostali u»ytkownicy takich systemów maj¡ zwykle mo»liwo±¢ komentowania tre±ci umieszczanych w ramach serwisu przez jego autora. Fora dyskusyjne to tak»e sieci spoªeczno±ciowe, cechuje je jednak skupienie wokóª jednej konkretnej dziedziny (np. gra komputerowa, marka samochodu, uroda). W ramach tego rodzaju systemu u»ytkownicy maj¡ zwykle mo»liwo±¢ zapozna¢ si¦ z opiniami lub informacjami na dany temat, dodawanymi przez administratorów sytemu lub innych u»ytkowników. Dyskusje na konkretne tematy pogrupowane s¡ w "w¡tki", w których mo»na wypowiada¢ si¦ poprzez dodawanie kolejnych wypowiedzi. Ta krótka charakterystyka najpopularniejszych rodzajów spoªeczno±ci wirtualnych, przedstawia mnogo±¢ form, jakie mog¡ przyjmowa¢ spoªeczno±ci dziaªaj¡ce na bazie o sieci 12.

(13) Era cyberspoªecze«stwa Internet. Prezentuje tak»e na ilu pªaszczyznach mo»e odbywa¢ si¦ interakcja pomi¦dzy u»ytkownikami danych sieci, oraz wokóª jakich tematów si¦ skupia¢. Forma w jakiej wyst¦puj¡ u»ytkownicy w ramach takich sieci zaprezentowana jest natomiast w nast¦pnym podrozdziale.. 2.2 Wirtualna to»samo±¢ i anonimowo±¢ w sieci Poj¦cie to»samo±ci wirtualnej (ang. "virtual identity") oraz to»samo±ci internetowej (ang. "internet identity" lub "online-identity") pojawiªo si¦ wraz z rozwojem sieci Internet, i byªo przedmiotem szerokiego wachlarza bada« w ró»nych dziedzinach nauki. [156], [72], [126]. Podstawowym zadaniem jakie realizowane jest poprzez wirtualn¡ to»samo±¢, jest przeniesienie zycznej jednostki ze ±wiata rzeczywistego do ±wiata wirtualnego. Wskazuje si¦ tak»e, »e wirtualna to»samo±¢ powstaje w momencie zalogowania si¦ u»ytkownika do platformy wirtualnej [78] [139] W pracy K.Musiaª i P.Kazie«ko [113], zaprezentowano poj¦cie "to»samo±ci internetowej" jako krótkiej, cyfrowej, zwerykowanej, autentycznej, jednoznacznej, i staªej reprezentacji zycznej jednostki spoªecznej, osoby lub grupy osób, która jest ±wiadomym u»ytkownikiem systemu sieciowego. "Wirtualna to»samo±¢" jest natomiast zdeniowana jako agregacja rozproszonych "to»samo±ci internetowych" wyst¦puj¡cych w ró»nych systemach sieciowych. Wirtualna to»samo±¢ odpowiada wszystkim to»samo±ciom internetowym, powi¡zanym z jedn¡ zyczn¡ jednostk¡ spoªeczn¡. Równolegle, ka»da to»samo±¢ internetowa odpowiada tylko jednej to»samo±ci wirtualnej. Przykªadami to»samo±ci internetowej mog¡ by¢ np:. • adres email, • login, identykator, nick, nazwa u»ytkownika w systemie sieciowym, np:.  zarejestrowany u»ytkownik sieci spoªeczno±ciowej (np. Facebook, LinkedIn),  zarejestrowany u»ytkownik systemu blogerskiego (np. WordPress, Blogger, Twitter),.  nick komunikatora internetowego (np. Skype, ICQ, GTalk),  login do systemu wspóªdzielenia multimediów (np. Youtube, Flickr),  u»ytkownik w systemie aukcyjnym (np. Ebay). • URL do strony domowej u»ytkownika, • login do uniwersalnego systemu to»samo±ci (np. OpenID).. 13.

(14) Era cyberspoªecze«stwa W przypadku ±wiatów wirtualnych, wirtualna to»samo±¢ osoby przyjmuje posta¢ awatara - trójwymiarowej postaci reprezentuj¡cej dan¡ osob¦ w wirtualnym ±wiecie.[23]. Wirtualna to»samo±¢ charakteryzuje si¦ wzgl¦dnie niskim poziomem mo»liwo±ci autentykacji prezentowanych cech.[78] Badania pokazuj¡, »e nazwy pod którymi wyst¦puj¡ u»ytkownicy - tzw. nickname'y - reprezentuj¡ cz¦sto nawyki lub cechy charakteru u»ytkownika [10]. Wirtualne to»samo±ci zwykle upi¦kszaj¡ jednak prawdziw¡ to»samo±¢ u»ytkownika, lub przedstawiaj¡ j¡ w postaci, jak¡ chciaªby by¢, lub do jakiej d¡»y.[78] Wirtualn¡ to»samo±¢ mo»na ksztaªtowa¢ na dwa sposoby. Pierwszy z nich to ustalenie zestawu cech i atrybutów opisuj¡cych t¡ to»samo±¢. Ten element wirtualnej to»samo±ci jest niekiedy nazywany "prolem". Drugi sposób, w jaki ksztaªtuje si¦ wirtualn¡ to»samo±¢, to spoªeczne interakcje w ramach wirtualnego spoªecze«stwa. Skªadaj¡ si¦ na to dziaªania, rozmowy, czy inne rodzaje aktywno±ci mo»liwe do wykonania w ramach danego rodzaju sieci spoªecznej[78]. W zwi¡zku z ewolucj¡ sieci Internet do modelu WEB 2.0 i rozwojem w oparciu o niej sieci spoªeczno±ciowych, u»ytkownicy uzyskali mo»liwo±¢ tworzenia w ich ramach wielu ró»nych to»samo±ci wirtualnych. Wraz z nadej±ciem ery wielozadaniowych, wielo-okienkowych systemów operacyjnych, mo»liwe i popularne staªo si¦ jednoczesne i równolegªe u»ywanie wielu takich to»samo±ci[152]. Przeprowadzono badania, które dowodz¡ popularno±ci równolegªego u»ytkowania wielu to»samo±ci internetowych przez jedn¡ osob¡ w rozmowach na czatach internetowych [144]. Wirtualne to»samo±ci traktowane s¡ cz¦sto jako kolejne wcielenia danej osoby, i umo»liwiaj¡ dowolne ich ksztaªtowanie, co daje poczucie swobody i bezpiecze«stwa, rozlu¹niaj¡c normy spoªeczne, uprzedzenia i ograniczenia. W ten sposób u»ytkownicy mog¡ przedstawia¢ si¦ w sposób w jaki chc¡ by¢ postrzegani w ramach danej to»samo±ci. Funkcjonuje nawet angloj¦zyczne poj¦cie - "makeability" oznaczaj¡ce upi¦kszanie si¦, zmienianie, dostosowywanie, które mo»na zastosowa¢ w przypadku to»samo±ci wirtualnych [78]. Ju» w latach 90. poprzedniego stulecia prowadzone byªy badania, które opisywaªy przypadki u»ytkowników realizuj¡cych w sieci obszary swoich osobowo±ci, których nie mogli lub nie chcieli prezentowa¢ na co dzie«. [152]. Internet i wirtualne spoªeczno±ci s¡ miejscem, gdzie u»ytkownicy mog¡ dowolnie eksperymentowa¢ ze swoimi wirtualnymi to»samo±ciami. Jest to naturalny proces, cz¦sto ª¡czony z okresem dojrzewania, kiedy to nieletni ucz¡ si¦, i próbuj¡ ró»nych dozna« i do±wiadcze«, maj¡c na to przyzwolenie spoªeczne ze wzgl¦du na swój wiek.. 14.

(15) Era cyberspoªecze«stwa Sie¢ WEB i wirtualne to»samo±ci daj¡ mo»liwo±¢ odgrywania nowych ról, eksperymentowania w nowych dziedzinach, poznawania nowych do±wiadcze« tak»e dorosªym, którzy odczuwaj¡ braki w pewnych sferach emocjonalnych. [152], [151], [146] Przyczyn¡ tworzenia wirtualnych to»samo±ci ró»ni¡cych si¦ od rzeczywistego stanu rzeczy, mo»e by¢ tak»e ch¦¢ wspóªzawodnictwa, potrzeba samorealizacji w wypeªnianiu zada« w wirtualnym ±wiecie czy ch¦¢ budowania wi¦zi spoªecznych, których mo»e brakowa¢ w ±wiecie realnym [41]. Poª¡czenie anonimowo±ci zapewnianej przez internet, oraz mo»liwo±ci tworzenia wªasnego wizerunku sprawia, »e wielu osobom du»o ªatwiej nawi¡zywa¢ kontakty mi¦dzyludzkie w strukturach sieci Internet, w porównaniu ze ±wiatem realnym [7] Aspekt anonimowo±ci w kontek±cie to»samo±ci nie jest poj¦ciem nowym. Ludzko±¢ spotkaªa si¦ z ni¡ ju» 2500 lat tamu pod postaci¡ pseudonimów. W przeszªo±ci jednak, pseudonimów u»ywali gªównie arty±ci i przest¦pcy. Aktualnie w wirtualnym ±wiecie w dowoln¡ role, np. Supermena, mo»e wcieli¢ si¦ ka»dy. Rozwój sieci Internet skutkuje nowymi mo»liwo±ciami tworzenia i modykacji to»samo±ci.[78] Kwestia anonimowo±ci i prywatno±ci w sieci WEB jest dobrze opisana przez badaczy[34]. Anonimowo±¢ wirtualnej to»samo±ci zapewnia trzy aspekty zwi¡zane z kwesti¡ prywatno±ci:. • regeneracj¦ (ang: recovery) - poczucie odmªodzenia, ochrony i odpr¦»enia, • katharsis (ang: catharsis) - mo»liwo±¢ swobodnego wyra»ania my±li i odczu¢ w stosunku do innych, • autonomi¦ - mo»liwo±¢ eksperymentowania z nowymi zachowaniami bez obawy o skutki spoªeczne. Skutki wzgl¦dnie wysokiej anonimowo±ci w sieci mo»emy podzieli¢ na pozytywne i negatywne:. • pozytywne,.  rozwój wªasnej osobowo±ci - mo»liwo±¢ eksperymentowania z nowymi zachowaniami bez obawy o negatywn¡ ocen¦ osób z kr¦gu otoczenia,.  otwarto±¢ w komunikacji. Mo»liwo±¢ dzielenia si¦ swoimi problemami i przemy±leniami w grupie osób o podobnych do±wiadczeniach. Skutkuje zwi¦kszeniem poziomu samoakceptacji,.  ªatwo±¢ nawi¡zywania kontaktów dla osób o niskiej samoocenie,  wolno±¢ sªowa i pogl¡dów w krajach totalitarnych, 15.

(16) Era cyberspoªecze«stwa. • negatywne,.  szerzenie nienawi±ci rasowej i nacjonalistycznej, werbowanie czªonków grup przest¦pczych [118],.  cyberprzest¦pczo±¢ [11][24],[19] - wyªudzenia, handel towarami nielegalnymi (narkotyki, ludzie, kradzione samochody), koordynacja grup przest¦pczych i terrorystycznych,.  dewianci seksualni [145], pedole, dzieci¦ca pornograa,  faªszywy spam opiniotwórczy (pozytywny i negatywny) [109],  czarny PR, kompromituj¡ce informacje w sieci (zdj¦cia, opinie). Przedstawione powy»ej informacje prezentuj¡ szeroki wachlarz pozytywnych aspektów, zwi¡zanych z rozwojem wirtualnych sieci spoªecznych i ich charakterystyk¡. Niestety, zgodnie z tym co mo»na byªo przypuszcza¢, istnieje te» "druga strona medalu", czyli negatywne skutki tego procesu. Cz¦±¢ z nich, zawieraj¡ca elementy nielegalne, mo»na okre±li¢ mianem "cyberprzest¦pczo±ci" [148], W zwi¡zku z tym, oczywist¡ wydaje si¦ potrzeba przeciwdziaªania tym zjawiskom,a jednym z elementów takich dziaªa« mo»e by¢ utworzenie metod i narz¦dzi, które pomog¡ w identykacji osób próbuj¡cych si¦ ukry¢ pod faªszywymi to»samo±ciami.. 2.3 Przykªadowe problemy W poprzednim podrozdziale zostaª przedstawiony szereg negatywnych zjawisk zwi¡zanych z potencjalnie wysok¡ anonimowo±ci¡ wirtualnych to»samo±ci. Zapobieganie tym problemom i zjawiskom nie jest ªatw¡ kwesti¡, ze wzgl¦du na dziedzin¦ i charakterystyk¦ problemu. Zdeniowano nawet poj¦cie Ciemnej Sieci (ang: "Dark Web"), którym okre±la si¦ elementy sieci Internet sªu»¡ce dziaªaniom terrorystycznym i jest obiektem dalszych bada«[124]. W kwestii prawnej podejmuje si¦ dyskusje na temat konieczno±ci adaptacji istniej¡cego prawa do potrzeb cyber±rodowiska. [139]. Tworzone s¡ te» narz¦dzia, sªu»¡ce do walki z cyberprzest¦pczo±ci¡. Cz¦±¢ z nich opisanych jest w rozdziale 3. W kolejnych punktach zostan¡ przedstawione dwa wybrane przykªady problemów, które które b¦dzie mo»na rozwi¡za¢ przy u»yciu zaproponowanych w pracy mechanizmów:. • wykrywanie multikont generuj¡cych faªszywe opinie w ramach portali opiniotwórczych • wyszukiwanie prawdziwej to»samo±ci dla pojedynczych wpisów nielegalnych. 16.

(17) Era cyberspoªecze«stwa. Multikonta - spam opiniotwórczy. Jednym z wa»nych negatywnych aspektów anonimowo±ci wirtualnych to»samo±ci jest problem faªszywych opinii (and: "opinion deception") w ramach istniej¡cych w sieci portali opiniotwórczych lub rekomendacyjnych [65], [117]. Wyst¦puje wtedy, gdy jedna osoba tworzy wiele faªszywych opinii (postów, komentarzy) o danym obiekcie (produkcie, rmie, usªudze). Zjawisko takie nie jest rzadko±ci¡, gdy» niektóre rmy zlecaj¡ takie zadania zatrudnianym przez siebie pracownikom, w celu poprawienia wizerunku wªasnych produktów i usªug [64]. Popularny jest te» drugi rodzaj oszustwa w tym temacie, polegaj¡cy na generowaniu negatywnych opinii o produktach konkurencji. Takie dziaªania zaburzaj¡ obraz rzeczywisto±ci, który ksztaªtowany jest przez prawdziwe opinie u»ytkowników, którzy udzielaj¡ ich w celu podzielenia si¦ swoimi do±wiadczeniami. W wypadku du»ej ilo±ci opinii faªszywych u»ytkownicy korzystaj¡cy z takich portali mog¡ zosta¢ wprowadzeni w bª¡d, co jest sprzeczne z ide¡ dziaªania tego typu systemów. W takim wypadku korzystne byªoby stworzenie narz¦dzia pozwalaj¡cego wykrywa¢ przypadki takiego oszustwa. Wymagaªoby to analizy danych udost¦pnianych w systemie i wyszukania u»ytkowników posªuguj¡cych si¦ ró»nymi to»samo±ciami wirtualnymi, tworz¡cych wiele podobnych opinii w celu znieksztaªcenia opinii zbiorczej dotycz¡cej danego obiektu.. Faªszywe to»samo±ci tymczasowe - Kolejnym wa»nym przykªadem wykorzystana anonimowo±ci wirtualnych to»samo±ci w sieciach spoªecznych jest wykorzystanie tymczasowych to»samo±ci w celach nielegalnych. Najpopularniejsze przykªady takich zachowa« to:. • nawoªywanie do nienawi±ci na tle rasowym/religijnym/klubowym • handel towarami kradzionymi lub nielegalnymi (narkotyki, ludzkie organy, ludzie) • nawi¡zywanie kontaktów z dzie¢mi przez pedolii Cz¦sto zdarza si¦, »e dana osoba wyst¦puj¦ równolegle w ramach takiej sieci spoªeczno±ciowej pod inn¡ to»samo±ci¡, w ramach której prezentuje du»o wi¦cej informacji, pozwalaj¡cych na zyczn¡ identykacj¦ takiej osoby (np. dane osobowe). Mechanizmy wykazania podobie«stw pomi¦dzy takimi to»samo±ciami tymczasowymi a innymi to»samo±ciami wirtualnymi pomogªyby przeciwdziaªa¢ wymienionym wcze±niej problemom.. 17.

(18) Identykacja wirtualnych to»samo±ci. 3 Identykacja wirtualnych to»samo±ci Wysoki stopie« anonimowo±ci, który zapewnia sie¢ Internet, poskutkowaª nasileniem si¦ zjawiska cyberprzest¦pczo±ci, opisanej szerzej w poprzednim rozdziale. Nast¦pstwem tego, byª te» rozwój wielu dziedzin bada« maj¡cych wspomóc walk¦ z przest¦pczo±ci¡ w Internecie. Jednym z gªównych problemów zwi¡zanych z cyberprzest¦pczo±ci¡ jest zagadnienie identykacji wirtualnych to»samo±ci, w ramach których zyczne osoby dziaªaj¡ w sieci WEB. Rozwi¡zanie tego problemu skupia si¦ gªównie na zagadnieniach dotycz¡cych analizy i identykacji autorstwa tekstów, poniewa» jest to podstawowa forma ¹ródªa danych w sieci. W zale»no±ci od struktur ¹ródeª danych, takie dziaªania dodatkowo mog¡ opiera¢ si¦ tak»e o elementy dotycz¡ce kontekstu spoªecznego, sieci powi¡za« czy analizy czasowej aktywno±ci wirtualnych to»samo±ci. Najbardziej popularny podej±ciem, stosowanym przy rozwi¡zywaniu tego typu problemu, jest wyselekcjonowanie pewnego rodzaju cech danej to»samo±ci wirtualnej, na podstawie dotycz¡cych jej dost¦pnych informacji, b¦d¡cych najcz¦±ciej zbiorem jej wypowiedzi. Kolejnym etapem jest porównywanie cech zbudowanych na bazie danych dotycz¡cych innych to»samo±ci i wykrycie ewentualnego podobie«stwa pomi¦dzy tymi to»samo±ciami. W przypadku gdy wyszukuje si¦ multi-to»samo±ci, a nie ma potencjalnych kandydatów, stosuje si¦ porównywanie to»samo±ci mi¦dzy sob¡. Wykrycie to»samo±ci podobnych mo»e skutkowa¢ uzyskaniem dodatkowych informacji o danej to»samo±ci (np. danych osobowych) i pozwoli¢ j¡ zycznie zidentykowa¢.. 3.1 Klasyczna analiza autorstwa tekstów Wyszukiwanie i identykacja to»samo±ci wirtualnych opiera si¦ w wi¦kszo±ci przypadków na klasycznym problemie analizy autorstwa tekstów, który jest szeroko opisan¡ i zbadan¡ dziedzin¡ [69] [83] [141] . Problemy analizy autorstwa tekstów mo»na podzieli¢ na trzy gªówne zadania [175]:. • identykacja autora - ustalanie prawdopodobie«stwa wytworzenia anonimowego tekstu przez konkretnego autora, poprzez porównywanie ze skompletowanym wcze±niej zbiorem jego tekstów, • charakterystyka autora - generowanie streszczenia tekstów autora i jego prolu w oparciu o zebrane prace, • wykrywanie podobie«stw - porównywanie wielu przykªadów tekstów i próba wykrycia tekstów tego samego autora, bez ustalania jego to»samo±ci. Badania dotycz¡ce analizy autorstwa skupiaj¡ si¦ wokóª dwóch zagadnie«: 18.

(19) Identykacja wirtualnych to»samo±ci. • wyboru cech charakterystycznych opisuj¡cych autorów, • technik uªatwiaj¡cych proces analizy.. 3.1.1 Charakterystyki w analizie autorstwa tekstów Wybór charakterystyk opisuj¡cych autorów polega na zdeniowaniu zbioru cech i metryk, które b¦d¡ w wi¦kszo±ci przypadków staªe dla du»ego zbioru tekstów autorstwa danej osoby. Innymi sªowy, zbiór tekstów jednego autora, w oparciu o zdeniowany zestaw cech, powinien wykazywa¢ wy»sze podobie«stwo, ni» zbiór oparty o teksty wielu autorów. W klasycznym problemie analizy autorstwa, charakterystyki oparte s¡ gªównie na tek±cie, i mo»na podzieli¢ na:. • leksykalne, sªownikowe (ang: lexical) - liczba wielkich liter, liczba znaków, ±rednia dªugo±¢ zdania, cz¦stotliwo±ci wyst¦powania znaków specjalnych $, @, ró»norodno±¢ sªownictwa, • syntaktyczne, skªadniowe (ang: syntactic) - cz¦stotliwo±¢ sªów funkcyjnych, liczba znaków przestankowych, • cechy strukturalne - frazy grzeczno±ciowe, pozycja cytatów, zwroty powitania i przywitania, ±rednia liczba zda« na akapit, • cechy zwi¡zane z tre±ci¡ - cz¦stotliwo±¢ sªów kluczowych, znaki specjalne. Pocz¡tkowo badania w dziedzinie analizy autorstwa tekstów skupiaªy si¦ na kategoryzowaniu ró»nych zbiorów sªów u»ywanych przez konkretnych autorów, np. Shakespeare'a i de Vere'a [42]. Jednak to podej±cie byªo nieskuteczne ze wzgl¦du na du»¡ zale»no±¢ od tematyki tekstów. W celach rozró»nienia autorstwa, nale»aªo wybra¢ cechy niezale»ne od tematu wypowiedzi (ang "content-free features"), nazywanych równie» znacznikami stylu (ang "syle-markers") [175]. Podstawowymi zaproponowanymi cechami byªy dªugo±¢ zdania [173] i ró»norodno±¢ sªownictwa [174]. Kolejne prace proponowaªy rozwi¡zania oparte o sªowa funkcyjne takie jak "podczas", "na podstawie" lub 50 najcz¦±ciej wyst¦puj¡cych sªów [104]. Inn¡ propozycje stanowiªo u»ycie zbioru 74 sªów kluczowych [147], cz¦stotliwo±ci wyst¡pie« 25 przyimków [15], sªów krótkich (2 lub 3 literowych) oraz rozpoczynaj¡cych si¦ samogªoskami [52]. Metody oparte o zbiory wyrazów wymagaj¡ jednak odpowiedniego doboru sªów w zestawach [51], gdy» ich indywidualny charakter zale»y od autora i j¦zyka jakim si¦ posªuguje, dlatego te» trudno jest zastosowa¢ je w aplikacjach opartych o teksty du»ej liczby autorów [175]. W celu unikni¦cia tych niedogodno±ci zaproponowano podej±cie bazuj¡ce na skªadni wypowiedzi [6]. Zawiera ono statystyczne metody i miary zastosowane na powtarzaj¡cych. 19.

(20) Identykacja wirtualnych to»samo±ci si¦ reguªach wyst¦puj¡cych w otagowanym korpusie tekstowym. Rozwini¦ciem tego podej±cia s¡ kolejne metody statystycznego przetwarzania informacji, zawartych w skªadni wypowiedzi [25]. Po dokªadnym przegl¡dzie metody analizy autorstwa wspomina si¦ o przeszªo tysi¡cu rodzajach markerów stylu, u»ywanych w dotychczasowych badaniach [132]. Nie ma jednak konsensusu, co do wyboru jednego, uniwersalnego i najbardziej efektywnego zestawu takich cech. W wi¦kszo±ci prac stwierdza si¦ jednak wprost proporcjonaln¡ zale»no±¢ efektywno±ci algorytmów klasykacji autorstwa do liczby charakterystyk, na których si¦ one opieraj¡. [176], [1], [31]. Co ciekawe, organizowane s¡ nawet cykliczne zawody w dziedzinie analizy autorstwa tekstów, w których bior¡ udziaª naukowcy z caªego ±wiata, prezentuj¡c i testuj¡c tam swoje rozwi¡zania[68]. Wyniki takich zawodów przedstawiono w skrócie w kolejnym punkcie 3.1.2. Wszystkie te dziedziny bada« dotycz¡ cz¦±ciowo przypadków zwi¡zanych z cyberprzest¦pczo±ci¡ i s¡ powi¡zane z tematem niniejszej rozprawy doktorskiej.. 3.1.2 Techniki analizy autorstwa tekstów Techniki analizy autorstwa tekstów staªy si¦ tak»e obiektem szerokiej gamy bada« i opracowa« [175] [92]. Podstawowe zaªo»enie w tym podej±ciu jest takie, »e autorów odró»nia od siebie nawzajem kompozycja tekstów, która mo»e by¢ scharakteryzowana przez rozkªad prawdopodobie«stwa cech tych wypowiedzi. Bardziej szczegóªowo, identykacja nowych tekstów na podstawie bazy tekstów o znanym autorstwie, mo»e by¢ rozwa»ana jako statystyczny test hipotezy lub problem klasykacji. Techniki analizy autorstwa tekstów mo»na podzieli¢ na nast¦puj¡ce grupy podej±¢.. • metody statystyczne, heurystyczne [100],[67] • metody oparte o miary podobie«stwa (ang: similarity-based, distance-based) [157],[160] • metody oparte o uczenie maszynowe.  klasykatory probabilistyczne (Bayes i warianty) [89]  drzewa decyzyjne [125]  SVM [35] Wczesne prace oparte na metodach statystycznych bazowaªy na rozkªadzie χ2 w sªownikowej analizie danych[18]. Kolejnym podej±ciem w tej dziedzinie byªa metoda CUSUM [44], a pó¹niej lingwistyczne szacowanie modeli cz¦stotliwo±ci wyst¦powania sªów[5]. Zaprezentowane zostaªy tak»e techniki miar podobie«stwa, oparte na analizie gªównych skªadowych (ang: "principal component analysis" - PCA) [6] [21], odlegªo±ci cosinusowej czy oparte o n-gramy [76]. Prezentowane wcze±niej metody statystyczne, które znalazªy zastosowanie w 20.

(21) Identykacja wirtualnych to»samo±ci dziedzinie bada« nad analiz¡ autorstwa, wykazaªy jednak tak»e swoje ograniczenia i niedoskonaªo±ci, takie jak brak gwarancji stabilno±ci w przypadku du»ej liczby tekstów czy ograniczone mo»liwo±ci przewidywania autorów tekstów [52]. Mo»liwo±ci zwi¡zane ze wzrostem mocy obliczeniowej komputerów zacz¦to wykorzystywa¢ w tej dziedzinie stosuj¡c metody uczenia maszynowego (ang. "machine learning"). Uogólniaj¡c, polegaj¡ one na zbudowaniu w automatyczny sposób modelu decyzyjnego, "ucz¡cego si¦" parametrów modelu na podstawie zbioru ucz¡cego, który zawiera poprawnie sklasykowane dane. W pó¹niejszym, heurystycznym procesie decyzyjnym, wyliczane s¡ parametry dla danych ze zbioru testowego i wyznaczane jest ich podobie«stwo do wcze±niej sklasykowanych danych w modelu. Rozwi¡zania problemu analizy autorstwa tekstów oparte o uczenie maszynowe, zapocz¡tkowaªy podej±cia oparte o podstawowy modelu Bayesa [105], przez b¦d¡ce jego rozwini¦ciem naiwne modele Bayesa [101]. Podczas gdy wspomniane wcze±niej metody charakteryzowaªy si¦ ograniczeniami strukturalnymi, pojawiaªy si¦ kolejne podej±cia stosowane do kategoryzacji i analizy autorstwa tekstów. Byªy to mi¦dzy innymi techniki oparte na sieciach neuronowych, których przykªadami s¡ sieci nazywane w j¦zyku angielskim "multilayer perceptron"[153], lub "radial-basis-function" (RBF)[96]. Kolejne podej±cia, które znalazªy zastosowanie w tej dziedzinie to rozwi¡zania oparte na ªa«cuchach Markova [74] oraz metodzie SVM (ang: "Support Vector Machine") [39]. Rozwi¡zywania problemu wyznaczania autorstwa tekstów w oparciu o klasykatory mo»na sprowadzi¢ do nast¦puj¡cego schematu: [141]. • przygotowanie modelu opisu to»samo±ci • wygenerowanie atrybutów to»samo±ci na podstawie danych ucz¡cych, pochodz¡cych od danego autora • u»ycie metod klasykacji do przyporz¡dkowania tekstów anonimowych do konkretnego autora, na podstawie atrybutów wygenerowanych w oparciu o ten tekst Wiele prac dotycz¡cych tematyki wyszukiwania i analizy tekstów dotyczyªo porównania algorytmów klasykuj¡cych dane[135][175] [176][1][31]. Wnioski z tych artykuªów byªy podobne. Najwi¦ksz¡ skuteczno±ci¡ w tej dziedzinie charakteryzuj¡ si¦ algorytmy oparte o SVM. Nieco gorsze wyniki osi¡ga si¦ stosuj¡c rozwi¡zania oparte o sieci neuronowe. Nast¦pne w kolejno±ci to metody bazuj¡ce na drzewach decyzyjnych. Ka»da z technik posiada pewne ograniczenia w aspekcie skuteczno±ci i skalowalno±ci. Klasykatory oparte o SVM s¡ typem metody tzw. czarnej skrzynki. Trudno±¢ przy tego typu badaniach, stanowi dotarcie do reguª na których oparto wnioskowanie. Z tego powodu sposób ten nie jest u»yteczny w przypadku zbierania dowodów dla s¡dowych spraw 21.

(22) Identykacja wirtualnych to»samo±ci krymnalnych.[61]. Kolejnym ograniczeniem prezentowanych metod jest stosunkowo maªa liczba autorów, dla których klasykacja jest skuteczna (kilkadziesi¡t,kilkaset) oraz konieczno±¢ posiadania zbiorów testowych stosunkowo du»ych rozmiarów. [46] [87]. W 2011 roku w Amsterdamie odbyªy si¦ zawody w dziedzinie klasykacji autorstwa tekstów i wykrywaniu plagiatów - 2011 PAN Lab 1 , w których wzi¦ªo udziaª 13 grup badawczych, maj¡cych na celu rozwi¡za¢ zadania z dwóch rodzajów problemów[4]:. • przypisania autorstwa - wyznaczy¢, który autor z danej grupy napisaª dany tekst • werykacji autorstwa - wyznaczy¢, czy dany tekst nale»y do konkretnego autora Stosowane tam metody klasykacji tekstów, to m.in : metoda SVM i jej modykacje[35], naiwny klasykator Bayesa [89], metoda 100-krotnego najbli»szego s¡siedztwa [33], algorytm regresji liniowej RLR [43] czy drzewa decyzyjne [125]. Testy przeprowadzane byªy dla zbiorów o ró»nej liczbie autorów, gdzie ich maksymaln¡ liczb¡ byªo 72. W tym wypadku wyniki skuteczno±¢ najlepszych algorytmów przypisywania autorstwa wynosiªa 52% w przypadku dokumentów nale»¡cych do zbioru autorów, oraz odpowiednio 32% uwzgl¦dniaj¡c tak»e dokumenty spoza zbioru testowanych autorów. Je±li chodzi o werykacj¦ autorstwa, najlepsze algorytmy osi¡gn¦ªy wyniki rz¦du 50%. Udawaªo si¦ uzyskiwa¢ wysokie warto±ci precyzji (nawet do 100%), jednak zawsze kosztem znacznego pogorszenia warto±ci czuªo±ci i miary F (znaczenie poszczególnych miar opisano w kolejnym podrozdziale).. 3.1.3 Miary skuteczno±ci klasykatorów W dziedzinie bada« i analizy autorstwa tekstów stosuje si¦ klasyczne techniki oceny skuteczno±ci klasykatorów. [38],[175],[30] [32] Je±li przyjmiemy nast¦puj¡ce oznaczenia wyników klasykacji obiektów jako podobne lub ró»ne: wynik klasykatora obiekty tej samej klasy obiekty ró»nych klas podobne. TruePositive (TP). FalsePositive (FP). ró»ne. FalseNegative (FN). TrueNegative (TN). Wielko±ci liczbowe, które charakteryzuj¡ skuteczno±¢ klasykatora s¡ okre±lane nast¦puj¡co:. • dokªadno±¢ (ang: "accuracy") • precyzja (ang: "precision") 1. T P +T N T P +T N +F P +F N. TP T P +F P. http://www.uni-weimar.de/medien/webis/research/events/pan-11/pan11-web/index.html. 22.

(23) Identykacja wirtualnych to»samo±ci. • czuªo±¢ - (ang: "sensitivity", "recall") -. TP T P +F N. 2∗precyzja∗czuªo±¢ • miara - F - (ang: "F-measure") - precyzja+czuªo±¢. Zakªadaj¡c u»ycie klasykatora do oszacowania czy badany tekst jest autorstwa konkretnego autora, powy»sze warto±ci okre±laj¡:. • dokªadno±¢ - liczba wiadomo±ci z poprawnie zidentykowanym autorem spo±ród caªkowitej liczby wiadomo±ci • precyzja - liczba poprawnie przyporz¡dkowanych do danego autora wiadomo±ci, wybranych spo±ród wszystkich wiadomo±ci przyporz¡dkowanych do tego autora • czuªo±¢ - liczba poprawnie przyporz¡dkowanych danemu autorowi wiadomo±ci, w stosunku do liczby wszystkich wiadomo±ci utworzonych przez danego autora Jako »e precyzja i czuªo±¢ s¡ warto±ciami odwrotnie proporcjonalnymi (wzrost jednej powoduje obni»enie drugiej), wprowadza si¦ miar¦ F, u±redniaj¡c¡ te wyniki, liczon¡ jako ±rednia wa»ona harmoniczna precyzji i czuªo±ci. Testy skuteczno±ci klasykatorów przeprowadza si¦ przy u»yciu metody N-krotnej walidacji krzy»owej [77], przyjmuj¡cej warto±ci parametru N na poziomie 5 [117][48], 10 [168][32], 30 [175].. 3.2 Charakterystyki to»samo±ci wirtualnych Charakterystyki u»ywane do opisu to»samo±ci wirtualnych, mo»na podzieli¢ wedªug dziedzin na:. • oparte o tre±¢ wypowiedzi, • oparte o relacje spoªeczne, • oparte o analiz¦ aktywno±ci. Poszczególne typy charakterystyk zostan¡ opisane dokªadnie w kolejnych punktach, w oparciu o aktualne badania dotycz¡ce analizy autorstwa, identykacji wirtualnych to»samo±ci oraz tematów pokrewnych.. W oparciu o charakterystyk¦ tekstu Charakterystyki oparte o tekst wypowiedzi, tzw. stylometri¦, s¡ podstaw¡ w wi¦kszo±ci bada« w dziedzinie identykacji to»samo±ci czy analizy autorstwa [176], [37], [6], [141], [3], [83].. • podstawowe charakterystyki stylometryczne: 23.

(24) Identykacja wirtualnych to»samo±ci.  leksykalne, ∗ w oparciu o znaki - caªkowita liczba znaków (C), caªkowita liczba liter/C, caªkowita liczba wielkich liter/C, caªkowita liczba cyfr/C, caªkowita liczba znaków biaªych/C, caªkowita liczba tabulatorów/C, cz¦stotliwo±ci wyst¡pie« poszczególnych liter (A-Z), cz¦stotliwo±ci wyst¡pie« znaków specjalnych, ∗ w oparciu o sªowa - caªkowita liczba sªów (M), caªkowita liczba sªów 4znakowych i krótszych/M, caªkowita liczba sªów w sªowach/C, ±rednia dªugo±¢ sªowa, ±rednia dªugo±¢ zdania (w literach), ±rednia dªugo±¢ zdania (w sªowach), caªkowita ilo±¢ ró»nych sªów/M, cz¦stotliwo±¢ sªów wyst¦puj¡cych jednokrotnie (Hapax legomena), cz¦stotliwo±¢ sªów wyst¦puj¡cych dwukrotnie (Hapax dislegomena), ró»norodno±¢ sªownictwa wedªug miar [154] Yule, Simpson, Sichel, Brunet, Honore, cz¦stotliwo±¢ wyst¡pie« sªów danej dªugo±ci,.  syntaktyczne, ∗ cz¦stotliwo±¢ wyst¡pie« znaków interpunkcyjnych (",",".","?","!",":",";","'","""), ∗ cz¦stotliwo±¢ wyst¡pie« sªów funkcyjnych (ang: "function words") [104],[21][38], (np.: "pomi¦dzy", "w", "kto±", "o", "razem", "wewn¡trz", "nic", "nikt", "co±", "ni»", "ta", "co", ...),.  strukturalne - caªkowita liczba linii, caªkowita liczba zda«, caªkowita liczba akapitów, liczba zda«/sªów/znaków na akapit, wyst¡pienie przywitania, wyst¡pienie odst¦pów mi¦dzy akapitami, wyst¡pienie cytatów, pozycja cytatów, wci¦cia akapitu, podpis przez adres email/telefon/url,.  powi¡zane z tre±ci¡ - sªowa kluczowe powi¡zane z tematem, (np: "ukªad", "wyprzeda»", "okazja", "thx", windows", microsoft", "sexy", ...),. • TF-IDF (ang: term frequency - inverted document frequency) - wa»enie cz¦sto±ci¡ termów [133]. Obliczenie wagi sªów na podstawie ilo±ci ich wyst¡pie« w dokumentach. TF-IDF okre±la cz¦sto±¢ wyst¡pienia sªowa, z uwzgl¦dnieniem jego lokalnego znaczenia oraz znaczenia w kontek±cie peªnego zbioru dokumentów. Warto±¢ T F IDFi,j dla sªowa i w dokumencie j oblicza si¦ ze wzoru T F IDFi,j = T Fi,j · IDF gdzie T Fi,j to cz¦sto±¢ sªowa i w dokumencie j , a IDFi,j to odwrotna cz¦sto±¢ sªowa - log2 ( nNi ), gdzie N to ª¡czna liczba dokumentów, a ni to liczba dokumentów zawieraj¡cych sªowo i. • cechy emocjonalne wypowiedzi - sentymetr i analiza sentymentu [59], [48]. Podej±cie opiera si¦ na wyszukiwaniu wyrazów z mocnym wyd¹wi¦kiem emocjonalnym oraz. 24.

(25) Identykacja wirtualnych to»samo±ci okre±laniu na ich podstawie polaryzacji emocjonalnej tekstu (pozytywna, negatywna, neutralna).. • podej±cie oparte o n-gramy [76] - jako wyrazy o dªugo±ci N i krótsze, oraz o cz¦stotliwo±ci ich wyst¦powania. Metoda ta okazaªa si¦ skuteczna w analizie autorstwa dla danych z sieci WEB [73]. Jej modykacja zostaªa tak»e z dobrymi skutkami wykorzystana dla problemów wi¦kszej skali [84], opieraªa si¦ jednak na stosunkowo du»ych zbiorach danych ucz¡cych i testowych (2000 i 500 sªów) • cz¦stotliwo±¢ sªów, model worka sªów (ang: "bag of words") reprezentuj¡ce zbiór tekstów jako nieuporz¡dkowany zestaw ci¡gów znaków wraz z ilo±ci¡ ich wyst¡pie«. Metoda prezentowana w popularnej metodzie Burrows-Delta, rozpatruje najcz¦±ciej wyst¦puj¡ce sªowa [22]. W tym sposobie wykorzystuje si¦ k-najcz¦±ciej (k>100) wyst¦puj¡cych sªów w zbiorze tekstowym dla których oblicza si¦ odchylenie standardowe. Kolejnym krokiem jest obliczenie warto±ci Z dla warto±ci reprezentuj¡cych autora i porównywany do niego tekst. Warto±¢ Z jest ró»nic¡ cz¦stotliwo±ci porównywanych sªów podzielon¡ przez standardowe odchylenie zbioru testowego. Dokument jest przyporz¡dkowywany do autora z najni»sz¡ sum¡ warto±ci Z . W praktyce, dla rozkªadu Laplace'a cz¦stotliwo±ci sªów dziaªa to jak klasykator maksymalnego prawdopodobie«stwa.. W oparciu o relacje spoªeczne W dziedzinie identykacji to»samo±ci wi¦kszo±¢ aplikacji opiera si¦ na danych osobowych. S¡ jednak podej±cia, które rozszerzaj¡ t¦ technik¦ o wykorzystanie danych opartych o relacje, aktywno±ci i kontekst spoªeczny. W pracy z 2008 roku[91], zaproponowano model relacyjny, ª¡cz¡cy cechy osobowe oraz cechy spoªeczne, podzielone na spoªeczne cechy aktywno±ci (role, typy dziaªa«, czas) i spoªeczne cechy relacji (s¡siedztwo, role s¡siedztwa, typy dziaªa« s¡siedztwa, i czas aktywno±ci s¡siedztwa). Do klasykacji u»yto naiwnego klasykatora Bayesowskiego. W badaniach Li[92] wykorzystano relacje i spoªeczne informacje kontekstowe celem wspomagania identykacjii to»samo±ci. U»yto tak»e probabilistycznego modelu relacyjny (ang: probabilistic relational model PRM) opartego o cechy osobowe, wspomagany danymi spoªecznymi i relacjami. Rezultaty tych bada« wskazuj¡, »e poª¡czenie charakterystyk osobowych ze spoªecznymi skutkuje poprawieniem wyników klasykacji Inne podej±cie wykorzystuj¡ce kontekst spoªeczny to model oparty o grafy[14], rozszerzaj¡ce cechy danej to»samo±ci o cechy s¡siadów z grafu. Jest to jednak podej±cie kosztowne obliczeniowo i skuteczne dla maªej liczby to»samo±ci. Kolejna metoda wykorzystywaªa warunkowy model pól losowych (ang: conditional random eld model, CRF) do eliminacji. 25.

Cytaty

Powiązane dokumenty

Praca omawia problem integracji danych pozyskiwanych metodami fotogrametrycznymi oraz skanowania laserowego przy opracowywaniu produktów inwentaryzacji obiektów

Klasyfikacja obiektowa zestawu danych radarowych i optycznych.... Klasyfikacja obiektowa obrazów

dwie bazy danych – jedna z nich zawiera dane statyczne dla badanego złoża, druga zawiera dane statyczne dla złóż regionalnych i analogicznych, moduł pozwalający na

Opracowanie metod i Ĩródeá pozyskania danych 3D dla potrzeb TBD3D .... Pozyskanie trójwymiarowych danych o obiektach liniowych, powierzchniowych i punktowych

Zawartość fosforu ogólnego, węgla i siarki oraz węglanów ………..... Zawartość całkowita makropierwiastków (Na, K, Mg, Ca,

Metodyka badań obejmowała następujące analizy, dotyczące serii obserwacyjnych przepływów maksymalnych rocznych: wstępną analizę danych, ocenę zmienności sezonowej,

Jednym z nich było wykorzystanie danych zapisanych w formacie CityGML do analiz nasłonecznienia, posiłkując się bazą danych obiektów CityGML prowadzoną w systemie PostgreSQL

4.1.1 Badania walidacyjne prowadzone na podstawie zestawów danych oceny modeli dyspersji zanieczyszczeń w powietrzu