Podstawowym elementem skªadowym prezentowanego systemu s¡ charakterystyki, opi-suj¡ce poszczególne cechy badanych w systemie wirtualnych to»samo±ci. W oparciu o te charakterystyki dziaªaj¡ miary podobie«stw cech, które okre±laj¡ stopie« podobie«stwa dwóch charakterystyk danej cechy. W dalszej cz¦±ci tego rozdziaªu opisane s¡ wszystkie zaimplementowane w systemie charakterystyki, oraz miary które na nich operuj¡. Ka»da z takich metod zawiera opis nast¦puj¡cych elementów:
• krótki opis charakterystyki,
• opis algorytmu generowania charakterystyki, • przykªadowa warto±¢ charakterystyki,
• opis algorytmu miary porównuj¡cej charakterystyki danej cechy. 7.2.1 Metody oparte o charakterystyk¦ tekstu
S¡ to szeroko poj¦te charakterystyki oparte o tre±¢ wypowiedzi danej wirtualnej to»sa-mo±ci. W tej grupie zawieraj¡ si¦ nast¦puj¡ce charakterystyki:
• leksykalne, sªownikowe - caªkowita ilo±¢ znaków(C), sªów(W), zda«(S), wypowie-dzi(P); ±rednia dªugo±¢ wyrazu/znak, zdania/sªowo, zdania/znak, wypowiedzi/zdanie, wypowiedzi/sªowo; caªkowita ilo±¢ cyfr, znaków specjalnych, sªów z cyframi, znakami specjalnymi,
• syntaktyczne, skªadniowe - sªowa funkcyjne; liczba i cz¦stotliwo±¢ wyst¦powania zna-ków przestankowych,
• cechy zwi¡zane z tre±ci¡ - sªowa kluczowe dla danej dziedziny, • cechy emocjonalne wypowiedzi - sentyment.
Szczegóªowe opisy poszczególnych charakterystyk opartych o tekst wypowiedzi, oraz miar ich podobie«stw zawarte s¡ poni»ej:
Caªkowita ilo±¢ znaków / cyfr / sªów / zda« / wypowiedzi - grupa charakte-rystyk i miar okre±laj¡cych caªkowit¡ ilo±¢ elementów skªadowych wypowiedzi dla danej to»samo±ci wirtualnej.
• algorytm generowania charakterystyki - ide¡ algorytmów generowania charakterystyk dla grupy tych metod jest zliczenie wszystkich obiektów danego typu, ze wszystkich danych (postów, tekstów) dotycz¡cych badanej to»samo±ci wirtualnej.
• przykªadowa warto±¢ charakterystyki - wyra»ona jest liczb¡ caªkowit¡, przykªadowo: 45.
• algorytm miary - warto±¢ podobie«stwa dwóch charakterystyk danej grupy wyzna-czana jest ze wzoru:
Simm(i, j) = 1 − |fm(i) − fm(j)|
max(fm) − min(fm) (7.1)
rednia dªugo±¢ wyrazu; zdania/sªowo; zdania/znak; wypowiedzi/zdanie, wy-powiedzi/sªowo - grupa charakterystyk i miar bazuj¡cych na ±redniej dªugo±ci kon-strukcji leksykalnej (wyrazu, zdania, wypowiedzi) wyra»onej wzgl¦dem jej elementów skªa-dowych.
• algorytm generowania charakterystyki - wyliczenie tego typu charakterystyk polega na obliczeniu ilorazów odpowiednich warto±ci, na podstawie wcze±niej obliczonych ich warto±ci caªkowitych. Przykªadowo, obliczaj¡c charakterystyk¦ ±redniej ilo±¢ znaków w zdaniu nale»y podzieli¢ ilo±¢ znaków przez ilo±¢ zda«.
• przykªadowa warto±¢ charakterystyki - wyra»ona jest liczb¡ zmiennoprzecinkow¡, przykªadowo: 7,32.
• algorytm miary - warto±¢ podobie«stwa dwóch charakterystyk danej grupy wyzna-czana jest ze wzoru 7.1.
Cz¦stotliwo±¢ wyst¦powania znaków specjalnych / wyrazów zawieraj¡cych cy-fry / wyrazów zawieraj¡cych znaki specjalne - grupa charakterystyk i miar okre-±laj¡cych cz¦stotliwo±¢ wyst¦powania wy»ej wymienionych konstrukcji.
Do grupy znaków specjalnych zaliczane s¡: % @ # $ & * - _ + = < > { } / [ ] | \ • algorytm generowania charakterystyki - ide¡ algorytmów generowania charakterystyk dla grupy tych metod jest zliczenie wszystkich obiektów danego typu ze wszystkich danych (postów, tekstów) dotycz¡cych badanej to»samo±ci i obliczenie ich cz¦stotli-wo±ci wyst¦powania w porównaniu do standardowych obiektów danego typu. • przykªadowa warto±¢ charakterystyki - wyra»ona jest liczb¡ zmiennoprzecinkow¡,
przykªadowo: 0,012.
• algorytm miary - warto±¢ podobie«stwa dwóch charakterystyk danej grupy wyzna-czana jest ze wzoru 7.1.
Wspólne sªowa funkcyjne - metoda opiera si¦ na wyszukiwaniu wspólnych wyrazów z listy sªów funkcyjnych [104],[21]
Do grupy sªów funkcyjnych, w oparciu o badania z dziedziny analizy autorstwa tekstów[176] zaliczone zostaªy nast¦puj¡ce sªowa: "b¦dzie", "bez", "blisko", "co±", "cokolwiek", "czy", "dóª", "dla", "dlatego", "dopóki", "du»o", "ich", "identyczny", "inny", "ka»dy", "kiedy±", "kiedy", "kiedykolwiek", "kilka", "który", "kto±", "ktokolwiek", "mie¢", "mniej", "mo-»e", "musie¢", "naprzód", "nasz", "nic", "nikt", "okoªo", "po±ród", "pod¡»aj¡c", "pod", "podczas", "pomi¦dzy", "pomimo", "ponad", "poni»ej", "potrzeba", "powinien", "po-za", "przeciwnie", "przed", "przeszªy", "przez", "razem", "taki", "twój", "uwzgl¦dnia¢", "wªasny", "wewn¡trz", "wi¦c", "wi¦cej", "wi¦kszo±¢", "wiele", "wszyscy", "wszystkie", "wszystko", "wystarczy","zawiera¢".
Metoda opiera si¦ o stemy sªów, czyli ich formy bazowe, co pozwala uwzgl¦dnia¢ wszyst-kie formy leksykalne danego sªowa.
• algorytm generowania charakterystyki - polega na wyszukaniu wszystkich sªów funk-cyjnych u»ytych we wszystkich tekstach dotycz¡cych danej to»samo±ci wirtualnej. • przykªadowa warto±¢ charakterystyki - wyra»ona jest list¡ identykatorów stemów
dla sªów, które zostaªy odnalezione w wypowiedziach danego u»ytkownika. Przykªa-dowo: 31238; 61264; 51435; 62546.
• algorytm miary - oparty jest o miar¦ Jaccarda, stosowan¡ do porównywania zbiorów, wyra»on¡ wzorem:
J (A, B) = |A ∩ B|
Cz¦stotliwo±¢ wyst¦powania znaków przestankowych - syntaktyczna charakte-rystyka okre±laj¡ca skªadni¦ wypowiedzi stosowan¡ przez dan¡ to»samo±¢ wirtualn¡.
Do listy znaków przestankowych zaliczane s¡: . , ? ! ;
• algorytm generowania charakterystyki - polega na zliczeniu wyst¡pie« wszystkich znaków przestankowych i obliczeniu ich ilorazu w stosunku do caªkowitej ilo±ci sªów w wypowiedziach danego u»ytkownika.
• przykªadowa warto±¢ charakterystyki - wyra»ona jest liczb¡ zmiennoprzecinkow¡, przykªadowo: 0,017.
• algorytm miary - warto±¢ podobie«stwa dwóch charakterystyk danej grupy wyzna-czana jest ze wzoru 7.1.
Wspólne, dziedzinowe sªowa kluczowe - metoda opiera si¦ na wyszukiwaniu wspól-nych wyrazów z listy sªów kluczowych dla danej dziedziny [38].
Przykªadowa lista sªów kluczowych z dziedziny turystyki i hotelarstwa, wyodr¦bniona z korpusu tekstów z portali rekomendacyjnych poprzez manualn¡ ekstrakcj¦ jest nast¦-puj¡ca: "apartament", "basen", "biuro", "cena", "dobrze", "dramat", "drogo", "fatalny", "hotel", "inny", "jako±¢", "karnet", "katalog", "koszty", "krytycznie", "kupi¢", "miejsce", "mocny", "narty", "obiekt", "obsªuga", "opieka", "opinia", "pieni¡dze", "pla»a", "pobyt", "podró»", "pokój", "polecam", "pora»ka", "pozytywny", "pracownik", "rezerwacja", "re-zydent", "rzeczywisto±¢", "sªaby", "samolot", "super", "sympatycznie", "szybko", "tanio", "transport", "turysta", "urlop", "usªuga", "wakacje", "warto", "wczasy", "wiarygodny", "wycieczka", "wyjazd", "zakwaterowanie", "¹le"
Lista sªów kluczowych stosowana przy wyszukiwaniu opinii o szkoªach i edukacji jest na-st¦puj¡ca: "egzamin", "humanista", "kierunek", "nauka", "polecam", "praca", "pracuje", "praktyka", "rekrutacja", "sko«czyªem","sko«czyªam", "specjalista", "studia", "szkoªa", "umiej¦tno±ci", "zadowolony","zatrudnienie"
Metoda, podobnie jak metoda wspólnych sªów funkcyjnych, opiera si¦ o stemy sªów, czyli ich formy bazowe, co pozwala uwzgl¦dnia¢ wszystkie formy leksykalne danego sªowa. • algorytm generowania charakterystyki - polega na zliczeniu wyst¡pie« wszystkich sªów kluczowych danego typu, u»ytych we wszystkich tekstach dotycz¡cych danej to»samo±ci wirtualnej.
• przykªadowa warto±¢ charakterystyki - wyra»ona jest list¡ identykatorów stemów dla sªów, które zostaªy odnalezione w wypowiedziach danego u»ytkownika. Przykªa-dowo: 31238; 61264; 51435; 62546.
• algorytm miary - oparty jest o miar¦ Jaccarda, stosowan¡ do porównywania zbiorów, wyra»on¡ wzorem: 7.2.
Cechy emocjonalne wypowiedzi - metoda pozwalaj¡ca okre±la¢ nacechowanie emo-cjonalne wypowiedzi danej to»samo±ci wirtualnej, tak zwany "sentyment". Warto±ci cha-rakterystyki sentymentu s¡ liczb¡ z przedziaªu <-1;1>. Warto±ci -1 okre±la skrajnie nega-tywne nacechowanie wypowiedzi, warto±¢ 0 neutralne, a warto±ci 1 - skrajnie pozynega-tywne nacechowanie emocjonalne. Do obliczania warto±ci sentymentu u»ywana jest zewn¦trzna biblioteka autorstwa P. Macioªka [99], dost¦pna do wykorzystania w pracach badawczych, prowadzonych w ramach Katedry Informatyki AGH.
• charakterystyka - algorytm generowania charakterystyki polega na wyliczeniu ±red-niej warto±ci sentymentu dla wszystkich wypowiedzi danej to»samo±ci wirtualnej. • przykªadowa warto±¢ charakterystyki - wyra»ona jest liczb¡ zmiennoprzecinkow¡ w
przedziale [−1, 1], np. -0,62.
• miara podobie«stwa - warto±¢ podobie«stwa dwóch charakterystyk danej grupy wy-znaczana jest ze wzoru 7.1.
7.2.2 Metody oparte o analiz¦ czasowej aktywno±ci u»ytkownika
Opisane tu podej±cie okre±la grup¦ metod, b¦d¡cych oryginalnym pomysªem autora, niestosowanym w dotychczasowych badaniach w dziedzinie identykacji to»samo±ci wir-tualnych. Wzbogaca on istniej¡ce ju» dziedziny cech to»samo±ci o ich charakterystyk¦ w aspekcie czasowym, pozwalaj¡c¡ wykrywa¢ to»samo±ci, którzy przejawiaªy aktywno±¢ w niewielkich odst¦pach czasu od siebie, co mo»e sugerowa¢, »e kryje si¦ za nimi jedna -zyczna osoba.
W prezentowanym systemie zaimplementowane zostaªy dwie wersje metod opartych na tej ideii
Czasowe punkty wspólne aktywno±ci - metoda okre±laj¡ca podobie«stwo danych to»samo±ci wirtualnych, w momencie wyst¡pienia ich aktywno±ci w tym samym okresie czasowym.
Istnieje kilka wersji tej metody, ró»ni¡cej si¦ rozpi¦to±ci¡ okresów czasowych. Aktualnie s¡ to: 1 dzie«, 4 godziny, 2 godziny, 1 godzina.
• charakterystyka - algorytm generowania charakterystyki polega na wyznaczeniu wszyst-kich momentów na osi czasu, kiedy dana wirtualna to»samo±¢ przejawiaªa aktywno±¢ w ramach dost¦pnych zbiorów danych.
• przykªadowa warto±¢ charakterystyki - wyra»ona jest wektorem punktów czasowych. Dla rozpi¦to±ci 1 dnia, s¡ to daty, np. 2006.02.07; 2008.03.22; 2008.03.23; 2008.03.27; 2012.11.10.
• miara podobie«stwa - warto±¢ podobie«stwa dwóch charakterystyk w tej metodzie wyznaczana jest ze wzoru 7.2, gdzie pojedynczym elementem zbioru jest punkt cza-sowy.
Czasowe punkty wspólne aktywno±ci - okno czasowe wzgl¦dne - metoda b¦d¡ca modykacj¡ poprzedniej, ró»ni¡ca si¦ od niej algorytmem miary wyznaczania podobie«stwa cechy. W tej metodzie podobie«stwo dwóch charakterystyk jest odwrotnie proporcjonal-ne do odlegªo±ci najbli»szych sobie punktów czasowych dla dwóch badanych to»samo±ci wirtualnych. Metoda ta stosowane jest gªównie w przypadkach gdy ¹ródªa danych oferuj¡ dokªadne dane czasowe (zawieraj¡ce godziny i minuty).
• charakterystyka - algorytm generowania charakterystyki jest identyczny jak w po-przedniej metodzie,
• przykªadowa warto±¢ charakterystyki - wyra»ona jest wektorem punktów czasowych (rozszerzonych w porównaniu do poprzedniej metody o godziny i minuty) - np. 2006.02.07 16:45; 2008.03.22 09:12; 2008.03.23 11:01;
• miara podobie«stwa - miara podobie«stwa dwóch charakterystk A i B obliczana jest ze wzroru: P (A, B) = 1 − min(|A|,|B|) P i=1 D(ai, bj) min(|A|, |B|) (7.3) gdzie : ai∈ A, bj ∈ B, oraz : min|a − b|
D(a, b)- odlegªo±¢ dwóch punktów czasowych a i b obliczana ze wzoru: D(a, b) = 1 − 1
1 + |a − b| (7.4)
Aktywno±¢ czasowa - punkty kluczowe - jest to metoda, która w zakresie algoryt-mów wyznaczania miar podobie«stw opiera si¦ na dwóch poprzednich metodach analizy aktywno±ci czasowych. Od poprzednich metod odró»nia j¡ to, »e jako zbiór danych w opar-ciu o które dziaªa, wybierane s¡ jedynie najwa»niejsze elementy aktywno±ci. S¡ to zwykle data rejestracji w danym serwisie i data ostatniej aktywno±ci.
7.2.3 Metody oparte o wspólne powi¡zania obiektów
Wspólne obiekty ª¡cz¡ce - metoda wykorzystuj¡ca wspólne obiekty struktury ¹ró-dªa, ª¡cz¡ce dwie wirtualne to»samo±ci. Mog¡ to by¢ np. wspólny w¡tek wypowiedzi lub wspólnie opisywany produkt.
• charakterystyka - algorytm generowania charakterystyki polega na wyznaczeniu li-sty wszystkich obiektów strukturalnych ¹ródªa, które wi¡»¡ si¦ z dan¡ to»samo±ci¡ wirtualn¡.
• przykªadowa warto±¢ charakterystyki - wyra»ona jest list¡ elementów np: "renault megane", "ford mondeo", "toyota prius".
• miara podobie«stwa - algorytm oparty jest o miar¦ Jaccarda, stosowan¡ do porów-nywania zbiorów, wyra»on¡ wzorem: 7.2.
Wspólne linkowania zewn¦trzne - metoda oparta o wspólne obiekty docelowe linków zawartych w wypowiedziach danych to»samo±ci wirtualnych.
• charakterystyka - algorytm generowania charakterystyki polega na wyznaczeniu listy obiektów docelowych wybranych z linków wychodz¡cych, w tre±ci danych (postów, proli, wypowiedzi), dotycz¡cych badanej to»samo±ci wirtualnej.
• przykªadowa warto±¢ charakterystyki - wyra»ona jest list¡ elementów np. adresów url: "http://www.youtube.com/watch?v=z0ki4vc64dM",
"http://www.youtube.com/watch?v=q3S3BPDwnS4".
• miara podobie«stwa - algorytm oparty jest o miar¦ Jaccarda, stosowan¡ do porów-nywania zbiorów, wyra»on¡ wzorem: 7.2.