• Nie Znaleziono Wyników

Zaimplementowane charakterystyki i miary podobie«stw cech

W dokumencie Index of /rozprawy2/10722 (Stron 67-73)

Podstawowym elementem skªadowym prezentowanego systemu s¡ charakterystyki, opi-suj¡ce poszczególne cechy badanych w systemie wirtualnych to»samo±ci. W oparciu o te charakterystyki dziaªaj¡ miary podobie«stw cech, które okre±laj¡ stopie« podobie«stwa dwóch charakterystyk danej cechy. W dalszej cz¦±ci tego rozdziaªu opisane s¡ wszystkie zaimplementowane w systemie charakterystyki, oraz miary które na nich operuj¡. Ka»da z takich metod zawiera opis nast¦puj¡cych elementów:

• krótki opis charakterystyki,

• opis algorytmu generowania charakterystyki, • przykªadowa warto±¢ charakterystyki,

• opis algorytmu miary porównuj¡cej charakterystyki danej cechy. 7.2.1 Metody oparte o charakterystyk¦ tekstu

S¡ to szeroko poj¦te charakterystyki oparte o tre±¢ wypowiedzi danej wirtualnej to»sa-mo±ci. W tej grupie zawieraj¡ si¦ nast¦puj¡ce charakterystyki:

• leksykalne, sªownikowe - caªkowita ilo±¢ znaków(C), sªów(W), zda«(S), wypowie-dzi(P); ±rednia dªugo±¢ wyrazu/znak, zdania/sªowo, zdania/znak, wypowiedzi/zdanie, wypowiedzi/sªowo; caªkowita ilo±¢ cyfr, znaków specjalnych, sªów z cyframi, znakami specjalnymi,

• syntaktyczne, skªadniowe - sªowa funkcyjne; liczba i cz¦stotliwo±¢ wyst¦powania zna-ków przestankowych,

• cechy zwi¡zane z tre±ci¡ - sªowa kluczowe dla danej dziedziny, • cechy emocjonalne wypowiedzi - sentyment.

Szczegóªowe opisy poszczególnych charakterystyk opartych o tekst wypowiedzi, oraz miar ich podobie«stw zawarte s¡ poni»ej:

Caªkowita ilo±¢ znaków / cyfr / sªów / zda« / wypowiedzi - grupa charakte-rystyk i miar okre±laj¡cych caªkowit¡ ilo±¢ elementów skªadowych wypowiedzi dla danej to»samo±ci wirtualnej.

• algorytm generowania charakterystyki - ide¡ algorytmów generowania charakterystyk dla grupy tych metod jest zliczenie wszystkich obiektów danego typu, ze wszystkich danych (postów, tekstów) dotycz¡cych badanej to»samo±ci wirtualnej.

• przykªadowa warto±¢ charakterystyki - wyra»ona jest liczb¡ caªkowit¡, przykªadowo: 45.

• algorytm miary - warto±¢ podobie«stwa dwóch charakterystyk danej grupy wyzna-czana jest ze wzoru:

Simm(i, j) = 1 − |fm(i) − fm(j)|

max(fm) − min(fm) (7.1)

‘rednia dªugo±¢ wyrazu; zdania/sªowo; zdania/znak; wypowiedzi/zdanie, wy-powiedzi/sªowo - grupa charakterystyk i miar bazuj¡cych na ±redniej dªugo±ci kon-strukcji leksykalnej (wyrazu, zdania, wypowiedzi) wyra»onej wzgl¦dem jej elementów skªa-dowych.

• algorytm generowania charakterystyki - wyliczenie tego typu charakterystyk polega na obliczeniu ilorazów odpowiednich warto±ci, na podstawie wcze±niej obliczonych ich warto±ci caªkowitych. Przykªadowo, obliczaj¡c charakterystyk¦ ±redniej ilo±¢ znaków w zdaniu nale»y podzieli¢ ilo±¢ znaków przez ilo±¢ zda«.

• przykªadowa warto±¢ charakterystyki - wyra»ona jest liczb¡ zmiennoprzecinkow¡, przykªadowo: 7,32.

• algorytm miary - warto±¢ podobie«stwa dwóch charakterystyk danej grupy wyzna-czana jest ze wzoru 7.1.

Cz¦stotliwo±¢ wyst¦powania znaków specjalnych / wyrazów zawieraj¡cych cy-fry / wyrazów zawieraj¡cych znaki specjalne - grupa charakterystyk i miar okre-±laj¡cych cz¦stotliwo±¢ wyst¦powania wy»ej wymienionych konstrukcji.

Do grupy znaków specjalnych zaliczane s¡: %  @ # $  & * - _ + = < > { } / [ ] | \ • algorytm generowania charakterystyki - ide¡ algorytmów generowania charakterystyk dla grupy tych metod jest zliczenie wszystkich obiektów danego typu ze wszystkich danych (postów, tekstów) dotycz¡cych badanej to»samo±ci i obliczenie ich cz¦stotli-wo±ci wyst¦powania w porównaniu do standardowych obiektów danego typu. • przykªadowa warto±¢ charakterystyki - wyra»ona jest liczb¡ zmiennoprzecinkow¡,

przykªadowo: 0,012.

• algorytm miary - warto±¢ podobie«stwa dwóch charakterystyk danej grupy wyzna-czana jest ze wzoru 7.1.

Wspólne sªowa funkcyjne - metoda opiera si¦ na wyszukiwaniu wspólnych wyrazów z listy sªów funkcyjnych [104],[21]

Do grupy sªów funkcyjnych, w oparciu o badania z dziedziny analizy autorstwa tekstów[176] zaliczone zostaªy nast¦puj¡ce sªowa: "b¦dzie", "bez", "blisko", "co±", "cokolwiek", "czy", "dóª", "dla", "dlatego", "dopóki", "du»o", "ich", "identyczny", "inny", "ka»dy", "kiedy±", "kiedy", "kiedykolwiek", "kilka", "który", "kto±", "ktokolwiek", "mie¢", "mniej", "mo-»e", "musie¢", "naprzód", "nasz", "nic", "nikt", "okoªo", "po±ród", "pod¡»aj¡c", "pod", "podczas", "pomi¦dzy", "pomimo", "ponad", "poni»ej", "potrzeba", "powinien", "po-za", "przeciwnie", "przed", "przeszªy", "przez", "razem", "taki", "twój", "uwzgl¦dnia¢", "wªasny", "wewn¡trz", "wi¦c", "wi¦cej", "wi¦kszo±¢", "wiele", "wszyscy", "wszystkie", "wszystko", "wystarczy","zawiera¢".

Metoda opiera si¦ o stemy sªów, czyli ich formy bazowe, co pozwala uwzgl¦dnia¢ wszyst-kie formy leksykalne danego sªowa.

• algorytm generowania charakterystyki - polega na wyszukaniu wszystkich sªów funk-cyjnych u»ytych we wszystkich tekstach dotycz¡cych danej to»samo±ci wirtualnej. • przykªadowa warto±¢ charakterystyki - wyra»ona jest list¡ identykatorów stemów

dla sªów, które zostaªy odnalezione w wypowiedziach danego u»ytkownika. Przykªa-dowo: 31238; 61264; 51435; 62546.

• algorytm miary - oparty jest o miar¦ Jaccarda, stosowan¡ do porównywania zbiorów, wyra»on¡ wzorem:

J (A, B) = |A ∩ B|

Cz¦stotliwo±¢ wyst¦powania znaków przestankowych - syntaktyczna charakte-rystyka okre±laj¡ca skªadni¦ wypowiedzi stosowan¡ przez dan¡ to»samo±¢ wirtualn¡.

Do listy znaków przestankowych zaliczane s¡: . , ? ! ;

• algorytm generowania charakterystyki - polega na zliczeniu wyst¡pie« wszystkich znaków przestankowych i obliczeniu ich ilorazu w stosunku do caªkowitej ilo±ci sªów w wypowiedziach danego u»ytkownika.

• przykªadowa warto±¢ charakterystyki - wyra»ona jest liczb¡ zmiennoprzecinkow¡, przykªadowo: 0,017.

• algorytm miary - warto±¢ podobie«stwa dwóch charakterystyk danej grupy wyzna-czana jest ze wzoru 7.1.

Wspólne, dziedzinowe sªowa kluczowe - metoda opiera si¦ na wyszukiwaniu wspól-nych wyrazów z listy sªów kluczowych dla danej dziedziny [38].

Przykªadowa lista sªów kluczowych z dziedziny turystyki i hotelarstwa, wyodr¦bniona z korpusu tekstów z portali rekomendacyjnych poprzez manualn¡ ekstrakcj¦ jest nast¦-puj¡ca: "apartament", "basen", "biuro", "cena", "dobrze", "dramat", "drogo", "fatalny", "hotel", "inny", "jako±¢", "karnet", "katalog", "koszty", "krytycznie", "kupi¢", "miejsce", "mocny", "narty", "obiekt", "obsªuga", "opieka", "opinia", "pieni¡dze", "pla»a", "pobyt", "podró»", "pokój", "polecam", "pora»ka", "pozytywny", "pracownik", "rezerwacja", "re-zydent", "rzeczywisto±¢", "sªaby", "samolot", "super", "sympatycznie", "szybko", "tanio", "transport", "turysta", "urlop", "usªuga", "wakacje", "warto", "wczasy", "wiarygodny", "wycieczka", "wyjazd", "zakwaterowanie", "¹le"

Lista sªów kluczowych stosowana przy wyszukiwaniu opinii o szkoªach i edukacji jest na-st¦puj¡ca: "egzamin", "humanista", "kierunek", "nauka", "polecam", "praca", "pracuje", "praktyka", "rekrutacja", "sko«czyªem","sko«czyªam", "specjalista", "studia", "szkoªa", "umiej¦tno±ci", "zadowolony","zatrudnienie"

Metoda, podobnie jak metoda wspólnych sªów funkcyjnych, opiera si¦ o stemy sªów, czyli ich formy bazowe, co pozwala uwzgl¦dnia¢ wszystkie formy leksykalne danego sªowa. • algorytm generowania charakterystyki - polega na zliczeniu wyst¡pie« wszystkich sªów kluczowych danego typu, u»ytych we wszystkich tekstach dotycz¡cych danej to»samo±ci wirtualnej.

• przykªadowa warto±¢ charakterystyki - wyra»ona jest list¡ identykatorów stemów dla sªów, które zostaªy odnalezione w wypowiedziach danego u»ytkownika. Przykªa-dowo: 31238; 61264; 51435; 62546.

• algorytm miary - oparty jest o miar¦ Jaccarda, stosowan¡ do porównywania zbiorów, wyra»on¡ wzorem: 7.2.

Cechy emocjonalne wypowiedzi - metoda pozwalaj¡ca okre±la¢ nacechowanie emo-cjonalne wypowiedzi danej to»samo±ci wirtualnej, tak zwany "sentyment". Warto±ci cha-rakterystyki sentymentu s¡ liczb¡ z przedziaªu <-1;1>. Warto±ci -1 okre±la skrajnie nega-tywne nacechowanie wypowiedzi, warto±¢ 0 neutralne, a warto±ci 1 - skrajnie pozynega-tywne nacechowanie emocjonalne. Do obliczania warto±ci sentymentu u»ywana jest zewn¦trzna biblioteka autorstwa P. Macioªka [99], dost¦pna do wykorzystania w pracach badawczych, prowadzonych w ramach Katedry Informatyki AGH.

• charakterystyka - algorytm generowania charakterystyki polega na wyliczeniu ±red-niej warto±ci sentymentu dla wszystkich wypowiedzi danej to»samo±ci wirtualnej. • przykªadowa warto±¢ charakterystyki - wyra»ona jest liczb¡ zmiennoprzecinkow¡ w

przedziale [−1, 1], np. -0,62.

• miara podobie«stwa - warto±¢ podobie«stwa dwóch charakterystyk danej grupy wy-znaczana jest ze wzoru 7.1.

7.2.2 Metody oparte o analiz¦ czasowej aktywno±ci u»ytkownika

Opisane tu podej±cie okre±la grup¦ metod, b¦d¡cych oryginalnym pomysªem autora, niestosowanym w dotychczasowych badaniach w dziedzinie identykacji to»samo±ci wir-tualnych. Wzbogaca on istniej¡ce ju» dziedziny cech to»samo±ci o ich charakterystyk¦ w aspekcie czasowym, pozwalaj¡c¡ wykrywa¢ to»samo±ci, którzy przejawiaªy aktywno±¢ w niewielkich odst¦pach czasu od siebie, co mo»e sugerowa¢, »e kryje si¦ za nimi jedna -zyczna osoba.

W prezentowanym systemie zaimplementowane zostaªy dwie wersje metod opartych na tej ideii

Czasowe punkty wspólne aktywno±ci - metoda okre±laj¡ca podobie«stwo danych to»samo±ci wirtualnych, w momencie wyst¡pienia ich aktywno±ci w tym samym okresie czasowym.

Istnieje kilka wersji tej metody, ró»ni¡cej si¦ rozpi¦to±ci¡ okresów czasowych. Aktualnie s¡ to: 1 dzie«, 4 godziny, 2 godziny, 1 godzina.

• charakterystyka - algorytm generowania charakterystyki polega na wyznaczeniu wszyst-kich momentów na osi czasu, kiedy dana wirtualna to»samo±¢ przejawiaªa aktywno±¢ w ramach dost¦pnych zbiorów danych.

• przykªadowa warto±¢ charakterystyki - wyra»ona jest wektorem punktów czasowych. Dla rozpi¦to±ci 1 dnia, s¡ to daty, np. 2006.02.07; 2008.03.22; 2008.03.23; 2008.03.27; 2012.11.10.

• miara podobie«stwa - warto±¢ podobie«stwa dwóch charakterystyk w tej metodzie wyznaczana jest ze wzoru 7.2, gdzie pojedynczym elementem zbioru jest punkt cza-sowy.

Czasowe punkty wspólne aktywno±ci - okno czasowe wzgl¦dne - metoda b¦d¡ca modykacj¡ poprzedniej, ró»ni¡ca si¦ od niej algorytmem miary wyznaczania podobie«stwa cechy. W tej metodzie podobie«stwo dwóch charakterystyk jest odwrotnie proporcjonal-ne do odlegªo±ci najbli»szych sobie punktów czasowych dla dwóch badanych to»samo±ci wirtualnych. Metoda ta stosowane jest gªównie w przypadkach gdy ¹ródªa danych oferuj¡ dokªadne dane czasowe (zawieraj¡ce godziny i minuty).

• charakterystyka - algorytm generowania charakterystyki jest identyczny jak w po-przedniej metodzie,

• przykªadowa warto±¢ charakterystyki - wyra»ona jest wektorem punktów czasowych (rozszerzonych w porównaniu do poprzedniej metody o godziny i minuty) - np. 2006.02.07 16:45; 2008.03.22 09:12; 2008.03.23 11:01;

• miara podobie«stwa - miara podobie«stwa dwóch charakterystk A i B obliczana jest ze wzroru: P (A, B) = 1 − min(|A|,|B|) P i=1 D(ai, bj) min(|A|, |B|) (7.3) gdzie : ai∈ A, bj ∈ B, oraz : min|a − b|

D(a, b)- odlegªo±¢ dwóch punktów czasowych a i b obliczana ze wzoru: D(a, b) = 1 − 1

1 + |a − b| (7.4)

Aktywno±¢ czasowa - punkty kluczowe - jest to metoda, która w zakresie algoryt-mów wyznaczania miar podobie«stw opiera si¦ na dwóch poprzednich metodach analizy aktywno±ci czasowych. Od poprzednich metod odró»nia j¡ to, »e jako zbiór danych w opar-ciu o które dziaªa, wybierane s¡ jedynie najwa»niejsze elementy aktywno±ci. S¡ to zwykle data rejestracji w danym serwisie i data ostatniej aktywno±ci.

7.2.3 Metody oparte o wspólne powi¡zania obiektów

Wspólne obiekty ª¡cz¡ce - metoda wykorzystuj¡ca wspólne obiekty struktury ¹ró-dªa, ª¡cz¡ce dwie wirtualne to»samo±ci. Mog¡ to by¢ np. wspólny w¡tek wypowiedzi lub wspólnie opisywany produkt.

• charakterystyka - algorytm generowania charakterystyki polega na wyznaczeniu li-sty wszystkich obiektów strukturalnych ¹ródªa, które wi¡»¡ si¦ z dan¡ to»samo±ci¡ wirtualn¡.

• przykªadowa warto±¢ charakterystyki - wyra»ona jest list¡ elementów np: "renault megane", "ford mondeo", "toyota prius".

• miara podobie«stwa - algorytm oparty jest o miar¦ Jaccarda, stosowan¡ do porów-nywania zbiorów, wyra»on¡ wzorem: 7.2.

Wspólne linkowania zewn¦trzne - metoda oparta o wspólne obiekty docelowe linków zawartych w wypowiedziach danych to»samo±ci wirtualnych.

• charakterystyka - algorytm generowania charakterystyki polega na wyznaczeniu listy obiektów docelowych wybranych z linków wychodz¡cych, w tre±ci danych (postów, proli, wypowiedzi), dotycz¡cych badanej to»samo±ci wirtualnej.

• przykªadowa warto±¢ charakterystyki - wyra»ona jest list¡ elementów np. adresów url: "http://www.youtube.com/watch?v=z0ki4vc64dM",

"http://www.youtube.com/watch?v=q3S3BPDwnS4".

• miara podobie«stwa - algorytm oparty jest o miar¦ Jaccarda, stosowan¡ do porów-nywania zbiorów, wyra»on¡ wzorem: 7.2.

W dokumencie Index of /rozprawy2/10722 (Stron 67-73)