Komponent wyszukiwania to»samo±ci podobnych

Ko«cowym elementem systemu, rozpatruj¡c aspekt procesu przetwarzania danych, jest komponent wyszukiwania podobie«stw to»samo±ci wirtualnych. Opiera si¦ on na in-formacjach zgromadzonych i wygenerowanych przez komponenty opisane w poprzednich punktach. Struktura i schemat dziaªania tego komponentu przedstawiony jest na rysunku 6.4.

etap uczenia z nadzorem Wybór modelu (algorytmu uniwersalnego) wyznaczania podobieństw tożsamości wirtualnych wyznaczenie par tożsamości podobnych ewentualne: adaptacja wag, eliminacja cech, zmiana priorytetów aktualizacja algorytmu Wyszukanie podobnych tożsamości wirtualnych (1vs.1, 1vs. N, N vs. N)

Rysunek 6.4: Komponent wyszukiwania to»samo±ci podobnych

Zasadniczo, dziaªanie komponentu wyznaczania podobie«stw to»samo±ci mo»na podzie-li¢ na 3 gªówne etapy. Pierwszym krokiem jest wybór modelu algorytmu, który zostanie

zastosowany przy wyszukiwaniu podobie«stw to»samo±ci, w konkretnym problemie, do rozwi¡zania którego zostanie u»yty system. Drugi etap polega na zastosowaniu uczenia z nadzorem, w ramach którego wybrane wcze±niej podej±cie (algorytm) jest adaptowane, w celu uzyskania mo»liwie najbardziej optymalnych wyników. Trzeci etap wyszukiwania, polega na uruchomieniu odpowiedniego trybu wyszukiwania podobie«stw, zale»nego tak»e od konkretnego przypadku, do rozwi¡zania którego jest u»yty system. Szczegóªowy opis poszczególnych etapów znajduje si¦ w kolejnych punktach tego rozdziaªu.

6.4.1 Wybór algorytmu wyszukiwania podobie«stw to»samo±ci

Pierwszym etapem przetwarzania danych w omawianym komponencie jest identy-kacja problemu i wybór odpowiedniego algorytmu, sªu»¡cego wyszukiwaniu podobie«stw to»samo±ci, który dla danego problemu nale»y zastosowa¢.

Prezentowany system mo»e wspomaga¢ rozwi¡zanie kilku klas problemów, które odno-sz¡ si¦ do ró»nych rodzajów podobie«stw i wymagaj¡ zastosowania ró»nych algorytmów obliczania podobie«stwa to»samo±ci.

• Pierwszy przypadek, to wyszukanie grupy u»ytkowników o podobnych cechach to»sa-mo±ci, nie b¦d¡cych zycznie t¡ sam¡ osob¡. U»ytkownicy tacy mog¡ charakteryzo-wa¢ si¦ np. podobn¡ liczb¡ powi¡za« z innymi u»ytkownikami, dªugo±ci¡ wypowiedzi i standardowym zestawem sªownictwa. Tego rodzaju podobie«stwa mog¡ by¢ cenne w np. przy wyszukiwaniu potencjalnych klientów (grupy docelowej), podobnych do wzorcowej to»samo±ci wirtualnej.

• Drugim przypadkiem s¡ multito»samo±ci tej samej osoby, wykonuj¡cej zlecenia w ramach portali rekomendacyjnych. Takie osoby maj¡ za zadanie wygenerowa¢ du-»¡ ilo±¢ opinii na temat danego obiektu, maj¡cej wypracowa¢ faªszywy jego obraz (pozytywny lub negatywny). Jest to tak zwany pªatny spam opiniotwórczy.

• Kolejny przypadek to osoby ukrywaj¡ce celowo swoj¡ to»samo±¢ dziaªaj¡ce w gru-pach przest¦pczych. Mo»e to dotyczy¢ np. pojedynczych ogªosze« zwi¡zanych z han-dlem nielegalnymi towarami lub nawoªywaniem do nienawi±ci rasowej. Z wiadomych wzgl¦dów, b¦d¡ one staraªy si¦, by cechy ich multito»samo±ci byªy mo»liwie ró»ne. Wydaj si¦ oczywistym, »e ka»de z powy»szych podej±¢ b¦dzie wymagaªo innego algoryt-mu, wyszukuj¡cego podobie«stwa wirtualnych to»samo±ci. Wszystkie zaimplementowane algorytmy, wraz z dziedzinami ich zastosowania opisane s¡ dokªadnie w rozdziale 7.3.

Wybór algorytmu wyszukiwania podobie«stwa zale»e¢ te» mo»e od rodzaju danych (wyekstrahowanych ze ¹ródeª), i informacji na których system pracuje. Inne algorytmy b¦d¡ stosowane dla bogatych zbiorów danych tekstowych, a inne w przypadku bardzo

rozbudowanej siatki powi¡za« oraz du»ej ilo±ci wirtualnych to»samo±ci. Cz¦±¢ algorytmów b¦dzie niemo»liwa do wykorzystania przy zbyt du»ej ilo±ci danych, ze wzgl¦du na zbyt du»¡ zªo»ono±¢ obliczeniow¡.

6.4.2 Etap uczenia z nadzorem

Drugim etapem w procesie przetwarzania danych jest etap uczenia z nadzorem. Nadzór nad tym etapem sprawuje administrator systemu i ma to na celu adaptacje wybranego wcze±niej uniwersalnego podej±cia do konkretnego przypadku i ¹ródeª danych, w oparciu o które taki system b¦dzie dziaªaª. Jest to tak zwane uczenie ze sprz¦»eniem, gdzie oce-na wyników dziaªania systemu przez administratora ma wpªyw oce-na parametry algorytmu stosowanego w systemie.

wyznaczenie wartości podobieństwa losowej pary wirtualnych tożsamości

funkcja szacowania skuteczności algorytmu

Koniec adaptacji algorytmu

algorytm zoptymalizowany korekta parametrów algorytmu algorytm nieoptymalny start

Rysunek 6.5: Algorytm uczenia z nadzorem

Schemat algorytmu tego etapu zaprezentowany jest na rysunku 6.5 i skªada si¦ z na-st¦puj¡cych kroków:

• wyznaczenie stopnia podobie«stwa dwóch, losowo wybranych to»samo±ci wirtual-nych. Wraz z warto±ci¡ podobie«stwa podawane s¡ tak»e elementy skªadowe, które miaªy wpªyw na wyznaczenie tego prawdopodobie«stwa. W zale»no±ci od rodzaju algorytmu b¦d¡ to: wagi poszczególnych cech, skªad zestawu cech, hierarchia cech

itp. Zostaªy one szczegóªowo opisane dla ka»dego z algorytmów z osobna w punkcie 7.3.

• uruchomienie funkcji szacuj¡cej aktualn¡ skuteczno±¢ algorytmu, wskazuj¡ca na to, czy aktualny algorytm jest wystarczaj¡co zaadaptowany i zwraca odpowiednie rezul-taty. Metoda zwraca warto±ci TRUE/FALSE. W wypadku zwrócenia warto±ci TRUE faza adaptacji jest ko«czona i uznaje si¦, »e algorytm jest gotowy do u»ycia na danym zbiorze danych ¹ródªowych. W wypadku zwrócenia warto±ci FALSE, warto±¢ podo-bie«stwa to»samo±ci oraz wszystkie dodatkowe informacje pomocnicze przekazywane s¡ do nast¦pnego kroku

• wykonanie korekty parametrów algorytmu. Krok wymagaj¡cy interakcji z admini-stratorem systemu. Na podstawie warto±ci podobie«stwa oraz pozostaªych informa-cji dodatkowych dotycz¡cych sposobu jego wyznaczania, administrator ma mo»liwo±¢ skorygowa¢ parametry algorytmu. Sposób korekty b¦dzie zale»aª od rodzaju algoryt-mu i jest opisany szczegóªowo w punkcie 7.3.

• ewentualna aktualizacja skorygowanych parametrów algorytmu i ponowne urucho-mienie procesu adaptacji - powrót do pierwszego kroku

Po zako«czeniu fazy uczenia, uznaje si¦, »e algorytm jest dostosowany do aktualnych danych ¹ródªowych i mo»na przej±¢ do nast¦pnej fazy opisanej w kolejnym punkcie. 6.4.3 Wyszukanie wªa±ciwe podobnych to»samo±ci wirtualnych

Finalnym etapem dziaªania systemu, po zako«czeniu uczenia z nadzorem, jest etap uruchomienia wªa±ciwego wyszukania podobie«stw to»samo±ci. Mo»liwo±¢ uruchomienia tego procesu udost¦pniana jest u»ytkownikowi systemu poprzez panel administracyjny.

Wszystkie zaimplementowane w systemie algorytmy opisane s¡ szczegóªowo w rozdziale 7.3, natomiast ogólny sposób ich dziaªania mo»na zaprezentowa¢ na przykªadzie prostego algorytmu. Takim algorytmem, nie wykorzystywanym w systemie w praktyce, a jednak odpowiednim do zobrazowania idei dziaªania bardziej skomplikowanych algorytmów wy-szukiwania, mo»e by¢ ±rednia arytmetyczna wszystkich podobie«stw cech stosowanych w systemie.

Przykªadowe dane i warto±ci podobie«stw przedstawione s¡ w tabeli 1. W prezen-towanym przykªadzie, w systemie s¡ przetwarzane dane dla 4 wirtualnych to»samo±ci i stosowane s¡ jedynie 3 cechy i miary ich podobie«stw. W pierwszych 3 tabelach znajduj¡ si¦ warto±ci podobie«stw badanych wirtualnych to»samo±ci wg rozpatrywanych cech. W ostatniej tabeli umieszczone s¡ natomiast warto±ci podobie«stw wirtualnych to»samo±ci, liczonej jako ±rednia arytmetyczna podobie«stw cech skªadowych.

Tabela 1: Przykªad: zastosowanie prostego algorytmu ±redniej arytmetycznej dla 3 cech oraz 4 wirtualnych to»samo±ci

cecha1 + miara1

Jan Ewa Kuba Piotr

Jan X 0,4 0,38 0,24 Ewa X 0,8 0,72 Kuba X 0,93 Piotr X cecha2 + miara2

Jan Ewa Kuba Piotr

Jan X 0,7 0,18 0,45 Ewa X 0,76 0,22 Kuba X 0,34 Piotr X cecha3 + miara3

Jan Ewa Kuba Piotr

Jan X 0,6 0,52 0,81 Ewa X 0,91 0,62 Kuba X 0,27 Piotr X podobien. to»sam.

Jan Ewa Kuba Piotr

Jan X 0,57 0,36 0,50

Ewa X 0,82 0,52

Kuba X 0,51

Piotr X

Wedªug algorytmu i warto±ci podobie«stw prezentowanego w powy»szym przykªadzie, w badanej grupie najbardziej podobne do siebie s¡ to»samo±ci z identykatorami Kuba i Ewa. Wynika to bezpo±rednio z prostego algorytmu i wysokich warto±ci podobie«stw tych to»samo±ci dla poszczególnych ich cech.

6.5 Tryby wyszukiwania podobie«stw to»samo±ci.

Mo»liwo±¢ wyszukiwania podobie«stw pomi¦dzy wirtualnymi to»samo±ciami, które s¡ prze-twarzane przez system, jest udost¦pniana dla administratora systemu poprzez interfejs u»ytkownika. Istniej¡ trzy gªówne tryby, w jakich mo»na wyznacza¢ podobie«stwa pomi¦-dzy wirtualnymi to»samo±ciami i na tej podstawie wyszukiwa¢ to»samo±ci podobne:

• wyznaczenie stopnia podobie«stwa pomi¦dzy dwiema wybranymi wirtualnymi to»sa-mo±ciami - najszybszy sposób, polegaj¡cy na wyznaczeniu podobie«stw za pomoc¡ wybranego wcze±niej algorytmu dla dwóch okre±lonych to»samo±ci. Proces stosunko-wo szybki, o zªo»ono±ci liniowej wzgl¦dem N (gdzie N jest liczb¡ charakterystyk/miar u»ytych przez algorytm wyznaczania podobie«stwa),

• wyszukanie to»samo±ci podobnych do wybranej to»samo±ci - podobie«stwa wyzna-cza si¦ w ten sam sposób jak w punkcie poprzednim, jednak do wyznawyzna-czania podo-bie«stw wybierana jest to»samo±¢ wyznaczona przez administratora systemu, oraz po kolei, wszystkie inne to»samo±ci wirtualne obecne w systemie. Zªo»ono±¢ tego procesu zwi¦ksza si¦ o kolejny wymiar, jakim jest liczba wirtualnych to»samo±ci w systemie,

z któr¡ trzeba porówna¢ to»samo±¢ wzorcow¡.

• wyszukiwanie to»samo±ci podobnych do siebie, w caªym zbiorze to»samo±ci obec-nych w systemie, jest to rozszerzenie poprzedniej wersji o wykonanie jej dla ka»dej to»samo±ci obecnej w zbiorach danych systemu. Zªo»ono±¢ obliczeniowa zwi¦ksza si¦ kwadratowo w stosunku do poprzedniej wersji wyszukiwania.

Zªo»ono±¢ obliczeniowa dla kolejnych wariantów wyznaczania podobie«stw to»samo±ci ro±nie kwadratowo. W przypadku pierwszej wersji jest to proces szybki, nawet dla du»ej liczby cech oraz skomplikowanych algorytmów generowania charakterystyk. Wersja wyszu-kiwania to»samo±ci podobnej do danej tak»e jest obliczalna w czasie rzeczywistym, je±li nie stosuje si¦ skomplikowanych miar podobie«stw charakterystyk. Natomiast ostatni tryb mo»e by¢ czasowo niewykonalny, przy zbyt du»ej liczbie to»samo±ci obecnych w systemie, nawet dla prostych charakterystyk, i obliczonych wcze±niej warto±ci ich podobie«stw. Dla przykªadu, przy 1700 wirtualnych to»samo±ciach, i kilkunastu obliczonych wcze±niej podo-bie«stwach cech, algorytm wa»onej ±redniej podobie«stw opisany w punkcie ?? dziaªaj¡cy na ±redniej klasy komputerze PC, potrzebuje na wyznaczenie podobie«stw w trzeciej wersji (N do N) ponad dwie doby.

W dokumencie Index of /rozprawy2/10722 (Stron 56-61)