Rozprawa dotyczy problemu wyszukiwania tożsamości wirtualnych, ukrywających się w ramach internetowych sieci społecznych. Rozwój sieci WEB i opartych o nią sieci społecznych, oraz charakteryzujące je wysoka anonimowość, przyniosły zarówno pozytywne jak i negatywne skutki społeczne. Jednym z negatywnych skutków jest zjawisko płatnego spamu opiniotwórczego w ramach portali rekomendacyjnych i forów dyskusyjnych. Takie opinie, generowane są zwykle przez osoby, używające w tym celu wielu tożsamości wirtualnych.
Niniejsza rozprawa wykazuje, że istnieje możliwość zbudowania modelu, który pozwoli wyszukiwać takie przypadki. Prezentowane podejście oparte jest o otwarte zasoby sieci Internet, agregujące cechy wirtualnych tożsamości z dziedzin: przetwarzania tekstu, sentymentu wypowiedzi, analizy aktywności czasowej użytkownika i powiązań elementów wspólnych. Algorytm wyznaczania podobieństwa wirtualnych tożsamości oparty jest o miary podobieństwa cech, rozszerzony o wagi cech ustalane w procesie uczenia z nadzorem. System zbudowany w oparciu o taki model nie traci skuteczności wraz ze wzrostem ilości badanych tożsamości i nie wymaga stosowania danych osobowych. W ramach eksperymentów przeszukano źródła różnych typów i wskazano przykłady ukrywających się multitożsamości, generujące fałszywy spam opiniotwórczy.
Dissertation concerns issue of detecting multi-identities hidden on WEB social networks. Evolution of social networks based on WEB results brought with both positive and negative social aspects. One of a negative aspects is a phenomenon of paid opinion spam published on recommendation portals and internet forums. Those opinions are edited by individuals, who use multiple virtual identities in order to spread numerous recommendations. The work proves, that it's possible to build a model, which is able to provide mechanisms that detects such cases. Presented approach bases on open WEB resources, aggregating features from several domains ex. natural language processing, emotional sentiment, user's time activity and common objects connections. Virtual multi-identities detection algorithm is based on similarity measures, extended by features weights established during supervised learning process. The system built on the basis of the model does not require any personal information and maintains effectiveness while number of virtual identities increase. Within the scope of experiments, various sources were processed, and as a result there were detected examples of hidden multi- identities generating opinion spam.