Metoda porównywania informacji na podstawie analizy jakości

Zuniﬁkowane nazwy parametrów ułatwiają porównanie ich wartości w różnych językach. Jed-nak w przypadku rozbieżności wartości, należy wybrać tę wersję językową, która posiada naj-wyższą jakość. To może się odbywać na różnych poziomach analizy: jakość całego artykułu, jakość infoboksu oraz jakość poszczególnych parametrów.

Proponowana metoda porównywania informacji dla jednego artykułu zawiera następujące kroki:

• Najpierw należy wybrać artykuł oraz wersje językowe, które będą analizowane. Każdy artykuł musi posiadać infoboks podobnego rodzaju.

• Dla każdej wersji językowej artykułów należy wyekstrahować parametry z infoboksów. • Uniﬁkacja nazw parametrów infoboksów - nazwy musza być przekształcone do jednego

wspólnego standardu.

• Uniﬁkacja wartości parametrów infoboksów. Jeżeli wartością jest nazwa własna, wyko-rzystywany jest semantyczny odpowiednik tej nazwy lub stosowane jest przekształcenie tej nazwy zgodnie z zasadami transliteracji w zależności od wersji językowych.

• Dla każdego parametru mogą być dodatkowo wyekstrahowane miary jakości związane z aktualnością, kompletnością oraz weryﬁkowalnością.

• Przeprowadzenie porównania wartości parametrów infoboksów.

• W przypadku różnic na poziome określonych parametrów, należy wziąć pod uwagę wy-niki oceny jakości wersji językowych wybranego artykułu. Preferowana jest wartość z tych wersji językowych, które uzyskały większą liczbę punktów za jakość. W celu prze-prowadzenia takiej oceny należy zastosować model jakości infoboksów w wersji rozsze-rzonej, przy tym należy uwzględnić następujące kroki:

– Do każdej wersji językowej artykułu należy wyekstrahować miary jakości (patrz roz-działy nr 5 „Miary oraz wymiary jakości artykułów Wikipedii” oraz nr 7 „Miary oraz wymiary jakości infoboksu”). Szczególną uwagę należy zwrócić uwagę na miary, który wykazały wysoką ważność w modelach jakości (patrz rozdziały „Budowanie modeli jakości artykułów” oraz „Budowanie modeli jakości infoboksów”).

– Ocena jakości wersji językowych wybranego artykułu oraz infoboksów (J1-J5). Oceny te będą występować jako dodatkowe miary.

W celu przedstawienia działania tej metody na konkretnych przykładach rozpatrzymy arty-kuł o Poznaniu w wersji ARPUB. Zróbmy to na postawie wyżej opisanych kroków:

• Zostało wybranych 5 wersji językowych (angielska, rosyjska, polska, ukraińska, białoru-ska) dla artykułu o Poznaniu². We wszystkich rozpatrywanych językach artykuł posiada infoboks podobnego typu. Np. w wersji polskiej ma on nazwę „Polskie miasto infobox”.

• Dla każdej wersji językowej tego artykułu zostały wyekstrachowane miary jakości artykułu (A1-A138) oraz miary jakości infoboksu (I1-I45).

• Na podstawie powyższych miar wyznaczono miary jakości z modeli jakości artykułów (J1-J5).

• Zostały wyekstrahowane parametry infoboksów w każdej wersji językowej. Ogólny sche-mat ekstrakcji pokazany na rys. 9.4.

• Używając mapowań DBpedii zostały zuniﬁkowane nazwy parametrów. Ogólny schemat uniﬁkacji nazw pokazany na rys. 9.4.

• Używając technik dostępnuch w ramach DBpedia Framework³ oraz własnych algoryt-mów, zostały zuniﬁkowane wartości parametrów.

– W celu uniﬁkacji parametru „personName” w wersji rosyjskiej zostały użyte seman-tyczne powiązania. W wersji ukraińskiej wartość była przekształcona na podstawie podobieństwa z wersją rosyjską, która posiada semantyczne powiązanie z innymi nazwami. W przypadku białoruskiej wersji zostało wykorzystano podobieństwo z wersją rosyjską oraz zasady białoruskiej ortograﬁi oraz interpunkcji (Ustawa, 2008). – Wartości parametru „popula onTotal” zostały zuniﬁkowane w taki sposób, aby

wy-stępowała tylko wartość liczbowa, którą można łatwo porównać.

– Wartości parametru „popula onAsOf”, które wskazują aktualność danych o popu-lacji („popula onTotal”), zostały przekształcone w ujednolicony format daty. Jeżeli był wpisany tylko rok, to został dopisany ostatni dzień oraz miesiąc. W przypadku wersji ukraińskiej, wartość tego parametry była przeniesiona z innego parametru („popula onTotal”).

Ogólny schemat uniﬁkacji wartości parametrów infoboksów został pokazany na rys. 9.5. • Porównanie wartości parametrów w wybranych językach.

– „personName”: we wszystkich wersjach językowych jest zgodność co do wartości. – „popula onTotal”: każda wersja językowa posiada inną wartość. Innymi słowy - nie

ma zgodności pomiędzy wersjami językowymi.

– „popula onAsOf”: prawie każda wersja językowa posiada różną wartość tego pa-rametru, oprócz wartości które wspólnie posiadają polska oraz rosyjska wersja. • Ocena wersji językowych na podstawie modeli jakości infoboksów w wersji rozszerzonej.

Największą liczbę punktów zdobyła wersja polska. Oznacza to, że w przypadku braku ³https://github.com/dbpedia/extraction-framework

Rysunek 9.4. Schemat ekstrakcji infoboksów oraz uniﬁkacji nazw parametrów na przykładzie artykułu o Poznaniu w wersji ARPUB.

Źródło: Opracowanie własne.

pewnego parametru infoboksu w innych wersjach językowych, do jego uzupełnienia pre-ferowana jest wartość w wersji polskiej. Jeżeli niektóre wersje mają spójne wartości pa-rametru, obliczana jest liczba punktów za jakość uzyskana przez model. W związku z tym, dla parametru „popula onTotal” wartość z wersji PL będzie najlepsza. W przypadku pa-rametru „popula onAsOf”, mamy do czynienia ze zgodnością pomiędzy wersjami PL oraz RU. Wiemy, że wersja PL posiada w naszym przykładzie maksymalną liczbę punktów za jakość, w związku z tym dodatkowa zgodność „wzmacnia” wybór wartości z tych wersji.

9.4 Podsumowanie

W niniejszym rozdziale została przedstawiona metoda porównywania wielojęzycznych informa-cji w Wikipedii. Ważnym etapem tej metody jest uniﬁkacja wartości parametrów na podstawie określonych reguł oraz semantycznych powiązań obiektów. W celu uniﬁkacji parametrów info-boksów były wykorzystane mapowania dostępne w ramach serwisu DBpedia Mappings. Proces mapowania parametrów można również zautomatyzować oraz usprawnić za pomocą różnych metod, opisanych w niniejszym rozdziale.

Rysunek 9.5. Schemat uniﬁkacji wartości wybranych parametrów na przykładzie artykułu o Poznaniu.

Źródło: Opracowanie własne.

Drugim ważnym elementem metody jest analiza jakości źródła, w którym został umiesz-czony infoboks. W tym przypadku był wykorzystany model do obliczenia punktów za jakość infoboksu przygotowany w ramach rozprawy. W przypadku braku spójności na poziomie kon-kretnego parametru pomiędzy wersjami językowymi, najlepsza wartość była wyznaczana na podstawie liczby punktów lub sumy liczby punktów, jeżeli ta wartość była użyta w dwóch lub większej liczbie wersji językowych.

Opisana w niniejszym rozdziale metoda porównywania wielojęzycznych informacji na pod-stawie analizy jakości może pomóc we wzbogaceniu mniej rozwiniętych wersji językowych Wi-kipedii. W następnym rozdziale zostanie zaproponowana taka metoda wzbogacenia.

Rozdział 10

Metoda wzbogacenia informacji

W tym rozdziale opisano metodę wzbogacenia informacji na podstawie metody porównywania wielojęzycznych informacji oraz modelu jakości infoboksów, które zostały opisane wcześniej.

10.1 Wprowadzenie

Pomimo istnienia możliwości dodawania artykułów w różnych językach na ten sam temat (jako odpowiednik artykułów w innych językach), czasem można zauważyć istotne różnice pomiędzy liczbą opisanych obiektów oraz ich reprezentacji w każdej wersji językowej. Pokrycie artykułów na wybrane tematy w różnych wersjach językowych zostało przedstawione na rysunku 10.1). Wynika z niego, że białoruska wersja, jako najmniejsza, posiada jednocześnie największy poten-cjał, jeśli chodzi o możliwość wzbogacenia informacji na podstawie innych wersji językowych Wikipedii.

Automatyczne wzbogacenie informacji w takich popularnych źródłach jak Wikipedia nie jest zupełnie nowym zagadnieniem. Istnieją różne sposoby na przenoszenia danych pomiędzy wer-sjami językowymi (Kaﬀee, 2016). Wśród nich są mapowania DBpedii, które były opisane w po-przednim rozdziale. Do wzbogacania artykułów Wikipedii mogą być również wykorzystywane Wikidane (Sáez i Hogan, 2018).

Istnieją również algorytmy (boty), które już przenoszą treści pomiędzy wersjami języko-wymi, dokonując na przykład automatycznego tłumaczenia. W związku z tym zdarza się, że liczba artykułów w danej wersji językowej Wikipedii nie ma związku z liczbą redaktorów lub osób posługujących się tym językiem. Na przykład Wikipedia w języku cebuańskim z ponad 5 milionami artykułów formalnie zajmuje drugie miejsce (po angielskiej) w rankingu największych

Rysunek 10.1. Pokrycie tematów w różnych wersjach językowych Wikipedii. Źródło: Obliczenia własne.

wersji językowych Wikipedii (Wikipedia Meta-Wiki, 2018b). Język cebuański jest używany na Filipinach, a ogólna liczba osób posługujących się tym językiem wynosi do 24% populacji tego kraju (Oard i in., 2003). Inny przykład - szwedzka Wikipedia, która posiada ponad 3.7 mln ar-tykułów (Wikipedia Meta-Wiki, 2018b), co pozwala jej zajmować trzecie miejsce w rankingu największych wersji językowych Wikipedii. Na świecie jest około 10.5 mln osób mówiących w języku szwedzkim (The Network to Promote Linguis c Diversity (NPLD), 2018). Autorem więk-szości artykułów w tych dwóch wersjach językowych jest bot, który ma nazwę Lsjbot¹.

Należy zauważyć, że praktycznie żadne z istniejących rozwiązań nie bierze pod uwagę po-równanie jakości pomiędzy wersjami językowymi, z których potencjalnie może zostać wyeks-trahowana informacja do późniejszego przenoszenia na inne wersję językowe. Opisana w tym rozdziale metoda jest propozycją sekwencji czynności, które należy przeprowadzić przed roz-poczęciem przenoszenia danych do różnych wersji językowych Wikipedii.

W dokumencie Metoda porównywania i wzbogacania informacji w wielojęzycznych serwisach wiki na podstawie analizy ich jakości (Stron 128-135)