Współzależność miar jakości infoboksów i artykułów

W tej sekcji przeprowadzono analizę współzależności miar jakości infoboksów z miarami jakości artykułów.

Do pokazania współzależności pomiędzy dwoma zmiennymi (w naszym przypadku - mia-rami) można obliczać współczynnik korelacji. Jeżeli współczynnik jest mniejszy niż 0, to oznacza odwrotną korelację pomiędzy zmiennymi - zwiększenie jednej miary musi powodować zmniej-szenie drugiej. Siła współzależności pomiędzy miarami jest największa przy wartości współ-czynnika równej 1 (przy pozytywnej korelacji) lub -1 (przy ujemnej korelacji). Rozróżniamy na-stępujące poziomy współzależności w zależności od wartości współczynnika korelacji (Jackson, 2014):

• , 70 − 1, 00 - silna współzależność,

• 0, 30 − 0, 69 - umiarkowana współzależność, • 0, 0 − 0, 29 - słaba lub brak współzależności,

Na podstawie wcześniej przygotowanego zbioru danych, który był opisany w sekcji nr 8.1., została zbudowana macierz korelacji. Ta macierz zawiera 143 miary jakości dotyczące artykułów oraz 37 miar dotyczące infoboksów. Rysunek 8.1 pokazuje ogólną macierz korelacji innych miar jakości infoboksów i artykułów.

Tabela 8.7 pokazuje korelację pomiędzy wybranymi miarami infoboksów oraz wybranymi miarami jakości artykułów. W celu oszczędzania miejsca zostały wybrane tylko

najważniej-Rysunek 8.1. Macierz korelacji miar jakości artykułów i infoboksów w ramach zbioru danych ARPU

Źródło: Opracowanie własne.

sze miary infoboksów z poszczególnych wymiarów jakości (kompletność, wiarygodność, aktual-ność, relewancja), które zostały zidentyﬁkowane przy budowaniu modeli jakości w wersji pod-stawowej (por. tabelę 8.3). Dodatkowo na liście miar jakości artykułów zostawiono tylko te, które miały silną współzależność z wybranymi miarami infoboksów na co najmniej przyzwo-itym poziomie (ponad 0,3).

Tabela 8.7. Korelacja pomiędzy wybranymi miarami infoboksów oraz wybranymi miarami jakości artykułów. Skróty w nawiasach: K - kompletność, W - wiarygodność, A - aktualność, R - relewancja.

Miara I₄(K) I₂₃(W) I₃₆(A) I₄₁(R)

A₃₆- Linki przychodzące z przestrzeni nazw ns0 0,049 0,338 0,298 0,715 A₅₄- Linki przychodzące ze wszystkich rozpatrywanych przestrzeń nazw 0,045 0,339 0,300 0,732 A₅₅- Linki przychodzące z artykułów Wikipedii 0,049 0,313 0,384 0,772 A₆₃- Liczba edycji artykułu 0,041 0,338 0,376 0,809 A₆₄- Liczba drobnych edycji 0,038 0,363 0,386 0,783 A₇₃- Liczba unikatowych autorów 0,029 0,337 0,385 0,814 A₇₄- Liczba unikatowych autorów anonimowych 0,022 0,311 0,368 0,785 A₈₄- Suma odwiedzin w ciągu ostatnich rok 0,043 0,300 0,337 0,732 A₈₅- Mediana odwiedzin w ciągu ostatnich 90 dni 0,043 0,295 0,332 0,720 A₈₆- Mediana odwiedzin w ciągu ostatnich 365 dni 0,038 0,290 0,332 0,708 A₈₇- Mediana odwiedzin w ciągu ostatnich 365 dni bez dni z brakiem odwiedzin 0,039 0,297 0,340 0,715 A₈₉- Liczba wszystkich referencji w abstrakcie 0,113 0,704 0,242 0,363

Źródło: Obliczenia własne.

Analizy pokazują, że niektóre z wybranych miar jakości infoboksów są mocno skorelowane z miarami jakości artykułów, które określają popyt (liczba odwiedzin), aktualność (liczba edycji), relewancja (liczba autorów), wiarygodność (liczba referencji).

Warto zaznaczyć, że spośród ocen jakości artykułów (J1 − J5), największą wartość współ-czynnika korelacji posiada wskaźnik syntetyczny (J5). Tabela 8.8 przedstawia wyniki obliczenia

współczynników korelacji pomiędzy wybranymi miarami infoboksów oraz ocenami jakości ar-tykułów według różnych modeli.

Tabela 8.8. Korelacja pomiędzy wybranymi miarami infoboksów oraz ocenami jakości artykułów według różnych modeli. Skróty w nawiasach: K kompletność, W wiarygodność, A -aktualność, R - relewancja.

Miara I₄(K) I₂₃(W) I₃₆(A) I₄₁(R)

J₁- Jakość artykułu według modelu angielskiej Wikipedii z kategorialnej zmiennej zależnej w skali od 1 do 7

-0,009 0,242 0,243 0,469 J₂- Jakość artykułu według modelu angielskiej Wikipedii z

dychotomicz-nej zmiendychotomicz-nej zależdychotomicz-nej w skali od 0 do 1

-0,012 0,085 0,095 0,228 J₃- Jakość artykułu według modelu rosyjskiej Wikipedii z kategorialnej

zmiennej zależnej w skali od 1 do 7

0,007 -0,091 -0,087 -0,160 J₄- Jakość artykułu według modelu rosyjskiej Wikipedii z

dychotomicz-nej zmiendychotomicz-nej zależdychotomicz-nej w skali od 0 do 1

0,006 -0,039 -0,027 -0,057 J₅- Ocena jakości artykułu z wykorzystaniem miary syntetycznej 0,131 0,490 0,335 0,605

Źródło: Obliczenia własne.

W przypadku miar J1 − J4, które zostały zbudowane na podstawie system ocen angielskiej oraz rosyjskiej Wikipedii, mamy do czynienia ze słabą współzależnością ze wszystkimi wybra-nymi miarami infoboksów. Najlepsze wyniki pokazała miara jakości artykułów J5, obliczona na podstawie wskaźnika syntetycznego - posiada umiarkowaną korelacją z miarami infoboksów dotyczących wiarygodności, aktualności oraz relewancji.

8.5 Podsumowanie

W celu zbudowania modeli jakości infoboksów zostały użyte dwa zbiory miar: w wersji podsta-wowej oraz rozszerzonej. W wersji podstapodsta-wowej były wybrane tylko miary infoboksów (I1-I45). Precyzja modelu wyniosła 93,1%. W wersji rozszerzonej zostały dodatkowo dodane miary ar-tykułów (A1-A138 oraz J1-J5). W wyniku rozszerzenia zbioru uczącego precyzja modelu oceny jakości infoboksów zwiększyła się o 3,1% i wyniosła 96,2%.

Miary związane z popytem na informację okazały się najważniejszymi w otrzymanym mo-delu w wersji rozszerzonej. Dodatkowo modele jakości pokazały, że oceny artykułów, otrzy-mane od użytkowników Wikipedii, nie są istotne z punku widzenia oceny jakości infoboksów.

Eksperymenty wykazały korelację między niektórym miarami jakości artykułów oraz info-boksów. Najczęściej wymiary jakości infoboksów są mocno skorelowane z miarami pokazu-jącymi liczbę wyświetleń artykułu, liczbę referencji (w tym z popularnych stron internetowych

oraz z używaniem specjalnych szablonów), długość tekstu artykułu, liczbę obrazków i sekcji oraz liczbę edycji wraz z liczbą unikatowych autorów.

Modele jakości zbudowane na podstawie miar infoboksów oraz artykułów o polskich mia-stach zostały wykorzystane do automatycznej oceny jakości infoboksów pomiędzy wersjami językowymi w innych tematach, co jest zaprezentowane w kolejnych rozdziałach.

Rozdział 9

Porównywanie informacji wielojęzycznych

W tym rozdziale zostanie opisana metoda porównywania poszczególnych wartości parametrów infoboksów pomiędzy różnymi wersjami językowymi Wikipedii.

9.1 Wprowadzenie

W poprzednich rozdziałach wskazano, że każda wersja językowa Wikipedia może niezależnie od innych języków deﬁniować infoboksy wraz z nazwami parametrów, które mogą być używane w ramach szablonów. W związku z tym treści o określonym podmiocie lub wydarzeniu mogą powstawać niezależnie w każdej wersji językowej Wikipedii.

Niektóre tematy mogą być lepiej opisane w określonych wersjach językowych. Na przykład, przy budowaniu modeli jakości infoboksów (patrz rozdział nr 8 „Budowanie modeli jakości in-foboksów”) miasta Polski zazwyczaj są lepiej opisane w polskojęzycznej wersji Wikipedii.

Jednym z ważnych elementów opisywanej w tym rozdziale metody jest model jakości in-foboksów w wersji rozszerzonej, w której jakość jest modelowana jako prawdopodobieństwo przynależności od jednej z dwóch kategorii „Lepsza” lub „Gorsza” relatywnie do innych języ-ków. To prawdopodobieństwo p będzie wykorzystywane do obliczenia punktów jakości Q dla wersji językowej artykułu w:

• Q(w) = p, jeżeli artykuł został zaklasyﬁkowany jako „Lepszy”, • Q(w) = 1 − p, jeżeli artykuł został zaklasyﬁkowany jako „Gorszy”,

Przy tym wartość prawdopodobieństwa p obliczana osobno na każdej wersji językowej każ-dego rozpatrzonego artykułu.

Rysunek 9.1. Ekstrakcja parametrów infoboksów opisujących ﬁrmę w różnych wersjach języ-kowych Wikipedii oraz uniﬁkacja do wspólnych nazw za pośrednictwem DBpedii.

Źródło: Opracowanie własne.

W dokumencie Metoda porównywania i wzbogacania informacji w wielojęzycznych serwisach wiki na podstawie analizy ich jakości (Stron 120-125)