Pozyskanie i analiza materiału badawczego

7 Metodyka ewaluacji i ocena rozwiązania

7.1 Pozyskanie i analiza materiału badawczego

Materiał badawczy został pozyskany w ramach prowadzonych prac eksperymen-talnych w okresie pomiędzy grudniem 2013 roku a marcem 2015 roku. W tym czasie przeprowadzono proces ekstrakcji na 19 źródłach danych ubezpieczeniowych (19 wi-tryn WWW), należących do 13 firm ubezpieczeniowych. Dobór wiwi-tryn przeprowa-dzono w oparciu o wytyczne opisane w podrozdziale 6.1. Cały proces eksperymentu wykonano zgodnie z metodą opisaną w rozdziale 6 oraz z wykorzystaniem modeli za-proponowanych w rozdziale 5 i podrozdziale 6.3.

Dla procesu badawczego rozwinięta została skomplikowana infrastruktura w celu pokonania szeregu wyzwań technicznych. Przede wszystkim, jeśli chodzi o ubezpie-czenia motoryzacyjne, to stworzono ramę w języku JavaScript uruchamianą w konsoli przeglądarki internetowej w celu pozyskania wpisów w słowniku pojazdów poszcze-gólnych ubezpieczycieli w ubezpieczeniach motoryzacyjnych (dla każdego ubezpie-czyciela pobierane były kwotowania ubezpieczeń dla takich samych lub analogicznych modeli, typów oraz roczników pojazdów). Słowniki te zostały włączone do ontologii.

W wyniku przeprowadzonych prac zebrano dokładnie 40108 rekordów surowych danych. Każdy rekord surowych danych jest wynikiem pojedynczego pełnego cyklu nawigacji po źródle webowym. Rekord taki, może zawierać więcej niż jedną wartość składki. Zarówno spis wszystkich wykorzystanych źródeł oraz podział przypadającej liczby rekordów surowych danych na konkretne źródło danych znajduje się w podroz-dziale 7.5.

Jeśli chodzi o statystyki czasowe poszczególnych etapów prowadzonych prac ba-dawczych, to średni czas budowy pojedynczego grafu nawigacji za pomocą modułu Planista Nawigacji wyniósł 7 minut 48 sekund. Przy czym należy zauważyć, że w ostatecznym rozrachunku utworzone w ten sposób grafy nawigacji wymagały intensywnych modyfikacji o charakterze manualnym. Czas tych modyfikacji wielo-krotnie przekraczał zmierzony średni czas budowy grafu.

Przeciętny czas adnotowania pojedynczego grafu nawigacji, w wariancie podsta-wowym, wyniósł 43 minuty i 49 sekund. Zmierzony czas odpowiadał oznaczeniu

ele-131

mentów reprezentacji semantycznej źródła przy okazji konstrukcji grafu nawigacji. W praktyce adnotacje te były wielokrotnie poprawiane i modyfikowane w dalszej czę-ści procesu ekstrakcji.

Wreszcie średni czas pozyskania pojedynczego rekordu (a więc także cyklu

nawi-gacji po źródle webowym) wyniósł 3 minuty 17 sekund255. Odchylenie standardowe

od tego czasu wyniosło 55 sekund. Wyliczenie to wyłącza cykle niekompletne oraz zakończone błędami.

W dalszym ciągu eksperymentu, dla każdego zbioru danych zrealizowano taką samą procedurę badawczą, która polegała na wykonaniu następujących czynności:

1. oczyszczeniu danych,

2. uzupełnieniu wartości pustych,

3. uzgodnieniu dat i normalizacja wartości, 4. konwersji formatów.

Tak przetworzone dane stanowiły przedmiot dalszego przetwarzania:

 kwalifikacji i podziału rekordów złożonych (pierwszy wariant),

 wzbogaceniu zbiorów danych o dane zewnętrzne (drugi wariant).

Podział rekordów złożonych (pierwszy wariant) odnosi się do rekordów uzyska-nych z tych źródeł, które w ramach pojedynczego kwotowania zwracały więcej niż jedną obliczoną wartość (kilka wersji tego samego ubezpieczenia lub wartość składki dwóch odrębnych produktów, np. OC i AC pojazdów mechanicznych). W takim przy-padku rekordy surowych danych zostały bądź zduplikowane, tyle że z pojedynczą war-tością zmiennej zależnej (celu) lub wprowadzony został podział na oddzielne zbiory danych. W rezultacie tego podziału otrzymano 173466 rekordów z pojedynczą warto-ścią składki.

W ramach eksperymentu podjęto także decyzję o próbie zweryfikowania hipotezy, że dodanie dodatkowych parametrów (zmiennych) do rekordów danych może wpłynąć na jakość otrzymanych modeli. W tym celu dokonano wzbogacenia poszczególnych zbiorów danych uzyskanych po dokonaniu podziału w pierwszym wariancie o dodat-kowe zmienne nie należące do parametrów podawanych w ramach źródła WWW.

255 Zmierzona wartość uwzględnia tzw. „politeness policy”, tzn. odczekanie pewnego czasu między poszczególnymi połączeniami z serwerem, co jest normalną praktyką w tego typu przypadkach.

132

Wzbogacenie nastąpiło w przypadku występowania w danym zbiorze danych parame-trów o charakterze porządkowym lub jakościowym, co do których istniało silne podej-rzenie, że będą one miały istotny wpływ na kształtowanie się składki. Warunkiem wzbogacenia była dostępność odpowiadających danych pozwalających opisać parame-try o charakterze porządkowym lub jakościowym w sposób ilościowy. Przykładowo dla ubezpieczeń motoryzacyjnych, w których występowała zależność od rodzaju po-jazdu lub regionu geograficznego wśród danych wzbogacających zamieszczono m.in. dane demograficzne związane z regionem, takie jak gęstość zaludnienia, liczba ludno-ści, dane dotyczące transportu – liczba pojazdów zarejestrowanych na obszarze oraz dodatkowe dane dotyczące pojazdu – wycena, typ nadwozia, pojemność, moc, liczba drzwi etc. Dane dotyczące pojazdu były uzupełniane wówczas, gdy dany kalkulator nie wymagał lub nie przewidywał identyfikacji pojazdu za pomocą określonej zmien-nej.

Tabela 13. Zestawienie wszystkich zbiorów danych oraz liczebności ich rekordów Źródło: opracowanie własne

L.p. Zestaw danych po podziałach Łączna liczba rekordów

Niemotoryzacyjne 1 aviva1A 4257 2 aviva1B 4257 3 ehome.benefia241A 22750 4 kuke1A.com 5445 5 kuke1B.com 2723 6 signal-iduna1A 1202 7 signal-iduna1B 1202 8 skokubezpieczenia24.home1A 7765 9 skokubezpieczenia24.home2A 1842 10 skokubezpieczenia24.health1A 5451 11 tutum.bike1A 3455 12 tutum.nnw1A 3277 13 uniqa241A 9576 14 uniqa242A 14359 15 youcandrive.home1A 6160 16 youcandrive.home1B 6160 17 youcandrive.travel1A 8077 18 youcandrive.travel1B 8077 19 youcandrive.travel2A 8077 20 youcandrive.travel2B 8077

133 Motoryzacyjne 21 allianz1A 3260 22 allianz1B 3260 23 allianz2A 3260 24 allianz2B 3260 25 axadirect1A 2382 26 axadirect1B 2382 27 axadirect2A 4763 28 axadirect2B 4763 29 emoto.benefia241A 2393 30 emoto.benefia241B 2393 31 libertydirect1A 7603 32 libertydirect1B 7603 33 libertydirect2A 2607 34 libertydirect2B 2607 35 link41A 5943 36 link41B 5943 37 link42A 11483 38 link42B 11483 39 mtusa1A 2704 40 mtusa1B 2704 41 skokubezpieczenia24.moto1A 3879 42 skokubezpieczenia24.moto1B 3879 43 skokubezpieczenia24.moto2A 7757 44 skokubezpieczenia24.moto2B 7757 45 skokubezpieczenia24.moto3A 7757 46 skokubezpieczenia24.moto3B 7757 47 youcandrive.moto1A 1994 48 youcandrive.moto1B 1994 49 youcandrive.moto2A 1994 50 youcandrive.moto2B 1994 51 youcandrive.moto3A 1994 52 youcandrive.moto3B 1994 RAZEM 275735

W rezultacie wzbogacenia danych nastąpił podział zbiorów na pierwotne i wzbo-gacone, co skutkowało zwiększeniem łącznej liczby rekordów do 275735. Liczebność poszczególnych zbiorów z uwzględnieniem poszczególnych podziałów oraz pierwot-nych źródeł dapierwot-nych zestawiono w tabeli 13. W celu zwiększenia przejrzystość dalsze-go zarządzania zbiorami danych przyjęto następujące reguły co do oznaczeń zbiorów:

 pojedyncza cyfra na przedostatnim miejscu oznacza podzbiór

134

 pojedyncza litera na końcu nazwy oznacza odpowiednio: A – zbiór danych

niewzbogaconych, B - zbiór danych wzbogaconych.

Podsumowując tę cześć eksperymentu należy zauważyć, że łącznie uzyskano 52 zbiory danych będące wynikiem podwójnego podziału. Spośród tych 52 zbiorów 32 dotyczyły ubezpieczeń motoryzacyjnych. Z kolei jeśli chodzi o skalę pokrycia rynku, to zebrano dane z około 80% firm ubezpieczeniowych w Polsce udostępniających kal-kulatory on-line (ale, nie wszystkich kalkulatorów).

Podczas zbierania danych doszło do szeregu zdarzeń, które odnotowane zostały w dzienniku badań, a związanych z odnośnymi źródłami WWW. Wśród istotniejszych z tych zdarzeń wskazać można:

 usunięcie kalkulatora (2 przypadki w trakcie i kolejne 2 po zakończeniu

ba-dań),

 wykryte zmiany w algorytmach (4 przypadki),

 wprowadzenie czasowej promocji (1 przypadek),

 zmiany w formularzu (7 przypadków),

 zmiana w bazie danych (1 przypadek).

Wszystkie powyższe zdarzenia zostały zaklasyfikowane jako problem rozciągłości zbierania danych ze źródeł w czasie. Uogólniając, na problem ten składa się nie tylko zmienność źródła – pojawiają się lub usuwane są zmienne decyzyjne, zmieniają zbiory wartości – ale również drugi czynnik – niektóre ubezpieczenia mogą być zależne od czasu. Ten ostatni czynnik wymusił dodatkowe zaimplementowanie odpowiednich mechanizmów w języku opisu źródła.

Kolejny zdiagnozowany problem, który pojawił się na tym etapie, to problem od-powiedniej interpretacji pustych danych. Z jednej strony mamy tutaj dane wadliwie

pobrane²⁵⁶, z drugiej puste zmienne warunkowe²⁵⁷.

W dokumencie Metoda ekstrakcji modeli wyceny składki ubezpieczeniowej ze źródeł internetowych (Stron 130-134)