Założenia wstępne i ograniczenia - Model źródeł internetowych z produktami ubezpieczeniowymi

5 Model źródeł internetowych z produktami ubezpieczeniowymi

5.2 Założenia wstępne i ograniczenia

Przeprowadzanym badaniom prezentowanym w niniejszej pracy oraz opracowy-wanej metodzie towarzyszyły następujące założenia:

 przedmiotem badań są źródła należące do dobrze zdefiniowanego zbioru

źródeł,

 każde z badanych źródeł charakteryzuje się istnieniem związanego z nim

poznawalnego algorytmu – model ubezpieczyciela oraz działanie źródła wiedzy są w pełni deterministyczne,

 zwiększenie liczby danych może prowadzić do dokładniejszego

odtworze-nia modelu,

 istotne informacje dotyczące klienta zasilają model ubezpieczyciela

wy-łącznie w sposób jawny w wyniku kolejnych kroków procesu kalkulacji składki,

 zakresem badań objęte są wyłącznie modele kalkulacji składki

ubezpiecze-nia o określonej budowie i strukturze modelu wyceny,

 występuje powiązanie wyników modelu ubezpieczyciela z rzeczywistym

ryzykiem.

Poniżej odnosimy się do poszczególnych założeń.

Zbiór badanych źródeł

Do badania wybrano zróżnicowany zestaw źródeł spośród rodzajów omówionych w podrozdziale 4.2. Badanie obejmuje wyłącznie polski internet. Co prawda wybrane źródła zagraniczne (witryny pochodzących z określonych krajów lub obszarów

języ-80

kowych) były rozważane jako kandydaci do rozszerzonej wersji badania, jednak

osta-tecznie podjęto decyzję o ograniczeniu zakresu badania178.

Źródła dobrane są w oparciu o szereg wyszczególnionych kryteriów szczegółowo przedstawionych w podrozdziale 4.1. W ramach doboru uwzględniono także czynniki technologiczne z podziałem na typy technik implementacji witryn internetowych pre-zentowanych w podrozdziale 2.1. Dodatkowo dobór uwzględnia bariery oraz ograni-czenia mające wpływ na dostępność oraz skuteczność automatyzacji procesu ekstrak-cji. W tym ostatnim wypadku ocena dopuszczalności ma charakter akceptacji poprzez zastosowanie metody eksperckiej.

Poznawalność algorytmu w źródle

Drugie w kolejności założenie odnosi się bezpośrednio do racjonalności gospodar-czej podmiotów działających na rynku. Instytucje ubezpieczeniowe, tworząc produkt, są zobligowane do wykorzystania w tym celu metod aktuarialnych. Obszerne zesta-wienie stanu wiedzy dotyczącego tychże metod podano w podrozdziałach 3.2.2-3.2.8. Algorytmy oraz inne artefakty składające się na model taryfikacji są dokumentowane

oraz archiwizowane w systemach informacyjnych przedsiębiorstwa [Sternik2009],

co zasadniczo nakłada wymóg nadawania modelom semantycznej postaci.

Spośród wspomnianych metod aktuarialnych obecnie największym znaczeniem cieszą się metody wielowymiarowe opisane w podrozdziale 3.2.7 ze szczególnym uwzględnieniem uogólnionych modeli liniowych. Rezultaty zastosowania tej lub opar-tych na niej metod gwarantują stabilną i deterministyczną postać modelu kalkulacji składki wyrażoną za pomocą formuł matematycznych.

Można rozważać teoretycznie systemy produktowe dostarczające modele wyceny składki aktualizowane w czasie rzeczywistym. W praktyce jednak utrzymanie takiego rozwiązania powodowałoby zapewne znacznie więcej kosztów dla ubezpieczyciela niż korzyści. Taryfy oraz modele z nimi związane są zazwyczaj aktualizowane w określo-nych odstępach czasu (przynajmniej rocznie ze względu na konieczność uwzględnie-nia efektów inflacyjnych).

178 Na powody takiej decyzji składał się fakt ograniczeń czasowych, możliwości technicznych oraz dostatecznie zadowalające rezultaty otrzymane z badania samych źródeł krajowych. Dodatkowo takie ograniczenie pozwoliło precyzyjnie określić granice prowadzonych prac badawczych. W przypadku podjęcia decyzji przeciwnej wyznaczenie takiej granicy byłoby problematyczne.

Zależność dokładności modelu od liczby danych

Zastosowane metody rekonstrukcji modelu wtórnego na podstawie danych pocho-dzących z modelu pierwotnego mają charakter metod ilościowych lub wywodzą się z dziedziny systemów ewoluujących i uczących się (sztuczna inteligencja). W obydwu

przypadkach liczba danych wejściowych przy tworzeniu modelu ma kluczowy¹⁷⁹

wpływ na wyniki w postaci dokładności otrzymanego na wyjściu modelu wtórnego. Metoda regresji, będąca przedstawicielem metod statystycznych wykorzystanych w badaniu, scharakteryzowana została w podrozdziale 2.4.1. Polega ona na szacowa-niu parametrów w modelu o określonym schemacie. Zakłada się, że estymatory tych parametrów są zgodne. W takim przypadku uczynione w badaniu założenie o zależno-ści dokładnozależno-ści modelu należy uznać za zasadne. Zależność, o której mowa, nie jest tak oczywista w przypadku drugiej grupy metod wykorzystujących techniki sztucznej inteligencji. Metody te są omówione w podrozdziale 2.4.2-2.4.3. W ramach wspo-mnianego omówienia tematyki tychże narzędzi odniesiono się także do zagadnienia wielkości próby.

Jawność informacji zasilających źródło

Współczesna technologia komunikacji za pomocą protokołu HTTP(S), czyli wy-miany informacji ze źródłami webowymi, potencjalnie daje szereg możliwości do zbierania dodatkowej informacji o użytkownikach biorących udział w procesie ko-munikowania. Do powszechnych sposobów pozyskiwania informacji nie wprost przez dostawców treści w kanale internetowym zaliczyć można przede wszystkim analizę adresów IP, a w szczególności tzw. geolokalizację. Geolokalizacja jest mechanizmem dającym możliwość poznania – często z dość dużą dokładnością – lokalizacji użyt-kownika na podstawie adresów sieciowych. Wykorzystywanie narzędzi geolokaliza-cyjnych ma powszechny charakter. Starsze wersje przeglądarek dawały możliwość konstrukcji profilu użytkownika w oparciu o dane z historii odwiedzanych witryn czy zapisane w plikach cookies. Tego rodzaju metody zostały jednak uznane za szkodliwe, a praktyki zmierzające do pozyskania informacji bez wiedzy użytkownika stanowią naruszenie prywatności. Stąd nowsze wersje przeglądarek zapobiegają tego rodzaju możliwościom lub też obsługują protokoły komunikacji umożliwiające deklarację

179 Pomijając aspekt jakości.

kresu zbieranych przez serwery danych o użytkowniku. To ostatnie rozwiązanie moż-liwe jest np. przez wykorzystanie standardu P3P¹⁸⁰. W konsekwencji licznych przy-padków naruszeń prywatności przez witryny webowe istotna liczba prawodawstw wprowadziła regulacje dotyczące tego rodzaju działań. Przykładowo w Europie dzia-łania polegające na próbach wykrycia historii przeglądanych witryn lub zbieraniu

in-nych poufin-nych informacji bez wiedzy użytkownika uznawane są za nielegalne181

. Mimo to firmy ubezpieczeniowe mogą mieć możliwość pozyskania pewnych do-datkowych informacji związanych z profilem użytkownika lub nawet szczegółowych danych związanych z klientem. Sytuacja taka może mieć miejsce np. w przypadku kanału bankassurance on-line, gdy potencjalny klient ma już założone konto bankowe, a następnie (zalogowany lub nawet nie – o ile transakcje odbywają się w tej samej domenie) dokonuje zakupu lub tylko dokonuje przeglądu ofert. Innym przypadkiem może być wykorzystanie koincydencji faktów na podstawie posiadanych lub dostar-czonych informacji przez klienta¹⁸².

W przeprowadzonym badaniu zakładamy, że takie przypadki nie mają miejsca, a jeżeli mają, to nie uwzględniamy ich efektów. Powodem, dla którego przyjęte zosta-ło takie zazosta-łożenie, jest niemożliwość stwierdzenia ani wykrycia tego rodzaju ewentu-alnych działań. Ostatecznie należy stwierdzić, że nawet jeżeli są one rzeczywiście sto-sowane, to przypadki ich występowanie mają charakter marginalny.

Właściwa postać i struktura algorytmu w źródle

To założenie oznacza, że algorytm kalkulacji ma postać wzoru matematycznego operującego na znanej liczbie zmiennych (zmiennych taryfikacyjnych). Typ każdej zmiennej taryfikacyjnej należy do zamkniętego zbioru typów zmiennych, które zesta-wione zostały w tabeli 5.

180 ang. The Platform for Privacy Preferences. Dokumentacja znajduje się na stronie:

http://www.w3.org/TR/P3P/, odczytano 30-05-2015 r.

181 Por. dyrektywa 2000/31/WE Parlamentu Europejskiego i Rady z dnia 8 czerwca 2000 r. o handlu elektronicznym.

182 Jeszcze inny aspekt omawianego problemu zauważalny jest w kontekście intensywnego rozwoju Web 2.0, a w szczególności sieci społecznych. Nie od dziś wiadomo, że informacje zamieszczane przez samych użytkowników na temat swój lub osób powiązanych w ramach tzw. profilu użytkownika, na portalach typu Facebook czy Nasza Klasa, mogą prowadzić do sytuacji zagrożenia prywatności. Autorzy tekstu [Abramowicz2011] rozważali już możliwość wyszukiwania danych – aczkolwiek o innym charakterze – w internecie w celu wsparcia niektórych procesów w branży ubezpieczeń. W świetle jednak doniesień

prasowych, http://pej.cz/WIDEO-Alior-Bank-wie-o-swoich-klientach-wszystko-i-z-checia-to-sprzeda-a5618

okazuje się, że wizja ta nie tylko nie jest daleka od spełnienia, ale przyjęła wręcz nieco groteskowy charakter. Odczytano 02-03-2013 r.

Tabela 5. Zakładane typy zmiennych taryfikacyjnych Źródło: opracowanie własne

Typ zmiennej taryfikacyjnej Podtyp Uwagi

Logiczny Dwustanowy Np.: tak, nie; prawda, fałsz.

Trójstanowy Trzeci stan nieustalony.

Liczbowy Dyskretny

Ciągły

Enumeratywny Zamknięty zbiór wartości.

Tekstowy

Czasowy Daty w różnorodnych formatach.

Specjalny Zdefiniowany w ontologii.

Oprócz tego algorytm kalkulacji może operować na zamkniętym zbiorze danych sprowadzalnych do postaci tablicy. Dane takie mogą reprezentować mnożniki, korekty w postaci zwiększeń lub umniejszeń etc.

Powiązanie wyników taryfikacji oraz ryzyka

To założenie oznacza, że oczekiwana jest zgodność modelu pierwotnego ze staty-stykami uzyskanymi przez towarzystwo ubezpieczeniowe w trakcie procesów związa-nych z prowadzeniem biznesu. Oznacza to także, że wraz ze zmianami parametrów ryzyk w czasie odpowiadający temu model będzie także podlegał modyfikacjom. Zgodnie z opisem przedstawionym w podrozdziale 3.1.2 oraz 3.2.2, model taryfikacji produktu ubezpieczeniowego odpowiada faktycznym parametrom ryzyk związanych z tymże produktem. Niemniej istnieje szereg czynników, wymienianych m.in. w pod-rozdziale 3.2.6, które zaburzają rzeczywisty obraz ryzyk reprezentowanych przez mo-del.

Weryfikacja prawdziwości założenia w przeprowadzonym badaniu może częścio-wo odbyć się przez analizę wiedzy zewnętrznej w stosunku do modelu, pochodzącej z innych źródeł danych dotyczących przedmiotu ubezpieczenia lub konkurencyjnych modeli¹⁸³.

183 Część wyników zaprezentowanych w rozdziale 7 pośrednio potwierdza słuszność tego założenia. Chodzi przede wszystkim o fakt poprawy wyników modeli wzbogaconych o dane zewnętrzne, tak jak to tutaj zaproponowano.

W dokumencie Metoda ekstrakcji modeli wyceny składki ubezpieczeniowej ze źródeł internetowych (Stron 79-84)