• Nie Znaleziono Wyników

Statystyczne testy jednorodności

W dokumencie Teoria ryzyka w ubezpieczeniach (Stron 53-61)

Towarzystwo ubezpieczeniowe musi ustalić wysokość składki, którą ma zapła-cić klient. Staramy się przewidzieć, jakiej wysokości szkód można oczekiwać ze strony tego klienta w okresie objętym umową ubezpieczenia, a więc w przy-szłości. Przypuśćmy, że dysponujemy danymi, dotyczącymi jego przeszłych szkód:

x1, . . . , xn.

Rzeczywiste dane są najczęściej wstępnie pogrupowane i łącznie rozpatruje się całą grupę „ jednakowych” umów, ale łatwiej będzie mówić o pojedynczym kliencie. Wielkości xi mogą być wysokościami pojedynczych szkód. Mogą to być sumaryczne wysokości szkód w kolejnych latach lub liczby szkód w po-szczególnych latach. Liczby x1, . . . , xn traktujemy jako realizacje zmiennych losowych X1, . . . , Xn. Innymi słowy, patrzymy na nasze dane jak na wynik pewnego „doświadczenia losowego”. Zgłoszone przez naszego klienta szkody są przecież wynikiem „przypadkowych zdarzeń”. Założymy, że zmienne lo-sowe X1, . . . , Xn są niezależne i mają jednakowy rozkład prawdopodobień-stwa. Oba założenia wydają się rozsądne. Wypadki, które przytrafiają się w kolejnych latach można uznać w przybliżeniu za zdarzenia niezależne. Zało-żenie o jednakowym rozkładzie prawdopodobieństwa mówi tyle, że nasz klient wciąż „zachowuje się podobnie”. Innymi słowy, X1, . . . , Xnjest próbką losową z pewnego rozkładu prawdopodobieństwa Pθ. Zapiszemy to symbolicznie w postaci

X1, . . . , Xni.i.d.Pθ.

Jak zwykle w statystyce matematycznej, rozkład Pθ zależy od nieznanego pa-rametru θ, który trzeba estymować na podstawie danych. Istotne dla naszych dalszych rozważań jest to, że parametr θ może być różny dla poszczególnych klientów lub, przynajmniej, dla pewnych grup kontraktów. W teorii zaufania θ nazywa się zazwyczaj parametrem strukturalnym.

Przypuśćmy, że nasze dane dotyczą p kontraktów ubezpieczeniowych. Roz-patrujemy model p niezależnych próbek:

parametr dane

kontrakt 1 θ1 X11, . . . , X1i, . . . , X1n1 ∼ Pθ1

...

kontrakt j θj Xj1, . . . , Xji, . . . , Xjnj ∼ Pθj

...

kontrakt p θp Xp1, . . . , Xpi, . . . , Xpnp ∼ Pθp

Wskaźnik i może na przykład numerować lata. Zmienna Xji opisuje wtedy szkody dla j-tego kontraktu w i-tym roku. Dane dotyczące j-tego kontraktu obejmują nj lat. Próbki mają na ogół różne liczności.

Hipoteza

H0 : θ1 = · · · = θj = · · · = θp.

stwierdza, że wszystkie próbki pochodzą z tego samego rozkładu. Jeśli ta hipoteza jest prawdziwa to mówimy, że rozpatrywany portfel ryzyk jest jed-norodny. Przyjęcie lub odrzucenie H0 ma poważne konsekwencje.

I skrajne podejście. Przyjmujemy, że portfel jest jednorodny, a więc wszystkie zmienne losowe Xji stanowią jedną próbkę losową z rozkładu Pθ, gdzie θ = θ1 = · · · = θp. Obliczamy

θ – estymator θ na podstawie połączonej próbkiˆ X11, . . . , X1n1, . . . , Xp1, . . . , Xpnp.

Najlepszym, w pewnym sensie, oszacowaniem przyszłych roszczeń jest war-tość oczekiwana względem rozkładu Pθ, czyli µ(θ) = EθX. Ponieważ nie znamy parametru θ, więc zastępujemy go przez nasz estymator ˆθ. W re-zultacie, przewidujemy w przyszłości jednakowe szkody µ(ˆθ) dla każdego z kontraktów. To przewidywanie stanowi podstawę obliczania składki.

II skrajne podejście. Odrzucamy hipotezę o jednorodności. Dla każdego kontraktu oddzielnie obliczamy

θˆj – estymator θj na podstawie próbki Xj1, . . . , Xjnj,

ignorując dane dotyczące innych kontraktów. W tym kontekście mówi się czasem, że ˆθ1, . . . , ˆθp są indywidualnymi estymatorami. Oszacowaniem przy-szłych roszczeń dla j-tego kontraktu jest µ(θj). Składkę dla poszczególnych kontraktów obliczamy niezależnie, na podstawie indywidualnych estymato-rów µ(ˆθ1), . . . , µ(ˆθp).

Oba skrajne podejścia mają poważne wady. Z jednej strony, podejście I i obciążanie wszystkich klientów jednakową składką prowadzi do „negatywnej selekcji ryzyk”. Klienci spodziewający się niższych strat mogą unikać towa-rzystwa stosującego takie podejście i szukać innego ubezpieczyciela. Prze-ciwnie, klienci narażeni na wyższe straty będą chętnie wybierali to właśnie towarzystwo. Z drugiej strony, estymatory indywidualne stosowane przy po-dejściu II mogą być bardzo niedokładne ze względu na szczupłość danych dotyczących każdego kontraktu z osobna. Co więcej, niektórzy aktuariusze wysuwają argumenty natury ideologicznej przeciw podejściu II. Istota dzia-łalności ubezpieczeniowej polega przecież na tym, że wielu ubezpieczających pokrywa wspólnie indywidualne straty, a więc niejako „dzieli się ryzykiem”.

Teoria wiarogodności jest pewnym kompromisem pomiędzy dwiema skrajno-ściami. Zanim przejdziemy do omawiania tej teorii, wspomnijmy o metodach testowania hipotezy o jednorodności.

Hipoteza H0 wyraża w formalny sposób przekonanie, że różnice pomiędzy stratami poniesionymi przez poszczególnych klientów wynikają tylko z przy-czyn losowych. W samej naturze ubezpieczeń leży traktowanie tej hipotezy w uprzywilejowany sposób. Powiedzmy, że przyjmujemy H0 za założenie obowiązujące dotąd, dopóki nie pojawią się dane wyraźnie z tą hipotezą niezgodne. Klasyczna teoria testowania hipotez statystycznych jest w tej sy-tuacji odpowiednim narzędziem. Budujemy test na poziomie istotności α, gdzie odpowiednio mała liczba α precyzuje stopień naszego przywiązania do hipotezy zerowej.

Rozkłady dwumianowe Wyobraźmy sobie p klientów-kierowców. Przy-puśćmy, że j-ty klient ubezpieczał samochód przez nj lat. W każdym roku mógł spowodować wypadek („sukces”) lub nie spowodować („porażka”). Igno-rujemy, dla uproszczenia, możliwość wielokrotnych wypadków w ciągu roku.

Mamy do czynienia z p schematami Bernoulli’ego. Jeśli Xj jest liczbą wy-padków dla j-tego klienta to

X1 ∼ Bin(n1, θ1),

· · ·

Xp ∼ Bin(np, θp).

Hipoteza H0 : θ1 = · · · = θp stwierdza tutaj, że prawdopodobieństwo „suk-cesu” (wypadku) jest równe dla wszystkich klientów. Stosujemy pewną wersję testu niezależności chi-kwadrat.

Test chi-kwadrat. Statystyka testowa ma postać

χ2 =

p

X

j=1

(Xi− njθ)ˆ2 njθ(1 − ˆˆ θ) ,

gdzie ˆθ =P

jXj/P

jnj jest estymatorem prawdopodobieństwa sukcesu ob-liczonym dla połączonej próbki. Jeśli H0 jest prawdziwa (i liczności próbek n1, . . . , np są dostatecznie duże) to ta statystyka ma w przybliżeniu rozkład χ2(p − 1). A więc, test na poziomie istotności α jest taki: odrzucamy H0 jeśli

χ2 > χ21−α(p − 1),

gdzie χ21−α(p − 1) jest kwantylem rzędu 1 − α rozkładu chi-kwadrat z p − 1 stopniami swobody.

4.2.1 PRZYKŁAD. Rozważmy takie fikcyjne dane, dotyczące przebiegu ubez-pieczenia 10 klientów w ciągu 4 lat (gwiazdki oznaczają wypadki):

Klient j/ Rok i 1 2 3 4 razem estymatory

„indywidualne” θj

1 klient * * 2 0.50

2 klient 0 0.00

3 klient * 1 0.25

4 klient 0 0.00

5 klient * 1 0.25

6 klient 0 0.00

7 klient * 1 0.25

8 klient 0 0.00

9 klient * * 2 0.50

10 klient * * * 3 0.75

razem * * * 10

Rzut oka na tę tabelkę wystarcza, by przekonać się, że estymatory indy-widualne są tu nie do przyjęcia. Prowadzą do przewidywania, że klienci numer 2, 4, 6 i 8 nie będą w przyszłości mieli żadnych szkód. Z drugiej strony, ˆθ = 10/40 = 0.25 jest oszacowaniem prawdopodobieństwa wypadku w ciągu roku otrzymanym z połączonej próbki. Przeprowadzimy test hipo-tezy H0 : θ1 = · · · = θ10 na poziomie istotności 0.05. Mamy tu p = 10, n1 = · · · = n10= 4 i njθ = 1. Wartość statystyki testowejˆ

χ2 = 1 0.75

h

(2 − 1)2+ (0 − 1)2 + (0 − 1)2+ (0 − 1)2 + (0 − 1)2+ (2 − 1)2+ (3 − 1)2i

= 13.33

porównujemy z poziomem krytycznym 16.9, odczytanym z tablic χ2(9). Test nie odrzuca H0. Różnice w ilości wypadków dla poszczególnych klientów mieszczą się w granicach losowych fluktuacji, zdarzających się rozsądnie czę-sto w sytuacji gdy klienci są „ jednakowi”. „Rozsądnie częczę-sto” znaczy dla nas:

z prawdopodobieństwem przynajmniej 0.05.

Mimo wszystko, obciążenie naszych 10 klientów jednakową składką nie wy-daje się najszczęśliwszym pomysłem. Warto poszukać „kompromisowych”

rozwiązań, mieszczących się pomiędzy skrajnościami I i II.  Rozkłady normalne. Rozważmy p niezależnych próbek z rozkładów nor-malnych:

próbka 1: X11, . . . , X1n1 ∼ N(θ1, s2);

. . . .

próbka j: Xj1, . . . , Xjnj ∼ N(θj, s2);

. . . .

próbka p: Xp1, . . . , Xpnp ∼ N(θp, s2).

Zwróćmy uwagę na to, że zakładamy równość wariancji wszystkich rozkładów.

Interesująca nas hipoteza H0 : θ1 = · · · = θp stwierdza równość wartości oczekiwanych. Jest to najprostszy model tak zwanej analizy wariancji, w skrócie ANOVA (Analysis of Variance). Indywidualnymi estymatorami są po prostu średnie poszczególnych próbek:

θˆj = ¯Xj = 1

Oczywisty jest też estymator z połączonej próbki:

θ = ¯ˆ X = 1

Skróty mają takie znaczenie: SSB jest sumą kwadratów pomiędzy próbkami (Between), SSW jest sumą kwadratów wewnątrz próbek (Within) i SST jest całowitą sumą kwadratów (Sum of Squares, Total ). „Podstawowa tożsamość analizy wariancji” mówi, że SST = SSB + SSW. Przejrzystym sposóbem przedstawienia „analizy wariancji” jest taka tabelka:

Źródło Sumy Stopnie Średnie Statystyka

zmienności kwadratów swobody kwadraty F

między próbkami SSB p − 1 MSB = SSBp−1 F = MSWMSB wewnątrz próbek SSW n − p MSW = SSWn−p

razem SST n − 1 MST = SSTn−1

W ostatniej kolumnie pojawia się F , statystyka testowa w naszym zagadnie-niu weryfikacji hipotezy o jednorodności. Jasne, że powinniśmy odrzucać H0, jeśli MSB jest duże w porównaniu z MSW.

Test ANOVA. Statystyką testową jest

F = MSB

MSW = SSB/(p − 1) SSW/(n − p).

Przy prawdziwości H0, ta statystyka ma rozkład F Snedecora z p−1 stopniami swobody w liczniku i n − 1 stopniami swobody w mianowniku. Hipotezę H0 odrzucamy, jeśli

F > F1−α(p − 1, n − p),

gdzie F1−α(p − 1, n − p) jest odpowiednim kwantylem tego rozkładu.

4.2.2 PRZYKŁAD. Rozważmy trzech klientów towarzystwa ubezpieczenio-wego. Powiedzmy, że są to firmy wynajmujące samochody. W takiej sytuacji możemy dość spokojnie przyjąć, że sumaryczne (lub średnie) szkody w ko-lejnych latach są są zmiennymi losowymi o rozkładzie zbliżonym do normal-nego. To jest pierwsze z podstawowych założeń modelu ANOVA. Gorzej jest z drugim założeniem: o równości wariancji. Jest ono uzasadnione właściwie tylko wtedy, gdy liczba ubezpieczonych samochodów w dla trzech firm (i dla kolejnych lat) jest w przybliżeniu równa. Nasz przykład ma tylko znacze-nie ilustracyjne, więc przyjmijmy, że tak właśznacze-nie jest. Wyobraźmy sobie, że próbki są takie:

Lata: 1 2 3 4 5 6 7 średnie „indywidualne”

1 firma 25 15 20 30 10 20

2 firma 40 20 25 50 10 35 30

3 firma 5 15 20 20 40 10 30 20

„Średnią globalną” jest ¯X = (5/18) · 20 + (6/18) · 30 + (7/18) · 20 = 23.33.

Oto tabelka analizy wariancji:

Źródło Sumy Stopnie Średnie Statystyka

zmienności kwadratów swobody kwadraty F

między próbkami 400 2 200 1.39

wewnątrz próbek 2150 15 143.3

razem 2550 17

Test na poziomie istotności α = 0.05 nie odrzuca H0, bo odpowiedni kwantyl F0.95(2, 15) = 3.68 > 1.39. Mamy więc pewne podstawy, aby przyjąć skrajne podejście I i potraktować wszystkie trzy firmy jednakowo. Niemniej, poszu-kiwanie kompromisowego rozwiązania także w tym przykładzie wydaje się

sensowne. 

W dokumencie Teoria ryzyka w ubezpieczeniach (Stron 53-61)

Powiązane dokumenty