Joanna Jarosz-Nowak (Wrocław)
Modele oceny stopnia zgody pomiędzy dwoma ekspertami z wykorzystaniem współczynników kappa
Streszczenie. Praca dotyczy modeli oszacowania stopnia zgody pomiędzy dwoma eks- pertami oceniającymi te same obiekty. Rozważamy konstrukcję miar służących oszaco- waniu poziomu zgodności oraz konteksty interpretacyjne otrzymanych wyników. W pracy rozpatrujemy również powiązania pomiędzy współczynnikami zdefiniowanymi w modelach o dwóch i więcej dopuszczalnych kategorii ocen.
Analiza poziomu zgody prowadzi do ilościowego ujęcia z wykorzystaniem współczyn- ników kappa Cohena oraz Scotta. Pokażemy, że te heurystyczne propozycje w odpowiednio zdefiniowanych modelach dychotomicznych pokrywają się z estymatorami największej wia- rogodności. Równocześnie wykażemy, że rozwinięcie metod dla modeli z większą niż dwa liczbą kategorii możliwe jest poprzez ważone uśrednienie współczynników kappa określo- nych w modelach binarnych wyznaczonych dla każdej kategorii oddzielnie.
Słowa kluczowe: zgodność, współczynnik kappa Cohena, współczynnik kappa Scotta.
1. Wprowadzenie. Zarówno w życiu codziennym, jak i w badaniach naukowych spotykamy sytuacje, w których dana osoba lub przedmiot pod- dane są ocenie kilku ekspertów.Grupą osób oceniających może być jury konkursowe, komisja egzaminacyjna, konsylium lekarzy itp.Niejednokrot- nie, wystawione przez poszczególnych ekspertów oceny są w znacznym stop- niu subiektywne i mogą się między sobą różnić.Interesuje nas jak bardzo te oceny są do siebie zbliżone, czyli jaki jest stopień zgody pomiędzy eksper- tami.Oszacowanie poziomu zgodności oceniających pozwala określić regu- larność uzyskiwanych klasyfikacji.Oceniającym może być osoba (np.członek jury, egzaminator, lekarz wystawiający diagnozę itp.) jak również metoda lub narzędzie klasyfikujące (np.test diagnostyczny, laboratorium pomia- rowe).
W pracy opiszemy modele i metody statystyki matematycznej służące określeniu stopnia zgody w przypadku klasyfikacji przez dwóch oceniają- cych.Przyjmujemy, że skala pomiarowa, przy pomocy której dokonuje się oceny obiektu, jest skategoryzowana, tzn.interesujące obserwatora zdarze- nia ujęte są w kategorie.
2000 Mathematics Subject Classification. Primary: 62P10; Secondary: 62H17.
[126]
Początkowo do oceny stopnia zgody używano statystyki testowej χ
2lub współczynnika zgody obserwowanej P
oestymowanego jako frakcja obiektów o tych samych ocenach.Jednakże, otrzymywane rezultaty nie były satysfak- cjonujące.Test χ
2określa siłę związku pomiędzy ocenami, ale niekoniecznie jest to związek polegający na przypisaniu obserwacji do tej samej kategorii.
Natomiast liczba przypadków, co do których oceniający zgodzili się w swo- jej ocenie, może być zawyżona o obserwacje, dla których eksperci wystawili oceny losowo i przypadkowo dali takie same.Fakt ten był powodem zapropo- nowania przez Scotta [21] oraz Cohena [5] metod poprawionych o zgodność przypadkową P
cokreślanych mianem współczynników typu kappa:
κ = P
o− P
c1 − P
c.
Główna różnica pomiędzy tymi metodami polega na sposobie estymacji war- tości prawdopodobieństwa P
cwystawienia tych samych ocen przypadkowo.
Scott zakłada, że osoby oceniające nie umiejąc wystawić noty podają ocenę losową – obie z takim samym prawdopodobieństwem.Cohen argumentuje, że miara zgodności powinna uwzględniać pojedyncze preferencje każdego eksperta z osobna.
W pracy opiszemy modele matematyczne i metody estymacji w tych modelach, prowadzące do estymatorów identycznych z heurystycznie za- proponowanymi współczynnikami typu kappa.Okazuje się, że intuicyjne propozycje w przypadku modelu binarnego pokrywają się z estymatorami największej wiarogodności w odpowiednio zdefiniowanych modelach teore- tycznych [1].W pracy wykażemy hierarchiczne zależności pomiędzy mode- lami binarnymi a modelami skonstruowanymi dla danych politomicznych.
Podamy analityczne uzasadnienie faktu, iż współczynniki kappa oraz odpo- wiadające im estymatory w modelach z wieloma kategoriami są średnimi ważonymi z wagami typu (1 − P
c) współczynników uzyskanych dla modeli binarnych skonstruowanych dla każdej kategorii oddzielnie.Taka reprezen- tacja możliwa jest dla obu typów współczynników kappa.
Zaprezentujemy również własności uzyskanych estymatorów, w szczegól- ności ich zależność od rozkładów brzegowych i rozpowszechnienia badanej cechy.Opiszemy problemy interpretacyjne [17, 7, 3, 14] oraz obliczeniowe dla tychże estymatorów.Okazuje się, że wykorzystanie standardowych metod zaimplementowanych w pakietach statystycznych nie gwarantuje popraw- nych obliczeń [10, 6, 18].W szczególnych przypadkach wyliczone wielkości mogą nie być poprawne, tj.współczynnik zgody nie zostaje obliczony lub jego wartość jest wyliczona błędnie.
2. Notacja. Przez N będziemy określać łączną liczbę obiektów pod-
danych ocenie.Indeks i, gdzie i = 1, . . . , N, odpowiada i-temu obiektowi.
Przez R oznaczymy ogólną liczbę oceniających, czyli liczbę wykonanych po- miarów.Przy opisywanej klasyfikacji podwójnej przyjmujemy, że R = 2.
Liczbę dopuszczalnych kategorii, do których można zaklasyfikować obiekt w trakcie pomiaru będziemy oznaczać przez C.Indeksy l oraz k będą ozna- czać ustaloną kategorię (l, k ∈ {1, . . . , C}). Opisana w pracy klasyfikacja jest rozłączna, czyli wyborem oceniającego jest zawsze tylko jedna z dostępnych kategorii.
2.1. Sposoby prezentacji zgromadzonych danych. W literaturze przedmiotu szczególną uwagę, ze względu na szerokie zastosowania, poświęca się przypadkowi klasyfikacji binarnej dwóch ekspertów (C = 2; R = 2). Po- lega ona na przypisaniu ocenianemu obiektowi noty 0 (w przypadku gdy, obiekt nie wykazuje cech typowych dla grupy, nie należy do grupy) lub 1 (w przypadku gdy: obiekt posiada daną cechę, należy do grupy, wykazuje cechy typowe dla osobników z danej grupy).Ogólniejsze rozważania prze- prowadza się dla C > 2. Dla takich eksperymentów dane można zgromadzić w postaci Tabeli 1, gdzie n
lkoznacza liczbę obiektów zaklasyfikowanych przez eksperta pierwszego (ozn. A) do kategorii l, a przez eksperta drugiego (B) do kategorii k (l, k = 1, 2).
Oceniający B
Kategoria 1 2 . . . k . . . C Ogółem 1 n
11n
12. . . n
1k. . . n
1Cn
1+2 n
21n
22. . . n
2k. . . n
2Cn
2+Oceniajacy .. . .. . .. . . .. .. . . .. .. . .. . A l n
l1n
l2.. . n
lk.. . n
lCn
l+.. . .. . .. . . .. .. . . .. .. . .. . C n
C1n
C2. . . n
Ck. . . n
CCn
C+Ogółem n
+1n
+2. . . n
+k. . . n
+CN Tablica 1. Format danych w przypadku dwóch oceniających
z wykorzystaniem skali o wielu kategoriach.
Przez n
l+oznaczać będziemy liczebności brzegowe, czyli liczbę obiektów przypisanych do kategorii l-tej przez oceniającego A, a n
+koznacza ogólną liczbę obiektów zaklasyfikowanych w trakcie eksperymentu do kategorii k-tej przez oceniającego B.
n
l+=
C k=1n
lkn
+k=
C l=1n
lkInnym sposobem zapisu danych jest format zaprezentowany w Tabeli 2.
Kategoria
Obiekt 1 2 . . . C Razem
1 n
11n
12. . . n
1CR 2 n
21n
22. . . n
2CR .. . .. . .. . . . . .. . .. . N n
N 1n
N 2. . . n
N CR
Tablica 2. Format danych w przypadku więcej niż dwóch oceniających z częściową utratą informacji.
W tym przypadku n
iljest liczbą oceniających, którzy zaklasyfikowali obiekt i-ty do l-tej kategorii, a n
+ljest liczbą obiektów przypisanych przez eksper- tów do kategorii l-tej:
n
+l=
N i=1n
il.
Format ten może być wykorzystywany również w badanich z większą liczbą oceniających R > 2. Tak zgromadzone dane posiadają ograniczoną informację, ponieważ nie można na ich podstawie określić, który oceniający przypisał i-ty obiekt do l-tej kategorii, a tylko ile takich przypisań było w trakcie eksperymentu.
Format danych nie posiadający cech utraty informacji prezentuje Ta- bela 3, gdzie X
ijjest oceną wystawioną przez j-tego eksperta i-temu obiek- towi (i = 1, . . . , N ; j = 1, . . . , R).
Oceniający
Obiekt 1 2 . . . R
1 X
11X
12. . . X
1R2 X
21X
22. . . X
2R.. . .. . .. . . . . .. . N X
N 1X
N 2. . . X
N RTablica 3. Ogólny format danych.
Dane zgromadzone w Tabeli 3 można przekodować za pomocą ślepych zmiennych (ang. dummy variables) wprowadzając dychotomizację.Przy ta- kim kodowaniu tworzymy C tabel typu Tabeli 3, gdzie każda z nich od- powiada jednej kategorii.Elementy tabel X
ijl(i = 1, . . . , N ; j = 1, . . . , R;
l = 1, . . . , C) przyjmują wartości 0 lub 1. Wszystkie C tabel tworzy razem
tablicę trójwymiarową o elementach zero-jedynkowych.Przykładową tablicę
danych dla l-tej kategorii przedstawia Tabela 4.
Oceniający
Obiekt 1 2 . . . R
1 X
11lX
12l. . . X
1Rl2 X
21lX
22l. . . X
2Rl.. . .. . .. . . . . .. . N X
N 1lX
N 2l. . . X
N RlTablica 4. Ogólny format danych dla l-tej kategorii w postaci kodowania ślepego.
3. Współczynnik kappa Scotta κ
S. Pierwszą pracą, w której uj- muje się korektę o przypadkową zgodność w sposób zależny od próby, jest praca Scotta z roku 1955 [21].Autor argumentuje, że miara oceny stopnia zgody powinna uwzględniać relatywną liczbę kategorii (tj.liczbę wykorzy- stanych/użytych kategorii) oraz sposób ich wykorzystania.
Jego propozycją jest współczynnik κ
Sdany wzorem:
κ
S= P
o− P
c1 − P
c,
gdzie P
ojest obserwowaną zgodnością, a P
cokreśla stopień przypadkowej zgodności.Wielkość P
oestymowana jest następująco
(3.1) P ˆ
o= 1
N
C l=1n
ll,
gdzie n
llsa elementami na przekątnej Tabeli 1.Natomiast wielkość P
cesty- mowana jest przez
(3.2) P ˆ
c=
C l=1ˆ p
2l, gdzie
(3.3) p ˆ
l= 1
2
n
+lN + n
l+N
.
Dla ustalonego l wyrażenie ˆ p
lmoże być interpretowane jako uśredniona
tendencja przypisania obiektu do l-tej kategorii (l = 1, . . . , C).Przyjmując,
że oszacowaniem preferencji pierwszego oceniającego jest frakcja
nNl+, a dru-
giego
nN+l, można wyliczyć uśrednioną tendecję ekspertów jako średnią aryt-
metyczną tych frakcji zgodnie z wzorem (3.3). Przyjęcie zamiast uśrednionej
tendencji, iloczynu empirycznych rozkładów brzegowych
nNl+ nN+l, prowadzi
do propozycji Cohena opisanej w dalszej części pracy w rozdziale 4.
3.1. Model binarny. Model matematyczny pozwalający oszacować sto- pień zgody współczynnikiem Scotta w najprostszym przypadku dwóch ka- tegorii można zapisać w następujący sposób.Każdy z dwóch oceniających klasyfikuje N obiektów niezależnie od siebie do dwóch rozłącznych kategorii.
Bez straty ogólności przyjmijmy, że określamy przynależność do danej grupy, posiadanie badanej cechy przez 1 a jej brak przez 0.W celu zde- finiowania modelu matematycznego oznaczymy ocenę j-tego oceniającego wystawioną i-temu obiektowi przez X
ij, gdzie i = 1, . . . , N oraz j = 1, 2.
Plan eksperymentu w tym przypadku odpowiada formatowi danych okre- ślonemu Tabelą 1 przy C = 2.
Ponadto zakładamy, że zmienna losowa X
ijma rozkład dwupunktowy z parametrem p (X
ij∼ B(1, p), i = 1, . . . , N, j = 1, 2)
Pr {X
ij= 1 } = p,
Pr {X
ij= 0 } = q,
gdzie q = 1 − p. Takie założenia oznaczają, że preferencje (tj.prawdopodo- bieństwa przypisania obiektowi danej cechy) oceniających przyjmujemy za jednakowo równe p.Niech oznacza korelację pomiędzy parą ocen.Zakła- damy, że jest ona taka sama dla ocen każdego obiektu, tj.Corr(X
i1, X
i2) = , i = 1, . . . , N .
Stwierdzenie 1. Dla ustalonego i (i = 1, . . . , N) rozkład łączny zmien- nych losowych X
i1i X
i2w powyższym modelu dany jest następująco:
Pr {X
i1= 1, X
i2= 1 } = p
2+ pq, (3.4)
Pr {X
i1= 0, X
i2= 0 } = q
2+ pq, (3.5)
Pr {X
i1= 0, X
i2= 1 } = Pr{X
i1= 1, X
i2= 0 } = pq(1 − ).
(3.6)
Dow´ od. Ponieważ Corr(X
i1, X
i2) = Cov(X
i1, X
i2)/
Var(X
i1) Var(X
i2),
to mamy
E(X
i1X
i2) = Corr(X
i1, X
i2) Var(X
i1)+
E(X
i1)
2= pq + p
2. Z dru-
giej strony
E(X
i1X
i2) = Pr {X
i1X
i2= 1 } = Pr{X
i1= 1, X
i2= 1 }. Stąd
otrzymujemy, że Pr {X
i1= 1, X
i2= 1 } = p
2+ pq. Przez symetrię można
wykazać, że Pr{X
i1= 0, X
i2= 0} = q
2+pq.Wobec tego Pr{X
i1= 0, X
i2=
1 lub X
i1= 1, X
i2= 0 } = 1− (p
2+ pq + q
2+ pq) = 2pq(1 − ). Z rozkładu
brzegowego otrzymujemy Pr {X
i1= 1, X
i2= 0 } = Pr{X
i1= 1 } − Pr{X
i1=
1, X
i2= 1 } co daje, że Pr{X
i1= 1, X
i2= 0 } = pq(1 − ).Analogicznie
rozumując otrzymujemy, że Pr {X
i1= 0, X
i2= 1 } = pq(1 − ).
Oznaczmy przez P
oprawdopodobieństwo, że oceniający zgodzą się w swojej ocenie, czyli:
P
o= Pr {X
i1= X
i2}.
Przez P
coznaczmy prawdopodobieństwo, że oceniający dadzą te same oceny mimo, że nie są one skorelowane.Może się tak zdarzyć w przypadku, gdy oceny ekspertów były wystawiane losowo, bez szablonów postępowania i mi- mo to są identyczne.
Definicja 1.W modelu binarnym wartość P
odefiniujemy następująco:
(3.7) P
o= Pr{X
i1= 1, X
i2= 1} + Pr{X
i1= 0, X
i2= 0}.
Prawdopodobieństwo zgody przez przypadek P
cwyliczmy przyjmując, że oceny ekspertów są nieskorelowane ze sobą co oznacza jednocześnie, że P
cjest sumą iloczynów odpowiednich prawdopodobieństw rozkładów brzego- wych.
W opisywanym modelu mamy
P
o= Pr {X
i1= X
i2= 1 } + Pr{X
i1= X
i2= 0 } (3.8)
= p
2+ q
2+ 2pq = 1 − 2pq(1 − )
oraz po podstawieniu = 0 do powyższego wzoru (3.8) otrzymujemy (3.9) P
c= 1 − 2pq = p
2+ q
2.
Twierdzenie 2. Wrozważanym modelu współczynnik zgodności typu kappa jest równy korelacji .
Dow´ od. Przy P
oi P
czdefiniowanych powyżej mamy:
κ
S= P
o− P
c1 − P
c= 1 − 2pq(1 − ) − (1 − 2pq) 1 − (1 − 2pq) = .
3.2. Estymacja w modelu binarnym. Załóżmy, że dla próby N obiek- tów, obserwujemy liczebności par ocen każdego typu.Dane takie zgroma- dzimy w Tabeli 5 (uzyskanej z Tabeli 1 dla C = 2).
Oceniający 2-gi
Kategoria 1 0 Ogółem
Oceniający 1 n
11n
12n
1+1-szy 0 n
21n
22n
2+Ogółem n
+1n
+2N
Tablica 5. Format danych w przypadku dwóch oceniających
z wykorzystaniem skali o dwóch kategoriach.
Estymator współczynika kappa Scotta κ
Smożna wyznaczyć metodą naj- większej wiarogodności [1].Dla rozważanego modelu funkcja wiarogodności jest postaci
L(p, |n
11, n
22, n
12, n
21)
= (p
2+ pq)
n11(q
2+ pq)
n22(pq(1 − ))
n12(pq(1 − ))
n21, gdzie q = 1 − p.
Wobec tego (3.10) ∂ ln L
∂ = n
11pq
p
2+ pq + n
22pq
q
2+ pq − (n
12+ n
21) 1 1 − oraz
∂ ln L
∂p = n
11(2p(1 − ) + ) p
2+ pq
(3.11)
+ (n
12+ n
21)(1 − 2p)
pq − n
22(2q(1 − ) + ) q
2+ pq .
Przyrównując (3.10) oraz (3.11) do zera otrzymujemy następujące estyma- tory:
(3.12) κ ˆ
S= ˆ = 4n
11n
22− (n
12+ n
21)
2(2n
11+ n
21+ n
12)(2n
22+ n
21+ n
12) oraz
(3.13) p = ˆ 1 2
n
11+ n
12N + n
11+ n
21N
= 2n
11+ n
12+ n
212N .
Stąd
ˆ
q = 1 − ˆp = 2n
22+ n
12+ n
212N ,
oraz
P ˆ
o= 1 − 2ˆp(1 − ˆp)(1 − ˆ) = n
11N + n
22N , P ˆ
c= ˆ p
2+ (1 − ˆp)
2=
2n
11+ n
21+ n
122N
2+
2n
22+ n
21+ n
122N
2co jest zgodne z wzorami (3.1) oraz (3.2) dla C = 2.
Zauważmy, że oba estymatory ˆ p oraz ˆ κ
Szależą w rzeczywistości od trzech liczebności n
11, n
22oraz sumy (n
12+ n
21).
Uwaga 3.Należy zwrócić uwagę na dwa szczególne przypadki, gdy p = 0 lub p = 1. Dla p = 0 rozkład łączny zmiennych losowych X
i1i X
i2dany jest następująco:
Pr{X
i1= X
i2= 1} = Pr{X
i1= 0, X
i2= 1} = Pr{X
i1= 1, X
i2= 0} = 0,
Pr {X
i1= 0, X
i2= 0 } = 1.
Natomiast, dla p = 1 mamy
Pr {X
i1= X
i2= 0 } = Pr{X
i1= 0, X
i2= 1 } = Pr{X
i1= 1, X
i2= 0 } = 0, Pr{X
i1= 1, X
i2= 1} = 1.
Oznacza to, że trzy spośród obserwowanych liczebności wynoszą zero n
12, n
21oraz n
11lub n
22. W takich deterministycznych przypadkach, gdy obaj oceniający zgodzili się całkowicie, ale przypisali wszystkie obiekty do jednej kategorii estymator dany wzorem (3.12) nie jest dobrze określony. W za- leżności od intencji badaczy, albo można dookreślić model przyjmując, że ˆ
κ
S= 1, albo (jeśli mocniejsze są przesłanki, że dając wszystkim tę samą notę oceniający nie potrafią rozróżnić obiektów) nie podawać oszacowania stopnia zgody.
3.3. Model dla więcej niż dwóch kategorii. Rozważany do tej pory model określony był dla dwóch kategorii C = 2. Jednak swoją propozycję miary zgodności Scott wysunął dla dowolnej liczby C ≥ 2. Wykażemy, że ten ogólniejszy estymator można skonstruować w oparciu o wartości współczyn- ników kappa uzyskanych dla każdej z kategorii osobno bazując na zasadzie podstawiania.Okazuje się, że współczynnik kappa jest średnią ważoną bi- narnych współczynników kappa.Poprzez wstępną agregację obserwacji roz- ważania prowadzi się na poziomie przynależności lub nie do danej kategorii (bez względu na to jakie inne noty uzyskała dana obserwacja).
Niech X
ij(określająca ocenę i-tego obiektu wystawioną przez j-tego eksperta) będzie teraz zmienną losową z rozkładu wielomianowego z para- metrami (p
1, . . . , p
C),
Cl=1
p
l= 1. Przykładowo zmienna X
ijprzyjmuje wartości 1, . . . , C z prawdopodobieństwami p
1, . . . , p
C, odpowiednio.
Określmy na jej podstawie binarną ocenę przynależności X
ijli-tego obiektu do kategorii l wystawioną przez j-tego oceniającego (i = 1, . . . , N ; j = 1, 2; l = 1, . . . , C).Dla każdej kategorii l definiujemy:
X
ijl=
1 gdy X
ij= l, 0 gdy X
ij= l.
W następnym kroku dla każdej kategorii z osobna można zastosować model binarny opisany w poprzednich rozdziałach 3.1 oraz 3.2. Dla usta- lonego l zmienna losowa X
ijlma rozkład dwupunktowy z parametrem p
l(X
ijl∼ B(1, p
l), i = 1, . . . , N ; j = 1, 2)
Pr {X
ijl= 1 } = p
l, Pr{X
ijl= 0} = q
l, gdzie q
l= 1 − p
l=
Ck=1k=l
p
k.
Przeprowadzając analogiczne rozumowanie jak w dowodzie Stwierdze-
nia 1 wyznaczymy rozkład łączny zmiennych losowych X
i1li X
i2l.
Fakt 4. Dla ustalonego i oraz l (i = 1, . . . , N; l = 1, . . . , C), przy założe- niu, że Corr(X
i1l, X
i2l) =
lrozkład łączny zmiennych losowych X
i1li X
i2ldany jest następująco:
Pr{X
i1l= 1, X
i2l= 1} = p
2l+ p
lq
ll, (3.14)
Pr {X
i1l= 0, X
i2l= 0 } = q
l2+ p
lq
ll, Pr{X
i1l= 0, X
i2l= 1} = Pr{X
i1l= 1, X
i2l= 0} = p
lq
l(1 −
l).
Oznaczmy przez P
o,lprawdopodobieństwo, że oceniający zgodzą się w swojej ocenie w modelu binarnym, a przez P
c,lprawdopodobieństwo zgody losowej.W tym przypadku
P
o,l= Pr {X
i1l= X
i2l= 1 } + Pr{X
i1l= X
i2l= 0 }
= p
2l+ (1 − p
l)
2+ 2p
l(1 − p
l)
loraz
P
c,l= p
2l+ (1 − p
l)
2.
Z Twierdzenia 2 wiadomo, że dla ustalonej kategorii współczynnik kappa Scotta wynosi:
κ
lS= P
o,l− P
c,l1 − P
c,l=
l.
Definicja 2.Prawdopodobieństwo zgody P
ow modelu z wieloma kate- goriami definiujemy w następujący sposób:
P
o=
C l=1Pr {X
i1= X
i2= l } =
C l=1Pr {X
i1l= X
i2l= 1 }.
Wobec równości (3.14) w rozważanym modelu P
o=
C l=1(p
2l+ p
l(1 − p
l)
l)
natomiast prawdopodobieństwo zgody przez przypadek wynosi P
c=
C l=1p
2l.
Definicja 3.Współczynnik kappa Scotta w modelu z wieloma katego- riami (uwzględniając powyższe równości) definiujemy standardowo
(3.15) κ
S df= P
o− P
c1 − P
c=
Cl=1
p
l(1 − p
l)
l Cl=1
p
l(1 − p
l)
uzyskując zależność od wszystkich binarnych współczynników κ
lS=
l.
Lemat 5. Licznik i mianownik wyrażenia (3.15) można wyrazić w ter- minach P
o,loraz P
c,lnastępująco:
C l=1 lp
l(1 − p
l) = 1 2
C l=1(P
o,l− P
c,l),
C l=1p
l(1 − p
l) = 1 2
C l=1(1 − P
c,l).
Dow´ od. Przypomnijmy, że dla modelu bianarnego P
o,l= 1 − 2p
l(1 − p
l)(1 −
l) oraz P
c,l= 1 −2p
l(1 −p
l).W związku z tym p
l(1 −p
l) =
12(1 −P
c,l).
Ponadto P
o,l− P
c,l= 2p
l(1 − p
l)
l, więc
12(P
o,l− P
c,l) =
lp
l(1 − p
l). Stwierdzenie 6. Współczynnik κ
Sw terminach P
o,l, P
c,loraz
lma postać:
κ
S=
Cl=1
p
l(1 − p
l)
l Cl=1
p
l(1 − p
l)
=
Cl=1
(P
o,l− P
c,l)
Cl=1
(1 − P
c,l) (3.16)
=
Cl=1
P
o,l−
Cl=1
P
c,lC −
Cl=1
P
c,l=
Cl=1
(1 − P
c,l)
l Cl=1
(1 − P
c,l) . (3.17)
Dow´ od. Na mocy Lematu 5 i definicji współczynnika κ
Sdanej wzorem (3.15) otrzymujemy równość (3.16). Mnożąc i dzieląc składniki sumy wy- stępującej w liczniku wyrażenia (3.16) przez (1 − P
c,l) otrzymujemy rów-
ność (3.17).
Fakt 7. Współczynnik κ
Sjest średnią ważoną współczynników κ
lS=
lz wagami wynoszącymi w
l= p
l(1 − p
l) =
12(1 − P
c,l).
W dalszej części pracy podamy analityczne uzasadnienie, iż bazując na estymatorach dla modeli binarnych można uzyskać estymator współczyn- nika κ
Szaproponowany oryginalnie przez Scotta, dla którego ˆ P
cdane jest wzorem (3.2), a ˆ P
ostandardowo wzorem (3.1).
3.3.1. Estymacja zgody obserwowanej P
o,lw modelu binarnym wyznaczo-
nym dla ustalonej kategorii l. Przypomnijmy, że w badaniach obserwujemy
dane zgromadzone w Tabeli 1.Dwaj oceniający zgodzili się w swoich no-
tach przypisując obiekt do ustalonej kategorii l dla n
llobiektów poddanych
ocenie.Kluczowym w rozumowaniu jest następujący fakt.Dla ustalonej ka- tegorii l liczba obiektów, co do których obaj oceniający zgodzili się, że obiekt nie przynależy do kategorii l, jest sumą wszystkich par ocen różnych jedno- cześnie od l, tj. X
i1l= l oraz X
i2l= l.
Zilustrujmy tę zależność na podstawie Tabeli 6, która może służyć gro- madzeniu danych w eksperymencie z C = 3.
Oceniający B
Kategoria 1 2 3 Ogółem
1 n
11n
12n
13n
1+Oceniający 2 n
21n
22n
23n
2+A 3 n
31n
32n
33n
3+Ogółem n
+1n
+2n
+3N
Tablica 6. Tablica kontyngencji dla skali o trzech kategoriach.
Przykładowo ustalmy l = 1. Dla tej kategorii tabela binarna wygenero- wana na podstawie Tabeli 6 będzie mieć postać Tabeli 7.
Oceniający B
Kategoria 1 2+3 Ogółem
Oceniający 1 n
11n
12+ n
13n
1+A 2+3 n
21+ n
31n
22+ n
23+ n
33+ n
32n
(23)+Ogółem n
+1n
+(23)N
Tablica 7. Tablica kontyngencji modelu binarnego dla l = 1 w badaniu z pierwotną klasyfikacją do trzech kategorii.
Dla kategorii l = 1 liczba zgód „pozytywnych” wynosi n
11, a zgód „ne- gatywnych” n
22+ n
23+ n
33+ n
32.
Ogólnie
P ˆ
o,l= n
llN + N − (n
l++ n
+l) + n
llN .
W dalszej części pracy opiszemy zależności pomiędzy estymatorami prawdopodobieństw zgody P
o,li P
ooraz estymatorami prawdopodobieństw zgody przypadkowej P
c,li P
c.
Lemat 8. Zachodzi związek
C l=1P ˆ
o,l= 2 ˆ P
o+ C − 2,
gdzie ˆ P
odane jest wzorem (3.1 ).
Dow´ od.
C l=1P ˆ
o,l=
C l=1(N − (n
l++ n
+l) + 2n
ll)/N
= (CN − 2N + 2
C l=1n
ll)/N = C − 2 + 2 ˆ P
o.
Lemat 9. Zachodzi związek
C l=1P ˆ
c,l= 2 ˆ P
c+ C − 2,
gdzie ˆ P
cdane jest wzorem (3.2 ).
Dow´ od.
C l=1P ˆ
c,l=
C l=1n
l++ n
+l2N
2+
N − n
l++ N − n
+l2N
2=
C l=12
n
l++ n
+l2N
2+ 1 − 2 n
l++ n
+l2N
(3.2)
= 2 ˆ P
c+ C − 2
Cl=1
n
l++ n
+l2N = 2 ˆ P
c+ C − 2.
Twierdzenie 10. Bazując na uzyskanych w modelach binarnych estyma- torach P ˆ
o,loraz P ˆ
c,lestymator współczynnika kappa dla modelu z wieloma kategoriami wynosi
ˆ κ
S=
Cl=1
P ˆ
o,l−
Cl=1
P ˆ
c,lC −
Cl=1
P ˆ
c,l= P ˆ
o− ˆ P
c1 − ˆ P
c,
gdzie ˆ P
ooraz ˆ P
czostały zaproponowane przez Scotta wzorami (3.1 ) i (3.2 ).
Dow´ od. Na mocy Lematów 8 i 9 otrzymujemy ˆ
κ
S=
Cl=1
P ˆ
o,l−
Cl=1
P ˆ
c,lC −
Cl=1
P ˆ
c,l= C − 2 + 2 ˆ P
o− (C − 2 + 2 ˆ P
c)
C − (C − 2) − 2 ˆ P
c= P ˆ
o− ˆ P
c1 − ˆ P
c.
3.4. Wariancja estymatora, wartość maksymalna i minimalna.
Wykorzystując metodę zaproponowaną przez Fishera, Bloch i Kraemer [1]
przybliżyli wariancję asympotyczną estymatora współczynnika Scotta dla
C = 2 następująco:
(3.18) Var(ˆ κ
S) = 1 − κ
SN
(1 − κ
S)(1 − 2κ
S) + κ
S(2 − κ
S) 2pq
. Metoda ta bazuje na rozwinięciu w szereg Taylora.Niech T (n
1, n
2, . . . , n
g) będzie funkcją zaobserwowanych częstości n
1, n
2, . . . , n
gdla próby o n ele- mentach pochodzącej z rozkładu g-mianowego z prawdopodobieństwami e
1, e
2, . . . , e
g(
n
h= n,
e
h= 1). Wtedy asymptotycznie mamy 1
n Var(T ) =
g h=1e
h∂T
∂n
h 2−
∂T
∂n
2,
biorąc pochodne w punktach n
h= e
hn. Dla współczynnika kappa Scotta funkcja T (n
1, n
2, n
3, n
4) = ˆ κ
S(n
11, n
12, n
21, n
22) dana wzorem (3.12), po- chodna
∂T∂n= 0 a prawdopodobieństwa e
hokreślamy jak w modelu wzorami (3.4)–(3.6).
Maksymalną wielkością osiąganą przez estymator (przy pełnej zgodno- ści) jest wartość 1, a minimalną −1.
4. Współczynnik kappa Cohena κ
C. W nurcie rozważań na te- mat oceny stopnia zgody dwóch oceniających pozostaje propozycja Cohena z roku 1960 [5], w której autor krytykuje wcześniejsze podejście argumentu- jąc, iż dla oceniających nie można przyjąć, że mają takie same preferencje.
Uznaje, że tendencje wyboru przypisania obiektu do badanej klasy należy określać osobno dla każdego z ekspertów i dopiero na tej podstawie wyliczać wielkość P
codpowiadającą szansie zgodności przez przypadek.Propozycja Cohena oparta ponownie na intuicyjnej idei wyraża się wzorem:
κ
C= P
o− P
c1 − P
c,
gdzie P
oestymowane jest standardowo zgodnie ze wzorem (3.1), natomiast P
ctym razem przybliżamy następująco:
(4.19) P ˆ
c=
C l=1n
l+N n
+lN
.
Wielkości
nNl+oraz
nN+lwystępujące w powyższym wyrażeniu interpre- tujemy jako preferencje przypisania ocenianego obiektu do kategorii l-tej przez każdego z ekspertów.We wcześniej podanej formule (3.2) preferencje obu oceniających były przyjęte jako jednakowe i wyestymowane jako średnia z pojedynczych preferencji.
W tym rozdziale opiszemy teoretyczny model matematyczny, dla którego
uzyskane estymatory pokrywają się z heurystyczną propozycją Cohena.
4.1. Model binarny. W rozdziale 3 rozważaliśmy przypadek, gdy obaj oceniający z tym samym prawdopodobieństwem klasyfikują obiekty.Zakła- damy teraz, że te prawdopodobieństwa są różne.
Dla ustalonych i oraz j (i = 1, . . . , N ; j = 1, 2) mamy Pr {X
ij= 1 } = p
j,
Pr {X
ij= 0 } = q
j= 1 − p
j.
Przez oznaczmy korelację pomiędzy parą ocen.Załóżmy jak poprzednio, że jest ona jednakowa dla każdego obiektu tj.Corr(X
i1, X
i2) = , i = 1, . . . , N.
Stwierdzenie 11. Rozkład łączny zmiennych losowych X
i1i X
i2w po- wyższym modelu (dla ustalonego i) dany jest następująco:
Pr {X
i1= 1, X
i2= 1 } = p
1p
2+ √
p
1p
2q
1q
2, (4.20)
Pr {X
i1= 0, X
i2= 0 } = q
1q
2+ √
p
1p
2q
1q
2, (4.21)
Pr {X
i1= 0, X
i2= 1 } = q
1p
2− √
p
1p
2q
1q
2, Pr {X
i1= 1, X
i2= 0 } = p
1q
2− √
p
1p
2q
1q
2.
Dow´ od. Z faktu Corr(X
i1, X
i2) = Cov(X
i1, X
i2)/
Var(X
i1) Var(X
i2) wynika, że
E(X
i1X
i2) = Corr(X
i1, X
i2)
Var(X
i1) Var(X
i2)+
E(X
i1)
E(X
i2)
= √ p
1q
1p
2q
2+ p
1p
2. Z drugiej strony
E(X
i1X
i2) = Pr {X
i1X
i2= 1 } = Pr {X
i1= 1, X
i2= 1 }. Stąd otrzymujemy, że Pr{X
i1= 1, X
i2= 1 } = p
1p
2+ √
p
1q
1p
2q
2. Przez symetrię można wykazać, że Pr{X
i1= 0, X
i2= 0 } = q
1q
2+ √ p
1q
1p
2q
2.Wobec powyższego Pr {X
i1= 0, X
i2= 1 lub X
i1= 1, X
i2= 0 } = 1 − (p
1p
2+ √
p
1q
1p
2q
2+ q
1q
2+ √
p
1q
1p
2q
2) = p
1+ q
1− (p
1p
2+ q
1q
2+ 2 √ p
1q
1p
2q
2) = p
1q
2+ q
1p
2−2√p
1q
1p
2q
2. Biorąc pod uwagę rozkład brzegowy otrzymujemy Pr {X
i1= 1, X
i2= 0 } = Pr{X
i1= 1 } − Pr {X
i1= 1, X
i2= 1 } co daje, że Pr{X
i1= 1, X
i2= 0 } = p
1q
2−√p
1p
2q
1q
2.
Analogicznie rozumując otrzymujemy, że Pr {X
i1= 0, X
i2= 1 } = q
1p
2−
√ p
1p
2q
1q
2.
Wobec Definicji 1 oraz równości (4.20) i (4.21) prawdopodobieństwo P
o, że oceniający wystawią te same oceny, wynosi
P
o= Pr{X
i1= 1, X
i2= 1} + Pr{X
i1= 0, X
i2= 0}
= p
1p
2+ q
1q
2+ 2 √
p
1p
2q
1q
2.
Przez P
coznaczmy standardowo prawdopodobieństwo, że oceniający wy- stawią te same oceny mimo, że nie są one skorelowane.Prawdopodobieństwo zgody przez przypadek P
cwyliczamy podstawiając do P
owartość = 0.
Otrzymujemy, że P
c= p
1p
2+ q
1q
2.
Twierdzenie 12. Dla opisywanego modelu współczynnik oceny stopnia zgody typu kappa równa się
(4.22) κ
C= 2
√ p
1p
2q
1q
2p
1q
2+ p
2q
1.
Dow´ od. Przy P
oi P
czdefiniowanych powyżej mamy:
κ
C= P
o− P
c1 − P
c= p
1p
2+ q
1q
2+ 2 √ p
1p
2q
1q
2− (p
1p
2+ q
1q
2) 1 − (p
1p
2+ q
1q
2)
= 2 √
p
1p
2q
1q
2p
1(1 − p
2) + q
1(1 − q
2) = 2
√ p
1p
2q
1q
2p
1q
2+ q
1p
2.
Wniosek 13. Opisany model zakłada różne preferencje oceniających.
Okazuje się, że przy takim założeniu współczynnik zgodności poprawiony o zgodę przez przypadek jest współczynnikiem korelacji pomnożonym przez pewien współczynnik zależny od rozkładów brzegowych.
4.2. Estymacja w modelu binarnym. Dla próby N obiektów, obser- wujemy liczebności par ocen każdego typu.Dane takie można zgromadzić jak poprzednio w Tabeli 5.
Wyznaczmy estymator współczynnika kappa κ
Coraz prawdopodo- bieństw p
1, p
2metodą największej wiarogodności.Dla rozważanego modelu funkcja wiarogodności jest postaci
L(p
1, p
2, |n
11, n
22, n
12, n
21) = (p
1p
2+ √
p
1p
2q
1q
2)
n11(q
1q
2+ √
p
1p
2q
1q
2)
n22×(p
1q
2− √
p
1p
2q
1q
2)
n12(q
1p
2− √
p
1p
2q
1q
2)
n21.
Szukamy wartości maksymalizujących powyższą funkcję.W celu obliczenia estymatora współczynnika κ
Cdokonujemy podstawienia zgodnie z wzorem (4.22) otrzymując, że
√
p
1p
2q
1q
2= κ
C(p
1q
2+ p
2q
1)/2.
Następnie przyrównujemy pochodne
∂ ln L∂p1
,
∂ ln L∂p2
oraz
∂ ln L∂κC
do zera.
Bloch i Kreamer [1] stwierdzili, że estymatory spełniające taki układ równań są postaci:
ˆ
p
1= n
11+ n
12N = n
1+N , ˆ
p
2= n
11+ n
21N = n
+1N , ˆ
κ
C= 2(n
11n
22− n
12n
21)
n
1+n
+2+ n
+1n
2+,
(4.23)
gdzie dla uproszczenia wprowadzono notację adekwatną z Tabelą 5.Stąd P ˆ
o= n
11+ n
22N oraz
P ˆ
c= n
1+n
+1N
2+ n
2+n
+2N
2co jest zgodne z wzorami (3.1) oraz (4.19) dla C = 2.
Uwaga 14.Należy zwrócić uwagę na szczególne przypadki, gdy p
1= 0 lub p
2= 0. Dla p
1= 0 i p
2∈ (0, 1) rozkład łączny zmiennych losowych X
i1i X
i2dany jest następująco:
Pr {X
i1= 1, X
i2= 1 } = Pr{X
i1= 1, X
i2= 0 } = 0, Pr {X
i1= 0, X
i2= 0 } = q
2, Pr {X
i1= 0, X
i2= 1 } = p
2.
Dla p
2= 0 i p
1∈ (0, 1) rozkład łączny zmiennych losowych X
i1i X
i2dany jest następująco:
Pr {X
i1= 1, X
i2= 1 } = Pr{X
i1= 0, X
i2= 1 } = 0, Pr {X
i1= 0, X
i2= 0 } = q
1, Pr {X
i1= 1, X
i2= 0 } = p
1.
Oznacza to, że dwie spośród obserwowanych liczebności wynoszą zero n
12lub n
21oraz n
11lub n
22. W tych przypadkach estymator dany wzorem (4.23) wynosi 0. Jeśli natomiast p
1= p
2= 0 lub p
1= p
2= 1, to estymator nie jest dobrze określony.W praktyce oznacza to, że trzy liczebności n
12, n
21oraz n
11lub n
22wynoszą zero.Takie deterministyczne przypadki należy rozważać osobno.W zależności od planu eksperymentu można dookreślić estymator lub w ogóle nie określać stopnia zgody.Jesli p
1= 1 − p
2= 1 lub p
2= 1 − p
1= 1, to estymator wynosi −1, co dobrze odzwierciedla pełną niezgodę.
4.3. Model dla więcej niż dwóch kategorii. Model opisywany w po- przednich podrozdziałach określony był dla dwóch kategorii C = 2. Miara Cohena oceny stopnia zgodności określona jest dla dowolnej liczby C ≥ 2.
Podobnie jak dla współczynnnika kappa Scotta wykażemy, że estymator w modelu z wieloma kategoriami można uzyskać wykorzystując wartości współczynników kappa uzyskanych dla każdej z kategorii osobno, bazując na zasadzie podstawiania.Ponownie okazuje się, że współczynnik kappa jest średnią ważoną współczynników kappa uzyskanych dla modeli binarnych ze wstępną agregacją danych.
Niech X
ij(określająca ocenę i-tego obiektu wystawioną przez j-tego
eksperta) będzie zmienną losową z rozkładu wielomianowego z parametrami
(p
1, . . . , p
C),
Cl=1
p
l= 1. Wyznaczmy na jej podstawie binarną ocenę przy- należności do danej kategorii.Niech X
ijl(i = 1, . . . , N ; j = 1, 2; l = 1, . . . , C) będzie oceną przynależności i-tego obiektu do kategorii l wystawioną przez j-tego oceniającego.Dla każdej l-tej kategorii, wartości X
ijlzależą od ocen X
ijw następujący sposób:
X
ijl=
1 gdy X
ij= l, 0 gdy X
ij= l.
W następnym kroku dla każdej kategorii z osobna można zastosować model binarny opisany w poprzednich rozdziałach 4.1 oraz 4.2. Niech dla ustalonego l zmienna losowa X
ijlma rozkład dwupunktowy z parametrem p
j,l(X
ijl∼ B(1, p
j,l), i = 1, . . . , N ; j = 1, 2):
Pr{X
ijl= 1} = p
j,loraz
Pr {X
ijl= 0 } = q
j,l. Z założenia
q
j,l= 1 − p
j,l=
C k=1k=lp
j,k.
Przeprowadzając analogiczne rozumowanie jak w dowodzie Stwierdze- nia 11 wyznaczymy rozkład łączny zmiennych losowych X
i1li X
i2l.
Fakt 15. Niech dla ustalonego i oraz l (i = 1, . . . , N; l = 1, . . . , C) korelacja Corr(X
i1l, X
i2l) wynosi
l. Rozkład łączny zmiennych losowych X
i1li X
i2ldany jest następująco:
Pr {X
i1l= 1, X
i2l= 1 } = p
1,lp
2,l+
l√
p
1,lp
2,lq
1,lq
2,l, (4.24)
Pr {X
i1l= 0, X
i2l= 0 } = q
1,lq
2,l+
l√ p
1,lp
2,lq
1,lq
2,l, Pr {X
i1l= 0, X
i2l= 1 } = q
1,lp
2,l−
l√ p
1,lp
2,lq
1,lq
2,l, Pr {X
i1l= 1, X
i2l= 0 } = p
1,lq
2,l−
l√ p
1,lp
2,lq
1,lq
2,l.
Zgodnie z Definicją 2, wobec równości (4.24), P
o=
C l=1Pr {X
i1l= X
i2l= 1 } =
C l=1p
1,lp
2,l+
l√ p
1,lp
2,lq
1,lq
2,l. Natomiast prawdopodobieństwo zgody przez przypadek wynosi
P
c=
C l=1p
1,lp
2,l.
Definicja 4.Współczynnik kappa Cohena w modelu z wieloma katego- riami definiujemy standardowo:
(4.25) κ
C df= P
o− P
c1 − P
c=
Cl=1
l√ p
1,lp
2,lq
1,lq
2,l1 −
Cl=1
p
1,lp
2,l.
Przypomnijmy, że P
o,loznacza prawdopodobieństwo, że oceniający zgo- dzą się w swojej ocenie w modelu binarnym
P
o,l= Pr {X
i1l= X
i2l= 1 } + Pr{X
i1l= X
i2l= 0 }
= p
1,lp
2,l+ q
1,lq
2,l+ 2
l√
p
1,lp
2,lq
1,lq
2,loraz
(4.26) P
c,l= p
1,lp
2,l+ q
1,lq
2,l= p
1,lp
2,l+ (1 − p
1,l)(1 − p
2,l).
Dla ustalonej l-tej kategorii współczynnik kappa Cohena (zgodnie z tezą Twierdzenia 12) wynosi:
κ
lC= P
o,l− P
c,l1 − P
c,l= 2
l√ p
1,lp
2,lq
1,lq
2,lp
1,lq
2,l+ p
2,lq
1,l.
W następnym kroku chcemy wyrazić współczynnik κ
Cdany wzorem (4.25) w terminach P
o,li P
c,loraz pokazać, że takie podejście jest rów- noważne z wyrażeniem współczynnika κ
Cw zależności od κ
lCoraz P
c,l.
Lemat 16. Mamy
P
c= 1 2
C
l=1
P
c,l− C + 2
.
Dow´ od. Z równości (4.26) wynika, że p
1,lp
2,l= 1
2 (P
c,l+ p
1,l+ p
2,l− 1) . Więc
P
c=
C l=1p
1,lp
2,l= 1 2
C l=1(P
c,l+ p
1,l+ p
2,l− 1) = 1 2
C
l=1
P
c,l+ 2 − C
.
Lemat 17. Mamy
P
o= 1 2
C
l=1
P
o,l− C + 2
.
Dow´ od. Ponieważ
P
o,l= p
1,lp
2,l+ (1 − p
1,l)(1 − p
2,l) + 2
lp
1,lp
2,l(1 − p
1,l)(1 − p
2,l)
= 2
p
1,lp
2,l+
lp
1,lp
2,l(1 − p
1,l)(1 − p
2,l)
+ 1 − p
1,l− p
2,l, dostajemy
p
1,lp
2,l+
lp
1,lp
2,l(1 − p
1,l)(1 − p
2,l) = 1
2 (P
o,l− 1 + p
1,l+ p
2,l).
To daje równość P
o= 1
2
C l=1(P
o,l− 1 + p
1,l+ p
2,l) = 1 2
C
l=1
P
o,l− C + 2
.
Stwierdzenie 18. Współczynnik κ
Cw terminach P
o,l, P
c,loraz κ
lCma postać:
κ
C=
Cl=1
(P
o,l− P
c,l)
Cl=1
(1 − P
c,l) (4.27)
=
Cl=1
P
o,l−
Cl=1
P
c,lC −
Cl=1
P
c,l(4.28)
=
Cl=1
(1 − P
c,l)κ
lC Cl=1
(1 − P
c,l) (4.29)
Dow´ od. Korzystając z Lematów 16 oraz 17 możemy uzasadnić równość (4.28) w następujący sposób
κ
C= P
o− P
c1 − P
c=
12
(
Cl=1
P
o,l− C + 2) −
12(
Cl=1
P
c,l− C + 2) 1 −
12(
Cl=1
P
c,l− C + 2)
=
Cl=1
P
o,l−
Cl=1
P
c,lC −
Cl=1
P
c,l.
Wymnażając kolejne składniki sumy występującej w liczniku wyrażenia (4.27) przez
1−P1−Pc,lc,l
wobec faktu, że κ
lC=
Po,l1−P−Pc,lc,l
otrzymujemy równość
daną wzorem (4.29).
Fakt 19. Współczynnik κ
Cjest średnią ważoną współczynników κ
lCz wa- gami wynoszącymi w
l= 1 − P
c,l.
Własność opisana w Fakcie 19 była ogólnie znana [8, str.606], jednakże
podane uzasadnienie bazowało na numerycznych przykładach.Wykażemy,
że podstawiając do wzoru (4.28) estymatory wielkości P
o,li P
c,luzyskane dla
modeli binarnych otrzymujemy oryginalny estymator zaproponowany przez Cohena dla wielu kategorii, dla którego ˆ P
cdane jest wzorem (4.19), a ˆ P
ostandardowo wzorem (3.1).
Liczebności n
lk(l, k = 1, . . . , C) zgromadzone w Tabeli 1 przekształ- camy dokonując dychotomizacji względem każdej z kategorii z osobna, jak to zostało opisane w rozdziale 3.3.1. Przypomnijmy, że
P ˆ
o,l= n
llN + N − (n
l++ n
+l) + n
llN .
Lemat 20. Mamy
(4.30)
C l=1P ˆ
o,l= 2 ˆ P
o+ C − 2 oraz
(4.31)
C l=1P ˆ
c,l= 2 ˆ P
c+ C − 2,
gdzie ˆ P
cdane jest wzorem (4.19 ), a ˆ P
owzorem (3.1 ).
Dow´ od. Równość (4.30) została wykazana w Lemacie 8. Pozostaje wy- kazać równość (4.31). Mamy
C l=1P ˆ
c,l=
C l=1n
l+N n
+lN + N − n
l+N
N − n
+lN
=
C l=12 n
l+N n
+lN + 1 − n
l+N − n
+lN
= 2
C l=1n
l+N n
+lN
+ C − 1 − 1 = 2 ˆ P
c+ C − 2.
Twierdzenie 21. Bazując na uzyskanych w modelach binarnych estyma- torach ˆ P
o,loraz ˆ P
c,lestymator współczynnika kappa dla modelu z wieloma kategoriami wynosi
ˆ κ
C=
Cl=1
P ˆ
o,l−
Cl=1
P ˆ
c,lC −
Cl=1
P ˆ
c,l= P ˆ
o− ˆ P
c1 − ˆ P
c,
gdzie ˆ P
ooraz ˆ P
czostały zaproponowane przez Cohena wzorami (4.19 )
i (3.1 ).
Dow´ od. Na mocy Lematu 20 otrzymujemy ˆ
κ
C=
Cl=1
P ˆ
o,l−
Cl=1
P ˆ
c,lC −
Cl=1
P ˆ
c,l= C − 2 + 2 ˆ P
o− (C − 2 + 2 ˆ P
c)
C − (C − 2) − 2 ˆ P
c= P ˆ
o− ˆ P
c1 − ˆ P
c.
4.4. Wariancja, wartośc maksymalna i minimalna. Wykorzystując metodę opisaną wcześniej w rozdziale 3.4, można przybliżyć asymptotyczną wariancję estymatora współczynnika kappa Cohena dla C = 2 następu- jąco [1]:
Var(ˆ κ
C) = 4(p
1p
2q
1q
2) (p
1q
2+ p
2q
1)
2U, gdzie
U = 1 + 4U
X1U
X2− (1 + 3U
X21+ 3U
X22)
2+ 2U
X1U
X23, U
X1=
12
− p
1√ p
1q
1,
U
X2=
12