Systemy uczace sie_w2_Bayes

(1)

Rozpoznawanie wzorców

Dr inż. Michał Bereta

p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl

beretam@torus.uck.pk.edu.pl www.michalbereta.pl

(2)

(3)

Niepewnośd wiedzy

Wiedza uzyskana od ekspertów jest często

 niepewna

 niekompletna  niespójna

(4)

Niepewnośd wiedzy

Eksperci są w stanie podejmowad decyzje w

oparciu o swoją często niedoskonałą wiedzę.

Systemy ekspertowe również muszą byd w stanie radzid sobie z wiedzą tego typu.

(5)

Czym jest niepewnośd?

Niepewnośd można zdefiniowad jako brak

dokładnej wiedzy, tzn. takiej, która umożliwia

podejmowanie w pełni uzasadnionych decyzji i w pełni wiarygodnych wniosków.

(6)

Źródła niepewności

 Nieprecyzyjnośd języka naturalnego

 Trudności ze sformułowaniem zależności w

postaci reguł

 Łączenie wiedzy kilku ekspertów

 Niekompletnośd danych, na których system

ma operowad

 Specyfika problemu

 Przyjęta forma reprezentacji (atrybuty)  Rozkład danych z klas

(7)

Nieprecyzyjnośd języka

naturalnego

 Always 99  Very often 88  Usually 85  Sometimes 20  Usualluy not 10  Never 0 (Ray Simpson 1944)  Always 100  Very often 87  Usually 79  Sometimes 29  Usualluy not 16  Never 0 (Milton Hakel 1968)

(8)

Teoria prawdopodobieostwa

 Prawdopodobieostwo zdarzenia A to proporcja przypadków,

kiedy dane zdarzenie zachodzi.

 p(A) = 0 – całkowita niemożliwośd  p(A) = 1 – całkowita pewnośd

Jeśli wynikiem może byd sukces lub porażka: p(sukces) = liczba_sukcesów / liczba_prób p(porażka) = liczba_porażek / liczba_prób

(9)

Prawdopodobieostwo warunkowe

Załóżmy, że zdarzenia A i B nie są wzajemnie wykluczające się.

Prawdopodobieostwo zdarzenia A może zależed od tego, czy miało miejsce zdarzenie B.

(10)

Prawdopodobieostwo warunkowe

Prawdopodobieostwo tego, że wystąpi A i B nazywamy prawdopodobieostwem łącznym tych zdarzeo.

(11)

Prawdopodobieostwo warunkowe

Analogicznie prawdopodobieostwo B pod warunkiem A:

(12)

Twierdzenie Bayesa

Analogicznie prawdopodobieostwo B pod warunkiem A:

Wzór Bayesa

p(A) – prawdopodobieostwo zdarzenia A p(B) – prawdopodobieostwo zdarzenia B

p(A|B) – prawdopodobieostwo zdarzenia A pod warunkiem, że zaszło zdarzenie B p(B|A) – prawdopodobieostwo zdarzenia B pod warunkiem, że zaszło zdarzenie A

(13)

W przypadku, gdy A zależy od zdarzeo B1, B2,...,Bn wzajemnie się wykluczających:

Prawdopodobieostwo warunkowe

(14)

Prawdopodobieostwo

całkowite

Jeśli Bi i=1...n wyczerpują wszystkie możliwe zdarzenia:

S – zbiór wszystkich możliwych zdarzeń; wtedy prawdopodobieństwo całkowite p(A):

A B4

B3

B2 B1

(15)

Prawdopodobieostwo

całkowite

Jeśli A zależy jedynie od dwóch wykluczających się zdarzeo, np. B oraz NOT B:

(16)

Reguła Bayesa

Analogicznie dla B:

(17)

(18)

Systemy ekspertowe

i wiedza niepewna

Załóżmy, że mamy regułę w postaci:

IF E is TRUE

THEN H is TRUE {z prawd. p}

Reguła ta mówi, że jeśli wystąpi E to H wystąpi z prawdopodobieośtwem p.

(19)

Systemy ekspertowe

i wiedza niepewna

IF E is TRUE

THEN H is TRUE {p}

Wiemy, że E wystąpiło.

Jak policzyd prawdopodobieostwo, że wystąpiło

H ?

(20)

Systemy ekspertowe

i wiedza niepewna

p(H) – prawdopodobieostwo a priori wystąpienia H

p(E|H) – prawdopodobieostwo, że jeśli wystąpi H, to wystąpiło też E

p(~H) – prawdopodobieostwo a priori nie wystąpienia H

p(E|~H) – prawdopodobieostwo, że jeśli nie wystąpi H, to mimo wszystko wystąpiło E

p(H|E) – prawdopodobieostwo a posteriori wystąpienia H, jeśli wystąpiło E

(21)

Systemy ekspertowe

i wiedza niepewna

Prawdopodobieostwa p(H), p(E|H), p(~H) oraz p(E|~H) są określane przez eksperta bądź też szacowane statystycznie.

(22)

Systemy ekspertowe

i wiedza niepewna

Co w przypadku wystąpienia wielu hipotez?

(Hipotezy oraz przesłanki (dowody, ang. Evidences) muszą byd wzajemnie wykluczające się oraz wyczerpujące).

(23)

Systemy ekspertowe

i wiedza niepewna

Co w przypadku wystąpienia wielu przesłanek Ei?

(24)

Systemy ekspertowe

i wiedza niepewna

Co w przypadku wystąpienia wielu przesłanek Ei?

Powyższy wzór wymaga od nas pliczenia wszystkich

prawdopodobieństw warunkowych dla wszystkich możliwych kombinacji przesłanek Ei oraz hipotez Hi.

(25)

Systemy ekspertowe

i wiedza niepewna

Powyższy wzór wymaga od nas pliczenia wszystkich prawdopodobieostw warunkowych dla wszystkich możliwych kombinacji przesłanek Ei oraz hipotez Hi.

W praktyce jest to często niemożliwe.

W przypadku szacowania na podstawie danych pojawiają się

watpliwości o jakość uzyskanych szacowań, jeśli np. przykładowych danych pokrywających dany przypadek jest mało.

(26)

Systemy ekspertowe

i wiedza niepewna

Często zakłada się zatem, że E1, E2,..., En są wzajemnie niezależne.

Dwa zdarzenia A oraz B są określane jako niezależne wtedy i tylko wtedy, gdy:

(27)

Systemy ekspertowe

i wiedza niepewna

Zamiast:

otrzymujemy zatem:

Założenie takie nie jest zawsze uzasadnione i może przyczynić się do błędnego działania systemu.

(28)

Przykład

Warunki E1, E2 oraz E3 są wzajemnie warunkowo niezależne. Trzy hipotezy H1, H2 oraz H3 są wzajemnie wykluczające się oraz wyczerpujące.

Ekspert dostarcza prawdopodobieostw a priori p(H1), p(H2), p(H3)

oraz prawdopodobieostwa warunkowe p(Ei|Hj)

Hipoteza

Prawdopodobieostwo i=1 i=2 i=3

p(Hi) 0.4 0.35 0.25

p(E1|Hi) 0.3 0.8 0.5

p(E2|Hi) 0.9 0.0 0.7

(29)

Przykład

(30)

Przykład

Następnie zaobserwowano E1 : Powinno byd:

(31)

Przykład

Następnie zaobserwowano E2 :

Ostatecznie zatem najbardziej prawdopodobna jest hipoteza H3.

(32)

Zalety reguły Bayesa

 Dobrze rozwinięta teoria matematyczna.  Decyzje oparte na metodzie Bayesa są

optymalne (pod warunkiem, że znamy

odpowiednie rozkłady prawdopodobieostw).

 Wszystkie inne metody podejmowania decyzji

mogą byd co najwyżej zbieżne do metody Bayesa.

(33)

Wady reguły Bayesa

 Czasami trzeba czynid nieuprawnione

założenia upraszczające problem (np.

założenie o niezależności bądź warunkowej niezależności między zmiennymi).

 Badania psychologiczne dowodzą, iż ludziom

cieżko jest szacowad prawdopodobieostwa – często prawd. a priori są niespójne z prawd. warunkowymi.

(34)

Wady reguły Bayesa

Samochód nie chce zapalid. Jaka jest przyczyna?

IF oznaką są dziwne odgłosy

(35)

Wady reguły Bayesa

p(rozrusznik nie jest zly | są dziwne odgłosy) =

p(rozrusznik jest dobry | są dziwne odgłosy) = 1 – 0.7 = 0.3

IF oznaką są dziwne odgłosy

THEN rozrusznik jest dobry {p=0.3}

Jest to reguła w pewnym sensie ukryta, której istnienie może wprowadzad niejasności.

(36)

Wady reguły Bayesa

Spójrzmy od innej strony na sytuację: IF rozrusznik jest zepsuty

THEN są dziwne odgłosy {p=0.85} IF rozrusznik jest zepsuty

THEN nie ma dziwnych odgłosów {p=0.15}

Aby użyd reguły Bayesa potrzebujemy jeszcze prawd. a priori, że rozrusznik jest zły jeśli samochód nie chce zapalid. Załóżmy, że ekspert szacuje je na 5%.

(37)

Wady reguły Bayesa

Z reguły Bayesa otrzymamy:

Jest to wartość dużo mniejsza niż wcześniej oszacowane przez eksperta prawd. = 0.7.

(38)

Wady reguły Bayesa

Skąd ta rozbieżnośd? Różne założenia eksperta podczas szacowania prawd. a priori oraz prawd. warunkowych.

p(H) = p(rozrusznik jest zepsuty)

(39)

Wady reguły Bayesa

Skąd ta rozbieżnośd? Różne założenia eksperta podczas szacowania prawd. a priori oraz prawd. warunkowych.

Jest to dużo większa wartość niż 0.05 podana wcześniej przez eksperta.

(40)

(41)

Klasyfikator bayesowski

• Naturalnym sposobem konstrukcji klasyfikatora jest oparcie się na rozkładach prawdopodobieostwa obserwacji w

klasach.

• Załóżmy, że rozkład obserwacji x z klasy k, k=1,..,g, jest dany dyskretnym rozkładem prawdopodobieostwa lub gęstością prawdopodobieostwa p(x|k)

• Prawdopodobieostwo a priori, że obserwacja pochodzi z klasy k wynosi π_k , k = 1,…,g (np. oszacowane na podstawie

procentu ludzi cierpiących na daną chorobę i nie cierpiących na nią)

(42)

Klasyfikator bayesowski

• Na podstawie twierdzenia Bayesa, prawdopodobieostwo a

posteriori, że obserwacja x pochodzi z klasy k, wynosi





_g r r k

r

x

p

k

x

p

x

k

p

1

)

|

(

)

|

(

)

|

(



(43)

Klasyfikator bayesowski

• Załóżmy, że znamy prawdopodobieostwa π_k oraz rozkłady p(x|k) .

• KLASYFIKATOR BAYESOWSKI (reguła Bayesa) Zaobserwowany wektor x klasyfikujemy jako

pochodzący z tej klasy k, dla której wartośd

jest największa.



  _g r r k r x p k x p x k p 1 ) | ( ) | ( ) | (  

(44)

Klasyfikator bayesowski

• Równoważnie możemy wybrad tę klasę, dla której wartośd

jest największa

• W praktyce rozkłady te są szacowane na podstawie próby uczącej.

)

|

(

x

k

p

k



(45)

Klasyfikator bayesowski

π₁ = 1/3

π₂ = 1/3

(46)

Klasyfikator bayesowski

π₁ = 1/4

π₂ = 1/2

(47)

Klasyfikator bayesowski

• Przykład:

– Dwie klasy  g = 2

– Wielowymiarowy rozkład normalny

– Gęstości obserwacji w klasach mają taką samą macierz kowariancji Σ      _ _ _ _    ) ( ) ( 2 1 exp | | ) 2 ( 1 ) | (x k _p_/₂ ₁_/₂ x m_k T 1 x m_k p 

(48)

Klasyfikator bayesowski

• Szukanie maksimum p(x|k) można zastąpid

szukaniem maksimum logarytmu naturalnego:

• Biorąc pod uwagę postad gęstości normalnej zadanie sprowadza się do znalezienia

maksimum względem k wielkości

) | ( ln ln ) | ( ln_k p x k  _k  p x k k od niezalezna stala m x m x _k )T ( _k ) ln _k _ _ _ ( 2 1 ₁        _

(49)

Klasyfikator bayesowski

• Po przekształceniu otrzymujemy funkcje dyskryminacyjne postaci:

• Warto zauważyd, że są one liniowe

• Jeżeli prawdopodobieostwa a priori są równe (π₁ = π₂ ) i jeżeli macierz Σ zastąpid macierzą próbkową oraz wektory wartości oczekiwanych próbkowymi wartościami średnimi, to otrzymana

granica decyzyjna jest równoważna tej otrzymanej z liniowej analizy dyskryminacyjnej Fishera (LDA – Linear Discriminant Analysis)

k k T k k T k x x m m m





ln 2 1 ) (  1  1 

(50)

Klasyfikator bayesowski

• Przy założeniu w klasach rozkładów normalnych, ale o różnych macierzach kowariancji, otrzymujemy kwadratowe powierzchnie rozdzielające klasy

)}

(

)

(

:

{

x



_k

x





_l

x

(51)

Klasyfikator bayesowski

• Jeśli prawdopodobieostwa a priori są równe lub są pomijane, wtedy reguła bayesowska jest

równoważna maksymalizacji względem k wartości prawdopodobieostw

• Takie zadanie klasyfikacji nazywamy

dyskryminacją metodą największej wiarygodności (NW)

)

|

(

x

k

(52)

Klasyfikator bayesowski

• Jeśli:

– Obserwacje pochodzą z rozkładów normalnych – Takie same macierze kowariancji

– Równośd π₁ = π₂ = … = π_g

Wtedy reguła Bayesa jest równoważna następującej:

Zaklasyfikuj obserwację x do tej klasy k, dla której kwadrat odległości Mahalanobisa

osiąga wartośd minimalną.

) (

)

(53)

Optymalnośd reguły Bayesa

Klasyfikator d:

wygodnie przedstawid jako wektor (c₁, c₂, …, c_g),

na który składa się g funkcji wskaźnikowych

}

,...,

2 ,

1 {

:

X

g

d













k

x

d

gdy

k

x

d

gdy

x

c

_k

)

(

0 )

(

1 )

(

(54)

Optymalnośd reguły Bayesa

• Chcemy wiedzied, na ile dobry jest dany

klasyfikator, czy istnieje inny, lepszy od niego. • Punktem wyjścia jest wprowadzenie pojęcia

funkcji straty związanej z zaklasyfikowaniem obserwacji z klasy i do klasy j :











j

i

gdy

j

i

gdy

j

i

L

1

0 )

,

(

(55)

Optymalnośd reguły Bayesa

• Funkcja ta implikuje zerowy koszt podjęcia

dobrej decyzji oraz jednostkowy koszt błędnej decyzji.

• Błędna decyzja nie zawsze musi byd tak samo oceniana

(np. koszt błędnej diagnozy lekarskiej jest inny jeśli lekarz zdiagnozuje chorobę, której pacjent nie ma, a inny, jeśli nie wykryje choroby, którą pacjent ma)











j

i

gdy

j

i

gdy

j

i

L

1

0 )

,

(

(56)

Optymalnośd reguły Bayesa

• Ryzyko klasyfikatora d :

R(d,k) – oczekiwany koszt, gdy prawdziwą klasą

jest klasa k (oczekiwana wartośd funkcji straty przy założeniu prawdziwości klasy k )

   [ ( , ( )) | ] ) , (d k E L k d x klasa k R _x ] | ) ( [ ] | ) ( [ ) , ( 1 k klasa k x d P k klasa r x d P r k L g r      





(57)

Optymalnośd reguły Bayesa

• Ryzyko całkowite (bayesowskie) klasyfikatora

d :

Otrzymujemy je uznawszy także klasę obserwacji (a nie tylko wartośd tej obserwacji) za losową.



     g k k k R d k P d x k klasa k E d R 1 ] | ) ( [ )] , ( [ ) ( 

(58)

Optymalnośd reguły Bayesa

• Statystyczna teoria decyzji każe szukad klasyfikatorów i estymatorów

minimalizujących odpowiednio określone

ryzyko całkowite będące wartością oczekiwaną przyjętej funkcji straty.

(59)

Optymalnośd reguły Bayesa

Twierdzenie

Reguła Bayesa

minimalizuje ryzyko całkowite



     g k k k R d k P d x k klasa k E d R 1 ] | ) ( [ )] , ( [ ) (        ) | ( max ) | ( 0 ) | ( max ) | ( 1 ) ( * k x p i x p gdy k x p i x p gdy x c k k i k k i i    

(60)

Optymalnośd reguły Bayesa

Funkcja straty II

















decyzji

brak

j

gdy

b

j

i

gdy

j

i

gdy

j

i

L

_

1

0 )

,

(

)

1 ,

0 (



b

(61)

Optymalnośd reguły Bayesa

Uogólnienie reguły Bayesa

Twierdzenie: Tak uogólniona reguła Bayesa,

uwzględniająca możliwośd braku decyzji,

minimalizuje ryzyko całkowite przy funkcji straty II.            b x l p gdy decyzji brak b x l p x k p gdy k x d G l G l 1 ) | ( max _ 1 ) | ( max ) | ( ) (

(62)

Optymalnośd reguły Bayesa

Funkcja straty III

















decyzji

brak

j

gdy

b

j

i

gdy

l

j

i

gdy

j

i

L

_ij

_

0 )

,

(

)

1 ,

0 (



b

(63)

Optymalnośd reguły Bayesa

Uogólnienie (kolejne) reguły Bayesa

Twierdzenie: Tak uogólniona reguła Bayesa,

uwzględniająca możliwośd braku decyzji,

minimalizuje ryzyko całkowite przy funkcji straty III.          



     b x i p l i L gdy decyzji brak b x i p l i L x i p k i L gdy k x d _g i G l g i G l g i 1 1 1 ) | ( ) , ( min _ ) | ( ) , ( min ) | ( ) , ( ) (

(64)

Optymalnośd reguły Bayesa

• Jeśli rozkłady są znane to problem klasyfikacji jest rozwiązany.

• W praktyce rozkłady są szacowane na

podstawie danych uczących i niekoniecznie dostatecznie dobrze przybliżają prawdziwy rozkład – stąd otrzymany klasyfikator nie jest optymalny.

(65)

Klasyfikator bayesowski

Przykład

Jeżeli rozkłady π_k nie są znane, ale próba ucząca jest reprezentatywna, wtedy rozkłady te

szacujemy jako równe stosunkowi liczności podpróbki elementów k-tej klasy, n_k, do

liczności całej próbki uczącej, n=n₁+n₂+…+n_g.

n n_k

k 

(66)

Klasyfikator bayesowski

• Jeśli zakładamy, że macierze kowariancji w klasach są identyczne, za estymator tej

macierzy można przyjąd macierze kowariancji wewnątrzgrupowej W:



        g k T k ki n i k ki m x m x g n W k 1 1 ) ˆ ( ) ˆ ( 1 ˆ

(67)

Klasyfikator bayesowski

• Jeśli zakładamy, że macierze kowariancji w klasach są różne, za estymator tych macierzy w każdej z klas można przyjąd macierze

próbkowe S_k:











nk l T k kl k kl k k k

x

m

x

m

n

S

1

)

ˆ

)(

ˆ

(

1

1 ˆ

(68)

Klasyfikator bayesowski

• Uwaga!

Jeśli próba ucząca nie jest wystarczająco liczna estymatory mogą byd niedokładne.

Możemy otrzymad estymatory o dużej wariancji, chod nieobciążone, czyli nieprecyzyjne lub

(69)

Klasyfikator bayesowski

• Był to przykład estymacji parametrycznej

gęstości prawdopodobieostwa – zakładana

była znana postad rozkładu (np. normalny) lecz nieznane były jego parametry

• Innym przypadkiem są metody estymacji

nieparametrycznej, w których nie zakłada się

żadnej postaci funkcji gęstości rozkładu, a jedynie to, że jest to funkcja odpowiednio gładka, np. ma pochodne trzeciego rzędu. Przykładem są estymatory jądrowe.

(70)

Klasyfikator bayesowski

Przypadek estymacji parametrycznego rozkładu normalnego można uogólnid na estymację danego rozkładu za pomocą mieszaniny rozkładów normalnych o znanej liczbie

rozkładów składowych (liczba ta w praktyce jest dobierana eksperymentalnie).

Np. dla k-tej klasy mamy mieszaninę s_k rozkładów normalnych, gdzie p_kr to tzw. współczynniki mieszania









sk r kr kr kr

x

m

p

k

x

p

1

)

,

;

(

)

|

(



(71)

Klasyfikator bayesowski

Mieszaniny tego typu są modelami bardzo ogólnymi mogącymi oddad kształt dowolnej gęstości.

Można udowodnid, że dla każdej ciągłej i ograniczonej gęstości istnieje mieszanina gęstości normalnych przybliżająca tę

gęstośd z dowolnie dużą dokładnością.

W celu oszacowania wartości parametrów stosuje się

algorytm EM (ang. Expectation Maximization) – estymacja największej wiarygodności.

(72)

Klasyfikator bayesowski

Naiwny Klasyfikator Bayesa

Naiwny klasyfikator Bayesa zakłada, że wartości

poszczególnych atrybutów są od siebie warunkowo

(względem kategorii) niezależne, czyli zachodzi następująca równośd:         ( ) ... ( ) | ( ) ) ) ( (a₁ x v₁ a₂ x v₂ a x v d x k p _n _n



         n i i i i i n i a x v d x k p a x v d x k p 1 1 ( ) | ( ) ) ( ( ) | ( ) ) (

(73)

Wybór i ocena klasyfikatora

• Dysponując kilkoma klasyfikatorami bayesowskimi lub innymi musimy je porównad i wybrad najlepszy z nich. • Naturalnym sposobem wyboru jest przeanalizowanie

prawdopodobieostw dokonania przez klasyfikatory błędnej klasyfikacji nowej, losowej obserwacji.

• Prawdopodobieostwo błędnej klasyfikacji jest równe

oczekiwanemu ułamkowi błędnych klasyfikacji i jest równe ryzyku całkowitemu klasyfikatora przy zero-jedynkowej

(74)

Wybór i ocena klasyfikatora

• Prawdopodobieostwo to szacujemy eksperymentalnie

Dane, którymi dysponujemy = Dane uczące + Dane walidacyjne + Dane testowe

(75)

Wybór i ocena klasyfikatora

• Dane uczące służą do stworzenia klasyfikatorów

• Dane walidacyjne służą do wybrania spośród wszystkich klasyfikatorów tego, który ma najmniejszy błąd na tym zbiorze danych walidacyjnych

• Dane testowe służą do ostatecznego oszacowania błędu wybranego klasyfikatora

Aby takie oszacowanie były wiarygodne, próby te muszą byd od siebie niezależne.

(76)

Wybór i ocena klasyfikatora

Przykład:

Jeśli do oszacowania błędu klasyfikatora wykorzystamy ten sam zbiór uczący, to

oszacowanie będzie obciążone, tzn. w tym przypadku systematycznie zaniżone (zbyt optymistyczny poziom błędu).

Estymator jest nieobciążony, jeśli wartośd

oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru.

(77)

Wybór i ocena klasyfikatora

• Wydzielenie próby walidacyjnej nie jest potrzebne, jeśli trenujemy jedynie jeden klasyfikator.

• Próba walidacyjna może byd użyta w momencie podejmowania decyzji o

zakooczeniu nauki np. sieci neuronowej. Jeśli błąd przestaje się zmniejszad na próbie

(78)

Wybór i ocena klasyfikatora

• Proporcje podziału dostępnych danych na uczące, walidacyjne i testowe:

np.

50% + 25% + 25% lub

(79)

Wybór i ocena klasyfikatora

Czasami (np. jeśli próba jest zbyt mała) nie

można sobie pozwolid na podział danych na trzy części.

Należy wtedy wielokrotnie wykorzystad zbiór uczący, lecz w odpowiedni sposób, tak by

(80)

Wybór i ocena klasyfikatora

KROSWALIDACJA (sprawdzanie krzyżowe)

• Próba ucząca zostaje podzielona na K (np. 5) możliwie równych części (K-krotna kroswalidacja).

• Tworzy się K różnych pseudoprób poprzez usuwanie z próby oryginalnej kolejno części 1,…,K

• Klasyfikator jest konstruowany K-krotnie, za każdym razem na podstawie innej pseudopróby

• Każda wersja klasyfikatora jest oceniana przez sprawdzenie liczby błędnych klasyfikacji na tej części oryginalnych danych, która nie weszła do pseudopróby uczącej tego klasyfikatora

(81)

Wybór i ocena klasyfikatora

KROSWALIDACJA (sprawdzanie krzyżowe)

• Sumaryczna liczba błędów klasyfikacji dla wszystkich K wersji

klasyfikatora podzielona przez licznośd oryginalnej próby uczącej, daje kroswalidacyjne oszacowanie prawdopodobieostwa dokonania błędnej klasyfikacji przez dany klasyfikator (dany typ klasyfikatora np. sied neuronową o zadanej liczbie warstw i neuronów).

(82)

Wybór i ocena klasyfikatora

• Kroswalidacja jest kosztowna obliczeniowo.

• Po wybraniu klasyfikatora metodą kroswalidacji, konstruuje się go raz jeszcze ale tym razem na podstawie całej próby uczącej.

• Zwykle przyjmuje się K równe 5 lub 10.

• Jeśli przyjmiemy n-krotną kroswalidację (n – rozmiar danych) to mówimy o metodzie leave-one-out

cross-validation – każda pseudopróba powstaje przez usunięcie

(83)

Wybór i ocena klasyfikatora

• Powstałe oszacowanie kroswalidacyjne jest „prawie”

nieobciążone – tzn. jest nieobciążone, ale dla klasyfikatora powstałego na podstawie próby o liczności mniejszej niż interesująca nas licznośd n. (Obciążenie to jest najmniejsze dla kroswalidacji n-krotnej.)

• Można wykazad, że jest to jednocześnie estymator o największej wariancji

(84)

Wybór i ocena klasyfikatora

• Wymaganie jednoczesnej minimalizacji

obciążenia oraz wariancji jest niemożliwe do spełnienia.

(85)

Wybór i ocena klasyfikatora

Metoda BOOTSTRAP

• Jest to inna metoda wielokrotnego wykorzystania

elementów tej samej próby uczącej do konstrukcji wielu wersji tego samego klasyfikatora

• Polega na dokonaniu wielokrotnego repróbkowania elementów z tej samej oryginalnej próby uczącej

• Repróbkowanie oznacza losowanie ze zwracaniem z oryginalnej próby uczącej (o liczności n).

(86)

Wybór i ocena klasyfikatora

• Średnio 1/3 (dokładniej 0.368) próby oryginalnej nie zostanie wylosowana do danej pseudopróby

(1 – 1/n)n_{to w przybliżeniu e}-1_{= 0.368}

• Na podstawie kolejnych n-elementowych pseudoprób konstruuje się kolejne wersje klasyfikatora

• Dla każdego elementu oryginalnej próby uczącej oblicza się ułamek błędnych zaklasyfikowao tego elementu przez te wersje klasyfikatora, w których budowie nie brał udziału ów element

(87)

Wybór i ocena klasyfikatora

• Oblicza się średnią wartośd ułamków otrzymanych dla wszystkich n elementów oryginalnej próby uczącej. • Ta średnia wartośd jest przybliżeniem szukanego

estymatora prawdopodobieostwa błędnego zaklasyfikowania nowej obserwacji.

Oznaczenie: error_boot

(88)

Wybór i ocena klasyfikatora

• Estymator ten jest zbyt pesymistyczny – jego obciążenie systematycznie zawyża otrzymywane oszacowanie

(89)

Wybór i ocena klasyfikatora

KOREKCJA

• Konstruujemy kolejny estymator oparty na uśrednieniu ułamka

błędnych klasyfikacji otrzymanych dla wszystkich (bootstrapowych) wersji danego klasyfikatora, gdy dla każdej wersji jej zdolnośd

poprawnej klasyfikacji sprawdzana jest na wszystkich elementach oryginalnej próby uczącej.

• Jest to estymator zbyt optymistyczny – jego obciążenie jest ujemne. Oznaczenie:

(90)

Wybór i ocena klasyfikatora

• Ostatecznie można stworzyd estymator postaci:

0.632 error_boot + 0.368 error_boot-opt

Estymator ten jest zwany

(91)

Wybór i ocena klasyfikatora

Ocena klasyfikatora przez powtórne

podstawienie ma sens jeśli metoda

dyskryminacji z góry zakłada prostą (np. liniową) postad hiperpowierzchni

dyskryminacyjnej, dając pewnośd, że nie powstanie nadmierne dopasowanie się tej hiperpowierzchni do losowej próby uczącej.

(92)

Wybór i ocena klasyfikatora

• Wszystkie powyższe uwagi odnoszą się do sytuacji, gdy rozkłady danych w klasach nie są znane.

• Jeśli rozkłady są znane (z dokładnością do pewnej liczby nieznanych parametrów) problem sprowadza się do

estymacji tych rozkładów i zastosowania dyskryminacji bayesowskiej.

• Jednak czasami warto nieznane parametry rozkładów szacowad z wykorzystaniem opisanych metod.

(93)

Przykład – testy medyczne

• Koszt błędnej klasyfikacji czasami zależy od tego, do jakiej klasy naprawdę należy dana obserwacja.

• Tak jest w przypadku diagnozowania chorób.

– Test diagnostyczny daje wynik dodatni

(pozytywny) – choroba jest zdiagnozowana – Test diagnostyczny daje wynik ujemny

(94)

Przykład – testy medyczne

• Lepiej jest fałszywie wykryd nieistniejącą chorobę niż błędnie zdiagnozowad brak choroby.

• Test diagnostyczny jest w tym przypadku rodzajem klasyfikatora w problemie

(95)

Przykład – testy medyczne

Osoba klasyfikowana jako zdrowa

Osoba klasyfikowana jako chora

Osoba zdrowa TN FP Osoba chora FN TP

TN – true negatives – liczba przypadków, w których test dał poprawnie wyniki

ujemny

TP – true positives - liczba przypadków, w których test dał poprawnie wyniki

dodatni

FP – false positives - liczba przypadków, w których test dał niepoprawnie wyniki

dodatni

FN – false negatives - liczba przypadków, w których test dał niepoprawnie wyniki

(96)

Przykład – testy medyczne

Osoba zdrowa 176 24 Osoba chora 3 97

TN – true negatives – liczba przypadków, w których test dał poprawnie wyniki

ujemny

TP – true positives - liczba przypadków, w których test dał poprawnie wyniki

dodatni

FP – false positives - liczba przypadków, w których test dał niepoprawnie wyniki

dodatni

FN – false negatives - liczba przypadków, w których test dał niepoprawnie wyniki

(97)

Przykład – testy medyczne

Osoba zdrowa 176 24 Osoba chora 3 97

Oszacowanie prawdopodobieostwa błędnej klasyfikacji:

TP

FN

FP

TN

FN

FP



(98)

Przykład – testy medyczne

To oszacowanie odnosi się do sumy błędów, a nie oddzielnie do każdego z dwóch typów błędów.

Dlatego wprowadza się pojęcia czułości i specyficzności testu.

FN

TP



FP

TN

FP

TN









1

Czułośd – oszacowanie prawdopodobieostwa

przewidzenia przez test choroby po warunkiem, że pacjent jest na nią chory.

Specyficznośd – oszacowanie

prawdopodobieostwa przewidzenia przez test braku choroby po

warunkiem, że pacjent jest zdrowy.

1 - Specyficznośd – oszacowanie prawdopodobieostwa błędu przewidzenia przez

(99)

Przykład – testy medyczne

• Podobna sytuacja ma miejsce gdy klasyfikator ma za zadanie stwierdzid, czy dany moduł

urządzenia działa poprawnie, czy też nie. • Chcemy by klasyfikator był czuły a

jednocześnie nie wywoływał fałszywych alarmów (duża specyficznośd)

• Podobnie jest w problemie uznawania

(100)

Czułośd a specyficznośd

• Czułośd i specyficznośd są wymaganiami przeciwstawnymi - zwiększenie jednego prowadzi do zmniejszenia drugiego. • Dlatego często konstruuje się nie jeden klasyfikator, ale

wiele klasyfikatorów, z których każdy odpowiada innej parze kosztów błędnej klasyfikacji

• Następnie, na podstawie analizy czułości i specyficzności, wybieramy spośród nich klasyfikator zapewniający

(101)

Przykład – testy medyczne

Przykład

• W danym problemie z dwoma klasami porównamy dwie rodziny klasyfikatorów bayesowskich. Np. zakładamy rozkład normalny, ale w pierwszym przypadku zakładamy równośd macierzy kowariancji w obu klasach, w drugim przypadku nie ma tego założenia.

• Oznaczamy:

– 1 – klasa osób zdrowych – 2 – klasa osób chorych

(102)

Przykład – testy medyczne

Przykład

• Zakładamy

– l₂₁ – koszt błędu stały równy 1

– l₁₂ > 0 – koszt błędu zmienny w celu porównania czułości i specyficzności

Zmieniając wartośd kosztu l₁₂, otrzymujemy rodzinę klasyfikatorów wybranego typu.

(103)

Przykład – testy medyczne

Przykład

• W przypadku dwóch klas klasyfikator bayesowski klasyfikuje obserwację x do klasy 2, gdy

czyli gdy

))

|

2 (

1 (

)

|

2 (

₁₂ 21

p

x

l

p

x

l





21 12 12

)

|

2 (

l

x

p





(104)

Przykład – testy medyczne

• Bliski zera koszt l₁₂ sprawia, że obserwacje są klasyfikowane do klasy 2 już dla bliskich zera wartości prawdopodobieostwa p(2|x).

• Taki klasyfikator jest bardzo czuły, jednak jego specyficznośd musi byd bliska zeru.

(105)

Przykład – testy medyczne

• Sumarycznej informacji o zachowaniu się danego typu klasyfikatora przy zmiennych kosztach błędnych decyzji daje krzywa

operacyjno-charakterystyczna odbiornika (krzywa ROC – ang. receiver operating

characteristic curve)

• Krzywa ROC to miejsce geometryczne

punktów na płaszczyźnie o współrzędnych

(106)

Przykład – testy medyczne

Który typ klasyfikatora jest lepszy (czerwony czy

(107)

Przykład – testy medyczne

Który typ klasyfikatora jest lepszy (czerwony czy

zielony)?

Typ klasyfikatora czerwony jest lepszy w tym sensie, że podczas zwiększania

specyficzności, czułośd dłużej utrzymuje się na wysokim poziomie.

(108)

Przykład – testy medyczne

Sytuacja idealna – czułośd 1 dla

(109)

Przykład – testy medyczne

AUC – Area under Curve

Pole powierzchni pod krzywą ROC może służyc jako kryterium do porównania typów klasyfikatorów (ich rodzin), bez ustalania wartości pewnych ich parametrów.

- Preferowane są klasyfikatory o jak największym AUC

- Maksymalna wartośd AUC to 1 (klasyfikator idealny: maksymalna czułośd i zero fałszywych alarmów)

- Wartośd AUC poniżej 0.5 wskazuje na bardzo słaby klasyfikator (dany typ klasyfikatora nie radzi sobie z problemem). Lepsze wyniki dostajemy wtedy “odwracając” decyzje tego klasyfikatora, wtedy, jeśli AUC < 0.5 to

(110)

Przykład – testy medyczne