Rozpoznawanie wzorców
Dr inż. Michał Bereta
p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl
beretam@torus.uck.pk.edu.pl www.michalbereta.pl
Niepewnośd wiedzy
Wiedza uzyskana od ekspertów jest często
niepewna
niekompletna niespójna
Niepewnośd wiedzy
Eksperci są w stanie podejmowad decyzje w
oparciu o swoją często niedoskonałą wiedzę.
Systemy ekspertowe również muszą byd w stanie radzid sobie z wiedzą tego typu.
Czym jest niepewnośd?
Niepewnośd można zdefiniowad jako brak
dokładnej wiedzy, tzn. takiej, która umożliwia
podejmowanie w pełni uzasadnionych decyzji i w pełni wiarygodnych wniosków.
Źródła niepewności
Nieprecyzyjnośd języka naturalnego
Trudności ze sformułowaniem zależności w
postaci reguł
Łączenie wiedzy kilku ekspertów
Niekompletnośd danych, na których system
ma operowad
Specyfika problemu
Przyjęta forma reprezentacji (atrybuty) Rozkład danych z klas
Nieprecyzyjnośd języka
naturalnego
Always 99 Very often 88 Usually 85 Sometimes 20 Usualluy not 10 Never 0 (Ray Simpson 1944) Always 100 Very often 87 Usually 79 Sometimes 29 Usualluy not 16 Never 0 (Milton Hakel 1968)Teoria prawdopodobieostwa
Prawdopodobieostwo zdarzenia A to proporcja przypadków,
kiedy dane zdarzenie zachodzi.
p(A) = 0 – całkowita niemożliwośd p(A) = 1 – całkowita pewnośd
Jeśli wynikiem może byd sukces lub porażka: p(sukces) = liczba_sukcesów / liczba_prób p(porażka) = liczba_porażek / liczba_prób
Prawdopodobieostwo warunkowe
Załóżmy, że zdarzenia A i B nie są wzajemnie wykluczające się.
Prawdopodobieostwo zdarzenia A może zależed od tego, czy miało miejsce zdarzenie B.
Prawdopodobieostwo warunkowe
Prawdopodobieostwo tego, że wystąpi A i B nazywamy prawdopodobieostwem łącznym tych zdarzeo.
Prawdopodobieostwo warunkowe
Analogicznie prawdopodobieostwo B pod warunkiem A:
Twierdzenie Bayesa
Analogicznie prawdopodobieostwo B pod warunkiem A:
Wzór Bayesa
p(A) – prawdopodobieostwo zdarzenia A p(B) – prawdopodobieostwo zdarzenia B
p(A|B) – prawdopodobieostwo zdarzenia A pod warunkiem, że zaszło zdarzenie B p(B|A) – prawdopodobieostwo zdarzenia B pod warunkiem, że zaszło zdarzenie A
W przypadku, gdy A zależy od zdarzeo B1, B2,...,Bn wzajemnie się wykluczających:
Prawdopodobieostwo warunkowe
Prawdopodobieostwo
całkowite
Jeśli Bi i=1...n wyczerpują wszystkie możliwe zdarzenia:
S – zbiór wszystkich możliwych zdarzeń; wtedy prawdopodobieństwo całkowite p(A):
A B4
B3
B2 B1
Prawdopodobieostwo
całkowite
Jeśli A zależy jedynie od dwóch wykluczających się zdarzeo, np. B oraz NOT B:
Reguła Bayesa
Analogicznie dla B:
Systemy ekspertowe
i wiedza niepewna
Załóżmy, że mamy regułę w postaci:
IF E is TRUE
THEN H is TRUE {z prawd. p}
Reguła ta mówi, że jeśli wystąpi E to H wystąpi z prawdopodobieośtwem p.
Systemy ekspertowe
i wiedza niepewna
IF E is TRUE
THEN H is TRUE {p}
Wiemy, że E wystąpiło.
Jak policzyd prawdopodobieostwo, że wystąpiło
H ?
Systemy ekspertowe
i wiedza niepewna
p(H) – prawdopodobieostwo a priori wystąpienia H
p(E|H) – prawdopodobieostwo, że jeśli wystąpi H, to wystąpiło też E
p(~H) – prawdopodobieostwo a priori nie wystąpienia H
p(E|~H) – prawdopodobieostwo, że jeśli nie wystąpi H, to mimo wszystko wystąpiło E
p(H|E) – prawdopodobieostwo a posteriori wystąpienia H, jeśli wystąpiło E
Systemy ekspertowe
i wiedza niepewna
Prawdopodobieostwa p(H), p(E|H), p(~H) oraz p(E|~H) są określane przez eksperta bądź też szacowane statystycznie.
Systemy ekspertowe
i wiedza niepewna
Co w przypadku wystąpienia wielu hipotez?
(Hipotezy oraz przesłanki (dowody, ang. Evidences) muszą byd wzajemnie wykluczające się oraz wyczerpujące).
Systemy ekspertowe
i wiedza niepewna
Co w przypadku wystąpienia wielu przesłanek Ei?
(Hipotezy oraz przesłanki (dowody, ang. Evidences) muszą byd wzajemnie wykluczające się oraz wyczerpujące).
Systemy ekspertowe
i wiedza niepewna
Co w przypadku wystąpienia wielu przesłanek Ei?
(Hipotezy oraz przesłanki (dowody, ang. Evidences) muszą byd wzajemnie wykluczające się oraz wyczerpujące).
Powyższy wzór wymaga od nas pliczenia wszystkich
prawdopodobieństw warunkowych dla wszystkich możliwych kombinacji przesłanek Ei oraz hipotez Hi.
Systemy ekspertowe
i wiedza niepewna
Powyższy wzór wymaga od nas pliczenia wszystkich prawdopodobieostw warunkowych dla wszystkich możliwych kombinacji przesłanek Ei oraz hipotez Hi.
W praktyce jest to często niemożliwe.
W przypadku szacowania na podstawie danych pojawiają się
watpliwości o jakość uzyskanych szacowań, jeśli np. przykładowych danych pokrywających dany przypadek jest mało.
Systemy ekspertowe
i wiedza niepewna
Często zakłada się zatem, że E1, E2,..., En są wzajemnie niezależne.Dwa zdarzenia A oraz B są określane jako niezależne wtedy i tylko wtedy, gdy:
Systemy ekspertowe
i wiedza niepewna
Zamiast:
otrzymujemy zatem:
Założenie takie nie jest zawsze uzasadnione i może przyczynić się do błędnego działania systemu.
Przykład
Warunki E1, E2 oraz E3 są wzajemnie warunkowo niezależne. Trzy hipotezy H1, H2 oraz H3 są wzajemnie wykluczające się oraz wyczerpujące.
Ekspert dostarcza prawdopodobieostw a priori p(H1), p(H2), p(H3)
oraz prawdopodobieostwa warunkowe p(Ei|Hj)
Hipoteza
Prawdopodobieostwo i=1 i=2 i=3
p(Hi) 0.4 0.35 0.25
p(E1|Hi) 0.3 0.8 0.5
p(E2|Hi) 0.9 0.0 0.7
Przykład
Przykład
Następnie zaobserwowano E1 : Powinno byd:
Przykład
Następnie zaobserwowano E2 :
Ostatecznie zatem najbardziej prawdopodobna jest hipoteza H3.
Zalety reguły Bayesa
Dobrze rozwinięta teoria matematyczna. Decyzje oparte na metodzie Bayesa są
optymalne (pod warunkiem, że znamy
odpowiednie rozkłady prawdopodobieostw).
Wszystkie inne metody podejmowania decyzji
mogą byd co najwyżej zbieżne do metody Bayesa.
Wady reguły Bayesa
Czasami trzeba czynid nieuprawnione
założenia upraszczające problem (np.
założenie o niezależności bądź warunkowej niezależności między zmiennymi).
Badania psychologiczne dowodzą, iż ludziom
cieżko jest szacowad prawdopodobieostwa – często prawd. a priori są niespójne z prawd. warunkowymi.
Wady reguły Bayesa
Samochód nie chce zapalid. Jaka jest przyczyna?
IF oznaką są dziwne odgłosy
Wady reguły Bayesa
p(rozrusznik nie jest zly | są dziwne odgłosy) =
p(rozrusznik jest dobry | są dziwne odgłosy) = 1 – 0.7 = 0.3
IF oznaką są dziwne odgłosy
THEN rozrusznik jest dobry {p=0.3}
Jest to reguła w pewnym sensie ukryta, której istnienie może wprowadzad niejasności.
Wady reguły Bayesa
Spójrzmy od innej strony na sytuację: IF rozrusznik jest zepsuty
THEN są dziwne odgłosy {p=0.85} IF rozrusznik jest zepsuty
THEN nie ma dziwnych odgłosów {p=0.15}
Aby użyd reguły Bayesa potrzebujemy jeszcze prawd. a priori, że rozrusznik jest zły jeśli samochód nie chce zapalid. Załóżmy, że ekspert szacuje je na 5%.
Wady reguły Bayesa
Z reguły Bayesa otrzymamy:
Jest to wartość dużo mniejsza niż wcześniej oszacowane przez eksperta prawd. = 0.7.
Wady reguły Bayesa
Skąd ta rozbieżnośd? Różne założenia eksperta podczas szacowania prawd. a priori oraz prawd. warunkowych.
p(H) = p(rozrusznik jest zepsuty)
p(H|E) = p(rozrusznik jest zepsuty | są dziwne odgłosy) p(E|H) = p(są dziwne odgłosy | rozrusznik jest zepsuty) p(E|~H) = p(są dziwne odgłosy|rozrusznik jest dobry)
Wady reguły Bayesa
Skąd ta rozbieżnośd? Różne założenia eksperta podczas szacowania prawd. a priori oraz prawd. warunkowych.
Jest to dużo większa wartość niż 0.05 podana wcześniej przez eksperta.
Klasyfikator bayesowski
• Naturalnym sposobem konstrukcji klasyfikatora jest oparcie się na rozkładach prawdopodobieostwa obserwacji w
klasach.
• Załóżmy, że rozkład obserwacji x z klasy k, k=1,..,g, jest dany dyskretnym rozkładem prawdopodobieostwa lub gęstością prawdopodobieostwa p(x|k)
• Prawdopodobieostwo a priori, że obserwacja pochodzi z klasy k wynosi πk , k = 1,…,g (np. oszacowane na podstawie
procentu ludzi cierpiących na daną chorobę i nie cierpiących na nią)
Klasyfikator bayesowski
• Na podstawie twierdzenia Bayesa, prawdopodobieostwo a
posteriori, że obserwacja x pochodzi z klasy k, wynosi
g r r kr
x
p
k
x
p
x
k
p
1)
|
(
)
|
(
)
|
(
Klasyfikator bayesowski
• Załóżmy, że znamy prawdopodobieostwa πk oraz rozkłady p(x|k) .
• KLASYFIKATOR BAYESOWSKI (reguła Bayesa) Zaobserwowany wektor x klasyfikujemy jako
pochodzący z tej klasy k, dla której wartośd
jest największa.
g r r k r x p k x p x k p 1 ) | ( ) | ( ) | ( Klasyfikator bayesowski
• Równoważnie możemy wybrad tę klasę, dla której wartośd
jest największa
• W praktyce rozkłady te są szacowane na podstawie próby uczącej.
)
|
(
x
k
p
k
Klasyfikator bayesowski
π1 = 1/3
π2 = 1/3
Klasyfikator bayesowski
π1 = 1/4
π2 = 1/2
Klasyfikator bayesowski
• Przykład:
– Dwie klasy g = 2
– Wielowymiarowy rozkład normalny
– Gęstości obserwacji w klasach mają taką samą macierz kowariancji Σ ) ( ) ( 2 1 exp | | ) 2 ( 1 ) | (x k p/2 1/2 x mk T 1 x mk p
Klasyfikator bayesowski
• Szukanie maksimum p(x|k) można zastąpid
szukaniem maksimum logarytmu naturalnego:
• Biorąc pod uwagę postad gęstości normalnej zadanie sprowadza się do znalezienia
maksimum względem k wielkości
) | ( ln ln ) | ( lnk p x k k p x k k od niezalezna stala m x m x k )T ( k ) ln k _ _ _ ( 2 1 1
Klasyfikator bayesowski
• Po przekształceniu otrzymujemy funkcje dyskryminacyjne postaci:
• Warto zauważyd, że są one liniowe
• Jeżeli prawdopodobieostwa a priori są równe (π1 = π2 ) i jeżeli macierz Σ zastąpid macierzą próbkową oraz wektory wartości oczekiwanych próbkowymi wartościami średnimi, to otrzymana
granica decyzyjna jest równoważna tej otrzymanej z liniowej analizy dyskryminacyjnej Fishera (LDA – Linear Discriminant Analysis)
k k T k k T k x x m m m
ln 2 1 ) ( 1 1 Klasyfikator bayesowski
• Przy założeniu w klasach rozkładów normalnych, ale o różnych macierzach kowariancji, otrzymujemy kwadratowe powierzchnie rozdzielające klasy
)}
(
)
(
:
{
x
kx
lx
Klasyfikator bayesowski
• Jeśli prawdopodobieostwa a priori są równe lub są pomijane, wtedy reguła bayesowska jest
równoważna maksymalizacji względem k wartości prawdopodobieostw
• Takie zadanie klasyfikacji nazywamy
dyskryminacją metodą największej wiarygodności (NW)
)
|
(
x
k
Klasyfikator bayesowski
• Jeśli:
– Obserwacje pochodzą z rozkładów normalnych – Takie same macierze kowariancji
– Równośd π1 = π2 = … = πg
Wtedy reguła Bayesa jest równoważna następującej:
Zaklasyfikuj obserwację x do tej klasy k, dla której kwadrat odległości Mahalanobisa
osiąga wartośd minimalną.
) (
)
Optymalnośd reguły Bayesa
Klasyfikator d:
wygodnie przedstawid jako wektor (c1, c2, …, cg),
na który składa się g funkcji wskaźnikowych
}
,...,
2
,
1
{
:
X
g
d
k
x
d
gdy
k
x
d
gdy
x
c
k)
(
0
)
(
1
)
(
Optymalnośd reguły Bayesa
• Chcemy wiedzied, na ile dobry jest dany
klasyfikator, czy istnieje inny, lepszy od niego. • Punktem wyjścia jest wprowadzenie pojęcia
funkcji straty związanej z zaklasyfikowaniem obserwacji z klasy i do klasy j :
j
i
gdy
j
i
gdy
j
i
L
1
0
)
,
(
Optymalnośd reguły Bayesa
• Funkcja ta implikuje zerowy koszt podjęcia
dobrej decyzji oraz jednostkowy koszt błędnej decyzji.
• Błędna decyzja nie zawsze musi byd tak samo oceniana
(np. koszt błędnej diagnozy lekarskiej jest inny jeśli lekarz zdiagnozuje chorobę, której pacjent nie ma, a inny, jeśli nie wykryje choroby, którą pacjent ma)
j
i
gdy
j
i
gdy
j
i
L
1
0
)
,
(
Optymalnośd reguły Bayesa
• Ryzyko klasyfikatora d :
R(d,k) – oczekiwany koszt, gdy prawdziwą klasą
jest klasa k (oczekiwana wartośd funkcji straty przy założeniu prawdziwości klasy k )
[ ( , ( )) | ] ) , (d k E L k d x klasa k R x ] | ) ( [ ] | ) ( [ ) , ( 1 k klasa k x d P k klasa r x d P r k L g r
Optymalnośd reguły Bayesa
• Ryzyko całkowite (bayesowskie) klasyfikatora
d :
Otrzymujemy je uznawszy także klasę obserwacji (a nie tylko wartośd tej obserwacji) za losową.
g k k k R d k P d x k klasa k E d R 1 ] | ) ( [ )] , ( [ ) ( Optymalnośd reguły Bayesa
• Statystyczna teoria decyzji każe szukad klasyfikatorów i estymatorów
minimalizujących odpowiednio określone
ryzyko całkowite będące wartością oczekiwaną przyjętej funkcji straty.
Optymalnośd reguły Bayesa
Twierdzenie
Reguła Bayesa
minimalizuje ryzyko całkowite
g k k k R d k P d x k klasa k E d R 1 ] | ) ( [ )] , ( [ ) ( ) | ( max ) | ( 0 ) | ( max ) | ( 1 ) ( * k x p i x p gdy k x p i x p gdy x c k k i k k i i Optymalnośd reguły Bayesa
Funkcja straty II
decyzji
brak
j
gdy
b
j
i
gdy
j
i
gdy
j
i
L
_
1
0
)
,
(
)
1
,
0
(
b
Optymalnośd reguły Bayesa
Uogólnienie reguły Bayesa
Twierdzenie: Tak uogólniona reguła Bayesa,
uwzględniająca możliwośd braku decyzji,
minimalizuje ryzyko całkowite przy funkcji straty II. b x l p gdy decyzji brak b x l p x k p gdy k x d G l G l 1 ) | ( max _ 1 ) | ( max ) | ( ) (
Optymalnośd reguły Bayesa
Funkcja straty III
decyzji
brak
j
gdy
b
j
i
gdy
l
j
i
gdy
j
i
L
ij_
0
)
,
(
)
1
,
0
(
b
Optymalnośd reguły Bayesa
Uogólnienie (kolejne) reguły Bayesa
Twierdzenie: Tak uogólniona reguła Bayesa,
uwzględniająca możliwośd braku decyzji,
minimalizuje ryzyko całkowite przy funkcji straty III.
b x i p l i L gdy decyzji brak b x i p l i L x i p k i L gdy k x d g i G l g i G l g i 1 1 1 ) | ( ) , ( min _ ) | ( ) , ( min ) | ( ) , ( ) (Optymalnośd reguły Bayesa
• Jeśli rozkłady są znane to problem klasyfikacji jest rozwiązany.
• W praktyce rozkłady są szacowane na
podstawie danych uczących i niekoniecznie dostatecznie dobrze przybliżają prawdziwy rozkład – stąd otrzymany klasyfikator nie jest optymalny.
Klasyfikator bayesowski
Przykład
Jeżeli rozkłady πk nie są znane, ale próba ucząca jest reprezentatywna, wtedy rozkłady te
szacujemy jako równe stosunkowi liczności podpróbki elementów k-tej klasy, nk, do
liczności całej próbki uczącej, n=n1+n2+…+ng.
n nk
k
Klasyfikator bayesowski
• Jeśli zakładamy, że macierze kowariancji w klasach są identyczne, za estymator tej
macierzy można przyjąd macierze kowariancji wewnątrzgrupowej W:
g k T k ki n i k ki m x m x g n W k 1 1 ) ˆ ( ) ˆ ( 1 ˆKlasyfikator bayesowski
• Jeśli zakładamy, że macierze kowariancji w klasach są różne, za estymator tych macierzy w każdej z klas można przyjąd macierze
próbkowe Sk:
nk l T k kl k kl k k kx
m
x
m
n
S
1)
ˆ
)(
ˆ
(
1
1
ˆ
Klasyfikator bayesowski
• Uwaga!
Jeśli próba ucząca nie jest wystarczająco liczna estymatory mogą byd niedokładne.
Możemy otrzymad estymatory o dużej wariancji, chod nieobciążone, czyli nieprecyzyjne lub
Klasyfikator bayesowski
• Był to przykład estymacji parametrycznej
gęstości prawdopodobieostwa – zakładana
była znana postad rozkładu (np. normalny) lecz nieznane były jego parametry
• Innym przypadkiem są metody estymacji
nieparametrycznej, w których nie zakłada się
żadnej postaci funkcji gęstości rozkładu, a jedynie to, że jest to funkcja odpowiednio gładka, np. ma pochodne trzeciego rzędu. Przykładem są estymatory jądrowe.
Klasyfikator bayesowski
Przypadek estymacji parametrycznego rozkładu normalnego można uogólnid na estymację danego rozkładu za pomocą mieszaniny rozkładów normalnych o znanej liczbie
rozkładów składowych (liczba ta w praktyce jest dobierana eksperymentalnie).
Np. dla k-tej klasy mamy mieszaninę sk rozkładów normalnych, gdzie pkr to tzw. współczynniki mieszania
sk r kr kr krx
m
p
k
x
p
1)
,
;
(
)
|
(
Klasyfikator bayesowski
Mieszaniny tego typu są modelami bardzo ogólnymi mogącymi oddad kształt dowolnej gęstości.
Można udowodnid, że dla każdej ciągłej i ograniczonej gęstości istnieje mieszanina gęstości normalnych przybliżająca tę
gęstośd z dowolnie dużą dokładnością.
W celu oszacowania wartości parametrów stosuje się
algorytm EM (ang. Expectation Maximization) – estymacja największej wiarygodności.
Klasyfikator bayesowski
Naiwny Klasyfikator Bayesa
Naiwny klasyfikator Bayesa zakłada, że wartości
poszczególnych atrybutów są od siebie warunkowo
(względem kategorii) niezależne, czyli zachodzi następująca równośd: ( ) ... ( ) | ( ) ) ) ( (a1 x v1 a2 x v2 a x v d x k p n n
n i i i i i n i a x v d x k p a x v d x k p 1 1 ( ) | ( ) ) ( ( ) | ( ) ) (Wybór i ocena klasyfikatora
• Dysponując kilkoma klasyfikatorami bayesowskimi lub innymi musimy je porównad i wybrad najlepszy z nich. • Naturalnym sposobem wyboru jest przeanalizowanie
prawdopodobieostw dokonania przez klasyfikatory błędnej klasyfikacji nowej, losowej obserwacji.
• Prawdopodobieostwo błędnej klasyfikacji jest równe
oczekiwanemu ułamkowi błędnych klasyfikacji i jest równe ryzyku całkowitemu klasyfikatora przy zero-jedynkowej
Wybór i ocena klasyfikatora
• Prawdopodobieostwo to szacujemy eksperymentalnie
Dane, którymi dysponujemy = Dane uczące + Dane walidacyjne + Dane testowe
Wybór i ocena klasyfikatora
• Dane uczące służą do stworzenia klasyfikatorów
• Dane walidacyjne służą do wybrania spośród wszystkich klasyfikatorów tego, który ma najmniejszy błąd na tym zbiorze danych walidacyjnych
• Dane testowe służą do ostatecznego oszacowania błędu wybranego klasyfikatora
Aby takie oszacowanie były wiarygodne, próby te muszą byd od siebie niezależne.
Wybór i ocena klasyfikatora
Przykład:
Jeśli do oszacowania błędu klasyfikatora wykorzystamy ten sam zbiór uczący, to
oszacowanie będzie obciążone, tzn. w tym przypadku systematycznie zaniżone (zbyt optymistyczny poziom błędu).
Estymator jest nieobciążony, jeśli wartośd
oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru.
Wybór i ocena klasyfikatora
• Wydzielenie próby walidacyjnej nie jest potrzebne, jeśli trenujemy jedynie jeden klasyfikator.
• Próba walidacyjna może byd użyta w momencie podejmowania decyzji o
zakooczeniu nauki np. sieci neuronowej. Jeśli błąd przestaje się zmniejszad na próbie
Wybór i ocena klasyfikatora
• Proporcje podziału dostępnych danych na uczące, walidacyjne i testowe:
np.
50% + 25% + 25% lub
Wybór i ocena klasyfikatora
Czasami (np. jeśli próba jest zbyt mała) nie
można sobie pozwolid na podział danych na trzy części.
Należy wtedy wielokrotnie wykorzystad zbiór uczący, lecz w odpowiedni sposób, tak by
Wybór i ocena klasyfikatora
KROSWALIDACJA (sprawdzanie krzyżowe)
• Próba ucząca zostaje podzielona na K (np. 5) możliwie równych części (K-krotna kroswalidacja).
• Tworzy się K różnych pseudoprób poprzez usuwanie z próby oryginalnej kolejno części 1,…,K
• Klasyfikator jest konstruowany K-krotnie, za każdym razem na podstawie innej pseudopróby
• Każda wersja klasyfikatora jest oceniana przez sprawdzenie liczby błędnych klasyfikacji na tej części oryginalnych danych, która nie weszła do pseudopróby uczącej tego klasyfikatora
Wybór i ocena klasyfikatora
KROSWALIDACJA (sprawdzanie krzyżowe)
• Sumaryczna liczba błędów klasyfikacji dla wszystkich K wersji
klasyfikatora podzielona przez licznośd oryginalnej próby uczącej, daje kroswalidacyjne oszacowanie prawdopodobieostwa dokonania błędnej klasyfikacji przez dany klasyfikator (dany typ klasyfikatora np. sied neuronową o zadanej liczbie warstw i neuronów).
Wybór i ocena klasyfikatora
• Kroswalidacja jest kosztowna obliczeniowo.
• Po wybraniu klasyfikatora metodą kroswalidacji, konstruuje się go raz jeszcze ale tym razem na podstawie całej próby uczącej.
• Zwykle przyjmuje się K równe 5 lub 10.
• Jeśli przyjmiemy n-krotną kroswalidację (n – rozmiar danych) to mówimy o metodzie leave-one-out
cross-validation – każda pseudopróba powstaje przez usunięcie
Wybór i ocena klasyfikatora
• Powstałe oszacowanie kroswalidacyjne jest „prawie”
nieobciążone – tzn. jest nieobciążone, ale dla klasyfikatora powstałego na podstawie próby o liczności mniejszej niż interesująca nas licznośd n. (Obciążenie to jest najmniejsze dla kroswalidacji n-krotnej.)
• Można wykazad, że jest to jednocześnie estymator o największej wariancji
Wybór i ocena klasyfikatora
• Wymaganie jednoczesnej minimalizacji
obciążenia oraz wariancji jest niemożliwe do spełnienia.
Wybór i ocena klasyfikatora
Metoda BOOTSTRAP
• Jest to inna metoda wielokrotnego wykorzystania
elementów tej samej próby uczącej do konstrukcji wielu wersji tego samego klasyfikatora
• Polega na dokonaniu wielokrotnego repróbkowania elementów z tej samej oryginalnej próby uczącej
• Repróbkowanie oznacza losowanie ze zwracaniem z oryginalnej próby uczącej (o liczności n).
Wybór i ocena klasyfikatora
Metoda BOOTSTRAP
• Średnio 1/3 (dokładniej 0.368) próby oryginalnej nie zostanie wylosowana do danej pseudopróby
(1 – 1/n)n to w przybliżeniu e-1 = 0.368
• Na podstawie kolejnych n-elementowych pseudoprób konstruuje się kolejne wersje klasyfikatora
• Dla każdego elementu oryginalnej próby uczącej oblicza się ułamek błędnych zaklasyfikowao tego elementu przez te wersje klasyfikatora, w których budowie nie brał udziału ów element
Wybór i ocena klasyfikatora
Metoda BOOTSTRAP
• Oblicza się średnią wartośd ułamków otrzymanych dla wszystkich n elementów oryginalnej próby uczącej. • Ta średnia wartośd jest przybliżeniem szukanego
estymatora prawdopodobieostwa błędnego zaklasyfikowania nowej obserwacji.
Oznaczenie: errorboot
Wybór i ocena klasyfikatora
Metoda BOOTSTRAP
• Estymator ten jest zbyt pesymistyczny – jego obciążenie systematycznie zawyża otrzymywane oszacowanie
Wybór i ocena klasyfikatora
KOREKCJA
• Konstruujemy kolejny estymator oparty na uśrednieniu ułamka
błędnych klasyfikacji otrzymanych dla wszystkich (bootstrapowych) wersji danego klasyfikatora, gdy dla każdej wersji jej zdolnośd
poprawnej klasyfikacji sprawdzana jest na wszystkich elementach oryginalnej próby uczącej.
• Jest to estymator zbyt optymistyczny – jego obciążenie jest ujemne. Oznaczenie:
Wybór i ocena klasyfikatora
• Ostatecznie można stworzyd estymator postaci:
0.632 errorboot + 0.368 errorboot-opt
Estymator ten jest zwany
Wybór i ocena klasyfikatora
Ocena klasyfikatora przez powtórne
podstawienie ma sens jeśli metoda
dyskryminacji z góry zakłada prostą (np. liniową) postad hiperpowierzchni
dyskryminacyjnej, dając pewnośd, że nie powstanie nadmierne dopasowanie się tej hiperpowierzchni do losowej próby uczącej.
Wybór i ocena klasyfikatora
• Wszystkie powyższe uwagi odnoszą się do sytuacji, gdy rozkłady danych w klasach nie są znane.
• Jeśli rozkłady są znane (z dokładnością do pewnej liczby nieznanych parametrów) problem sprowadza się do
estymacji tych rozkładów i zastosowania dyskryminacji bayesowskiej.
• Jednak czasami warto nieznane parametry rozkładów szacowad z wykorzystaniem opisanych metod.
Przykład – testy medyczne
• Koszt błędnej klasyfikacji czasami zależy od tego, do jakiej klasy naprawdę należy dana obserwacja.
• Tak jest w przypadku diagnozowania chorób.
– Test diagnostyczny daje wynik dodatni
(pozytywny) – choroba jest zdiagnozowana – Test diagnostyczny daje wynik ujemny
Przykład – testy medyczne
• Lepiej jest fałszywie wykryd nieistniejącą chorobę niż błędnie zdiagnozowad brak choroby.
• Test diagnostyczny jest w tym przypadku rodzajem klasyfikatora w problemie
Przykład – testy medyczne
Osoba klasyfikowana jako zdrowa
Osoba klasyfikowana jako chora
Osoba zdrowa TN FP Osoba chora FN TP
TN – true negatives – liczba przypadków, w których test dał poprawnie wyniki
ujemny
TP – true positives - liczba przypadków, w których test dał poprawnie wyniki
dodatni
FP – false positives - liczba przypadków, w których test dał niepoprawnie wyniki
dodatni
FN – false negatives - liczba przypadków, w których test dał niepoprawnie wyniki
Przykład – testy medyczne
Osoba klasyfikowana jako zdrowa
Osoba klasyfikowana jako chora
Osoba zdrowa 176 24 Osoba chora 3 97
TN – true negatives – liczba przypadków, w których test dał poprawnie wyniki
ujemny
TP – true positives - liczba przypadków, w których test dał poprawnie wyniki
dodatni
FP – false positives - liczba przypadków, w których test dał niepoprawnie wyniki
dodatni
FN – false negatives - liczba przypadków, w których test dał niepoprawnie wyniki
Przykład – testy medyczne
Osoba klasyfikowana jako zdrowa
Osoba klasyfikowana jako chora
Osoba zdrowa 176 24 Osoba chora 3 97
Oszacowanie prawdopodobieostwa błędnej klasyfikacji:
TP
FN
FP
TN
FN
FP
Przykład – testy medyczne
To oszacowanie odnosi się do sumy błędów, a nie oddzielnie do każdego z dwóch typów błędów.
Dlatego wprowadza się pojęcia czułości i specyficzności testu.
FN
TP
TP
FP
TN
FP
FP
TN
TN
1
Czułośd – oszacowanie prawdopodobieostwa
przewidzenia przez test choroby po warunkiem, że pacjent jest na nią chory.
Specyficznośd – oszacowanie
prawdopodobieostwa przewidzenia przez test braku choroby po
warunkiem, że pacjent jest zdrowy.
1 - Specyficznośd – oszacowanie prawdopodobieostwa błędu przewidzenia przez
Przykład – testy medyczne
• Podobna sytuacja ma miejsce gdy klasyfikator ma za zadanie stwierdzid, czy dany moduł
urządzenia działa poprawnie, czy też nie. • Chcemy by klasyfikator był czuły a
jednocześnie nie wywoływał fałszywych alarmów (duża specyficznośd)
• Podobnie jest w problemie uznawania
Czułośd a specyficznośd
• Czułośd i specyficznośd są wymaganiami przeciwstawnymi - zwiększenie jednego prowadzi do zmniejszenia drugiego. • Dlatego często konstruuje się nie jeden klasyfikator, ale
wiele klasyfikatorów, z których każdy odpowiada innej parze kosztów błędnej klasyfikacji
• Następnie, na podstawie analizy czułości i specyficzności, wybieramy spośród nich klasyfikator zapewniający
Przykład – testy medyczne
Przykład
• W danym problemie z dwoma klasami porównamy dwie rodziny klasyfikatorów bayesowskich. Np. zakładamy rozkład normalny, ale w pierwszym przypadku zakładamy równośd macierzy kowariancji w obu klasach, w drugim przypadku nie ma tego założenia.
• Oznaczamy:
– 1 – klasa osób zdrowych – 2 – klasa osób chorych
Przykład – testy medyczne
Przykład
• Zakładamy
– l21 – koszt błędu stały równy 1
– l12 > 0 – koszt błędu zmienny w celu porównania czułości i specyficzności
Zmieniając wartośd kosztu l12, otrzymujemy rodzinę klasyfikatorów wybranego typu.
Przykład – testy medyczne
Przykład
• W przypadku dwóch klas klasyfikator bayesowski klasyfikuje obserwację x do klasy 2, gdy
czyli gdy
))
|
2
(
1
(
)
|
2
(
12 21p
x
l
p
x
l
21 12 12)
|
2
(
l
l
l
x
p
Przykład – testy medyczne
• Bliski zera koszt l12 sprawia, że obserwacje są klasyfikowane do klasy 2 już dla bliskich zera wartości prawdopodobieostwa p(2|x).
• Taki klasyfikator jest bardzo czuły, jednak jego specyficznośd musi byd bliska zeru.
Przykład – testy medyczne
• Sumarycznej informacji o zachowaniu się danego typu klasyfikatora przy zmiennych kosztach błędnych decyzji daje krzywa
operacyjno-charakterystyczna odbiornika (krzywa ROC – ang. receiver operating
characteristic curve)
• Krzywa ROC to miejsce geometryczne
punktów na płaszczyźnie o współrzędnych
Przykład – testy medyczne
Który typ klasyfikatora jest lepszy (czerwony czy
Przykład – testy medyczne
Który typ klasyfikatora jest lepszy (czerwony czy
zielony)?
Typ klasyfikatora czerwony jest lepszy w tym sensie, że podczas zwiększania
specyficzności, czułośd dłużej utrzymuje się na wysokim poziomie.
Przykład – testy medyczne
Sytuacja idealna – czułośd 1 dla
Przykład – testy medyczne
AUC – Area under Curve
Pole powierzchni pod krzywą ROC może służyc jako kryterium do porównania typów klasyfikatorów (ich rodzin), bez ustalania wartości pewnych ich parametrów.
- Preferowane są klasyfikatory o jak największym AUC
- Maksymalna wartośd AUC to 1 (klasyfikator idealny: maksymalna czułośd i zero fałszywych alarmów)
- Wartośd AUC poniżej 0.5 wskazuje na bardzo słaby klasyfikator (dany typ klasyfikatora nie radzi sobie z problemem). Lepsze wyniki dostajemy wtedy “odwracając” decyzje tego klasyfikatora, wtedy, jeśli AUC < 0.5 to