• Nie Znaleziono Wyników

Podstawy teorii uczenia Podstawy teorii uczenia

N/A
N/A
Protected

Academic year: 2021

Share "Podstawy teorii uczenia Podstawy teorii uczenia"

Copied!
25
0
0

Pełen tekst

(1)

Podstawy teorii uczenia Podstawy teorii uczenia

Wykład 4

Włodzisław Duch

Katedra Informatyki Stosowanej UMK Google: W. Duch

(2)

Co było Co było

Najprostsze rozproszone pamięci skojarzeniowe.

•BCM, Binarna Pamięć Skojarzeniowa;

•CMM, macierze korelacji, zastosowania do słowników;

•BAM, dwukierunkowa progowa pamięć asocjacyjna.

(3)

Co będzie Co będzie

Prawdopodobieństwa

Uczenie Bayesowskie

(4)

Uczenie Uczenie Uczenie Uczenie

Chcemy się czegoś nauczyć o strukturze danych, stworzyć model, który potrafi ją analizować.

W nauce i zastosowaniach technicznych tworzy się modele

parametryczne zjawisk. Są łatwe w interpretacji, ale wymagają teorii i można je zrobić tyko w stosunkowo prostych przypadkach.

Np. prawa fizyki opierają się na takich modelach.

Empiryczne modelowanie nieparametryczne nie zakłada żadnego modelu, tylko dopasowuje się do danych.

Takie modele dominują w biologii. Uczymy się z danych!

Mając przykłady = dane treningowe, tworzymy model danych

odpowiadający na specyficzne pytania, oceniając te cechy danych, które mogą się przydać do przyszłych ocen.

Uczenie = ocena parametrów; paradoksalnie model nieparametryczny ma dużo parametrów, ale nie mających bezpośredniej interpretacji.

(5)

Obiekty w przestrzeni cech Obiekty w przestrzeni cech

Opis matematyczny reprezentuje obiekty O przy pomocy

pomiarów, jakie na nich przeprowadzono, podając wartości cech {Oi} => X(Oi), gdzie Xj(Oi) jest wartością j-tej cechy opisującej Oi

Atrybut i cecha są często traktowane jako synonimy, chociaż ściśle ujmując “wiek” jest atrybutem a “młody” cechą, wartością.

Typy atrybutów:

kategoryczne: symboliczne, dyskretne – mogą mieć charakter nominalny (nieuporządkowany), np. “słodki, kwaśny, gorzki”, albo porządkowy, np. kolory w widmie światła,

albo: mały < średni < duży (drink).

ciągłe: wartości numeryczne, np. wiek.

x2

x1

x3 x(O)

Wektor cech X =(x1,x2,x3 ... xd),

o d-składowych wskazuje na punkt w przestrzeni cech.

(6)

Prawdopodobieństwo Prawdopodobieństwo Prawdopodobieństwo Prawdopodobieństwo

Przewidywaniom można przypisać prawdopodobieństwo.

Próbkom X przypisać można K kategorii (klas) C1 ... CK

Ogólnie Ci jest stanem którego prawdopodobieństwo chcemy ocenić.

Pk = P(Ck), a priori (bezwarunkowe) prawd. zaobserwowania X Ck

1

1; ( )

K

k

k k

k

P P N C

N

Jeśli nic innego nie wiemy to njabardziej prawdopodobna klasa X to klasa większościowa:

; arg max

m k k

C m P

X

Klasyfikator większościowy: przypisuje X do klasy większościowej.

Np: prognoza pogody – jutro taka sama jak dzisiaj (zwykle działa).

(7)

Rodzaje prawdopodobieństwa Rodzaje prawdopodobieństwa

Tablica współwystępowania klasa-cecha: P(C,ri)=N(C,ri)/N

N(C, ri) = macierz,

rzędy = klasy, kolumny = cechy ri P(C, ri) – prawdopodobieństwo

łączne, P obserwacji obiektu z klasy

C dla którego cecha xri

1 1 1 2 1 3

2 1 2 2 2 3

3 1 3 2 3 3

4 1 4 2 4 3

5 1 5 2 5 3

, , ,

, , ,

, , ,

, , ,

, , ,

P C r P C r P C r P C r P C r P C r P C r P C r P C r P C r P C r P C r P C r P C r P C r

P(C) to prawd. a priori pojawienia się obiektów z danej klasy, przed wykonaniem pomiarów i określeniem, że xri ma jakąś wartość.

To suma w danym rzędzie: , i  

i

P C x r P C

P(xri) to prawd że znajdujemy jakąś obserwację dla które cecha xri

czyli suma dla danej kolumny. j, i i

j

P C x r P x r

(8)

Prawdopodobieństwa warunkowe Prawdopodobieństwa warunkowe

Jeśli znana jest klasa C (rodzaj obiektu) to jakie jest prawdopodobieństwo że ma on własność xri ?

P(xri|C) oznacza warunkowe prawdopodobieństwo, że znając klasę C cecha x będzie leżała w przedziale ri.

Suma po wszystkich wartościach cech daje 1:

, i   

i

P C x r  P C

i | , i   /

P x r C P C x r P C

PC(x)=P(x|C) rozkład prawd. warunkowego to po prostu przeskalowane prawdopodobieństwo łączne, trzeba podzielić P(C,x)/P(C)

i | 1

i

P x r C

dla łącznego

prawdopodobieństwa Dlatego mamy:

(9)

Reguły sumowania Reguły sumowania

Relacje probabilistyczne wynikają z prostych reguł sumowania!

Macierz rozkładu łącznych prawdopodobieństw: P(C, x) dla

dyskretnych wartości obserwacji x, liczymy ile razy

zaobserwowano łącznie N(C,x), skalujemy tak by prawdop.

sumowało się do 1, czyli P(C, x) = N(C,x)/N

 

1

1

, ;

| 1;

n

i i

n

i i

P C P C x

P x C

Rząd macierzy P(C, x) sumuje się do:

dlatego P(x|C)=P(C, x)/P(C)

sumuje się do

Kolumna macierzy P(C, x) sumuje się do:

dlatego P(C|x)=P(C, x)/P(x) sumuje się do

 

, ;

| 1;

i i

C

i C

P x P C x

P C x

(10)

Twierdzenie

Twierdzenie BayesBayesaa

Formuła Bayesa pozwala na obliczenie prawdopodobieństwa

a posteriori P(C|x) (czyli po dokonaniu obserwacji) znając łatwy do zmierzenia rozkład warunkowy P(x|C).

Sumują się do 1 bo wiemy, że jeśli obserwujemy xi to musi to być jedna z

C klas, jak też wiemy, że jeśli obiekt jest z klasy C to x musi mieć jedną z wartości xi

Obydwa prawdopodobieństwa są wynikiem podzielenia P(C,xi).

Formułka Bayesa jest więc oczywista.

Inaczej: H=hipoteza, E=obserwacja

 

 

 

 

1;

1

| | 1;

| , /

| , /

C

i i

i

i C

i i

i i i

P C P x

P x C P C x P x C P C x P C P C x P C x P x

| i   i i |   

P C x P x P x C P C

|   

| ( )

P E H P H P H E

P E

(11)

Przykład: ryby Przykład: ryby

Chapter 1.2, Pattern Classification (2nd ed)

by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 Automatyzacja sortowania dwóch gatunków ryb, łososia i suma

morskiego, które przesuwają się na pasie sortownika.

Czujniki oceniają różne cechy: długość, jasność, szerokość, liczbę płetw Patrzymy na histogramy.

Wybieramy liczbę przedziałów, np. n=20 (dyskretne dane)

obliczamy szerokość przedziału =(xmaxxmin)/n,

obliczamy N(C,ri) = #sztuk C  {łosoś, sum} w każdym przedziale

ri = [xmin+(i-1), xmin+ii=1...n

prawdopodobieństwo łączne P(C,ri)=N(C,ri)/N, gdzie N = liczba ryb Łączne prawdopodobieństwo P(C,ri) = P(ri|C)P(C)

(12)

Histogramy Histogramy

Rozkład liczby ryb w dwóch wymiarach w 20 przedziałach:l długość i jasność. Zaznaczono optymalne progi podziału.

P(ri|C) przybliża rozkład prawdopodobieństwa dla klasy P(x|C).

Możemy go dokładnie obliczyć tylko w granicy nieskończenie wielu przykładów i podziału na nieskończenie wiele przedziałów.

W praktyce zawsze dzielimy na niewielką liczbę przedziałów.

(13)

Przykłady histogramów Przykłady histogramów

Histogramy w 2D: użyteczne ale mogą być trudne do analizy.

SigmaPlot, Origin, pakiety statystyczne np. SPSS je pokazują.

Wyniki zależą od dyskretyzacji ciągłych wartości

http://www.shodor.org/interactivate/activities/Histogram/

Różne aplety tworzące wykresy mają zastosowanie w biznesie http://www.quadbase.com/espresschart/help/examples/

http://www.stat.berkeley.edu/~stark/SticiGui/index.htm Histogramy w kamerach i aparatach cyfrowych:

(14)

Histogramy 2D w bioinformatyce Histogramy 2D w bioinformatyce

Popularna prezentacja: dwie zmienne nominalne (geny, próbki) vs.

zmienna ciągła (aktywność) znormalizowana do [-1,+1].

Ekspresja genów dla 16 typów w komórek typu B; kolor zastępuje wysokość słupka histogramu.

Intensywność = -1 =>

hamowana, jasnozielony

Intensywność = 0 => normalna, czarny

Intensywność =+1 => wysoka, jasnoczerwony

Aktywność genu(nazwa genu, typ komórek)

(15)

Prawdopodobieństwo warunkowe Prawdopodobieństwo warunkowe

Przewidywania nie mogą być gorsze niż klasyfikator większościowy!

Zwykle możemy określić prawdopodobieństwo warunkowe, mając dane X Ck jaka jest najbardziej prawdopodobna klasa?

  |

k k

P X P X C

Łączne prawdopodobieństwo X dla k

Czy znajomość prawd. warunkowych wystarczy do przewidywań?

Nie! Ważne jest prawd. posterioryczne:

, k | k   k

P X C P X C P C

k | , k   /

P C X P X C P X Fig. 2.1, Duda, Hart, Stork,

Pattern Classification (Wiley).

(16)

Reguła

Reguła BayesBayesaa

Prawd. posterioryczne są unormowane:

Reguła Bayesa dla 2 klas wynika z prostej równości:

P(X) to bezwarunkowe prawdop.

wylosowania X; zwykle to 1/n, czyli jednakowe dla n probek.

Dla P1=2/3 i P2=1/3 robi się:

1

| 1

K

k k

P C

X

  

  

, |

|

i i

i i

P C P C P

P C P C

X X X

X

i | | i     i

P C X P X C P C P X

Fig. 2.2, Duda, Hart, Stork, Pattern Classification (Wiley).

(17)

Decyzje

Decyzje BayesBayesowskieowskie Decyzje

Decyzje BayesBayesowskieowskie

Decyzja Bayesa: mając próbkę X wybierz klasę 1 jeśli:

Prawdopodobieństwo błędu:

Średni błąd:

1 | 2 |

P C X P C X

| min 1 |  , 2 |

P X P C X P C X

  | |   

P E P P P d



X X X X

Regułą Bayesa minimalizuje średni błąd P(|X)

Używając reguły Bayesa mnożymy obie strony przez P(X):

| 1  1 | 2   2

P X C P C P X C P C

(18)

Szansa (

Szansa (LikelihoodLikelihood)) Szansa (

Szansa (LikelihoodLikelihood))

Dane używane są do ocen prawdopodobieństwa.

Bayesowskie decyzje można powiązać z ilorazem szans:

Przy jednakowych prawd. a priori decydują prawdop. warunkowe.

Całkowity błąd przewidywań na skończonej bazie próbek:

  |

P P

X

X

Założenie: P(X) daje się ocenić z częstości występowania X.

     

 

 

 

1 1 2 2

1 2

2 1

| |

|

|

P C P C P C P C

P C P C

P C P C

X X

X X

X

Fig. 2.3, Duda, Hart, Stork, Pattern Classification (Wiley).

(19)

Regiony decyzji w

Regiony decyzji w 2D 2D Regiony decyzji w

Regiony decyzji w 2D 2D

Gaussowskie rozkłady prawd warunkowych dla obu pomiarów (długość, jasność):

Regiony decyzji w 2D są hiperboliczne, regiony w R2 są rozłączne.

Elipsy pokazują stałe wartości Pk(X).

Fig. 2.6, Duda, Hart, Stork, Pattern Classification.

(20)

Kwiatki Kwiatki

Mamy dwa rodzaje Irysów:

Irys Setosa oraz Irys Virginica

Długość liści określamy w dwóch przedziałach, r1=[0,3] cm i r2=[3,6] cm.

Dla 100 kwiatów dostajemy następujące rozkłady (Setosa, Virginica):

36 4 ( , )

8 52 N C r

 

Prawdopodobieństwa łączne i warunkowe różnych kwiatów Irysów:

0.36 0.04 ( , )

0.08 0.52

P C r

 

Stąd

   

   

1 2

1 2

40, 60

44, 56

N C N C

N r N r

   

   

1 1

2 2

0.4; 0.44

0.6; 0.56

P C P r

P C P r

| ,   / 0.90 0.10 ; | 0.82 0.07

0.13 0.87 0.18 0.93

P r C P C r P C P C r

wiersze kolumny

(21)

Przykład Przykład Przykład Przykład

C1 to stan natury, choroba “denga”, a C2 to brak dengi, czyli zdrowie.

Załóżmy, że prawdopodobieństwo zachorowania to P(C1)=1/1000

Załóżmy, że test T ma dokładność 99%, czyli wynik dodatni dla chorego na dengę ma prawdopodobieństwo P(T=+| C1) = 0.99, a negatywny dla zdrowych ludzi to również P(T=| C2) = 0.99.

Jeśli test wypadł pozytywnie, jaka jest szansa, że masz dengę?

Jakie jest prawdopodobieństwo P(C1|T=+)?

P(T=+) = P(C1,T=+)+P(C2,T=+) = P(T=+|C1) P(C1)+P(T=|C2) P(C2)

= 0.99*0.001+0.01*0.999=0.011 P(C1|T=+)=P(T=+| C1)P(C1)/P(T=+)

= 0.99*0.001/0.011 = 0.09, or 9%

Kalkulator Baysowski jest tu: http://StatPages.org/bayes.html

(22)

Podsumowanie Podsumowanie Podsumowanie Podsumowanie

Chcemy prawd. posterioryczne:

Minimalizację błędów można robić na wiele sposobów:

Można wprowadzić koszty różnych typów błędów i minimalizować ryzyko używając Bayesowskich

procedur. Bezpośrednie oceny prawdopodobieństw dla X o więcej niż 2 wymiarach wymagają zbyt wielu danych, dlatego potrzebny jest model M() minimalizujący błędy.

  

 

| | i i

i

P C P C P C X P

X X

 

1 1

1 K ii; K i | i

i i

E P E P C K

  

X

X X

Likelihood x Prior



Evidence

gdzie Ki(X) = 1 dla X z klasy Ci, lub 0 dla innych klas.

(23)

Ocena modelu: dwa typy błędów Ocena modelu: dwa typy błędów Ocena modelu: dwa typy błędów Ocena modelu: dwa typy błędów

Macierz pomyłek (konfuzji)

prawda|przewidziane TP FN

FP TN

P P

P P P

 

 

 

Notacja często używana w aplikacjach medycznych:

P sukces, true positive (TP); PP ułamek TP do wszystkich P+;

P sukces, true negative (TN); PP ułamek TN do wszystkich P-

Dokładność = P + P = 1Błąd = 1 PP

P fałszywy alarm, false positive (FP); np. zdrowy uznany za chorego

P strata, false negative (FN); np. chory uznany za zdrowego.

(24)

Co dalej?

Co dalej?

• Samoorganizacja – uczenie bez nadzoru

• Mapowanie topograficzne i mózgi

• SOM – Samoorganizująca Się Mapa

• Growing Cell Structures

• Przykłady zastosowań

• Przykłady wizualizacji

• Samoorganizacja i mapy ekwiprobabilistyczne

• Uczenie konkurencyjne.

• Gaz neuronowy.

• Skalowanie wielowymiarowe i redukcja wymiarowości problemu.

(25)

Koniec wykładu 4 Koniec wykładu 4

Obraz

Fig. 2.2, Duda, Hart, Stork,  Pattern Classification (Wiley).
Fig. 2.3, Duda, Hart, Stork,  Pattern Classification (Wiley).
Fig. 2.6, Duda, Hart, Stork,  Pattern Classification.

Cytaty

Powiązane dokumenty

Przyjmować będziemy, że konfiguracją następną po końcowej jest ona sama oraz cod n (x) jest konfiguracją początkową (czyli ciąg x umieszczony jest w rejestrach o numerach 1,...

[r]

W dotychczasowych rozważaniach ograniczyliśmy się do jednorazo- wych przebiegów korelacyjnych. Obecnie przejdziemy do rozpatrzenia obiegów korelacyjnych, powstających,

• użyteczność krańcowa (marginal utility) – przyrost użyteczności całkowitej spowodowany wzrostem konsumpcji dobra o jednostkę.. • Realne wybory najczęściej

• – stałe efekty skali, gdy rozmiary produkcji powiększają się w takim samym tempie, jak nakłady czynników produkcji;. • – rosnące efekty skali, gdy procentowy

• – rosnące efekty skali, gdy procentowy wzrost rozmiarów produkcji jest większy od procentowego wzrostu nakładów czynników produkcji,. • – malejące

• użyteczność krańcowa (marginal utility) – przyrost użyteczności całkowitej spowodowany wzrostem konsumpcji dobra o jednostkę.. • Realne wybory najczęściej

Engineer III - Big Data/Machine Learning, Machine Learning Systems Engineer, Machine Learning Software Engineer - Client, Machine Learning Engineer- Data Science