2013-12-03 MajaCzoków,JarosławPiersa Wstępdosiecineuronowych,wykład09,Walidacjajakościuczenia.Metodystatystyczne.

(1)

Generalizacja Walidacja jakości uczenia Błędy klasyfikacji Przypadek ciągły

Wstęp do sieci neuronowych, wykład 09, Walidacja jakości uczenia. Metody statystyczne.

Maja Czoków, Jarosław Piersa

Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika

2013-12-03

Projekt pn. „Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych”

realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki

(2)

1 Generalizacja Przykład Generalizacja Przeuczenie sieci

2 Walidacja jakości uczenia Przypomnienie ze statystyki Problem

Modele walidacji danych

3 Błędy klasyfikacji Eksperyment myślowy

Błędy pierwszego i drugiego rodzaju

4 Przypadek ciągły Przypadek ciągły

Regresja liniowa — prosta

(3)

Przykład Generalizacja Przeuczenie sieci

Regresja liniowa — wielomian stopnia d

(4)

Przykład

Rozważmy problem XOR;

-1.5 -1 -0.5 0 0.5 1 1.5

(Poprawnie) nauczona sieć daje poprawną odpowiedź na wszystkich 4 przykładach, Tablica haszująca da ten sam efekt (bez zaawansowanej teorii i przy mniejszym koszcie pamięciowym), Ale co się stanie gdy zapytamy się o klasyfikację punktu (1.3, −0.5)?

(5)

Przykład

Co się stanie gdy zapytamy się o klasyfikację punktu (1.3, −0.5)?

Tablica haszująca: ObjectNotFoundException,

ArrayIndexOutOfBoundsException, Segmentation fault itp.

Sieć neuronowa: zwróci odpowiedź dla każdego z punktów na płaszczyźnie,

(6)

Wnioski

nie chcemy w zbiorze treningowym każdej możliwej wartości jaka może paść,

ale chcemy „reprezentatywną próbkę” przestrzeni o jaką sieć będzie pytana podczas normalnego działania,

(7)

Co to jest „reprezentatywna próbka”?

Co autor może mieć na myśli:

-1 -0.5 0 0.5 1 1.5 2

(8)

Co to jest „reprezentatywna próbka”?

Co sieć może z tego zrozumieć:

-0.5 0 0.5 1 1.5 2

(9)

Generalizacja

Generalizacja jest zdolnością sieci do porawnej klasyfikacji danych, na których sieć nie była uczona.

(10)

Generalizacja

Dane uczące:

-0.5 0 0.5 1 1.5 2

(11)

Generalizacja

Sieć niedouczona:

-1 -0.5 0 0.5 1 1.5 2

(12)

Generalizacja

Sieć dobrze nauczona:

-0.5 0 0.5 1 1.5 2

(13)

Generalizacja

Sieć przeuczona:

-1 -0.5 0 0.5 1 1.5 2

(14)

Przeuczenie sieci

przeuczenie sieci jest sytuacją gdy sieć uczy się przykładów „na pamięć”,

zdarza się to gdy sieć ma zbyt wiele punktów swobody (za dużo neuronów do nauczenia w porównaniu do skomplikowania problemu i ilości danych),

przeuczona sieć traci możliwości generalizacji.

(15)

Przeuczenie sieci

Dane uczące:

-1 -0.5 0 0.5 1 1.5 2

(16)

Przeuczenie sieci

Wewnętrzna reprezentacja

-0.5 0 0.5 1 1.5 2

(17)

Wrażliwość sieci

E — przykład uczący

sensitivity :=

d

dE₁Out(E ), ..., d

dE_nOut(E )

(18)

Wrażliwość sieci

Numerycznie:

E — przykład uczący, h > 0

E¯ⁱ := [E1, ..., Ei −1, Ei+ h, Ei +1, ..., EN] Przybliż dla wszystkich wejść (j = 1..N):

d dEj

Out(E ) ' Out( ¯E^j) − Out(E ) h

Uśrednij po przykładach uczących

(19)

Przypomnienie ze statystyki Problem

Modele walidacji danych

(20)

Przypomnienie ze statystyki

Dana jest próbka losowa x₁, ..., x_n wartości, losowanych niezależnie z rozkładu X .

Średnia z próby definiowana jest jako

¯ x =

Pn i =1xi

n

Średnia jest (mocno) zgodnym estymatorem wartości oczekiwanej rozkładu X (o ile EX istnieje!).

(21)

Przypomnienie ze statystyki

Estymator wariancji (o ile rozkład X posiada wariancję!):

σˆ²= 1 n − 1

n

X

i =1

(x_i − ¯x )²

Estymator odchylenia standardowego:

ˆ σ =

v u u t

1 n − 1

n

X

i =1

(xi − ¯x )²

(22)

Przypomnienie ze statystyki

Medianą próbki losowej x_i₁, ..., x_i_n będzie tą próbką po posortowaniu.

Mediana jest zdefiniowana jako:

jeżeli n jest nieparzyste x_i_(n+1/2) (element na samym środku posortowanej listy),

jeżeli n jest parzyste ^x^in/2^+x₂^in/2+1 (średnia dwóch „środkowych”

elementów)

(23)

Zagadnienie

Dane niech będzie zbiór punktów uczących wraz z poprawnymi odpowiedziami,

Skonstruowana i nauczona została sieć neuronowa,

Chcemy ocenić jakość klasyfikacji i generalizacji uzyskanej sieci.

(24)

Proste rozwiązanie

Po nauczeniu sieci sprawdzamy ile z przykładów jest klasyfikowanych poprawnie,

Obliczamy ilość wszystkich przykładów, Przypisujemy:

jakość uczenia := ilość przykładów sklasyfikowanych poprawnie ilość wszystkich przykładów

(25)

Proste rozwiązanie

Rozwiązanie jest aż za proste!

nie mówi nic o zachowaniu się sieci na danych, których nie widziała,

preferuje uczenie się danych na pamięć, ignoruje generalizację, zaletą jest to, że maksymalnie wykorzystuje zestaw danych do uczenia.

(26)

Walidacja prosta

dane uczące są losowo dzielone na dwa rozłączne zbiory:

próbkę uczącą U, próbkę testową T ,

sieć jest uczona za pomocą próbki uczącej,

jakość sieci jest badana tylko za pomocą próbki testowej jakość := ilość przykładów T sklasyfikowanych poprawnie

ilość wszystkich przykładów w T

(27)

Walidacja prosta

(28)

Walidacja prosta

Uwagi i niebezpieczeństwa:

większy wpływ na wynik może mieć _{|U∪T |}^|U| , niż zaimplementowany algorytm,

rozsądnym minimum dla |U| jest około ¹₄ całego zbioru, z drugiej strony |U| nie powinno być większe niż ₁₀⁹ całego zbioru,

podając wynik, zawsze podajemy proporcje w jakich podzielono zbiór,

mamy informację o możliwości generalizacji, ale algorytm uczenia sieci korzystał tylko z ułamka dostępnej wiedzy,

(29)

k-krotna walidacja krzyżowa

Ang. k-fold cross-validation

dane uczące są losowo dzielone na k rozłącznych i równolicznych zbiorów: T₁, ..., T_k,

dla i = 1...k powtarzamy

uczymy sieć na zbiorze uczącym T₁∪ ...Ti −1∪ Ti +1∪ Tk, testujemy tak nauczoną sieć na danych T_i (na tych danych sieć nie była uczona),

zapamiętujemy rezultat jako r_i podajemy wszystkie rezultaty r_i,

lub przynajmniej ich średnią, medianę, minimum, maksimum i odchylenie standardowe,

(30)

k-krotna walidacja krzyżowa

(31)

k-razy dwukrotna walidacja krzyżowa

Ang. k-times 2-fold cross-validation odmiana walidacji krzyżowej, dla i = 1...k powtarzamy:

wykonujemy 2-krotną walidację, za każdym razem losujemy zbiory treningowy i testowy od nowa,

zapamiętujemy wyniki r_i₁ r_i₂ (po dwa na każdą iterację), zwracamy statystyki uzyskanych wyników,

(32)

k-razy dwukrotna walidacja krzyżowa

(33)

Leave One Out

odmiana walidacji krzyżowej, w której k = ilość elementów w T , dla i = 1...n powtarzamy:

uczymy sieć na zbiorze uczącym T \T_i, testujemy sieć na pozostałym przykładzie T_i,

zapamiętujemy wynik ri (będzie on albo +1, albo 0), obliczamy średnią i odchylenie standardowe wyników,

można stosować w przypadku małej ilości danych w zbiorze T .

(34)

Leave One Out

(35)

Eksperyment myślowy

Błędy pierwszego i drugiego rodzaju

(36)

Błędy i błędy

jeżeli przyjmowana klasyfikacja jest binarna to możemy się pomylić na dwa sposoby:

przypadek, który powinien być prawdziwy, oceniamy jako fałszywy, (ang. false negative error )

przypadek fałszywy oceniamy jako prawdziwy (ang. false positive),

który błąd jest gorszy?

(37)

Przykład

egzamin z przedmiotu (np. WSN) powinien testować wiedzę zdających

jeżeli zdający zna materiał i dostał ocenę pozytywną, to egzaminatorpoprawnieocenił wiedzę,

jeżeli zdający nie zna materiału i nie zaliczył, to ocena jest poprawna,

jeżeli zdający umiał, ale mimo tego nie zaliczył, to egzaminator popełnił błąd (false negative),

jeżeli zdający nie umiał a zaliczył, to egzaminator popełnił (dramatyczny) błąd (false positive).

ponieważ zawsze przysługuje egzamin poprawkowy, to ostatnia opcja jest najgorsza...

(38)

Błędy pierwszego i drugiego rodzaju

klasyfikacja pozytywna klasyfikacja negatywna faktyczny stan poprawna odpowiedź false negative

jest pozytywny true positive (błąd II-go rodzaju) faktyczny stan false positive poprawna odpowiedź jest negatywny (błąd I-go rodzaju) true negative

(39)

Bardziej życiowe przykłady

filtr antyspamowy,

kontrola bezpieczeństwa na lotnisku, diagnoza lekarska,

diagnoza usterek technicznych, kontrola jakości,

(40)

Wrażliwość i specyficzność

wrażliwość testu (ang. sensitivity) jest odsetkiem poprawnych odpowiedzi wśród poprawnych przypadków, test o wysokiej wrażliwości popełnia mało błędów II-go rodzaju

TPR = true positives positives

specyficzność testu (ang. specificity) jest odsetkiem

poprawnych odpowiedzi wśród negatywnych przypadków, test o wysokiej specyficzności popełnia mało błędów I-go rodzaju

TNR = true negatives negatives

(41)

Wrażliwość i specyficzność

stuprocentowa wrażliwość — tak na każdy przypadek, stuprocentowa specyficzność — nie na każdy przypadek („bardzo asertywny test”),

wysokie oba wskaźniki są cechą dobrych testów (co oznacza:

trudne do osiągnięcia),

znając cel (np. unikanie fałszywych alarmów), szukamy najlepszego kompromisu kontrolując ważniejszą statystykę,

(42)

Reciever Operation Characteristic

Funkcja wrażliwości testu w zależności od progu przyjmowania odpowiedzi:

(43)

Przypadek ciągły Regresja liniowa — prosta

Regresja liniowa — wielomian stopnia d

(44)

Co robić jeżeli wyniki są ciągłe?

błędy mierzymy jako odległość uzyskanego wyniku od oczekiwanego:

ERR =X

t

|E (t) − O(t)|

lub kwadrat odległości

ERR =X

t

(E (t) − O(t))²

(45)

Co robić jeżeli wyniki są ciągłe?

w przypadku wielowymiarowym dodatkowo suma po współrzędnych

ERR =X

t

X

i

(E_i(t) − O_i(t))²

im mniejszy błąd tym lepsza klasyfikacja

(46)

Co robić jeżeli wyniki są ciągłe?

im więcej elementów w zbiorze, tym większy błąd nawet dla dobrej sieci,

zatem uśrednimy wyniki:

ERR = 1 n

n

X

i =1

(E (t_i) − O(t_i))²

n — ilość przykładów w zbiorze

(47)

Regresja liniowa / Metoda najmniejszych kwadratów

danych mamy n punktów na R²: (x1, y1), ..., (xn, yn)

chcemy znaleźć równanie prostej y = ax + b „przybliżającej” te punkty

idea: znajdziemy równanie prostej f , która minimalizuje odległość od tych punktów

n

X

i =1

(f (x_i) − y_i)²

(48)

Regresja liniowa / Metoda najmniejszych kwadratów

danych mamy n punktów na R²: (x1, y1), ..., (xn, yn)

chcemy znaleźć równanie prostej y = ax + b „przybliżającej” te punkty

idea: znajdziemy równanie prostej f , która minimalizuje odległość od tych punktów

n

X

i =1

(f (x_i) − y_i)²

(49)

Regresja liniowa / Metoda najmniejszych kwadratów

-15 -10 -5 0 5

0 2 4 6 8 10

-15 -10 -5 0 5

0 2 4 6 8 10

(50)

Regresja liniowa / Metoda najmniejszych kwadratów

Rozważania na tablicy

(51)

Regresja liniowa / Metoda najmniejszych kwadratów

Da tych, którzy wolą uczyć się ze slajdów

postać prostej f (x ) = ax + b błąd E (a, b) =P

i(f (x_i) − y_i)²=P

i(ax_i+ b − y_i)²

błąd chcemy minimalizować więc liczymy pochodne po a i po b

∂E

∂a =X

i

∂(axi+ b − yi)²

∂a

∂E

∂b =X

i

∂(ax_i+ b − y_i)²

∂b

(52)

Regresja liniowa / Metoda najmniejszych kwadratów

Da tych, którzy wolą uczyć się ze slajdów postać prostej f (x ) = ax + b

błąd E (a, b) =P

i(f (x_i) − y_i)²=P

∂E

∂a =X

i

∂(axi+ b − yi)²

∂a

∂E

∂b =X

i

∂(ax_i+ b − y_i)²

∂b

(53)

Regresja liniowa / Metoda najmniejszych kwadratów

Da tych, którzy wolą uczyć się ze slajdów postać prostej f (x ) = ax + b

błąd E (a, b) =P

i(f (x_i) − y_i)²=P

∂E

∂a =X

i

∂(axi+ b − yi)²

∂a

∂E

∂b =X

i

∂(ax_i+ b − y_i)²

∂b

(54)

Regresja liniowa

∂E

∂a =X

i

∂(ax_i + b − y_i)²

∂a =X

i

2(ax_i + b − y_i)∂(ax_i + b − y_i)

∂a =

X

i

2(ax_i+ b − y_i)x_i = 2(aX

i

x_i²+ bX

i

x_i −X

i

x_iy_i)

Podobnie

∂E

∂b =X

i

∂(ax_i+ b − yⁱ)²

∂b =X

i

2(ax_i + b − yⁱ)∂(ax_i + b − yⁱ)

∂b =

X

i

2(axi + b − yⁱ)1 = 2(aX

i

xi + bX

i

1 −X

i

yi)

(55)

Regresja liniowa

∂E

∂a =X

i

∂(ax_i + b − y_i)²

∂a =X

i

2(ax_i + b − y_i)∂(ax_i + b − y_i)

∂a =

X

i

2(ax_i+ b − y_i)x_i = 2(aX

i

x_i²+ bX

i

x_i −X

i

x_iy_i) Podobnie

∂E

∂b =X

i

∂(ax_i+ b − yⁱ)²

∂b =X

i

2(ax_i + b − yⁱ)∂(ax_i + b − yⁱ)

∂b =

X

i

2(axi + b − yⁱ)1 = 2(aX

i

xi + bX

i

1 −X

i

yi)

(56)

Regresja liniowa / Metoda najmniejszych kwadratów

Oznaczmy S₁=P

i1 = n S_x =P

ix_i S_y =P

iy_i Sxy =P

ixiyi

Sxx =P

ix_i²

(57)

Regresja liniowa / Metoda najmniejszych kwadratów

Nasze równania teraz wyglądają następująco:

2(aS_xx+ bS_x − S_xy) = 0 2(aS_x + bS₁− S_y) = 0

aSxx+ bSx = Sxy

aSx+ bS1 = Sy

a = ^n·S_n·S^xy^−S^x^S^y

xx−S_x²

b = ^S^xx_n·S^S^y^−S^xy^S^x

xx−S_x²

(58)

Regresja liniowa / Metoda najmniejszych kwadratów

aSxx+ bSx = Sxy

aSx+ bS1 = Sy

a = ^n·S_n·S^xy^−S^x^S^y

xx−S_x²

(59)

Regresja liniowa / Metoda najmniejszych kwadratów

aSxx+ bSx = Sxy

aSx+ bS1 = Sy

a = ^n·S_n·S^xy^−S^x^S^y

xx−S_x²

(60)

Regresja liniowa / Metoda najmniejszych kwadratów

Jeżeli f (x ) = a_dx^d+ a_{d −1}x^{d −1}+ a₁x + a₀ błąd E (a, b) =P

i(f (x_i) − y_i)²

ponownie liczymy pochodne po każdym ze współczynników

∂E

∂a_i =X

j

∂(a_dx_j^d+ ... + a₁x_j¹+ a₀− y_j)²

∂a_i dla i = 0...d ,

(61)

Regresja liniowa / Metoda najmniejszych kwadratów

Jeżeli f (x ) = a_dx^d+ a_{d −1}x^{d −1}+ a₁x + a₀ błąd E (a, b) =P

i(f (x_i) − y_i)²

ponownie liczymy pochodne po każdym ze współczynników

∂E

∂a_i =X

j

∂(a_dx_j^d+ ... + a₁x_j¹+ a₀− y_j)²

∂a_i dla i = 0...d ,

(62)

Aproksymacja wielomianem st. 2

-5 0 5 10

(63)

Regresja liniowa / Metoda najmniejszych kwadratów

∂E

∂a_i =X

j

adx_j^d+ ... + a1x_j¹+ a0− y_j∂(a_dx_j^d+ ... + a₀− y_j)

∂a_i

!

dla i = 0...d ,

∂E

∂a_i =X

j

a_dx_j^d+ ... + a₁x_j¹+ a₀− y_j x_jⁱ

dla i = 0...d ,

∂E

∂a_i = a_dX

j

x_j^{d +i} + ... + a1

X

j

x_j¹⁺ⁱ + a0

X

j

x_jⁱ −X

j

yjx_jⁱ = 0

(64)

Regresja liniowa / Metoda najmniejszych kwadratów

∂E

∂a_i =X

j

∂a_i

!

dla i = 0...d ,

∂E

∂ai

=X

j

a_dx_j^d+ ... + a₁x_j¹+ a₀− y_j x_jⁱ

dla i = 0...d ,

∂E

∂a_i = a_dX

j

x_j^{d +i} + ... + a1

X

j

x_j¹⁺ⁱ + a0

X

j

x_jⁱ −X

j

yjx_jⁱ = 0

(65)

Regresja liniowa / Metoda najmniejszych kwadratów

∂E

∂a_i =X

j

∂a_i

!

dla i = 0...d ,

∂E

∂ai

=X

j

a_dx_j^d+ ... + a₁x_j¹+ a₀− y_j x_jⁱ

dla i = 0...d ,

∂E

∂a_i = a_dX

j

x_j^{d +i} + ... + a1

X

j

x_j¹⁺ⁱ + a0

X

j

x_jⁱ −X

j

yjx_jⁱ = 0

(66)

Regresja liniowa / Metoda najmniejszych kwadratów

Oznaczmy:

S_xk =X

j

x_j^k

S_yxk =X

j

y_jx_j^k

S₁ =X

j

1

(67)

Regresja liniowa / Metoda najmniejszych kwadratów

Otrzymujemy układ równań:







S_x^2d S_x^{2d −1} ... S_x^{d +1} S_x^d S_x2d −1 S_x2d −2 ... S_xd S_xd −1

... ...

S_x^d S_x^{d −1} ... S_x¹ S_x⁰







·





 an

an−1

... a0







=





 S_yxd

S_yxd −1

... S_yx⁰







(68)

Aproksymacja wielomianem zbyt wysokiego stopnia

dla wysokich stopni wielomianu d i złośliwych danych problem może być źle uwarunkowany (np. w danych jest para

(x_i, y_i)(x_j, y_j) gdzie x_i jest dość bliski x_j, a odpowiadające im y znacznie się różnią),

wielomian trafia idealnie (niemal idealnie, jeżeli d < n − 1) w każdy z punktów uczących, ale nie oddaje tego, co się dzieje poza nimi,

jeżeli d ' n (ilość danych), to prostszym rozwiązaniem jest interpolacja wielomianowa Lagrange’a.

(69)

Aproksymacja wielomianem zbyt wysokiego stopnia

-40 -20 0 20 40

0 2 4 6 8 10