• Nie Znaleziono Wyników

Wykład 4 – – część 1 część 1

N/A
N/A
Protected

Academic year: 2021

Share "Wykład 4 – – część 1 część 1"

Copied!
21
0
0

Pełen tekst

(1)

Ocena modelu Ocena modelu

Marcin S. Szczuka Marcin S. Szczuka Wykład 4

Wykład 4 część 1 część 1

(2)

You should make it You should make it as simple as possible.

as simple as possible.

But no simpler.

But no simpler.

Albert Einstein Albert Einstein

(3)

Zagadnienia przy ocenie modelu Zagadnienia przy ocenie modelu

I I Złożoność zadania konstrukcji modelu: Złożoność zadania konstrukcji modelu:

– – Złożoność teoretyczna (pesymistyczna). Złożoność teoretyczna (pesymistyczna).

– – Złożoność praktyczna (średnia). Złożoność praktyczna (średnia).

I I Miary przydatności modelu Miary przydatności modelu (klasyfikatora):

(klasyfikatora):

– – Dokładność Dokładność – – Pokrycie Pokrycie

– – Poprawa rozpoznawania Poprawa rozpoznawania – – krzywe lift krzywe lift

(4)

Złożoność Złożoność

II

Jeżeli mamy dane o rozmiarze Jeżeli mamy dane o rozmiarze n n to ile kroków to ile kroków (w zależności od

(w zależności od n n ) musi wykonać nasz ) musi wykonać nasz algorytm aby podać rozwiązanie?

algorytm aby podać rozwiązanie?

II

Złożoność jako funkcja Złożoność jako funkcja f f ( ( n n ), ), której której argumentem jest rozmiar danych argumentem jest rozmiar danych

wejściowych.

wejściowych.

II

Przy bardziej skomplikowanych zadaniach Przy bardziej skomplikowanych zadaniach możemy brać pod uwagę różne „wymiary”

możemy brać pod uwagę różne „wymiary”

danych wejściowych

danych wejściowych np. liczbę kolumn i np . liczbę kolumn i wierszy w tablicy danych.

wierszy w tablicy danych.

(5)

Funkcja złożoności Funkcja złożoności

Zależność złożoności od rozmiaru danych Zależność złożoności od rozmiaru danych

np np . . f f ( ( n n ) ~ ) ~ n n

22

log log n n

W przypadku wielu zmiennych

W przypadku wielu zmiennych np np . .

f f ( ( n,m n,m ) ~ ) ~ n*m n*m

(6)

Klasy złożoności, asymptotyka Klasy złożoności, asymptotyka

Ogólnie używa się powszechnie dwu oznaczeń Ogólnie używa się powszechnie dwu oznaczeń f f ( ( n n )= )= O O ( g ( g (n ( n )) gdy )) gdy

f f ( ( n n )= )= o o ( g ( g (n ( n )) gdy )) gdy

W przypadku konstrukcji drzewa złożoność była oszacowana W przypadku konstrukcji drzewa złożoność była oszacowana

przez

przez O O ( n*m* ( n*m* log log m m ) dla n ) dla n – – liczba przykładów, m liczba przykładów, m – – liczba liczba cech.

cech.

) 0 (

)

lim ( = >

c

n g

n f

n

) 0 (

)

lim ( = >

c

n g

n f

n

) 0 (

)

lim ( =

g n n f

n

) 0 (

)

lim ( =

g n n f

n

(7)

Dlaczego złożoność jest istotna ? Dlaczego złożoność jest istotna ?

Jeżeli pojedynczy krok algorytmu zajmuje Jeżeli pojedynczy krok algorytmu zajmuje

nam mikrosekundę (

nam mikrosekundę ( µ µ s s ) czyli wykonujemy ) czyli wykonujemy milion operacji na sekundę, a nasz

milion operacji na sekundę, a nasz algorytm ma złożoność

algorytm ma złożoność O O (2 (2

nn

) ) to dla to dla danych wielkości 100 (

danych wielkości 100 ( n n =100 =100 ) będziemy ) będziemy czekali na odpowiedź:

czekali na odpowiedź:

1267650600228229401496703205376 1267650600228229401496703205376 µ µ s s

Czyli oko

Czyli oko ł ł o 400871000000000 wiek o 400871000000000 wiek ó ó w w

(8)

Przykłady Przykłady

Zadanie o złożoności wykładniczej

Zadanie o złożoności wykładniczej O O (2 (2

nn

) ) : : Wypisać wszystkie podzbiory pewnego Wypisać wszystkie podzbiory pewnego

zbioru o

zbioru o n n elementach. elementach.

Zadanie o złożoności

Zadanie o złożoności o o ( ( n n

22

) ) (mniejszej niż (mniejszej niż n n

22

): ):

Posortować

Posortować n n liczb liczb

(9)

Wzrost złożoności Wzrost złożoności

n 5 10 20 50 100

nlogn

12 33 86 282 664

n

2 25 100 400 2500 10000

n

3 125 1000 8000 125000 1000000

2

n 32 1024 1048576 1,13E+15 1,27E+30

(10)

Złożoność praktyczna Złożoność praktyczna

I I Złożoność w pesymistycznym przypadku Złożoność w pesymistycznym przypadku nie zawsze musi się realizować.

nie zawsze musi się realizować.

I I Dane dla których złożoność osiąga Dane dla których złożoność osiąga maksimum mogą być „rzadkie”.

maksimum mogą być „rzadkie”.

I I Średnia, oczekiwana złożoność zadania Średnia, oczekiwana złożoność zadania jest często lepszym wyróżnikiem.

jest często lepszym wyróżnikiem.

I I Złożoność pamięciowa jest równie Złożoność pamięciowa jest równie istotna.

istotna.

(11)

Złożoność a uczenie z danych Złożoność a uczenie z danych

I I „ „ Wiarygodny” algorytm uczący się Wiarygodny” algorytm uczący się powinien przynajmniej raz obejrzeć powinien przynajmniej raz obejrzeć

każdy przykład uczący w szczegółach.

każdy przykład uczący w szczegółach.

To oznacza złożoność na poziomie:

To oznacza złożoność na poziomie:

O O ( ( n*m n*m ) )

dla dla n n – – liczba przykładów liczba przykładów , , m m – – liczba cech. liczba cech.

(12)

Ocena modelu Ocena modelu

Zajmujemy się konstruowaniem modeli Zajmujemy się konstruowaniem modeli

które mają służyć predykcji. Najczęściej które mają służyć predykcji. Najczęściej zajmować się będziemy klasyfikacją i to zajmować się będziemy klasyfikacją i to

w najprostszym przypadku dwu klas.

w najprostszym przypadku dwu klas.

(0/1, Prawda/Fałsz,Tak/Nie) (0/1, Prawda/Fałsz,Tak/Nie)

Możemy stosować różne kryteria zależnie Możemy stosować różne kryteria zależnie

od celów i dostępnych środków.

od celów i dostępnych środków.

(13)

Proste miary Proste miary

I I Dokładność/Skuteczność (Accuracy) Dokładność/Skuteczność (Accuracy)

stosunek poprawnie zaklasyfikowanych stosunek poprawnie zaklasyfikowanych

przypadków do wszystkich przypadków do wszystkich

rozpoznanych.

rozpoznanych.

I I Pokrycie/Stosowalność (Coverage) Pokrycie/Stosowalność (Coverage)

Stosunek przykładów rozpoznanych do Stosunek przykładów rozpoznanych do

wszystkich (nieważna poprawność)

wszystkich (nieważna poprawność)

(14)

Dokładność Dokładność

Przewidywane Przewidywane

0 0 1 1 0 0 a a b b 1 1 c c d d

Rzeczywiste Rzeczywiste

Accuracy=(a+d)/(a+b+c+d)

(15)

Pokrycie Pokrycie

Przewidywane Przewidywane

0 0 1 1 0 0 a a b b 1 1 c c d d

Rzeczywiste Rzeczywiste

Coverage=(a+b+c+d)/n

gdzie n-liczba dostępnych przykładów

(16)

Lift Lift

I I Interesuje nas dokładne przewidywanie Interesuje nas dokładne przewidywanie dla części (10%,20%,…, 50%) danych.

dla części (10%,20%,…, 50%) danych.

Pozostała cześć danych nas chwilowo Pozostała cześć danych nas chwilowo

nie obchodzi.

nie obchodzi.

I I Całkowita dokładność jest mniej istotna. Całkowita dokładność jest mniej istotna.

I I Badamy o ile lepiej na wybranej części Badamy o ile lepiej na wybranej części danych klasyfikujemy, w porównaniu z danych klasyfikujemy, w porównaniu z

losowym wyborem decyzji.

losowym wyborem decyzji.

(17)

Lift

Lift - - przykład przykład

I I Prowadzimy wysyłkową kampanię Prowadzimy wysyłkową kampanię reklamową.

reklamową.

I I Średnio 1% adresatów odpowiada na Średnio 1% adresatów odpowiada na naszą propozycję.

naszą propozycję.

I I Chcielibyśmy jednocześnie zmniejszyć Chcielibyśmy jednocześnie zmniejszyć liczbę listów i zwiększyć skuteczność.

liczbę listów i zwiększyć skuteczność.

(18)

Lift Lift

Przewidywane Przewidywane

0 0 1 1 0 0 a a b b 1 1 c c d d

Rzeczywiste Rzeczywiste

) /(

) (

) /(

d c

b a

c a

b a

lift a

+ +

+ +

= +

(19)

Krzywa lift

Krzywa lift

(20)

Krzywa lift

Krzywa lift

(21)

Inne miary Inne miary

I I Ważona dokładność Ważona dokładność – – gdy błędy są gdy błędy są różnych rodzajów.

różnych rodzajów.

I I Krzywe ROC (Receiver Operator Krzywe ROC (Receiver Operator Characteristic)

Characteristic) – – popularna w popularna w medycynie i biologii.

medycynie i biologii.

I I Precision/Recall stosunek poprawnych Precision/Recall stosunek poprawnych do uznanych za takie.

do uznanych za takie.

I I Procentowa redukcja błędu. Procentowa redukcja błędu.

Cytaty

Powiązane dokumenty

Załącznik nr 2 – schemat dla nauczyciela – Czym bracia Lwie Serce zasłużyli sobie na miano człowieka. walczą o

Pacjentka 81-letnia, z wielonaczyniową chorobą wieńcową po zawale serca bez uniesienia odcinka ST (NSTEMI, non-ST-elevation myocardial infarction) (19.04.2012 r.), po

są równoważne w tym sensie, że jeśli dany problem jest rozwiązywany przez jeden model w czasie ograniczonym od góry przez wielomian zależny od rozmiarów problemu, to przy

Dodawanie dwu liczb dwójkowych tej samej długości, znajdujących się na Taśmach 1 i 2, których najstarsze pozycje znajdują się w komórkach o numerze 1.. Wynik tworzony jest

Klasa

Problem

Wymaga większej wiedzy teoretycznej Łatwiejszy do opanowania dla początkującej osoby Typy danych: character, numeric, date, logical, memo Typy danyc: string (4 typy), numeric

Można jednakże zauważyć, że chociaż w rzeźbie (Sculpture) imitacje kwiatów i listowia sprawiają przyjemność jako ornamenty archi- tektoniczne, to jako część