• Nie Znaleziono Wyników

Ocena modelu Marcin S. Szczuka Wyk

N/A
N/A
Protected

Academic year: 2021

Share "Ocena modelu Marcin S. Szczuka Wyk"

Copied!
6
0
0

Pełen tekst

(1)

Ocena modelu

Marcin S. Szczuka Wykład 4 – część 1

You should make it as simple as possible.

But no simpler.

Albert Einstein Albert Einstein

Zagadnienia przy ocenie modelu

• Złożoność zadania konstrukcji modelu:

– Złożoność teoretyczna (pesymistyczna).

– Złożoność praktyczna (średnia).

• Miary przydatności modelu (klasyfikatora):

– Dokładność – Pokrycie

– Poprawa rozpoznawania – krzywe lift

Złożoność

• Jeżeli mamy dane o rozmiarze n to ile kroków (w zależności od n) musi wykonać nasz algorytm aby podać rozwiązanie?

• Złożoność jako funkcja f(n), której argumentem jest rozmiar danych wejściowych.

• Przy bardziej skomplikowanych zadaniach możemy brać pod uwagę różne „wymiary”

danych wejściowych np. liczbę kolumn i wierszy w tablicy danych.

(2)

Funkcja złożoności

Zależność złożoności od rozmiaru danych np.

f(n) ~ n2 log n

W przypadku wielu zmiennych np.

f(n,m) ~ n*m

Klasy złożoności, asymptotyka

Ogólnie używa się powszechnie dwu oznaczeń f(n)=O( g(n)) gdy

f(n)=o( g(n)) gdy

W przypadku konstrukcji drzewa złożoność była oszacowana przez O( n*m*log m) dla n – liczba przykładów, m – liczba cech.

) 0 (

) lim ( = >

c

n g

n f

n

) 0 (

) lim ( =

g n n f

n

Dlaczego złożoność jest istotna ?

Jeżeli pojedynczy krok algorytmu zajmuje nam mikrosekundę (µs) czyli wykonujemy milion operacji na sekundę, a nasz algorytm ma złożoność O(2n) to dla danych wielkości 100 (n=100) będziemy czekali na odpowiedź:

1267650600228229401496703205376 µs Czyli około 400871000000000 wieków

Przykłady

Zadanie o złożoności wykładniczej O(2n) : Wypisać wszystkie podzbiory pewnego

zbioru o n elementach.

Zadanie o złożoności o(n2) (mniejszej niż n2):

Posortować n liczb

(3)

Wzrost złożoności

1,27E+30 1,13E+15 1048576

1024

2n 32

1000000 125000

8000 1000

n3 125

10000 2500

400 100

n2 25

664 282 86

33

nlogn 12

100 50

20 10

n 5

Złożoność praktyczna

• Złożoność w pesymistycznym przypadku nie zawsze musi się realizować.

• Dane dla których złożoność osiąga maksimum mogą być „rzadkie”.

• Średnia, oczekiwana złożoność zadania jest często lepszym wyróżnikiem.

• Złożoność pamięciowa jest równie istotna.

Złożoność a uczenie z danych

• „Wiarygodny” algorytm uczący się

powinien przynajmniej raz obejrzeć każdy przykład uczący w szczegółach. To oznacza złożoność na poziomie:

O( n*m)

dla n – liczba przykładów, m – liczba cech.

Ocena modelu

Zajmujemy się konstruowaniem modeli które mają służyć predykcji. Najczęściej

zajmować się będziemy klasyfikacją i to w najprostszym przypadku dwu klas. (0/1, Prawda/Fałsz,Tak/Nie)

Możemy stosować różne kryteria zależnie od celów i dostępnych środków.

(4)

Proste miary

• Dokładność/Skuteczność (Accuracy) stosunek poprawnie zaklasyfikowanych przypadków do wszystkich rozpoznanych.

• Pokrycie/Stosowalność (Coverage) Stosunek przykładów rozpoznanych do wszystkich (nieważna poprawność)

Dokładność

d c

1

b a

0

1

Rzeczywist

0

e

Przewidywane

Accuracy=(a+d)/(a+b+c+d)

Pokrycie

d c

1

b a

0

1

Rzeczywist

0

e

Przewidywane

Lift

• Interesuje nas dokładne przewidywanie dla części (10%,20%,…, 50%) danych.

Pozostała cześć danych nas chwilowo nie obchodzi.

• Całkowita dokładność jest mniej istotna.

• Badamy o ile lepiej na wybranej części danych klasyfikujemy, w porównaniu z losowym wyborem decyzji.

(5)

Lift - przykład

• Prowadzimy wysyłkową kampanię reklamową.

• Średnio 1% adresatów odpowiada na naszą propozycję.

• Chcielibyśmy jednocześnie zmniejszyć liczbę listów i zwiększyć skuteczność.

Lift

d c

1

b a

0

1

Rzeczywiste

0

Przewidywane

) /(

) (

) /(

d c b a c a

b a lift a

+ + + +

= +

Krzywa lift Krzywa lift

(6)

Inne miary

• Ważona dokładność – gdy błędy są różnych rodzajów.

• Krzywe ROC (Receiver Operator

Characteristic) – popularna w medycynie i biologii.

• Precision/Recall stosunek poprawnych do uznanych za takie.

• Procentowa redukcja błędu.

Cytaty

Powiązane dokumenty

Preparat cytologiczny wykonany z materiału pobranego z trzustki za pomoc ą biopsji aspiracyjnej cienkoigłowej, poddany reakcji immunocytochemicznej z oznaczeniem

Zakres zmian Działanie rodzajów działalności/rodzaju Bezpośrednie koszty wg kosztów lub/i nakłady 1 Obowiązek informacyjny

Język niemiecki podręcznik do szkół ponadgimnazjalnych + ćwiczenia - zakres podstawowy - dla grupy rozszerzonej..

W centrum uwagi Cz.2 Maturalne karty pracy do wiedzy o społeczeństwie dla szkół ponadgimnazjalnych.. Zakres

Raport szczegółowy można na przykład utworzyć przed spotkaniem z dostawcą, natomiast raport podsumowujący lub pogrupowany może być potrzebny dla kierownictwa..

Rekomendowa- nym w „Wojewódzkim Programie Rozwoju Odnawialnych Źródeł Energii dla województwa podkarpackiego” (WPROŹE 2014) kierunkiem rozwoju w zakresie energetyki wodnej jest

teoretycznych od zaistniałych. Czegoś takiego do tej pory nie obserwowałem pomimo wielu obserwacji. Jakie mogą być przyczyny takiej sytuacji?. Zakłady zostały zawarte

rozwijanie motywacji do poznawania środowiska przyrodniczego i dbania o naturę, poznawanie świata ptaków, które zakładają gniazda i wychowują młode, zabawy muzyczne,