• Nie Znaleziono Wyników

Analiza danych

N/A
N/A
Protected

Academic year: 2021

Share "Analiza danych"

Copied!
6
0
0

Pełen tekst

(1)

Analiza danych

Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/

Podejście probabilistyczne.

Naiwny klasyfikator bayesowski.

KLASYFIKATOR 0-R

Mamy dany treningowy zbiór danych opisanych atrybutami warunkowymi, podzielony na klasy decyzyjne. Problem: znaleźć algorytm przewidywania wartości decyzji dla danych spoza zbioru treningowego (na podstawie atrybutów warunkowych).

Algorytm 0-R:

Oznaczmy przez P(d=di) prawdopodobieństwo (częstość względną na zbiorze treningowym) wartości decyzyjnej di. - Znajdujemy d* takie, że P(d=d*) jest największe.

- Każdy nowy obiekt otrzymuje decyzję d*.

Uwagi:

- wersja dla decyzji ciągłej: odpowiedzią jest zawsze średnia decyzja na zbiorze treningowym;

- niewielka skuteczność, ale możemy użyć tego

klasyfikatora jako punktu odniesienia dla innych metod.

(2)

KLASYFIKATOR 1-R

Dodatkowe założenie: wartości atrybutów warunkowych i decyzji są dyskretne.

Algorytm 1-R:

Oznaczmy przez P(d=di | aj=vk) prawdopodobieństwo warunkowe (częstość względną na zbiorze treningowym), że wśród obiektów o wartości atrybutu ajrównej vkdecyzja przyjmuje wartość di.

- Dla każdego atrybutu aii wartości vkznajdujemy diktakie, że P(d=dik| ai=vk) jest największe.

- Dla każdego atrybutu ailiczymy średni błąd powyższego sposobu klasyfikacji, tzn. liczbę obiektów o własności ai=vk, ale o innej niż dik wartości decyzji.

- Niech axbędzie atrybutem o najniższym błędzie.

- Nowy obiekt klasyfikujemy na podstawie wartości ax, tzn. jeśli ax=vy, to przypisujemy mu decyzję dxy.

PRZYKŁAD

Klasyfikujemy nowy obiekt:

o* = { 1, red, 3, 0 }

Klasyfikator 0-R: odpowiedź 0.

Klasyfikator 1-R: najlepszy atrybut a1, odpowiedź 0.

a1 a2 a3 a4 d

1 red 2 0 0

0 green 1 0 1

0 red 3 0 1

1 red 3 1 0

1 green 1 1 0

Dane treningowe

0 0,2 0,4 0,6 0,8 1

1 2 3

0 1

Statystyki:

błąd a1 - 0 obiektów błąd a2 - 2 obiekty błąd a3 - 2 obiekty błąd a4 - 1 obiekt

Proste reguły:

a1=1 => d=0 a1=0 => d=1

(3)

KLASYFIKATOR OPARTY NA WSZYSTKICH CECHACH

Rozszerzymy zasadę działania klasyfikatora 1-R na więcej niż jeden atrybut.

Od tej chwili dla uproszczenia zamiast P(d=di | aj=vk)

będziemy pisali P(di | vjk) Klasyfikator 1-R:

d(o*) = di , gdzie P(di | vjk) - największe, dla ustalonego j.

Gdybyśmy chcieli wykorzystać wszystkie atrybuty, powinniśmy przyjąć:

d(o*) = di , gdzie P(di | v1a , v2b... vnz) - największe, przy czym:

o* = {v1a , v2b... vnz}

Problem: jak oszacować to prawdopodobieństwo warunkowe?

WZÓR BAYESA

Dodatkowe założenie: wartości atrybutów warunkowych i decyzji są dyskretne.

Nie możemy P(di | v1a , v2b... vnz) oszacować częstością na próbce treningowej, bo zwykle nie będzie ani jednego obiektu

spełniającego te warunki.

) (

) ( )

| ) (

|

( P B

A P A B B P

A

P =

Wzór Bayesa:

) ,...

(

) ( )

| ,...

) ( ,...

| (

1 1 1

nz a

i i nz a nz

a

i P v v

d P d v v v P

v d

P =

W naszym przypadku:

Liczbę w mianowniku możemy uznać za pewną stałą. Wartość P(di) możemy wyznaczyć z próbki. Pozostaje oszacowanie trzeciego składnika wzoru.

(4)

NAIWNY KLASYFIKATOR BAYESOWSKI

Dodatkowe „naiwne” założenie: prawdopodobieństwa warunkowe P(v1a|di), ... P(vnz|di) są niezależne.

Warunek zwykle niespełniony, ale jako przybliżenie sprawdza się nadspodziewanie dobrze.

Wówczas:

P ( v

1a

,... v

nz

| d

i

) = P ( v

1a

| d

i

) P ( v

2b

| d

i

) K P ( v

nz

| d

i

)

Więc ostatecznie:

) ( )

| ( )

| ( )

,...

|

( d

i

v

1a

v

nz

C P v

1a

d

i

P v

nz

d

i

P d

i

P ≈ ⋅ ⋅ K ⋅ ⋅

dla pewnej stałej C.

ALGORTYM

- Wyznaczamy z próbki wartości P(vjk|di) oraz P(di) dla wszystkich występujących vjkoraz di .

- Dla każdego nowego obiektu o* = {v1a , v2b... vnz} wyliczamy wartość pomocniczej funkcji:

- Wybieramy takie di, dla którego wartość funkcji NBay jest największa i przyjmujemy, że jest to decyzja obiektu o*.

) ( )

| ( )

| ( )

*,

( o d

i

P v

1a

d

i

P v

nz

d

i

P d

i

NBay = ⋅ K ⋅ ⋅

(5)

UWAGI TECHNICZNE

- Jeżeli obiekt testowy ma pewną wartość vjk nieobecną w zbiorze treningowym, odpowiadający jej czynnik iloczynu pomijamy.

- Żeby uniknąć nieklasyfikowania niektórych obiektów, zamiast prawdopodobieństwa 0 używa się czasem pewnej małej (poniżej 1/n) liczby dodatniej.

...

...

v

13 ...

...

P(v12|d2)

v

12 ...

a

1

...

0,02

v

11 0,23

d

3

d

2

d

1

Liczymy statystyki

PRZYKŁAD

Zbiór danych:

letter_trn.tab - zbiór treningowy, 15000 obiektów, letter_tst.tab - zbiór testowy, 5000 obiektów

http://www.jakubw.pl/zajecia/dm/letter.zip

Dane zawierają 16 cech, z których każda ma jedną z 16 wartości.

Decyzja to liczba 1 – 26 (numer rozpoznanej litery).

Wielkość danych na dysku: 605 KB.

Wielkość tablic pomocniczych: 16*26 statystyk dla każdego z 16 atrybutów oraz statystyki dla decyzji, czyli 6656+26 liczb.

Liczba poprawnie rozpoznanych obiektów testowych: 3740 (74,8%).

(6)

PORÓWNANIE WYNIKÓW

Czy ten wynik algorytmu jest dobry?

Porównajmy go z wynikiem algorytmu 0-R (193 poprawne odpowiedzi na 5000). Czy lepszy wynik klasyfikatora

bayesowskiego (3740 poprawnych odpowiedzi) może być tylko przypadkiem?

Niech p – nieznana skuteczność alg. bayesowskiego, p0=193/5000 – skuteczność algorytmu 0-R.

Testujemy hipotezę H0: p=p0 przeciw H1: p>p0. 5 , 00614 115 , 0

7094 , 0 5000 / 1885 , 0

0386 , 0 748 , 0

) 1 (

0 − = =

− =

=

n p p

p z p

Aby przyjąć hipotezę na poziomie istotności 1%, wystarczyłoby zaledwie z=2,3. Odpowiadałoby to 230 prawidłowo

sklasyfikowanym obiektom.

Cytaty

Powiązane dokumenty

Wtexdy jedna (co najmniej) z tych liczb jest równa 1... Jeżeli w drzewie pozostało więcej niż jedna krawędź, to IDŻ

Opracowanie ma charakter DEMONSTRACYJNY i przedstawia w przybliżen iu główne elementy konstrukcji budynku oraz podstawowe rozwiązan ia techniczno-materiałowe. Niniejszy

Omówienie ćwiczenia przez nauczyciela i wskazanie problemu: Jesteśmy różni, ale są sprawy, które nas łączą.. Czy możliwe jest wobec tego porozumienie

Turbo-kodowanie dla transmisji ciągłej (ang. Stream-oriented Turbo Coding) charakteryzuje się mniejszym opóźnieniem przesyłania danych oraz poprawą jakości

Opracowanie ma charakter DEMONSTRACYJNY i przedstawia w przybliżeniu g łówne elementy konstrukcji budyn ku oraz podstawowe rozwiązania techniczno-materiałowe. Nin iej

4 rozporządzenia 2016/679, gdy - i w zakresie, w jakim: udzielenie takich informacji okazuje się niemożliwe lub wymagałoby niewspółmiernie dużego wysiłku, nie znajdzie zastosowania

Większość niepoliczalnych rzeczowników używana jest w liczbie pojedynczej, mimo, że mogą odnosić się, np.. do różnych zbiorów

Udowodni¢, »e odejmowanie na Z nie ma elementu neutralnego i »e nie jest