• Nie Znaleziono Wyników

Naiwny Bayes

N/A
N/A
Protected

Academic year: 2021

Share "Naiwny Bayes"

Copied!
7
0
0

Pełen tekst

(1)

Notatki do wykªadów: Naiwny klasykator Bayesowski (c) Marcin

Sydow

Notatki do wykªadów:

Naiwny klasykator Bayesowski

(2)

Notatki do wykªadów: Naiwny klasykator Bayesowski (c) Marcin Sydow

Naiwny Bayes

Tu zakªadamy na ogóª, »e wszystkie atrybuty s¡ kategoryczne. Mamy zbiór treningowy T skªadaj¡cy si¦ z N n-wymiarowych wektorów atrybutów.

Traktujemy atrybuty Xi i atrybut decyzyjny Y jako zmienne

losowe

Mamy zaklasykowa¢ wektor x = (x1,x2, ...,xn) Stosujemy wzór Bayesa:

P(Y = y|X = x) = P(X = x|Y = y)P(Y = y)P(X = x) (interpretacja: prawdopobie«stwo tego, »e atrybut decyzyjny wynosi y pod warunkiem, »e warto±ci atrybutów opisane s¡ przez wektor x)

(3)

Notatki do wykªadów: Naiwny klasykator Bayesowski (c) Marcin Sydow

Zasada klasykatora Bayesa

Wektorowi x przydzielimy t¦ klas¦ (warto±¢ atrybutu

decyzyjnego) y, dla którego powy»sze prawdopobie«stwo jest najwy»sze.

Obliczamy wi¦c powy»sze wyra»enie dla wszystkich mo»liwych klas (warto±ci atrybutu decyzyjnego Y) i wybieramy najwy»sz¡ warto±c prawdopobie«stwa.

Poniewa» wszystkie powy»sze porównywane wyra»enia maj¡ ten sam mianownik (P(X = x))), wi¦c mo»na go pomin¡¢.

(4)

Notatki do wykªadów: Naiwny klasykator Bayesowski (c) Marcin Sydow

Naiwny klasykator Bayesa

Kluczowe dla naiwnego klasykatora Bayesowskiego jest (naiwne) zaªo»enie, »e atrybuty s¡ parami niezale»ne, a wi¦c:

P(X = (x1, ...,xn)|Y = y) = P(X1=x1|Y = y)∗...∗P(Xn=xn|Y = y)

Otrzymujemy wi¦c po zastosowaniu powy»szego zaªo»enia wzór: P(Y = y|X = (x1, ...,xn)) ∝P(X1=x1|Y = y) ∗ ... ∗ P(Xn=

xn|Y = y) ∗ P(Y = y)

gdzie ju» bezpo±rednio ze zbioru treningowego w prosty sposób mo»na obliczy¢ oszacowania:

P(Xi=xi|Y = y) (proporcja tych przypadków w zbiorze

testowym, które maj¡ warto±¢ atrybutu Xi =xi w±ród przypadków maj¡cych warto±¢ atrybutu decycyjnego Y = y) oraz P(Y = y) (proporcja przypadków w zbiorze treningowym, które maj¡ warto±¢ atrybutu decycyjnego Y = y)

(5)

Notatki do wykªadów: Naiwny klasykator Bayesowski (c) Marcin Sydow

Wygªadzanie

Mo»e si¦ zdarzy¢, »e w zbiorze ucz¡cym nie wyst¦puje »aden przypadek, w którym zachodzi Xj =xj oraz Y = y dla pewnego atrybutu j.

W takim wypadku oszacowane prawdopobie«stwo

P(Xi =xi|Y = y) wynosiªoby zero i wyzerowaªo caªy iloczyn,

niezale»nie od warto±ci pozostaªych prawdopodobie«stw P(Xi =xi|Y = y).

Aby tego unikn¡¢ stosuje si¦ tzw. wygªadzanie, czyli

zapewnienie, »e zera zast¦powane b¦d¡ pewn¡ (bardzo maª¡) warto±ci¡ kosztem odpowiedniego zmniejszenia pozostaªych (niezerowych) prawdopobie«stw dla tego atrybutu.

(6)

Notatki do wykªadów: Naiwny klasykator Bayesowski (c) Marcin Sydow

Najprostsze wygªadzanie

W najprostszym rodzaju wygªadzania, do licznika proporcji dla danego atrybutu i dodajemy zawsze jeden a do mianownika tyle, ile jest ró»nych mo»liwych warto±ci tego atrybutu. W ten sposób zmodykowane prawdopodobie«stwa sumuj¡ si¦ do 1, ale nigdy nie wyst¡pi 0 nawet jak nie ma takiego przypadku w zbiorze treningowym.

(7)

Notatki do wykªadów: Naiwny klasykator Bayesowski (c) Marcin Sydow Dzi¦kuj¦ za uwag¦

Cytaty

Powiązane dokumenty

Sªowo jest to dowolny ci¡g znaków, który nie zawiera znaku spacji, ko«ca linii i ko«ca pliku i ko«czy si¦ spacj¡, ko«cem linii lub ko«cem pliku?. Dla pliku ala ola

Każdy egzemplarz opisany jest przez: tytuł, imię i nazwisko autora (autorów), nr wydania, rok i miejsce wydania, wydawnictwo, ISBN (nie wymagany), stawka VAT, cena..

ASOCJACJA KWALIFIKOWANA – ASOCJACJA Z KWALIFIKATOREM (ZBIOREM ATRYBUTÓW) POZWALA WSKAZAĆ, KTÓRY ATRYBUT JEDNEJ Z KLAS SŁUŻY DO ZAPEWNIENIA UNIKATOWOŚCI ZWIĄZKU (JEST

Wpływ różnych wariantów obróbki wstępnej przed przemiałem na wyciąg mąki i zawartość otrąb dla ziarna żyta wilgotności początkowej 10, 12, 14 i 16%.. Figure

W pracach poœwiêconych problemom rozwoju zrównowa¿onego stosunkowo rzadko po- dejmowane s¹ oceny porównawcze gospodarstw o ró¿nych kierunkach produkcji [Krasowicz 2004]..

Time of one microwave emission, needed to maintain assumed temperature of 40±2 o C in drying stages I–IV The biological quality of the artificially dried se- eds and of the

Dziel c bł d redniokwadratowy przez wielko prognozy otrzymamy redniokwadratowy bł d wzgl dny prognozy.. Wyniki te mo na zilustrowa

Zbyt du¿e w stosunku do potrzeb stany gotówki zmniejszaj¹ wprawdzie ryzyko utraty p³ynnoœci finansowej, ale ograniczaj¹ jednak zyski, jakie mog³oby osi¹gn¹æ