• Nie Znaleziono Wyników

Estymacja przedziału uogólnionej decyzji w podej´sciu DRSA

N/A
N/A
Protected

Academic year: 2021

Share "Estymacja przedziału uogólnionej decyzji w podej´sciu DRSA"

Copied!
83
0
0

Pełen tekst

(1)

Estymacja przedziału uogólnionej decyzji

w podej´sciu DRSA

Wojciech Kotłowski

(2)

Spis tre´sci

1 Wprowadzenie

2 Model probabilistyczny i estymacja parametrów

3 Problem przeetykietowywania obiektów

4 Własno´sci rozwi ˛aza ´n optymalnych

5 Nowa definicja uogólnionej decyzji

(3)

Spis tre´sci

1 Wprowadzenie

2 Model probabilistyczny i estymacja parametrów

3 Problem przeetykietowywania obiektów

4 Własno´sci rozwi ˛aza ´n optymalnych

5 Nowa definicja uogólnionej decyzji

(4)

Notacja

• zbiór ` obiektów X = {x1, . . . , x`} opisanych za pomoc ˛a n

atrybutów warunkowych Q = {Q1, . . . , Qn} i atrybutu decyzyjnego Y = {1, . . . , m}.

• qi(xj)— warto´s´c j-tego obiektu na i-tym atrybucie; yj — warto´s´c decyzji dla j-tego obiektu; b ˛edziemy te˙z u˙zywa´c skrótu

x= (q1(x), . . . qn(x))

• ka˙zdy obiekt x ∈ X (a wła´sciwie para (x, y) ∈ Q × Y) jest realizacj ˛a niezale˙znej zmiennej losowej (Q1, . . . , Qn, Y) = (Q, Y)o

jednakowym rozkładzie p(Q, Y).

• zakładamy, ˙ze na ka˙zdym atrybucie skala przynajmniej porz ˛adkowa; implikuje to istnienie relacji dominacji , definiowanej jako: x  z ⇐⇒ ∀i (qi(x) > qi(z))

(5)

Notacja

• zbiór ` obiektów X = {x1, . . . , x`} opisanych za pomoc ˛a n

atrybutów warunkowych Q = {Q1, . . . , Qn} i atrybutu decyzyjnego Y = {1, . . . , m}.

• qi(xj)— warto´s´c j-tego obiektu na i-tym atrybucie; yj — warto´s´c decyzji dla j-tego obiektu; b ˛edziemy te˙z u˙zywa´c skrótu

x= (q1(x), . . . qn(x))

• ka˙zdy obiekt x ∈ X (a wła´sciwie para (x, y) ∈ Q × Y) jest realizacj ˛a niezale˙znej zmiennej losowej (Q1, . . . , Qn, Y) = (Q, Y)o

jednakowym rozkładzie p(Q, Y).

• zakładamy, ˙ze na ka˙zdym atrybucie skala przynajmniej porz ˛adkowa; implikuje to istnienie relacji dominacji , definiowanej jako: x  z ⇐⇒ ∀i (qi(x) > qi(z))

(6)

Notacja

• zbiór ` obiektów X = {x1, . . . , x`} opisanych za pomoc ˛a n

atrybutów warunkowych Q = {Q1, . . . , Qn} i atrybutu decyzyjnego Y = {1, . . . , m}.

• qi(xj)— warto´s´c j-tego obiektu na i-tym atrybucie; yj — warto´s´c decyzji dla j-tego obiektu; b ˛edziemy te˙z u˙zywa´c skrótu

x= (q1(x), . . . qn(x))

• ka˙zdy obiekt x ∈ X (a wła´sciwie para (x, y) ∈ Q × Y) jest realizacj ˛a niezale˙znej zmiennej losowej (Q1, . . . , Qn, Y) = (Q, Y)o

jednakowym rozkładzie p(Q, Y).

• zakładamy, ˙ze na ka˙zdym atrybucie skala przynajmniej porz ˛adkowa; implikuje to istnienie relacji dominacji , definiowanej jako: x  z ⇐⇒ ∀i (qi(x) > qi(z))

(7)

Zwi ˛

azki monotoniczne

Stochastyczna dominacja

• Zwi ˛azki monotoniczne definiowane poprzezstochastyczn ˛a dominacj ˛e: p(y > i|x) jest funkcj ˛a monotoniczn ˛a ze wzgl ˛edu na q1(x), . . . , qn(x).

• Wszystkie atrybuty s ˛a kryteriami typu zysk, st ˛ad p(y > i|x) jest rosn ˛aca ze wzgl ˛edu na ka˙zde qi(x).

• W przypadku dwuklasowym Y = {0, 1}, p(y = 1|x) jest rosn ˛aca, za´s p(y = 0|x) — malej ˛aca ze wzgl ˛edu na ka˙zde qi(x).

(8)

Przykład (prawdopodobie ´nstwa klas)

x p(y|x) −2 −1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 p(y=1|x) p(y=2|x) p(y=3|x)

(9)

Przykład (prawdopodobie ´nstwa kumulacji)

x p(y|x) −2 −1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 p(y≥1|x) p(y≥2|x) p(y≥3|x)

(10)

Przykład („twarda” dominacja)

x p(y|x) −2 −1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 p(y=1|x) p(y=2|x) p(y=3|x)

(11)

Spis tre´sci

1 Wprowadzenie

2 Model probabilistyczny i estymacja parametrów

3 Problem przeetykietowywania obiektów

4 Własno´sci rozwi ˛aza ´n optymalnych

5 Nowa definicja uogólnionej decyzji

(12)

Model probabilistyczny — przypadek dwuklasowy

• Opis danych za pomoc ˛a jednej funkcji p(y = 1|x) ≡ p1(x), poniewa˙z p(y = 0|x) ≡ p0(x) = 1 − p1(x).

• Problem jestdeterministyczny, je´sli ∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0.

• Jaki jest optymalny klasyfikator Gopt, tj. klasyfikator, który ´srednio

popełnia najmniejszy bł ˛ad: Gopt = arg minGE[Y 6= G]?

Klasyfikator Bayesowski:

GBayes(x) =



1 p1(x) > p0(x) ≡ p1(x) > 12

0 p0(x) > p1(x) ≡ p1(x) < 12

• Zachodzi: GBayes = Gopt.

• Je´sli dane s ˛a monotoniczne, to funkcja GBayes(x)jest

(13)

Model probabilistyczny — przypadek dwuklasowy

• Opis danych za pomoc ˛a jednej funkcji p(y = 1|x) ≡ p1(x), poniewa˙z p(y = 0|x) ≡ p0(x) = 1 − p1(x).

• Problem jestdeterministyczny, je´sli ∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0.

• Jaki jest optymalny klasyfikator Gopt, tj. klasyfikator, który ´srednio popełnia najmniejszy bł ˛ad: Gopt = arg minGE[Y 6= G]?

Klasyfikator Bayesowski:

GBayes(x) =



1 p1(x) > p0(x) ≡ p1(x) > 12

0 p0(x) > p1(x) ≡ p1(x) < 12

• Zachodzi: GBayes = Gopt.

• Je´sli dane s ˛a monotoniczne, to funkcja GBayes(x)jest

(14)

Model probabilistyczny — przypadek dwuklasowy

• Opis danych za pomoc ˛a jednej funkcji p(y = 1|x) ≡ p1(x), poniewa˙z p(y = 0|x) ≡ p0(x) = 1 − p1(x).

• Problem jestdeterministyczny, je´sli ∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0.

• Jaki jest optymalny klasyfikator Gopt, tj. klasyfikator, który ´srednio popełnia najmniejszy bł ˛ad: Gopt = arg minGE[Y 6= G]?

Klasyfikator Bayesowski: GBayes(x) =



1 p1(x) > p0(x) ≡ p1(x) > 12 0 p0(x) > p1(x) ≡ p1(x) < 12 • Zachodzi: GBayes = Gopt.

• Je´sli dane s ˛a monotoniczne, to funkcja GBayes(x)jest

(15)

Model probabilistyczny — przypadek dwuklasowy

• Opis danych za pomoc ˛a jednej funkcji p(y = 1|x) ≡ p1(x), poniewa˙z p(y = 0|x) ≡ p0(x) = 1 − p1(x).

• Problem jestdeterministyczny, je´sli ∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0.

• Jaki jest optymalny klasyfikator Gopt, tj. klasyfikator, który ´srednio popełnia najmniejszy bł ˛ad: Gopt = arg minGE[Y 6= G]?

Klasyfikator Bayesowski: GBayes(x) =



1 p1(x) > p0(x) ≡ p1(x) > 12 0 p0(x) > p1(x) ≡ p1(x) < 12 • Zachodzi: GBayes = Gopt.

• Je´sli dane s ˛a monotoniczne, to funkcja GBayes(x)jest monotoniczna ze wzgl ˛edu na q1(x), . . . , qn(x).

(16)

Model probabilistyczny — przypadek dwuklasowy

• Definiujemy zmienn ˛a losow ˛a T = T(X, Y) jako:

T(X, Y) = 

1 GBayes(X) = Y 0 GBayes(X) 6= Y

T = 1 wtedy i tylko wtedy gdy klasyfikator Bayesowski popełnia bł ˛ad.

• T ma dla danego x rozkład prawdopodobie ´nstwa p(t = 1|x) ≡ p(x) = min{p1(x), p0(x)}; p(x) jest

prawdopodobie ´nstwem popełnienia bł ˛edu przez klasyfikator Bayesowski.

• Mo˙zemy problem potraktowa´c jako deterministyczny z funkcj ˛a

GBayes(x)wyznaczaj ˛ac ˛a zale˙zno´s´c mi ˛edzy y a x, z dodatkowym

przekłamaniem warto´sci y (zamiana y = 1 na y = 0 i odwrotnie) z prawdopodobie ´nstwem p(x).

(17)

Model probabilistyczny — przypadek dwuklasowy

• Definiujemy zmienn ˛a losow ˛a T = T(X, Y) jako:

T(X, Y) = 

1 GBayes(X) = Y 0 GBayes(X) 6= Y

T = 1 wtedy i tylko wtedy gdy klasyfikator Bayesowski popełnia bł ˛ad.

• T ma dla danego x rozkład prawdopodobie ´nstwa p(t = 1|x) ≡ p(x) = min{p1(x), p0(x)}; p(x) jest

prawdopodobie ´nstwem popełnienia bł ˛edu przez klasyfikator Bayesowski.

• Mo˙zemy problem potraktowa´c jako deterministyczny z funkcj ˛a

GBayes(x)wyznaczaj ˛ac ˛a zale˙zno´s´c mi ˛edzy y a x, z dodatkowym

przekłamaniem warto´sci y (zamiana y = 1 na y = 0 i odwrotnie) z prawdopodobie ´nstwem p(x).

(18)

Model probabilistyczny — przypadek dwuklasowy

• Definiujemy zmienn ˛a losow ˛a T = T(X, Y) jako:

T(X, Y) = 

1 GBayes(X) = Y 0 GBayes(X) 6= Y

T = 1 wtedy i tylko wtedy gdy klasyfikator Bayesowski popełnia bł ˛ad.

• T ma dla danego x rozkład prawdopodobie ´nstwa p(t = 1|x) ≡ p(x) = min{p1(x), p0(x)}; p(x) jest

prawdopodobie ´nstwem popełnienia bł ˛edu przez klasyfikator Bayesowski.

• Mo˙zemy problem potraktowa´c jako deterministyczny z funkcj ˛a GBayes(x)wyznaczaj ˛ac ˛a zale˙zno´s´c mi ˛edzy y a x, z dodatkowym przekłamaniem warto´sci y (zamiana y = 1 na y = 0 i odwrotnie) z prawdopodobie ´nstwem p(x).

(19)

Estymator najwi ˛ekszej wiarygodno´sci

• Jak wyznaczy´c, które z etykiet obiektów ze zbioru ucz ˛acego X zostały przekłamane, tzn. dla których x ∈ X mamy t(x) = 1, je´sli wiemy, ˙ze dane s ˛a monotoniczne?

• Przyjmijmy, ˙ze znamy dla ka˙zdego xi∈ X prawdopodobie ´nstwa

przekłamania p(xi)i wiemy, ˙ze problem jest monotoniczny.

Chcemy wyznaczy´c warto´sci t(xi), co mo˙zna zrobi´c poprzez

wyznaczenie warto´sci GBayes(xi), traktuj ˛ac je jako parametry i

stosuj ˛acmetod ˛e najwi ˛ekszej wiarygodno ´sci.

Estymacja metod ˛a najwi ˛ekszej wiarygodno´sci

Szukamy takich warto´sci parametrów θ dla danych D, dla których funkcja wiarygodno´sci L(θ; D) = p(D|θ) osi ˛aga warto´s´c maksymaln ˛a; inaczej: szukamy takich warto´sci parametrów, dla których dane D, które mamy, s ˛a najbardziej prawdopodobne.

(20)

Estymator najwi ˛ekszej wiarygodno´sci

• Jak wyznaczy´c, które z etykiet obiektów ze zbioru ucz ˛acego X zostały przekłamane, tzn. dla których x ∈ X mamy t(x) = 1, je´sli wiemy, ˙ze dane s ˛a monotoniczne?

• Przyjmijmy, ˙ze znamy dla ka˙zdego xi∈ X prawdopodobie ´nstwa przekłamania p(xi)i wiemy, ˙ze problem jest monotoniczny. Chcemy wyznaczy´c warto´sci t(xi), co mo˙zna zrobi´c poprzez wyznaczenie warto´sci GBayes(xi), traktuj ˛ac je jako parametry i stosuj ˛acmetod ˛e najwi ˛ekszej wiarygodno ´sci.

Estymacja metod ˛a najwi ˛ekszej wiarygodno´sci

Szukamy takich warto´sci parametrów θ dla danych D, dla których funkcja wiarygodno´sci L(θ; D) = p(D|θ) osi ˛aga warto´s´c maksymaln ˛a; inaczej: szukamy takich warto´sci parametrów, dla których dane D, które mamy, s ˛a najbardziej prawdopodobne.

(21)

Estymator najwi ˛ekszej wiarygodno´sci

• Jak wyznaczy´c, które z etykiet obiektów ze zbioru ucz ˛acego X zostały przekłamane, tzn. dla których x ∈ X mamy t(x) = 1, je´sli wiemy, ˙ze dane s ˛a monotoniczne?

• Przyjmijmy, ˙ze znamy dla ka˙zdego xi∈ X prawdopodobie ´nstwa przekłamania p(xi)i wiemy, ˙ze problem jest monotoniczny. Chcemy wyznaczy´c warto´sci t(xi), co mo˙zna zrobi´c poprzez wyznaczenie warto´sci GBayes(xi), traktuj ˛ac je jako parametry i stosuj ˛acmetod ˛e najwi ˛ekszej wiarygodno ´sci.

Estymacja metod ˛a najwi ˛ekszej wiarygodno´sci

Szukamy takich warto´sci parametrów θ dla danych D, dla których funkcja wiarygodno´sci L(θ; D) = p(D|θ) osi ˛aga warto´s´c maksymaln ˛a; inaczej: szukamy takich warto´sci parametrów, dla których dane D, które mamy, s ˛a najbardziej prawdopodobne.

(22)

Estymacja przekłamanych etykiet

• Załó˙zmy, ˙ze xi ∈ X s ˛a ustalone; u˙zyjemy skrótów t = {t1, . . . , t`}, y= {y1, . . . , y`}.

• Poniewa˙z wszystkie obiekty ze realizacjami niezale˙znych zmiennych losowych, st ˛ad:

L(GBayes; y, X ) = p(y|GBayes, X ) =

` Y i=1 p(yi|GBayes(xi), xi) • Zachodzi: p(yi|GBayes(xi), xi) =  p(xi) je´sli yi 6= GBayes(xi) 1 − p(xi) je´sli yi = GBayes(xi)

lub równowa˙znie p(yi|GBayes(xi), xi) = p(xi)ti(1 − p(xi))1−ti

• Problem sprowadza si ˛e do maksymalizacji wyra˙zenia L=Q`

i=1p(xi)ti(1 − p(xi))1−ti, pod warunkiem monotoniczno´sci

(23)

Estymacja przekłamanych etykiet

• Załó˙zmy, ˙ze xi ∈ X s ˛a ustalone; u˙zyjemy skrótów t = {t1, . . . , t`}, y= {y1, . . . , y`}.

• Poniewa˙z wszystkie obiekty ze realizacjami niezale˙znych zmiennych losowych, st ˛ad:

L(GBayes; y, X ) = p(y|GBayes, X ) = ` Y i=1

p(yi|GBayes(xi), xi)

• Zachodzi:

p(yi|GBayes(xi), xi) =



p(xi) je´sli yi 6= GBayes(xi)

1 − p(xi) je´sli yi = GBayes(xi)

lub równowa˙znie p(yi|GBayes(xi), xi) = p(xi)ti(1 − p(xi))1−ti

• Problem sprowadza si ˛e do maksymalizacji wyra˙zenia L=Q`

i=1p(xi)ti(1 − p(xi))1−ti, pod warunkiem monotoniczno´sci

(24)

Estymacja przekłamanych etykiet

• Załó˙zmy, ˙ze xi ∈ X s ˛a ustalone; u˙zyjemy skrótów t = {t1, . . . , t`}, y= {y1, . . . , y`}.

• Poniewa˙z wszystkie obiekty ze realizacjami niezale˙znych zmiennych losowych, st ˛ad:

L(GBayes; y, X ) = p(y|GBayes, X ) = ` Y i=1

p(yi|GBayes(xi), xi)

• Zachodzi:

p(yi|GBayes(xi), xi) = 

p(xi) je´sli yi 6= GBayes(xi) 1 − p(xi) je´sli yi = GBayes(xi) lub równowa˙znie p(yi|GBayes(xi), xi) = p(xi)ti(1 − p(xi))1−ti

• Problem sprowadza si ˛e do maksymalizacji wyra˙zenia L=Q`

i=1p(xi)ti(1 − p(xi))1−ti, pod warunkiem monotoniczno´sci

(25)

Estymacja przekłamanych etykiet

• Załó˙zmy, ˙ze xi ∈ X s ˛a ustalone; u˙zyjemy skrótów t = {t1, . . . , t`}, y= {y1, . . . , y`}.

• Poniewa˙z wszystkie obiekty ze realizacjami niezale˙znych zmiennych losowych, st ˛ad:

L(GBayes; y, X ) = p(y|GBayes, X ) = ` Y i=1

p(yi|GBayes(xi), xi)

• Zachodzi:

p(yi|GBayes(xi), xi) = 

p(xi) je´sli yi 6= GBayes(xi) 1 − p(xi) je´sli yi = GBayes(xi) lub równowa˙znie p(yi|GBayes(xi), xi) = p(xi)ti(1 − p(xi))1−ti

• Problem sprowadza si ˛e do maksymalizacji wyra˙zenia

L=Q`i=1p(xi)ti(1 − p(xi))1−ti, pod warunkiem monotoniczno´sci

(26)

Estymacja przekłamanych etykiet

• Poniewa˙z logarytm jest funkcj ˛a monotoniczn ˛a, wi ˛ec L ma maksimum wtw gdy ln L ma maksimum, st ˛ad mo˙zna maksymalizowa´c funkcj ˛e ln L lub minimalizowa´c − ln L:

− ln L = − ln n Y i=1 p(xi)ti(1 − p(xi))1−ti ! = − n X i=1 tiln p(xi) + (1 − ti) ln(1 − p(xi)) = n X i=1 ti(ln(1 − p(xi)) − ln p(xi)) − n X i=1 ln(1 − p(xi)) • Odrzucaj ˛acPn

i=1ln(1 − p(xi))i wprowadzaj ˛ac wagi wi= ln1−p(xp(x i)

i) otrzymujemy: − ln L = n X i=1 witi

(27)

Estymacja przekłamanych etykiet

• Poniewa˙z logarytm jest funkcj ˛a monotoniczn ˛a, wi ˛ec L ma maksimum wtw gdy ln L ma maksimum, st ˛ad mo˙zna maksymalizowa´c funkcj ˛e ln L lub minimalizowa´c − ln L:

− ln L = − ln n Y i=1 p(xi)ti(1 − p(xi))1−ti ! = − n X i=1

tiln p(xi) + (1 − ti) ln(1 − p(xi))

= n X i=1 ti(ln(1 − p(xi)) − ln p(xi)) − n X i=1 ln(1 − p(xi)) • Odrzucaj ˛acPn

i=1ln(1 − p(xi))i wprowadzaj ˛ac wagi wi= ln1−p(xp(x i)

i) otrzymujemy: − ln L = n X i=1 witi

(28)

Estymacja przekłamanych etykiet

• Poniewa˙z logarytm jest funkcj ˛a monotoniczn ˛a, wi ˛ec L ma maksimum wtw gdy ln L ma maksimum, st ˛ad mo˙zna maksymalizowa´c funkcj ˛e ln L lub minimalizowa´c − ln L:

− ln L = − ln n Y i=1 p(xi)ti(1 − p(xi))1−ti ! = − n X i=1

tiln p(xi) + (1 − ti) ln(1 − p(xi))

= n X i=1 ti(ln(1 − p(xi)) − ln p(xi)) − n X i=1 ln(1 − p(xi))

• Odrzucaj ˛acPni=1ln(1 − p(xi))i wprowadzaj ˛ac wagi wi= ln1−p(xp(x i)

i) otrzymujemy: − ln L = n X i=1 witi

(29)

Estymacja przekłamanych etykiet

W rzeczywisto´sci nie znamy warto´sci wi, bo nie znamy p(x). Przyjmujemy wi ˛ec wi ≡ w i otrzymujemy − ln L = wPni=1ti.

Sformułowanie problemu

Aby znale´z´c prawdziwe (nieprzekłamane) warto´sci etykiet, musimy znale´z´c najmniejsz ˛a warto´s´cPn

i=1ti zakładaj ˛ac, ˙ze dane s ˛a

monotoniczne. Innymi słowy, musimy przeetykietowa´c jak najmniejsz ˛a liczb ˛e obiektów, aby otrzyma´c spójny (zgodny z zasad ˛a dominacji) zbiór danych.

Rozwi ˛azanie dla dwóch klas

Izotoniczna separacja (Chandrasekaran et al.) — problem programowania całkowitoliczbowego z macierz ˛a unimodaln ˛a.

(30)

Estymacja przekłamanych etykiet

W rzeczywisto´sci nie znamy warto´sci wi, bo nie znamy p(x). Przyjmujemy wi ˛ec wi ≡ w i otrzymujemy − ln L = wPni=1ti.

Sformułowanie problemu

Aby znale´z´c prawdziwe (nieprzekłamane) warto´sci etykiet, musimy znale´z´c najmniejsz ˛a warto´s´cPni=1ti zakładaj ˛ac, ˙ze dane s ˛a

monotoniczne. Innymi słowy, musimy przeetykietowa´c jak najmniejsz ˛a liczb ˛e obiektów, aby otrzyma´c spójny (zgodny z zasad ˛a dominacji) zbiór danych.

Rozwi ˛azanie dla dwóch klas

Izotoniczna separacja (Chandrasekaran et al.) — problem programowania całkowitoliczbowego z macierz ˛a unimodaln ˛a.

(31)

Estymacja przekłamanych etykiet

W rzeczywisto´sci nie znamy warto´sci wi, bo nie znamy p(x). Przyjmujemy wi ˛ec wi ≡ w i otrzymujemy − ln L = wPni=1ti.

Sformułowanie problemu

Aby znale´z´c prawdziwe (nieprzekłamane) warto´sci etykiet, musimy znale´z´c najmniejsz ˛a warto´s´cPni=1ti zakładaj ˛ac, ˙ze dane s ˛a

monotoniczne. Innymi słowy, musimy przeetykietowa´c jak najmniejsz ˛a liczb ˛e obiektów, aby otrzyma´c spójny (zgodny z zasad ˛a dominacji) zbiór danych.

Rozwi ˛azanie dla dwóch klas

Izotoniczna separacja (Chandrasekaran et al.) — problem programowania całkowitoliczbowego z macierz ˛a unimodaln ˛a.

(32)

Spis tre´sci

1 Wprowadzenie

2 Model probabilistyczny i estymacja parametrów

3 Problem przeetykietowywania obiektów

4 Własno´sci rozwi ˛aza ´n optymalnych

5 Nowa definicja uogólnionej decyzji

(33)

Kodowanie klas (przykład 5 klas)

Propozycja I

Nowa etykieta obiektu xi∈ X kodowana jako zmienna di ∈ {1, 2, 3, 4, 5}

Problemy

• Jak modelowa´c bł ˛edy?

• Przykład: je´sli oryginalna etykieta to yito jak zamodelowa´c bł ˛ad

równy 0 gdy yi = di, równy 1 gdy yi 6= di

• Przykład: przeetykietowanie obiektu z klasy i do klasy j ma koszt Lij

• Bł ˛ad w postaci odległo´sci mi ˛edzy klasami |yi− di| niszczy

(34)

Kodowanie klas (przykład 5 klas)

Propozycja I

Nowa etykieta obiektu xi∈ X kodowana jako zmienna di ∈ {1, 2, 3, 4, 5}

Problemy

• Jak modelowa´c bł ˛edy?

• Przykład: je´sli oryginalna etykieta to yito jak zamodelowa´c bł ˛ad równy 0 gdy yi = di, równy 1 gdy yi 6= di

• Przykład: przeetykietowanie obiektu z klasy i do klasy j ma koszt Lij

• Bł ˛ad w postaci odległo´sci mi ˛edzy klasami |yi− di| niszczy unimodularno´s´c ogranicze ´n

(35)

Kodowanie klas (przykład 5 klas)

Propozycja II

Kodowanie m klas za pomoc ˛a m − 1 zmiennych di,1, . . . , di,5: klasa di,1 di,2 di,3 di,4

1 0 0 0 0

2 1 0 0 0

3 1 1 0 0

4 1 1 1 0

5 1 1 1 1

• Modelowanie dowolnych funkcji bł ˛edów, np. (1 − di,yi−1) + di,yi • Warunki monotoniczno´sci zmiennych:

di,j> di,j+1 dla i ∈ {1, . . . , n}, j ∈ {1, . . . , m − 2}

di,j> dk,j dla i, k ∈ {1, . . . , n}, xi  xk, j ∈ {1, . . . , m − 1}

(36)

Kodowanie klas (przykład 5 klas)

Propozycja II

Kodowanie m klas za pomoc ˛a m − 1 zmiennych di,1, . . . , di,5: klasa di,1 di,2 di,3 di,4

1 0 0 0 0

2 1 0 0 0

3 1 1 0 0

4 1 1 1 0

5 1 1 1 1

• Modelowanie dowolnych funkcji bł ˛edów, np. (1 − di,yi−1) + di,yi

• Warunki monotoniczno´sci zmiennych:

di,j> di,j+1 dla i ∈ {1, . . . , n}, j ∈ {1, . . . , m − 2}

di,j> dk,j dla i, k ∈ {1, . . . , n}, xi  xk, j ∈ {1, . . . , m − 1} • Nowa klasa (etykieta) dla obiektu xi to 1 +Pm−1j=1 di,j.

(37)

Sformułowanie problemu

• Problem programowania liniowego całkowitoliczbowego z unimodaln ˛a macierz ˛a ogranicze ´n.

• Funkcja celu: L= n X i=1 (1 − di,yi−1) + di,yi • Ograniczenia: di,j > di,j+1 16 i 6 n, 16 j 6 m − 2 dij> dkj ∀i, k : xi xk 16 j 6 m − 1 dij∈ {0, 1} 16 i 6 n, 16 j 6 m − 1

• Polu´zniamy ostatnie ograniczenie do dij∈ [0, 1] i rozwi ˛azujemy jako problem PL.

(38)

Formalizm uogólnionej decyzji

Uogólniona decyzja

Uogólnionym przedziałem decyzji dla obiektu x nazywamy przedział: δ(x) = [l(x), u(x)]

gdzie l(x) = min{yi: xi x}, u(x) = max{yi: x  xi}.

Jest to przedział zawieraj ˛acy ka˙zd ˛a klas ˛e, do której xmo˙ze nale˙ze´c; zachodzi oczywi´scie l(x) 6 y(x) 6 u(x).

(39)

Formalizm uogólnionej decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 1 3 2 1 3 2 3 3

(40)

Formalizm uogólnionej decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 1 3 2 1 3 2 3 3

(41)

Formalizm uogólnionej decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 1 3 2 1 3 2 3 3 [1,3]

(42)

Formalizm uogólnionej decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 1 3 2 1 3 2 3 3 [1,1] [1,1] [1,2] [1,2] [1,1] [1,3] [1,3] [1,3] [3,3] [2,3] [3,3] [3,3]

(43)

Równowa˙zno´s´c uogólnionej decyzji i przybli˙ze ´n zbioru

Wyznaczanie dolnych i górnych przybli˙ze ´n z przedziału uogólnionej decyzji

P(Cl>t ) = {x ∈ U : l(x) > t}, P(Cl>t ) = {x ∈ U : u(x) > t}, P(Cl6t ) = {x ∈ U : u(x) 6 t}, P(Cl6t ) = {x ∈ U : l(x) 6 t}

Wyznaczanie przedziału uogólnionej decyzji z dolnych i górnych przybli˙ze ´n l(x) = maxnt: x ∈ P(Cl>t ) o = minnt: x ∈ P(Cl6t ) o u(x) = minnt: x ∈ P(Cl6t ) o = maxnt: x ∈ P(Cl>t ) o

(44)

Równowa˙zno´s´c uogólnionej decyzji i przybli˙ze ´n zbioru

Wyznaczanie dolnych i górnych przybli˙ze ´n z przedziału uogólnionej decyzji

P(Cl>t ) = {x ∈ U : l(x) > t}, P(Cl>t ) = {x ∈ U : u(x) > t}, P(Cl6t ) = {x ∈ U : u(x) 6 t}, P(Cl6t ) = {x ∈ U : l(x) 6 t}

Wyznaczanie przedziału uogólnionej decyzji z dolnych i górnych przybli˙ze ´n l(x) = maxnt: x ∈ P(Cl>t ) o = minnt: x ∈ P(Cl6t ) o u(x) = minnt: x ∈ P(Cl6t ) o = maxnt: x ∈ P(Cl>t ) o

(45)

Redukcja zmiennych poprzez uogólnion ˛

a decyzj ˛e

Twierdzenie

Istnieje rozwi ˛azanie optymalne problemu przeetykietowania obiektów z warto´sciami nowych etykiet d(xi)spełniaj ˛acymi:

l(xi) 6 d(xi) 6 u(xi)

W szczególno´sci, je´sli obiekt xi jest spójny, zachodzi: l(xi) = y(xi) = d(xi) = u(xi)

czyli etykiety obiektów spójnych nie zostaj ˛a zmienione i obiekty takie mo˙zna usun ˛a´c z problemu optymalizacyjnego.

(46)

Spis tre´sci

1 Wprowadzenie

2 Model probabilistyczny i estymacja parametrów

3 Problem przeetykietowywania obiektów

4 Własno´sci rozwi ˛aza ´n optymalnych

5 Nowa definicja uogólnionej decyzji

(47)

Niejednoznaczno´s´c rozwi ˛

azania

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 2 1 2 1 2 2 2

(48)

Niejednoznaczno´s´c rozwi ˛

azania

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 2 1 2 1 2 2 2 1

1

(49)

Niejednoznaczno´s´c rozwi ˛

azania

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 2 1 2 1 2 2 2 2

2

(50)

Porz ˛

adek mi ˛edzy rozwi ˛

azaniami optymalnymi

Definicja

Niech F b ˛edzie zbiorem rozwi ˛aza ´n optymalnych problemu

przeetykietowania, F = {f1, . . . , f|F|}. Ka˙zde z rozwi ˛aza ´n optymalnych mo˙zemy traktowa´c jako wektor etykiet fr= (fr(x1), . . . , fr(x`)).

Wprowadzamy relacj ˛ecz ˛e ´sciowego porz ˛adku mi ˛edzy rozwi ˛azaniami optymalnymi w sposób nast ˛epuj ˛acy:

fs fr ⇐⇒ ∀16i6` fs(xi) > fr(xi)

Definicja

Zdefiniujmy operatory min, max działaj ˛ace w przestrzeni rozwi ˛aza ´n, w sposób nast ˛epuj ˛acy:

min{fs, fr} = (min{fs(x1), fr(x1)}, . . . , min{fs(x`), fr(x`)})

(51)

Porz ˛

adek mi ˛edzy rozwi ˛

azaniami optymalnymi

Definicja

Niech F b ˛edzie zbiorem rozwi ˛aza ´n optymalnych problemu

przeetykietowania, F = {f1, . . . , f|F|}. Ka˙zde z rozwi ˛aza ´n optymalnych mo˙zemy traktowa´c jako wektor etykiet fr= (fr(x1), . . . , fr(x`)).

Wprowadzamy relacj ˛ecz ˛e ´sciowego porz ˛adku mi ˛edzy rozwi ˛azaniami optymalnymi w sposób nast ˛epuj ˛acy:

fs fr ⇐⇒ ∀16i6` fs(xi) > fr(xi)

Definicja

Zdefiniujmy operatory min, max działaj ˛ace w przestrzeni rozwi ˛aza ´n, w sposób nast ˛epuj ˛acy:

min{fs, fr} = (min{fs(x1), fr(x1)}, . . . , min{fs(x`), fr(x`)}) max{fs, fr} = (max{fs(x1), fr(x1)}, . . . , max{fs(x`), fr(x`)})

(52)

Porz ˛

adek mi ˛edzy rozwi ˛

azaniami optymalnymi

Lemat

Je´sli f1i f2s ˛a rozwi ˛azaniami optymalnymi, to rozwi ˛azania f3= max{f1, f2} i f4= min{f1, f2} s ˛a równie˙z rozwi ˛azaniami optymalnymi.

Twierdzenie

W zbiorze rozwi ˛aza ´n optymalnych F istniej ˛a elementy najmniejszy i najwi ˛ekszy.

∃fmin : ∀f ∈ F fmin f ∃fmax : ∀f ∈ F fmax f

(53)

Porz ˛

adek mi ˛edzy rozwi ˛

azaniami optymalnymi

Lemat

Je´sli f1i f2s ˛a rozwi ˛azaniami optymalnymi, to rozwi ˛azania f3= max{f1, f2} i f4= min{f1, f2} s ˛a równie˙z rozwi ˛azaniami optymalnymi.

Twierdzenie

W zbiorze rozwi ˛aza ´n optymalnych F istniej ˛a elementy najmniejszy i najwi ˛ekszy.

∃fmin : ∀f ∈ F fmin f ∃fmax : ∀f ∈ F fmax f

(54)

Przykład - porz ˛

adek na kracie

● ● ● ● ● ● ● ● f1 f2 f3 f4 f5 f6 f7 f8

(55)

Spis tre´sci

1 Wprowadzenie

2 Model probabilistyczny i estymacja parametrów

3 Problem przeetykietowywania obiektów

4 Własno´sci rozwi ˛aza ´n optymalnych

5 Nowa definicja uogólnionej decyzji

(56)

Optymalizowany przedział decyzji

Jak wyznaczy´c warto´sci fmini fmax?

Rozwi ˛azania fmini fmaxmo˙zna znale´z´c rozwi ˛azuj ˛ac problem

przeetykietowania ze zmodyfikowan ˛a funkcj ˛a celu L = L0± M−1L1,

gdzie: • L0=Pn

i=1(1 − di,yi−1) + di,yi jest przeetykietowa ´n. • L1=P`i=1Pu(xj=l(xi)−1

i) di,jjest (z dokładno´sci ˛a do stałej) sum ˛a

nowych etykiet (klas) obiektów.

• waga M−1jest tak dobrana, aby uzyska´c porz ˛adek leksykograficzny kryteriów — zachodzi dla M >P`

i=1(u(xi) − l(xi)).

(57)

Optymalizowany przedział decyzji

Jak wyznaczy´c warto´sci fmini fmax?

Rozwi ˛azania fmini fmaxmo˙zna znale´z´c rozwi ˛azuj ˛ac problem

przeetykietowania ze zmodyfikowan ˛a funkcj ˛a celu L = L0± M−1L1, gdzie:

• L0=Pni=1(1 − di,yi−1) + di,yi jest przeetykietowa ´n.

• L1=P`i=1Pu(xj=l(xi)−1

i) di,jjest (z dokładno´sci ˛a do stałej) sum ˛a

nowych etykiet (klas) obiektów.

• waga M−1jest tak dobrana, aby uzyska´c porz ˛adek

leksykograficzny kryteriów — zachodzi dla M >P`i=1(u(xi) − l(xi)). • znak ± dobierany jest aby uzyska´c fminlub fmax.

(58)

Optymalizowany przedział decyzji

Definicja

Zdefiniujmyoptymalizowany przedział uogólnionej decyzji δopt(xi) jako [fmin(xi), fmax(xi)], dla xi∈ X .

Na mocy równowa˙zno´sci, maj ˛ac optymalizowany przedział uogólnionej decyzji, mo˙zemy wyznaczy´c optymalizowane dolne i górne

(59)

Optymalizowany przedział decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 1 2 2 1 3 3 3 1

(60)

Optymalizowany przedział decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 1 1 2 1 3 3 3 3

(61)

Optymalizowany przedział decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 1 2 2 2 3 3 3 3

(62)

Optymalizowany przedział decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 1 2 3 3 3 3 [1,1] [2,2] [1,1] [1,2] [2,2] [1,2] [3,3] [3,3] [3,3] [3,3]

(63)

Zmienny poziom spójno´sci

Rozwa˙zmy problem optymalizacji L = L0± ML1, gdzie L0jest ilo´sci ˛a przeetykietowanych obiektów, a L1jest sum ˛a etykiet.

• Je´sli  = −1, otrzymujemy optymalizowany przedział decyzji. • Je´sli  = 1, porz ˛adek leksykograficzny kryteriów zamienia si ˛e i

otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Je´sli  ∈ (−1, 1), pojawia si ˛e przetarg mi ˛edzy ilo´sci ˛a

przeetykietowa ´n, a klasycznymi przybli˙zeniami DRSA.

-optymalizowany przedział uogólnionej decyzji

-optymalizowany przedział uogólnionej decyzji (na poziomie spójno´sci ) powstaje poprzez rozwi ˛azanie problemu optymalizacyjnego

(64)

Zmienny poziom spójno´sci

Rozwa˙zmy problem optymalizacji L = L0± ML1, gdzie L0jest ilo´sci ˛a przeetykietowanych obiektów, a L1jest sum ˛a etykiet.

• Je´sli  = −1, otrzymujemy optymalizowany przedział decyzji. • Je´sli  = 1, porz ˛adek leksykograficzny kryteriów zamienia si ˛e i

otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Je´sli  ∈ (−1, 1), pojawia si ˛e przetarg mi ˛edzy ilo´sci ˛a

przeetykietowa ´n, a klasycznymi przybli˙zeniami DRSA.

-optymalizowany przedział uogólnionej decyzji

-optymalizowany przedział uogólnionej decyzji (na poziomie spójno´sci ) powstaje poprzez rozwi ˛azanie problemu optymalizacyjnego

(65)

Zmienny poziom spójno´sci

Rozwa˙zmy problem optymalizacji L = L0± ML1, gdzie L0jest ilo´sci ˛a przeetykietowanych obiektów, a L1jest sum ˛a etykiet.

• Je´sli  = −1, otrzymujemy optymalizowany przedział decyzji. • Je´sli  = 1, porz ˛adek leksykograficzny kryteriów zamienia si ˛e i

otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Je´sli  ∈ (−1, 1), pojawia si ˛e przetarg mi ˛edzy ilo´sci ˛a

przeetykietowa ´n, a klasycznymi przybli˙zeniami DRSA.

-optymalizowany przedział uogólnionej decyzji

-optymalizowany przedział uogólnionej decyzji (na poziomie spójno´sci ) powstaje poprzez rozwi ˛azanie problemu optymalizacyjnego

(66)

Zmienny poziom spójno´sci

Rozwa˙zmy problem optymalizacji L = L0± ML1, gdzie L0jest ilo´sci ˛a przeetykietowanych obiektów, a L1jest sum ˛a etykiet.

• Je´sli  = −1, otrzymujemy optymalizowany przedział decyzji. • Je´sli  = 1, porz ˛adek leksykograficzny kryteriów zamienia si ˛e i

otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Je´sli  ∈ (−1, 1), pojawia si ˛e przetarg mi ˛edzy ilo´sci ˛a

przeetykietowa ´n, a klasycznymi przybli˙zeniami DRSA.

-optymalizowany przedział uogólnionej decyzji

-optymalizowany przedział uogólnionej decyzji (na poziomie spójno´sci ) powstaje poprzez rozwi ˛azanie problemu optymalizacyjnego

(67)

Zmienny poziom spójno´sci

Rozwa˙zmy problem optymalizacji L = L0± ML1, gdzie L0jest ilo´sci ˛a przeetykietowanych obiektów, a L1jest sum ˛a etykiet.

• Je´sli  = −1, otrzymujemy optymalizowany przedział decyzji. • Je´sli  = 1, porz ˛adek leksykograficzny kryteriów zamienia si ˛e i

otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Je´sli  ∈ (−1, 1), pojawia si ˛e przetarg mi ˛edzy ilo´sci ˛a

przeetykietowa ´n, a klasycznymi przybli˙zeniami DRSA.

-optymalizowany przedział uogólnionej decyzji

-optymalizowany przedział uogólnionej decyzji (na poziomie spójno´sci ) powstaje poprzez rozwi ˛azanie problemu optymalizacyjnego

L= L0± ML

(68)

Procedura klasyfikacji

1 Wyznacz -optymalizowany przedział uogólnionej decyzji.

2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz

z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.

3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),

osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.

4 Przy pó´zniejszej klasyfikacji obiektu x:

• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za

pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,

przydziel do niej obiekt x, w przeciwnym przypadku podaj jako

wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a

odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.

• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa

przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))

oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas

p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2  .

(69)

Procedura klasyfikacji

1 Wyznacz -optymalizowany przedział uogólnionej decyzji.

2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz

z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.

3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),

osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.

4 Przy pó´zniejszej klasyfikacji obiektu x:

• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za

pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,

przydziel do niej obiekt x, w przeciwnym przypadku podaj jako

wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a

odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.

• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa

przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))

oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas

p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2  .

(70)

Procedura klasyfikacji

1 Wyznacz -optymalizowany przedział uogólnionej decyzji.

2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz

z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.

3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),

osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.

4 Przy pó´zniejszej klasyfikacji obiektu x:

• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za

pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,

przydziel do niej obiekt x, w przeciwnym przypadku podaj jako

wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a

odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.

• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa

przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))

oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas

p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2  .

(71)

Procedura klasyfikacji

1 Wyznacz -optymalizowany przedział uogólnionej decyzji.

2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz

z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.

3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),

osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.

4 Przy pó´zniejszej klasyfikacji obiektu x:

• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za

pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,

przydziel do niej obiekt x, w przeciwnym przypadku podaj jako

wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a

odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.

• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa

przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))

oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas

p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2  .

(72)

Procedura klasyfikacji

1 Wyznacz -optymalizowany przedział uogólnionej decyzji.

2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz

z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.

3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),

osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.

4 Przy pó´zniejszej klasyfikacji obiektu x:

• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za

pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,

przydziel do niej obiekt x, w przeciwnym przypadku podaj jako

wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a

odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.

• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa

przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))

oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas

p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2  .

(73)

Procedura klasyfikacji

1 Wyznacz -optymalizowany przedział uogólnionej decyzji.

2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz

z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.

3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),

osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.

4 Przy pó´zniejszej klasyfikacji obiektu x:

• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,

przydziel do niej obiekt x, w przeciwnym przypadku podaj jako wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a

odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.

• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa

przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))

oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas

p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2  .

(74)

Procedura klasyfikacji

1 Wyznacz -optymalizowany przedział uogólnionej decyzji.

2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz

z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.

3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),

osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.

4 Przy pó´zniejszej klasyfikacji obiektu x:

• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,

przydziel do niej obiekt x, w przeciwnym przypadku podaj jako wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a

odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.

• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa

przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))

oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas

p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2  .

(75)

Spis tre´sci

1 Wprowadzenie

2 Model probabilistyczny i estymacja parametrów

3 Problem przeetykietowywania obiektów

4 Własno´sci rozwi ˛aza ´n optymalnych

5 Nowa definicja uogólnionej decyzji

(76)

Eksperyment

Wybrano sze´s´c zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sze´s´c typów klasyfikatorów:

SVM liniowy (svm-lin),

SVM wielomianowy (stopie ´n 3) (svm-poly),

drzewa decyzyjne (j48),

AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),

rodziny reguł decyzyjnych (ensembles),

rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)

• Ka˙zdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy

klasyfikatorów z domy´slnymi parametrami, 10-krotna walidacja krzy˙zowa, dodatkowo powtórzona 10-krotnie.

Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotn ˛a walidacj ˛e krzy˙zow ˛a.

(77)

Eksperyment

Wybrano sze´s´c zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sze´s´c typów klasyfikatorów:

SVM liniowy (svm-lin),

SVM wielomianowy (stopie ´n 3) (svm-poly),

drzewa decyzyjne (j48),

AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),

rodziny reguł decyzyjnych (ensembles),

rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)

• Ka˙zdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy

klasyfikatorów z domy´slnymi parametrami, 10-krotna walidacja krzy˙zowa, dodatkowo powtórzona 10-krotnie.

Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotn ˛a walidacj ˛e krzy˙zow ˛a.

(78)

Eksperyment

Wybrano sze´s´c zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sze´s´c typów klasyfikatorów:

SVM liniowy (svm-lin),

SVM wielomianowy (stopie ´n 3) (svm-poly),

drzewa decyzyjne (j48),

AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),

rodziny reguł decyzyjnych (ensembles),

rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)

• Ka˙zdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy

klasyfikatorów z domy´slnymi parametrami, 10-krotna walidacja krzy˙zowa, dodatkowo powtórzona 10-krotnie.

Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotn ˛a walidacj ˛e krzy˙zow ˛a.

(79)

Eksperyment

Wybrano sze´s´c zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sze´s´c typów klasyfikatorów:

SVM liniowy (svm-lin),

SVM wielomianowy (stopie ´n 3) (svm-poly),

drzewa decyzyjne (j48),

AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),

rodziny reguł decyzyjnych (ensembles),

rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)

• Ka˙zdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy

klasyfikatorów z domy´slnymi parametrami, 10-krotna walidacja krzy˙zowa, dodatkowo powtórzona 10-krotnie.

Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotn ˛a walidacj ˛e krzy˙zow ˛a.

(80)

Eksperyment

Wybrano sze´s´c zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sze´s´c typów klasyfikatorów:

SVM liniowy (svm-lin),

SVM wielomianowy (stopie ´n 3) (svm-poly),

drzewa decyzyjne (j48),

AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),

rodziny reguł decyzyjnych (ensembles),

rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)

• Ka˙zdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy

klasyfikatorów z domy´slnymi parametrami, 10-krotna walidacja krzy˙zowa, dodatkowo powtórzona 10-krotnie.

Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotn ˛a walidacj ˛e krzy˙zow ˛a.

(81)

Wyniki

klasyfikator heart-c heart-h credit-g credit-a

svm-lin 84.1 80.6 75.0 86.3 83.0 80.3 75.5 86.2 svm-poly 77.8 76.7 71.3 82.2 78.4 77.8 74.0 84.0 j48 76.3 76.1 71.3 85.5 76.8 77.0 73.6 86.8 AdaBoost 82.3 79.0 70.9 85.5 82.4 79.5 72.5 86.2 ensembles 80.0 78.7 74.3 86.5 80.3 78.8 75.6 86.6 dom-ensmbls 80.7 79.8 74.4 86.6 81.2 79.6 75.8 86.4

Legenda:niebieski— istotny statystycznie spadek trafno´sci po u˙zyciu optymalizowanych przedziałów decyzji;pomara ´nczowy— istotny statystycznie wzrost trafno´sci po u˙zyciu optymalizowanych przedziałów decyzji; czarny — ró˙znica nieistotna statystycznie.

(82)

Wyniki

klasyfikator breast-cancer breast-w

svm-lin 75.0 97.0 76.8 97.2 j48 76.1 96.3 74.7 95.6 ensembles 74.7 97.0 77.6 97.3 dom-ensmbls 77.2 97.0 77.6 97.6

Legenda: R — przyrost trafno´s´c predykcji przy u˙zyciu optymalizowanych przedziałów decyzji, R6 −0.5 −0.5 6 R 6 0.5 R> 0.5 R> 1

(83)

Cytaty

Powiązane dokumenty

The following definition of pulmonary rehabilitation was defined in a joint official statement by the American Thoracic Society (ATS) and the European Respiratory

The following Holter ECG parameters were measured: mean heart rate, ventricular and supraventricular extrasystoles, and parameters of HRV, including standard deviation of all normal

When, years ago, I lectured for the first time on the relation of art and oncology, I showed a cover picture of a Polish journal, edited to inform lay people on breast cancer

Badacze na całym świecie starają się stworzyć model słu- żący do określenia czynników ryzyka i metod prewencji raka piersi. Jedną z wytypowanych do tych zadań me- tod może

Nie stwierdzono staty- stycznie istotnych różnic w rozkładzie genotypów pomiędzy badanymi grupami (p&gt;0,05). W pierwszym etapie naprawy poprzez rekombi- nację homologiczną,

Wydaje się, że tego typu zjawiska są odpowiedzial- ne za działanie protekcyjne w kierunku raka sutka, szczególnie w okresie dojrzewania płciowego i ciąży, kie- dy to podwyższony

Właśnie wtedy działy się te męskie sprawy między nami - w ciszy, jak na OIOM-ie.. Tylko mężczyźni potrafią tak milczeć - pełnymi zdaniami,

zasada swobodnego przepływu towarów. Nie oznacza to, że nie obowiązują żadne zasady. Te same zasady, jakie obowiązują pomiędzy państwami członkowskimi, mają zastosowanie