Estymacja przedziału uogólnionej decyzji w podej´sciu DRSA

(1)

Estymacja przedziału uogólnionej decyzji

w podej´sciu DRSA

Wojciech Kotłowski

(2)

Spis tre´sci

1 Wprowadzenie

2 Model probabilistyczny i estymacja parametrów

3 Problem przeetykietowywania obiektów

4 Własno´sci rozwi ˛aza ´n optymalnych

5 Nowa definicja uogólnionej decyzji

(3)

Spis tre´sci

1 Wprowadzenie

(4)

Notacja

• zbiór ` obiektów X = {x1, . . . , x`} opisanych za pomoc ˛a n

atrybutów warunkowych Q = {Q1, . . . , Qn} i atrybutu decyzyjnego Y = {1, . . . , m}.

• qi(xj)— warto´sć j-tego obiektu na i-tym atrybucie; yj — warto´sć decyzji dla j-tego obiektu; b ˛edziemy te˙z u˙zywać skrótu

x= (q1(x), . . . qn(x))

• ka˙zdy obiekt x ∈ X (a wła´sciwie para (x, y) ∈ Q × Y) jest realizacj ˛a niezale˙znej zmiennej losowej (Q1, . . . , Qn, Y) = (Q, Y)o

jednakowym rozkładzie p(Q, Y).

• zakładamy, ˙ze na ka˙zdym atrybucie skala przynajmniej porz ˛adkowa; implikuje to istnienie relacji dominacji , definiowanej jako: x z ⇐⇒ ∀i (qi(x) > qi(z))

(5)

Notacja

x= (q1(x), . . . qn(x))

(6)

Notacja

x= (q1(x), . . . qn(x))

(7)

Zwi ˛

azki monotoniczne

Stochastyczna dominacja

• Zwi ˛azki monotoniczne definiowane poprzezstochastyczn ˛a dominacj ˛e: p(y > i|x) jest funkcj ˛a monotoniczn ˛a ze wzgl ˛edu na q1(x), . . . , qn(x).

• Wszystkie atrybuty s ˛a kryteriami typu zysk, st ˛ad p(y > i|x) jest rosn ˛aca ze wzgl ˛edu na ka˙zde qi(x).

• W przypadku dwuklasowym Y = {0, 1}, p(y = 1|x) jest rosn ˛aca, za´s p(y = 0|x) — malej ˛aca ze wzgl ˛edu na ka˙zde qi(x).

(8)

Przykład (prawdopodobie ´nstwa klas)

x p(y|x) −2 −1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 p(y=1|x) p(y=2|x) p(y=3|x)

(9)

Przykład (prawdopodobie ´nstwa kumulacji)

x p(y|x) −2 −1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 p(y≥1|x) p(y≥2|x) p(y≥3|x)

(10)

Przykład („twarda” dominacja)

x p(y|x) −2 −1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 p(y=1|x) p(y=2|x) p(y=3|x)

(11)

Spis tre´sci

1 Wprowadzenie

(12)

Model probabilistyczny — przypadek dwuklasowy

• Opis danych za pomoc ˛a jednej funkcji p(y = 1|x) ≡ p1(x), poniewa˙z p(y = 0|x) ≡ p0(x) = 1 − p1(x).

• Problem jestdeterministyczny, je´sli ∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0.

• Jaki jest optymalny klasyfikator Gopt, tj. klasyfikator, który ´srednio

popełnia najmniejszy bł ˛ad: Gopt = arg minGE[Y 6= G]?

• Klasyfikator Bayesowski:

G_Bayes(x) =

1 p₁(x) > p0(x) ≡ p1(x) > 1₂

0 p0(x) > p1(x) ≡ p1(x) < 1₂

• Zachodzi: GBayes = Gopt.

• Je´sli dane s ˛a monotoniczne, to funkcja GBayes(x)jest

(13)

Model probabilistyczny — przypadek dwuklasowy

• Jaki jest optymalny klasyfikator Gopt, tj. klasyfikator, który ´srednio popełnia najmniejszy bł ˛ad: Gopt = arg minGE[Y 6= G]?

• Klasyfikator Bayesowski:

G_Bayes(x) =

1 p₁(x) > p0(x) ≡ p1(x) > 1₂

0 p0(x) > p1(x) ≡ p1(x) < 1₂

• Zachodzi: GBayes = Gopt.

(14)

Model probabilistyczny — przypadek dwuklasowy

• Klasyfikator Bayesowski: G_Bayes(x) =

1 p₁(x) > p0(x) ≡ p1(x) > 1₂ 0 p0(x) > p1(x) ≡ p1(x) < 1₂ • Zachodzi: GBayes = Gopt.

(15)

Model probabilistyczny — przypadek dwuklasowy

• Klasyfikator Bayesowski: G_Bayes(x) =

1 p₁(x) > p0(x) ≡ p1(x) > 1₂ 0 p0(x) > p1(x) ≡ p1(x) < 1₂ • Zachodzi: GBayes = Gopt.

• Je´sli dane s ˛a monotoniczne, to funkcja GBayes(x)jest monotoniczna ze wzgl ˛edu na q1(x), . . . , qn(x).

(16)

Model probabilistyczny — przypadek dwuklasowy

• Definiujemy zmienn ˛a losow ˛a T = T(X, Y) jako:

T(X, Y) =

1 GBayes(X) = Y 0 GBayes(X) 6= Y

T = 1 wtedy i tylko wtedy gdy klasyfikator Bayesowski popełnia bł ˛ad.

• T ma dla danego x rozkład prawdopodobie ´nstwa p(t = 1|x) ≡ p(x) = min{p1(x), p0(x)}; p(x) jest

prawdopodobie ´nstwem popełnienia bł ˛edu przez klasyfikator Bayesowski.

• Mo˙zemy problem potraktowa´c jako deterministyczny z funkcj ˛a

GBayes(x)wyznaczaj ˛ac ˛a zale˙zno´s´c mi ˛edzy y a x, z dodatkowym

przekłamaniem warto´sci y (zamiana y = 1 na y = 0 i odwrotnie) z prawdopodobie ´nstwem p(x).

(17)

Model probabilistyczny — przypadek dwuklasowy

T(X, Y) =

• Mo˙zemy problem potraktowa´c jako deterministyczny z funkcj ˛a

GBayes(x)wyznaczaj ˛ac ˛a zale˙zno´s´c mi ˛edzy y a x, z dodatkowym

przekłamaniem warto´sci y (zamiana y = 1 na y = 0 i odwrotnie) z prawdopodobie ´nstwem p(x).

(18)

Model probabilistyczny — przypadek dwuklasowy

T(X, Y) =

• Mo˙zemy problem potraktować jako deterministyczny z funkcj ˛a GBayes(x)wyznaczaj ˛ac ˛a zale˙zno´sć mi ˛edzy y a x, z dodatkowym przekłamaniem warto´sci y (zamiana y = 1 na y = 0 i odwrotnie) z prawdopodobie ństwem p(x).

(19)

Estymator najwi ˛ekszej wiarygodno´sci

• Jak wyznaczy´c, które z etykiet obiektów ze zbioru ucz ˛acego X zostały przekłamane, tzn. dla których x ∈ X mamy t(x) = 1, je´sli wiemy, ˙ze dane s ˛a monotoniczne?

• Przyjmijmy, ˙ze znamy dla ka˙zdego xi∈ X prawdopodobie ´nstwa

przekłamania p(xi)i wiemy, ˙ze problem jest monotoniczny.

Chcemy wyznaczy´c warto´sci t(xi), co mo˙zna zrobi´c poprzez

wyznaczenie warto´sci GBayes(xi), traktuj ˛ac je jako parametry i

stosuj ˛acmetod ˛e najwi ˛ekszej wiarygodno ´sci.

Estymacja metod ˛a najwi ˛ekszej wiarygodno´sci

Szukamy takich warto´sci parametrów θ dla danych D, dla których funkcja wiarygodno´sci L(θ; D) = p(D|θ) osi ˛aga warto´s´c maksymaln ˛a; inaczej: szukamy takich warto´sci parametrów, dla których dane D, które mamy, s ˛a najbardziej prawdopodobne.

(20)

Estymator najwi ˛ekszej wiarygodno´sci

• Przyjmijmy, ˙ze znamy dla ka˙zdego xi∈ X prawdopodobie ństwa przekłamania p(xi)i wiemy, ˙ze problem jest monotoniczny. Chcemy wyznaczyć warto´sci t(xi), co mo˙zna zrobić poprzez wyznaczenie warto´sci GBayes(xi), traktuj ˛ac je jako parametry i stosuj ˛acmetod ˛e najwi ˛ekszej wiarygodno ´sci.

(21)

Estymator najwi ˛ekszej wiarygodno´sci

• Przyjmijmy, ˙ze znamy dla ka˙zdego xi∈ X prawdopodobie ństwa przekłamania p(xi)i wiemy, ˙ze problem jest monotoniczny. Chcemy wyznaczyć warto´sci t(xi), co mo˙zna zrobić poprzez wyznaczenie warto´sci GBayes(xi), traktuj ˛ac je jako parametry i stosuj ˛acmetod ˛e najwi ˛ekszej wiarygodno ´sci.

(22)

Estymacja przekłamanych etykiet

• Załó˙zmy, ˙ze xi ∈ X s ˛a ustalone; u˙zyjemy skrótów t = {t1, . . . , t`}, y= {y1, . . . , y`}.

• Poniewa˙z wszystkie obiekty ze realizacjami niezale˙znych zmiennych losowych, st ˛ad:

L(GBayes; y, X ) = p(y|GBayes, X ) =

` Y i=1 p(yi|GBayes(xi), xi) • Zachodzi: p(yi|GBayes(xi), xi) = p(xi) je´sli yi 6= GBayes(xi) 1 − p(xi) je´sli yi = GBayes(xi)

lub równowa˙znie p(yi|GBayes(xi), xi) = p(xi)ti(1 − p(xi))1−ti

• Problem sprowadza si ˛e do maksymalizacji wyra˙zenia L=Q`

i=1p(xi)ti(1 − p(xi))1−ti, pod warunkiem monotoniczno´sci

(23)

Estymacja przekłamanych etykiet

L(GBayes; y, X ) = p(y|GBayes, X ) = ` Y i=1

p(yi|G_Bayes(xi), xi)

• Zachodzi:

p(yi|GBayes(xi), xi) =

p(xi) je´sli yi 6= GBayes(xi)

1 − p(xi) je´sli yi = GBayes(xi)

lub równowa˙znie p(yi|GBayes(xi), xi) = p(xi)ti(1 − p(xi))1−ti

(24)

Estymacja przekłamanych etykiet

• Zachodzi:

p(xi) je´sli yi 6= G_Bayes(xi) 1 − p(xi) je´sli yi = GBayes(xi) lub równowa˙znie p(yi|G_Bayes(xi), xi) = p(xi)ti_{(1 − p(xi))}1−ti

(25)

Estymacja przekłamanych etykiet

• Zachodzi:

p(xi) je´sli yi 6= G_Bayes(xi) 1 − p(xi) je´sli yi = GBayes(xi) lub równowa˙znie p(yi|G_Bayes(xi), xi) = p(xi)ti_{(1 − p(xi))}1−ti

• Problem sprowadza si ˛e do maksymalizacji wyra˙zenia

L=Q`_i=1p(xi)ti_{(1 − p(xi))}1−ti_{, pod warunkiem monotoniczno´sci}

(26)

Estymacja przekłamanych etykiet

• Poniewa˙z logarytm jest funkcj ˛a monotoniczn ˛a, wi ˛ec L ma maksimum wtw gdy ln L ma maksimum, st ˛ad mo˙zna maksymalizowa´c funkcj ˛e ln L lub minimalizowa´c − ln L:

− ln L = − ln n Y i=1 p(xi)ti(1 − p(xi))1−ti ! = − n X i=1 tiln p(xi) + (1 − ti) ln(1 − p(xi)) = n X i=1 ti(ln(1 − p(xi)) − ln p(xi)) − n X i=1 ln(1 − p(xi)) • Odrzucaj ˛acPn

i=1ln(1 − p(xi))i wprowadzaj ˛ac wagi wi= ln1−p(x_p(x i)

i) otrzymujemy: − ln L = n X i=1 witi

(27)

Estymacja przekłamanych etykiet

− ln L = − ln n Y i=1 p(xi)ti_{(1 − p(xi))}1−ti ! = − n X i=1

tiln p(xi) + (1 − ti) ln(1 − p(xi))

= n X i=1 ti(ln(1 − p(xi)) − ln p(xi)) − n X i=1 ln(1 − p(xi)) • Odrzucaj ˛acPn

i=1ln(1 − p(xi))i wprowadzaj ˛ac wagi wi= ln1−p(x_p(x i)

(28)

Estymacja przekłamanych etykiet

− ln L = − ln n Y i=1 p(xi)ti_{(1 − p(xi))}1−ti ! = − n X i=1

tiln p(xi) + (1 − ti) ln(1 − p(xi))

= n X i=1 ti(ln(1 − p(xi)) − ln p(xi)) − n X i=1 ln(1 − p(xi))

• Odrzucaj ˛acPn_i=1ln(1 − p(xi))i wprowadzaj ˛ac wagi wi= ln1−p(x_p(x i)

(29)

Estymacja przekłamanych etykiet

W rzeczywisto´sci nie znamy warto´sci wi, bo nie znamy p(x). Przyjmujemy wi ˛ec wi ≡ w i otrzymujemy − ln L = wPn_i=1ti.

Sformułowanie problemu

Aby znale´zć prawdziwe (nieprzekłamane) warto´sci etykiet, musimy znale´zć najmniejsz ˛a warto´sćPn

i=1ti zakładaj ˛ac, ˙ze dane s ˛a

monotoniczne. Innymi słowy, musimy przeetykietowa´c jak najmniejsz ˛a liczb ˛e obiektów, aby otrzyma´c spójny (zgodny z zasad ˛a dominacji) zbiór danych.

Rozwi ˛azanie dla dwóch klas

Izotoniczna separacja (Chandrasekaran et al.) — problem programowania całkowitoliczbowego z macierz ˛a unimodaln ˛a.

(30)

Estymacja przekłamanych etykiet

Aby znale´zć prawdziwe (nieprzekłamane) warto´sci etykiet, musimy znale´zć najmniejsz ˛a warto´sćPn_i=1ti zakładaj ˛ac, ˙ze dane s ˛a

(31)

Estymacja przekłamanych etykiet

Aby znale´zć prawdziwe (nieprzekłamane) warto´sci etykiet, musimy znale´zć najmniejsz ˛a warto´sćPn_i=1ti zakładaj ˛ac, ˙ze dane s ˛a

(32)

Spis tre´sci

1 Wprowadzenie

(33)

Kodowanie klas (przykład 5 klas)

Propozycja I

Nowa etykieta obiektu xi∈ X kodowana jako zmienna di ∈ {1, 2, 3, 4, 5}

Problemy

• Jak modelowa´c bł ˛edy?

• Przykład: je´sli oryginalna etykieta to yito jak zamodelowa´c bł ˛ad

równy 0 gdy yi = di, równy 1 gdy yi 6= di

• Przykład: przeetykietowanie obiektu z klasy i do klasy j ma koszt Lij

• Bł ˛ad w postaci odległo´sci mi ˛edzy klasami |yi− di| niszczy

(34)

Kodowanie klas (przykład 5 klas)

Propozycja I

Nowa etykieta obiektu xi∈ X kodowana jako zmienna di ∈ {1, 2, 3, 4, 5}

Problemy

• Jak modelowa´c bł ˛edy?

• Przykład: je´sli oryginalna etykieta to yito jak zamodelowa´c bł ˛ad równy 0 gdy yi = di, równy 1 gdy yi 6= di

• Przykład: przeetykietowanie obiektu z klasy i do klasy j ma koszt Lij

• Bł ˛ad w postaci odległo´sci mi ˛edzy klasami |yi− di| niszczy unimodularno´s´c ogranicze ´n

(35)

Kodowanie klas (przykład 5 klas)

Propozycja II

Kodowanie m klas za pomoc ˛a m − 1 zmiennych di,1, . . . , di,5: klasa di,1 di,2 di,3 di,4

1 0 0 0 0

2 1 0 0 0

3 1 1 0 0

4 1 1 1 0

5 1 1 1 1

• Modelowanie dowolnych funkcji bł ˛edów, np. (1 − di,yi−1) + di,yi • Warunki monotoniczno´sci zmiennych:

di,j> di,j+1 dla i ∈ {1, . . . , n}, j ∈ {1, . . . , m − 2}

di,j> dk,j dla i, k ∈ {1, . . . , n}, xi xk, j ∈ {1, . . . , m − 1}

(36)

Kodowanie klas (przykład 5 klas)

Propozycja II

Kodowanie m klas za pomoc ˛a m − 1 zmiennych di,1, . . . , di,5: klasa di,1 di,2 di,3 di,4

1 0 0 0 0

2 1 0 0 0

3 1 1 0 0

4 1 1 1 0

5 1 1 1 1

• Modelowanie dowolnych funkcji bł ˛edów, np. (1 − di,y_i−1) + di,yi

• Warunki monotoniczno´sci zmiennych:

di,j> di,j+1 dla i ∈ {1, . . . , n}, j ∈ {1, . . . , m − 2}

di,j> dk,j dla i, k ∈ {1, . . . , n}, xi xk, j ∈ {1, . . . , m − 1} • Nowa klasa (etykieta) dla obiektu xi to 1 +Pm−1_j=1 di,j.

(37)

Sformułowanie problemu

• Problem programowania liniowego całkowitoliczbowego z unimodaln ˛a macierz ˛a ogranicze ´n.

• Funkcja celu: L= n X i=1 (1 − di,y_i−1) + di,yi • Ograniczenia: di,j > di,j+1 16 i 6 n, 16 j 6 m − 2 dij> dkj ∀i, k : xi xk 16 j 6 m − 1 dij∈ {0, 1} 16 i 6 n, 16 j 6 m − 1

• Polu´zniamy ostatnie ograniczenie do dij∈ [0, 1] i rozwi ˛azujemy jako problem PL.

(38)

Formalizm uogólnionej decyzji

Uogólniona decyzja

Uogólnionym przedziałem decyzji dla obiektu x nazywamy przedział: δ(x) = [l(x), u(x)]

gdzie l(x) = min{yi: xi x}, u(x) = max{yi: x xi}.

Jest to przedział zawieraj ˛acy ka˙zd ˛a klas ˛e, do której xmo˙ze nale˙ze´c; zachodzi oczywi´scie l(x) 6 y(x) 6 u(x).

(39)

Formalizm uogólnionej decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 1 3 2 1 3 2 3 3

(40)

Formalizm uogólnionej decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 1 3 2 1 3 2 3 3

(41)

Formalizm uogólnionej decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 1 3 2 1 3 2 3 3 [1,3]

(42)

Formalizm uogólnionej decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 1 3 2 1 3 2 3 3 [1,1] [1,1] [1,2] [1,2] [1,1] [1,3] [1,3] [1,3] [3,3] [2,3] [3,3] [3,3]

(43)

Równowa˙zno´s´c uogólnionej decyzji i przybli˙ze ´n zbioru

Wyznaczanie dolnych i górnych przybli˙ze ´n z przedziału uogólnionej decyzji

P(Cl>t ) = {x ∈ U : l(x) > t}, P(Cl>t ) = {x ∈ U : u(x) > t}, P(Cl6t ) = {x ∈ U : u(x) 6 t}, P(Cl6t ) = {x ∈ U : l(x) 6 t}

Wyznaczanie przedziału uogólnionej decyzji z dolnych i górnych przybli˙ze ´n l(x) = maxnt: x ∈ P(Cl>t ) o = minnt: x ∈ P(Cl6t ) o u(x) = minnt: x ∈ P(Cl6t ) o = maxnt: x ∈ P(Cl>t ) o

(44)

Równowa˙zno´s´c uogólnionej decyzji i przybli˙ze ´n zbioru

Wyznaczanie dolnych i górnych przybli˙ze ´n z przedziału uogólnionej decyzji

P(Cl>t ) = {x ∈ U : l(x) > t}, P(Cl>t ) = {x ∈ U : u(x) > t}, P(Cl6t ) = {x ∈ U : u(x) 6 t}, P(Cl6t ) = {x ∈ U : l(x) 6 t}

Wyznaczanie przedziału uogólnionej decyzji z dolnych i górnych przybli˙ze ´n l(x) = maxnt: x ∈ P(Cl>t ) o = minnt: x ∈ P(Cl6t ) o u(x) = minnt: x ∈ P(Cl6t ) o = maxnt: x ∈ P(Cl>t ) o

(45)

Redukcja zmiennych poprzez uogólnion ˛

a decyzj ˛e

Twierdzenie

Istnieje rozwi ˛azanie optymalne problemu przeetykietowania obiektów z warto´sciami nowych etykiet d(xi)spełniaj ˛acymi:

l(xi) 6 d(xi) 6 u(xi)

W szczególno´sci, je´sli obiekt xi jest spójny, zachodzi: l(xi) = y(xi) = d(xi) = u(xi)

czyli etykiety obiektów spójnych nie zostaj ˛a zmienione i obiekty takie mo˙zna usun ˛a´c z problemu optymalizacyjnego.

(46)

Spis tre´sci

1 Wprowadzenie

(47)

Niejednoznaczno´s´c rozwi ˛

azania

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 2 1 2 1 2 2 2

(48)

Niejednoznaczno´s´c rozwi ˛

azania

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 2 1 2 1 2 2 2 1

●

1

●

(49)

Niejednoznaczno´s´c rozwi ˛

azania

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 2 1 2 1 2 2 2 2

●

2

●

(50)

Porz ˛

adek mi ˛edzy rozwi ˛

azaniami optymalnymi

Definicja

Niech F b ˛edzie zbiorem rozwi ˛aza ´n optymalnych problemu

przeetykietowania, F = {f1, . . . , f|F|}. Ka˙zde z rozwi ˛aza ´n optymalnych mo˙zemy traktowa´c jako wektor etykiet fr= (fr(x1), . . . , fr(x`)).

Wprowadzamy relacj ˛ecz ˛e ´sciowego porz ˛adku mi ˛edzy rozwi ˛azaniami optymalnymi w sposób nast ˛epuj ˛acy:

fs fr ⇐⇒ ∀16i6` fs(xi) > fr(xi)

Definicja

Zdefiniujmy operatory min, max działaj ˛ace w przestrzeni rozwi ˛aza ´n, w sposób nast ˛epuj ˛acy:

min{fs, fr} = (min{fs(x1), fr(x1)}, . . . , min{fs(x`), fr(x`)})

(51)

Porz ˛

adek mi ˛edzy rozwi ˛

azaniami optymalnymi

Definicja

Niech F b ˛edzie zbiorem rozwi ˛aza ´n optymalnych problemu

przeetykietowania, F = {f1, . . . , f|F|}. Ka˙zde z rozwi ˛aza ´n optymalnych mo˙zemy traktowa´c jako wektor etykiet fr= (fr(x1), . . . , fr(x`)).

Wprowadzamy relacj ˛ecz ˛e ´sciowego porz ˛adku mi ˛edzy rozwi ˛azaniami optymalnymi w sposób nast ˛epuj ˛acy:

fs fr ⇐⇒ ∀16i6` fs(xi) > fr(xi)

Definicja

Zdefiniujmy operatory min, max działaj ˛ace w przestrzeni rozwi ˛aza ´n, w sposób nast ˛epuj ˛acy:

min{fs, fr} = (min{fs(x1), fr(x1)}, . . . , min{fs(x`), fr(x`)}) max{fs, fr} = (max{fs(x1), fr(x1)}, . . . , max{fs(x`), fr(x`)})

(52)

Porz ˛

adek mi ˛edzy rozwi ˛

azaniami optymalnymi

Lemat

Je´sli f1i f2s ˛a rozwi ˛azaniami optymalnymi, to rozwi ˛azania f3= max{f1, f2} i f4= min{f1, f2} s ˛a równie˙z rozwi ˛azaniami optymalnymi.

Twierdzenie

W zbiorze rozwi ˛aza ´n optymalnych F istniej ˛a elementy najmniejszy i najwi ˛ekszy.

∃f_min : ∀f ∈ F f_min f ∃f_max : ∀f ∈ F f_max f

(53)

Porz ˛

adek mi ˛edzy rozwi ˛

azaniami optymalnymi

Lemat

Je´sli f1i f2s ˛a rozwi ˛azaniami optymalnymi, to rozwi ˛azania f3= max{f1, f2} i f4= min{f1, f2} s ˛a równie˙z rozwi ˛azaniami optymalnymi.

Twierdzenie

W zbiorze rozwi ˛aza ´n optymalnych F istniej ˛a elementy najmniejszy i najwi ˛ekszy.

∃f_min : ∀f ∈ F f_min f ∃f_max : ∀f ∈ F f_max f

(54)

Przykład - porz ˛

adek na kracie

● ● ● ● ● ● ● ● f1 f2 f3 f4 f5 f6 f7 f8

(55)

Spis tre´sci

1 Wprowadzenie

(56)

Optymalizowany przedział decyzji

Jak wyznaczy´c warto´sci fmini fmax?

Rozwi ˛azania fmini fmaxmo˙zna znale´z´c rozwi ˛azuj ˛ac problem

przeetykietowania ze zmodyfikowan ˛a funkcj ˛a celu L = L0± M−1L1,

gdzie: • L₀=Pn

i=1(1 − di,yi−1) + di,yi jest przeetykietowa ´n. • L1=P`_i=1Pu(x_j=l(xi)−1

i) di,jjest (z dokładno´sci ˛a do stałej) sum ˛a

nowych etykiet (klas) obiektów.

• waga M−1jest tak dobrana, aby uzyska´c porz ˛adek leksykograficzny kryteriów — zachodzi dla M >P`

i=1(u(xi) − l(xi)).

(57)

Optymalizowany przedział decyzji

Jak wyznaczy´c warto´sci fmini fmax?

Rozwi ˛azania fmini fmaxmo˙zna znale´z´c rozwi ˛azuj ˛ac problem

przeetykietowania ze zmodyfikowan ˛a funkcj ˛a celu L = L0± M−1L1, gdzie:

• L₀=Pn_i=1(1 − di,y_i−1) + di,yi jest przeetykietowa ´n.

• L1=P`_i=1Pu(x_j=l(xi)−1

i) di,jjest (z dokładno´sci ˛a do stałej) sum ˛a

nowych etykiet (klas) obiektów.

• waga M−1jest tak dobrana, aby uzyska´c porz ˛adek

leksykograficzny kryteriów — zachodzi dla M >P`i=1(u(xi) − l(xi)). • znak ± dobierany jest aby uzyska´c fminlub fmax.

(58)

Optymalizowany przedział decyzji

Definicja

Zdefiniujmyoptymalizowany przedział uogólnionej decyzji δopt_(xi) jako [fmin(xi), fmax(xi)], dla xi∈ X .

Na mocy równowa˙zno´sci, maj ˛ac optymalizowany przedział uogólnionej decyzji, mo˙zemy wyznaczy´c optymalizowane dolne i górne

(59)

Optymalizowany przedział decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 1 2 2 1 3 3 3 1

(60)

Optymalizowany przedział decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 1 1 2 1 3 3 3 3

●

(61)

Optymalizowany przedział decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 1 2 2 2 3 3 3 3

●

(62)

Optymalizowany przedział decyzji — przykład

q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 1 2 3 3 3 3 [1,1] [2,2] [1,1] [1,2] [2,2] [1,2] [3,3] [3,3] [3,3] [3,3]

(63)

Zmienny poziom spójno´sci

Rozwa˙zmy problem optymalizacji L = L0± ML1, gdzie L0jest ilo´sci ˛a przeetykietowanych obiektów, a L1jest sum ˛a etykiet.

• Je´sli = −1, otrzymujemy optymalizowany przedział decyzji. • Je´sli = 1, porz ˛adek leksykograficzny kryteriów zamienia si ˛e i

otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Je´sli ∈ (−1, 1), pojawia si ˛e przetarg mi ˛edzy ilo´sci ˛a

przeetykietowa ´n, a klasycznymi przybli˙zeniami DRSA.

-optymalizowany przedział uogólnionej decyzji

-optymalizowany przedział uogólnionej decyzji (na poziomie spójno´sci ) powstaje poprzez rozwi ˛azanie problemu optymalizacyjnego

(64)

Zmienny poziom spójno´sci

(65)

Zmienny poziom spójno´sci

(66)

Zmienny poziom spójno´sci

(67)

Zmienny poziom spójno´sci

L= L0± M_L

(68)

Procedura klasyfikacji

1 Wyznacz -optymalizowany przedział uogólnionej decyzji.

2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz

z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.

3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),

osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.

4 Przy pó´zniejszej klasyfikacji obiektu x:

• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za

pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,

przydziel do niej obiekt x, w przeciwnym przypadku podaj jako

wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a

odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.

• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa

przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))

oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas

_p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2 .

(69)

Procedura klasyfikacji

(70)

Procedura klasyfikacji

(71)

Procedura klasyfikacji

(72)

Procedura klasyfikacji

(73)

Procedura klasyfikacji

• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,

przydziel do niej obiekt x, w przeciwnym przypadku podaj jako wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a

(74)

Procedura klasyfikacji

• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,

przydziel do niej obiekt x, w przeciwnym przypadku podaj jako wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a

(75)

Spis tre´sci

1 Wprowadzenie

(76)

Eksperyment

• Wybrano sze´s´c zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sze´s´c typów klasyfikatorów:

• SVM liniowy (svm-lin),

• SVM wielomianowy (stopie ´n 3) (svm-poly),

• drzewa decyzyjne (j48),

• AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),

• rodziny reguł decyzyjnych (ensembles),

• rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)

• Ka˙zdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy

klasyfikatorów z domy´slnymi parametrami, 10-krotna walidacja krzy˙zowa, dodatkowo powtórzona 10-krotnie.

• Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotn ˛a walidacj ˛e krzy˙zow ˛a.

(77)

Eksperyment

(78)

Eksperyment

(79)

Eksperyment

(80)

Eksperyment

(81)

Wyniki

klasyfikator heart-c heart-h credit-g credit-a

svm-lin 84.1 80.6 75.0 86.3 83.0 80.3 75.5 86.2 svm-poly 77.8 76.7 71.3 82.2 78.4 77.8 74.0 84.0 j48 76.3 76.1 71.3 85.5 76.8 77.0 73.6 86.8 AdaBoost 82.3 79.0 70.9 85.5 82.4 79.5 72.5 86.2 ensembles 80.0 78.7 74.3 86.5 80.3 78.8 75.6 86.6 dom-ensmbls 80.7 79.8 74.4 86.6 81.2 79.6 75.8 86.4

Legenda:niebieski— istotny statystycznie spadek trafno´sci po u˙zyciu optymalizowanych przedziałów decyzji;pomara ´nczowy— istotny statystycznie wzrost trafno´sci po u˙zyciu optymalizowanych przedziałów decyzji; czarny — ró˙znica nieistotna statystycznie.

(82)

Wyniki

klasyfikator breast-cancer breast-w

svm-lin 75.0 97.0 76.8 97.2 j48 76.1 96.3 74.7 95.6 ensembles 74.7 97.0 77.6 97.3 dom-ensmbls 77.2 97.0 77.6 97.6

Legenda: R — przyrost trafno´s´c predykcji przy u˙zyciu optymalizowanych przedziałów decyzji, R6 −0.5 −0.5 6 R 6 0.5 R> 0.5 R> 1

(83)