Estymacja przedziału uogólnionej decyzji
w podej´sciu DRSA
Wojciech Kotłowski
Spis tre´sci
1 Wprowadzenie
2 Model probabilistyczny i estymacja parametrów
3 Problem przeetykietowywania obiektów
4 Własno´sci rozwi ˛aza ´n optymalnych
5 Nowa definicja uogólnionej decyzji
Spis tre´sci
1 Wprowadzenie
2 Model probabilistyczny i estymacja parametrów
3 Problem przeetykietowywania obiektów
4 Własno´sci rozwi ˛aza ´n optymalnych
5 Nowa definicja uogólnionej decyzji
Notacja
• zbiór ` obiektów X = {x1, . . . , x`} opisanych za pomoc ˛a n
atrybutów warunkowych Q = {Q1, . . . , Qn} i atrybutu decyzyjnego Y = {1, . . . , m}.
• qi(xj)— warto´s´c j-tego obiektu na i-tym atrybucie; yj — warto´s´c decyzji dla j-tego obiektu; b ˛edziemy te˙z u˙zywa´c skrótu
x= (q1(x), . . . qn(x))
• ka˙zdy obiekt x ∈ X (a wła´sciwie para (x, y) ∈ Q × Y) jest realizacj ˛a niezale˙znej zmiennej losowej (Q1, . . . , Qn, Y) = (Q, Y)o
jednakowym rozkładzie p(Q, Y).
• zakładamy, ˙ze na ka˙zdym atrybucie skala przynajmniej porz ˛adkowa; implikuje to istnienie relacji dominacji , definiowanej jako: x z ⇐⇒ ∀i (qi(x) > qi(z))
Notacja
• zbiór ` obiektów X = {x1, . . . , x`} opisanych za pomoc ˛a n
atrybutów warunkowych Q = {Q1, . . . , Qn} i atrybutu decyzyjnego Y = {1, . . . , m}.
• qi(xj)— warto´s´c j-tego obiektu na i-tym atrybucie; yj — warto´s´c decyzji dla j-tego obiektu; b ˛edziemy te˙z u˙zywa´c skrótu
x= (q1(x), . . . qn(x))
• ka˙zdy obiekt x ∈ X (a wła´sciwie para (x, y) ∈ Q × Y) jest realizacj ˛a niezale˙znej zmiennej losowej (Q1, . . . , Qn, Y) = (Q, Y)o
jednakowym rozkładzie p(Q, Y).
• zakładamy, ˙ze na ka˙zdym atrybucie skala przynajmniej porz ˛adkowa; implikuje to istnienie relacji dominacji , definiowanej jako: x z ⇐⇒ ∀i (qi(x) > qi(z))
Notacja
• zbiór ` obiektów X = {x1, . . . , x`} opisanych za pomoc ˛a n
atrybutów warunkowych Q = {Q1, . . . , Qn} i atrybutu decyzyjnego Y = {1, . . . , m}.
• qi(xj)— warto´s´c j-tego obiektu na i-tym atrybucie; yj — warto´s´c decyzji dla j-tego obiektu; b ˛edziemy te˙z u˙zywa´c skrótu
x= (q1(x), . . . qn(x))
• ka˙zdy obiekt x ∈ X (a wła´sciwie para (x, y) ∈ Q × Y) jest realizacj ˛a niezale˙znej zmiennej losowej (Q1, . . . , Qn, Y) = (Q, Y)o
jednakowym rozkładzie p(Q, Y).
• zakładamy, ˙ze na ka˙zdym atrybucie skala przynajmniej porz ˛adkowa; implikuje to istnienie relacji dominacji , definiowanej jako: x z ⇐⇒ ∀i (qi(x) > qi(z))
Zwi ˛
azki monotoniczne
Stochastyczna dominacja
• Zwi ˛azki monotoniczne definiowane poprzezstochastyczn ˛a dominacj ˛e: p(y > i|x) jest funkcj ˛a monotoniczn ˛a ze wzgl ˛edu na q1(x), . . . , qn(x).
• Wszystkie atrybuty s ˛a kryteriami typu zysk, st ˛ad p(y > i|x) jest rosn ˛aca ze wzgl ˛edu na ka˙zde qi(x).
• W przypadku dwuklasowym Y = {0, 1}, p(y = 1|x) jest rosn ˛aca, za´s p(y = 0|x) — malej ˛aca ze wzgl ˛edu na ka˙zde qi(x).
Przykład (prawdopodobie ´nstwa klas)
x p(y|x) −2 −1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 p(y=1|x) p(y=2|x) p(y=3|x)Przykład (prawdopodobie ´nstwa kumulacji)
x p(y|x) −2 −1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 p(y≥1|x) p(y≥2|x) p(y≥3|x)Przykład („twarda” dominacja)
x p(y|x) −2 −1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 p(y=1|x) p(y=2|x) p(y=3|x)Spis tre´sci
1 Wprowadzenie
2 Model probabilistyczny i estymacja parametrów
3 Problem przeetykietowywania obiektów
4 Własno´sci rozwi ˛aza ´n optymalnych
5 Nowa definicja uogólnionej decyzji
Model probabilistyczny — przypadek dwuklasowy
• Opis danych za pomoc ˛a jednej funkcji p(y = 1|x) ≡ p1(x), poniewa˙z p(y = 0|x) ≡ p0(x) = 1 − p1(x).
• Problem jestdeterministyczny, je´sli ∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0.
• Jaki jest optymalny klasyfikator Gopt, tj. klasyfikator, który ´srednio
popełnia najmniejszy bł ˛ad: Gopt = arg minGE[Y 6= G]?
• Klasyfikator Bayesowski:
GBayes(x) =
1 p1(x) > p0(x) ≡ p1(x) > 12
0 p0(x) > p1(x) ≡ p1(x) < 12
• Zachodzi: GBayes = Gopt.
• Je´sli dane s ˛a monotoniczne, to funkcja GBayes(x)jest
Model probabilistyczny — przypadek dwuklasowy
• Opis danych za pomoc ˛a jednej funkcji p(y = 1|x) ≡ p1(x), poniewa˙z p(y = 0|x) ≡ p0(x) = 1 − p1(x).
• Problem jestdeterministyczny, je´sli ∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0.
• Jaki jest optymalny klasyfikator Gopt, tj. klasyfikator, który ´srednio popełnia najmniejszy bł ˛ad: Gopt = arg minGE[Y 6= G]?
• Klasyfikator Bayesowski:
GBayes(x) =
1 p1(x) > p0(x) ≡ p1(x) > 12
0 p0(x) > p1(x) ≡ p1(x) < 12
• Zachodzi: GBayes = Gopt.
• Je´sli dane s ˛a monotoniczne, to funkcja GBayes(x)jest
Model probabilistyczny — przypadek dwuklasowy
• Opis danych za pomoc ˛a jednej funkcji p(y = 1|x) ≡ p1(x), poniewa˙z p(y = 0|x) ≡ p0(x) = 1 − p1(x).
• Problem jestdeterministyczny, je´sli ∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0.
• Jaki jest optymalny klasyfikator Gopt, tj. klasyfikator, który ´srednio popełnia najmniejszy bł ˛ad: Gopt = arg minGE[Y 6= G]?
• Klasyfikator Bayesowski: GBayes(x) =
1 p1(x) > p0(x) ≡ p1(x) > 12 0 p0(x) > p1(x) ≡ p1(x) < 12 • Zachodzi: GBayes = Gopt.
• Je´sli dane s ˛a monotoniczne, to funkcja GBayes(x)jest
Model probabilistyczny — przypadek dwuklasowy
• Opis danych za pomoc ˛a jednej funkcji p(y = 1|x) ≡ p1(x), poniewa˙z p(y = 0|x) ≡ p0(x) = 1 − p1(x).
• Problem jestdeterministyczny, je´sli ∀x p(y = 1|x) = 0 ∨ p(y = 0|x) = 0.
• Jaki jest optymalny klasyfikator Gopt, tj. klasyfikator, który ´srednio popełnia najmniejszy bł ˛ad: Gopt = arg minGE[Y 6= G]?
• Klasyfikator Bayesowski: GBayes(x) =
1 p1(x) > p0(x) ≡ p1(x) > 12 0 p0(x) > p1(x) ≡ p1(x) < 12 • Zachodzi: GBayes = Gopt.
• Je´sli dane s ˛a monotoniczne, to funkcja GBayes(x)jest monotoniczna ze wzgl ˛edu na q1(x), . . . , qn(x).
Model probabilistyczny — przypadek dwuklasowy
• Definiujemy zmienn ˛a losow ˛a T = T(X, Y) jako:
T(X, Y) =
1 GBayes(X) = Y 0 GBayes(X) 6= Y
T = 1 wtedy i tylko wtedy gdy klasyfikator Bayesowski popełnia bł ˛ad.
• T ma dla danego x rozkład prawdopodobie ´nstwa p(t = 1|x) ≡ p(x) = min{p1(x), p0(x)}; p(x) jest
prawdopodobie ´nstwem popełnienia bł ˛edu przez klasyfikator Bayesowski.
• Mo˙zemy problem potraktowa´c jako deterministyczny z funkcj ˛a
GBayes(x)wyznaczaj ˛ac ˛a zale˙zno´s´c mi ˛edzy y a x, z dodatkowym
przekłamaniem warto´sci y (zamiana y = 1 na y = 0 i odwrotnie) z prawdopodobie ´nstwem p(x).
Model probabilistyczny — przypadek dwuklasowy
• Definiujemy zmienn ˛a losow ˛a T = T(X, Y) jako:
T(X, Y) =
1 GBayes(X) = Y 0 GBayes(X) 6= Y
T = 1 wtedy i tylko wtedy gdy klasyfikator Bayesowski popełnia bł ˛ad.
• T ma dla danego x rozkład prawdopodobie ´nstwa p(t = 1|x) ≡ p(x) = min{p1(x), p0(x)}; p(x) jest
prawdopodobie ´nstwem popełnienia bł ˛edu przez klasyfikator Bayesowski.
• Mo˙zemy problem potraktowa´c jako deterministyczny z funkcj ˛a
GBayes(x)wyznaczaj ˛ac ˛a zale˙zno´s´c mi ˛edzy y a x, z dodatkowym
przekłamaniem warto´sci y (zamiana y = 1 na y = 0 i odwrotnie) z prawdopodobie ´nstwem p(x).
Model probabilistyczny — przypadek dwuklasowy
• Definiujemy zmienn ˛a losow ˛a T = T(X, Y) jako:
T(X, Y) =
1 GBayes(X) = Y 0 GBayes(X) 6= Y
T = 1 wtedy i tylko wtedy gdy klasyfikator Bayesowski popełnia bł ˛ad.
• T ma dla danego x rozkład prawdopodobie ´nstwa p(t = 1|x) ≡ p(x) = min{p1(x), p0(x)}; p(x) jest
prawdopodobie ´nstwem popełnienia bł ˛edu przez klasyfikator Bayesowski.
• Mo˙zemy problem potraktowa´c jako deterministyczny z funkcj ˛a GBayes(x)wyznaczaj ˛ac ˛a zale˙zno´s´c mi ˛edzy y a x, z dodatkowym przekłamaniem warto´sci y (zamiana y = 1 na y = 0 i odwrotnie) z prawdopodobie ´nstwem p(x).
Estymator najwi ˛ekszej wiarygodno´sci
• Jak wyznaczy´c, które z etykiet obiektów ze zbioru ucz ˛acego X zostały przekłamane, tzn. dla których x ∈ X mamy t(x) = 1, je´sli wiemy, ˙ze dane s ˛a monotoniczne?
• Przyjmijmy, ˙ze znamy dla ka˙zdego xi∈ X prawdopodobie ´nstwa
przekłamania p(xi)i wiemy, ˙ze problem jest monotoniczny.
Chcemy wyznaczy´c warto´sci t(xi), co mo˙zna zrobi´c poprzez
wyznaczenie warto´sci GBayes(xi), traktuj ˛ac je jako parametry i
stosuj ˛acmetod ˛e najwi ˛ekszej wiarygodno ´sci.
Estymacja metod ˛a najwi ˛ekszej wiarygodno´sci
Szukamy takich warto´sci parametrów θ dla danych D, dla których funkcja wiarygodno´sci L(θ; D) = p(D|θ) osi ˛aga warto´s´c maksymaln ˛a; inaczej: szukamy takich warto´sci parametrów, dla których dane D, które mamy, s ˛a najbardziej prawdopodobne.
Estymator najwi ˛ekszej wiarygodno´sci
• Jak wyznaczy´c, które z etykiet obiektów ze zbioru ucz ˛acego X zostały przekłamane, tzn. dla których x ∈ X mamy t(x) = 1, je´sli wiemy, ˙ze dane s ˛a monotoniczne?
• Przyjmijmy, ˙ze znamy dla ka˙zdego xi∈ X prawdopodobie ´nstwa przekłamania p(xi)i wiemy, ˙ze problem jest monotoniczny. Chcemy wyznaczy´c warto´sci t(xi), co mo˙zna zrobi´c poprzez wyznaczenie warto´sci GBayes(xi), traktuj ˛ac je jako parametry i stosuj ˛acmetod ˛e najwi ˛ekszej wiarygodno ´sci.
Estymacja metod ˛a najwi ˛ekszej wiarygodno´sci
Szukamy takich warto´sci parametrów θ dla danych D, dla których funkcja wiarygodno´sci L(θ; D) = p(D|θ) osi ˛aga warto´s´c maksymaln ˛a; inaczej: szukamy takich warto´sci parametrów, dla których dane D, które mamy, s ˛a najbardziej prawdopodobne.
Estymator najwi ˛ekszej wiarygodno´sci
• Jak wyznaczy´c, które z etykiet obiektów ze zbioru ucz ˛acego X zostały przekłamane, tzn. dla których x ∈ X mamy t(x) = 1, je´sli wiemy, ˙ze dane s ˛a monotoniczne?
• Przyjmijmy, ˙ze znamy dla ka˙zdego xi∈ X prawdopodobie ´nstwa przekłamania p(xi)i wiemy, ˙ze problem jest monotoniczny. Chcemy wyznaczy´c warto´sci t(xi), co mo˙zna zrobi´c poprzez wyznaczenie warto´sci GBayes(xi), traktuj ˛ac je jako parametry i stosuj ˛acmetod ˛e najwi ˛ekszej wiarygodno ´sci.
Estymacja metod ˛a najwi ˛ekszej wiarygodno´sci
Szukamy takich warto´sci parametrów θ dla danych D, dla których funkcja wiarygodno´sci L(θ; D) = p(D|θ) osi ˛aga warto´s´c maksymaln ˛a; inaczej: szukamy takich warto´sci parametrów, dla których dane D, które mamy, s ˛a najbardziej prawdopodobne.
Estymacja przekłamanych etykiet
• Załó˙zmy, ˙ze xi ∈ X s ˛a ustalone; u˙zyjemy skrótów t = {t1, . . . , t`}, y= {y1, . . . , y`}.
• Poniewa˙z wszystkie obiekty ze realizacjami niezale˙znych zmiennych losowych, st ˛ad:
L(GBayes; y, X ) = p(y|GBayes, X ) =
` Y i=1 p(yi|GBayes(xi), xi) • Zachodzi: p(yi|GBayes(xi), xi) = p(xi) je´sli yi 6= GBayes(xi) 1 − p(xi) je´sli yi = GBayes(xi)
lub równowa˙znie p(yi|GBayes(xi), xi) = p(xi)ti(1 − p(xi))1−ti
• Problem sprowadza si ˛e do maksymalizacji wyra˙zenia L=Q`
i=1p(xi)ti(1 − p(xi))1−ti, pod warunkiem monotoniczno´sci
Estymacja przekłamanych etykiet
• Załó˙zmy, ˙ze xi ∈ X s ˛a ustalone; u˙zyjemy skrótów t = {t1, . . . , t`}, y= {y1, . . . , y`}.
• Poniewa˙z wszystkie obiekty ze realizacjami niezale˙znych zmiennych losowych, st ˛ad:
L(GBayes; y, X ) = p(y|GBayes, X ) = ` Y i=1
p(yi|GBayes(xi), xi)
• Zachodzi:
p(yi|GBayes(xi), xi) =
p(xi) je´sli yi 6= GBayes(xi)
1 − p(xi) je´sli yi = GBayes(xi)
lub równowa˙znie p(yi|GBayes(xi), xi) = p(xi)ti(1 − p(xi))1−ti
• Problem sprowadza si ˛e do maksymalizacji wyra˙zenia L=Q`
i=1p(xi)ti(1 − p(xi))1−ti, pod warunkiem monotoniczno´sci
Estymacja przekłamanych etykiet
• Załó˙zmy, ˙ze xi ∈ X s ˛a ustalone; u˙zyjemy skrótów t = {t1, . . . , t`}, y= {y1, . . . , y`}.
• Poniewa˙z wszystkie obiekty ze realizacjami niezale˙znych zmiennych losowych, st ˛ad:
L(GBayes; y, X ) = p(y|GBayes, X ) = ` Y i=1
p(yi|GBayes(xi), xi)
• Zachodzi:
p(yi|GBayes(xi), xi) =
p(xi) je´sli yi 6= GBayes(xi) 1 − p(xi) je´sli yi = GBayes(xi) lub równowa˙znie p(yi|GBayes(xi), xi) = p(xi)ti(1 − p(xi))1−ti
• Problem sprowadza si ˛e do maksymalizacji wyra˙zenia L=Q`
i=1p(xi)ti(1 − p(xi))1−ti, pod warunkiem monotoniczno´sci
Estymacja przekłamanych etykiet
• Załó˙zmy, ˙ze xi ∈ X s ˛a ustalone; u˙zyjemy skrótów t = {t1, . . . , t`}, y= {y1, . . . , y`}.
• Poniewa˙z wszystkie obiekty ze realizacjami niezale˙znych zmiennych losowych, st ˛ad:
L(GBayes; y, X ) = p(y|GBayes, X ) = ` Y i=1
p(yi|GBayes(xi), xi)
• Zachodzi:
p(yi|GBayes(xi), xi) =
p(xi) je´sli yi 6= GBayes(xi) 1 − p(xi) je´sli yi = GBayes(xi) lub równowa˙znie p(yi|GBayes(xi), xi) = p(xi)ti(1 − p(xi))1−ti
• Problem sprowadza si ˛e do maksymalizacji wyra˙zenia
L=Q`i=1p(xi)ti(1 − p(xi))1−ti, pod warunkiem monotoniczno´sci
Estymacja przekłamanych etykiet
• Poniewa˙z logarytm jest funkcj ˛a monotoniczn ˛a, wi ˛ec L ma maksimum wtw gdy ln L ma maksimum, st ˛ad mo˙zna maksymalizowa´c funkcj ˛e ln L lub minimalizowa´c − ln L:
− ln L = − ln n Y i=1 p(xi)ti(1 − p(xi))1−ti ! = − n X i=1 tiln p(xi) + (1 − ti) ln(1 − p(xi)) = n X i=1 ti(ln(1 − p(xi)) − ln p(xi)) − n X i=1 ln(1 − p(xi)) • Odrzucaj ˛acPn
i=1ln(1 − p(xi))i wprowadzaj ˛ac wagi wi= ln1−p(xp(x i)
i) otrzymujemy: − ln L = n X i=1 witi
Estymacja przekłamanych etykiet
• Poniewa˙z logarytm jest funkcj ˛a monotoniczn ˛a, wi ˛ec L ma maksimum wtw gdy ln L ma maksimum, st ˛ad mo˙zna maksymalizowa´c funkcj ˛e ln L lub minimalizowa´c − ln L:
− ln L = − ln n Y i=1 p(xi)ti(1 − p(xi))1−ti ! = − n X i=1
tiln p(xi) + (1 − ti) ln(1 − p(xi))
= n X i=1 ti(ln(1 − p(xi)) − ln p(xi)) − n X i=1 ln(1 − p(xi)) • Odrzucaj ˛acPn
i=1ln(1 − p(xi))i wprowadzaj ˛ac wagi wi= ln1−p(xp(x i)
i) otrzymujemy: − ln L = n X i=1 witi
Estymacja przekłamanych etykiet
• Poniewa˙z logarytm jest funkcj ˛a monotoniczn ˛a, wi ˛ec L ma maksimum wtw gdy ln L ma maksimum, st ˛ad mo˙zna maksymalizowa´c funkcj ˛e ln L lub minimalizowa´c − ln L:
− ln L = − ln n Y i=1 p(xi)ti(1 − p(xi))1−ti ! = − n X i=1
tiln p(xi) + (1 − ti) ln(1 − p(xi))
= n X i=1 ti(ln(1 − p(xi)) − ln p(xi)) − n X i=1 ln(1 − p(xi))
• Odrzucaj ˛acPni=1ln(1 − p(xi))i wprowadzaj ˛ac wagi wi= ln1−p(xp(x i)
i) otrzymujemy: − ln L = n X i=1 witi
Estymacja przekłamanych etykiet
W rzeczywisto´sci nie znamy warto´sci wi, bo nie znamy p(x). Przyjmujemy wi ˛ec wi ≡ w i otrzymujemy − ln L = wPni=1ti.
Sformułowanie problemu
Aby znale´z´c prawdziwe (nieprzekłamane) warto´sci etykiet, musimy znale´z´c najmniejsz ˛a warto´s´cPn
i=1ti zakładaj ˛ac, ˙ze dane s ˛a
monotoniczne. Innymi słowy, musimy przeetykietowa´c jak najmniejsz ˛a liczb ˛e obiektów, aby otrzyma´c spójny (zgodny z zasad ˛a dominacji) zbiór danych.
Rozwi ˛azanie dla dwóch klas
Izotoniczna separacja (Chandrasekaran et al.) — problem programowania całkowitoliczbowego z macierz ˛a unimodaln ˛a.
Estymacja przekłamanych etykiet
W rzeczywisto´sci nie znamy warto´sci wi, bo nie znamy p(x). Przyjmujemy wi ˛ec wi ≡ w i otrzymujemy − ln L = wPni=1ti.
Sformułowanie problemu
Aby znale´z´c prawdziwe (nieprzekłamane) warto´sci etykiet, musimy znale´z´c najmniejsz ˛a warto´s´cPni=1ti zakładaj ˛ac, ˙ze dane s ˛a
monotoniczne. Innymi słowy, musimy przeetykietowa´c jak najmniejsz ˛a liczb ˛e obiektów, aby otrzyma´c spójny (zgodny z zasad ˛a dominacji) zbiór danych.
Rozwi ˛azanie dla dwóch klas
Izotoniczna separacja (Chandrasekaran et al.) — problem programowania całkowitoliczbowego z macierz ˛a unimodaln ˛a.
Estymacja przekłamanych etykiet
W rzeczywisto´sci nie znamy warto´sci wi, bo nie znamy p(x). Przyjmujemy wi ˛ec wi ≡ w i otrzymujemy − ln L = wPni=1ti.
Sformułowanie problemu
Aby znale´z´c prawdziwe (nieprzekłamane) warto´sci etykiet, musimy znale´z´c najmniejsz ˛a warto´s´cPni=1ti zakładaj ˛ac, ˙ze dane s ˛a
monotoniczne. Innymi słowy, musimy przeetykietowa´c jak najmniejsz ˛a liczb ˛e obiektów, aby otrzyma´c spójny (zgodny z zasad ˛a dominacji) zbiór danych.
Rozwi ˛azanie dla dwóch klas
Izotoniczna separacja (Chandrasekaran et al.) — problem programowania całkowitoliczbowego z macierz ˛a unimodaln ˛a.
Spis tre´sci
1 Wprowadzenie
2 Model probabilistyczny i estymacja parametrów
3 Problem przeetykietowywania obiektów
4 Własno´sci rozwi ˛aza ´n optymalnych
5 Nowa definicja uogólnionej decyzji
Kodowanie klas (przykład 5 klas)
Propozycja I
Nowa etykieta obiektu xi∈ X kodowana jako zmienna di ∈ {1, 2, 3, 4, 5}
Problemy
• Jak modelowa´c bł ˛edy?
• Przykład: je´sli oryginalna etykieta to yito jak zamodelowa´c bł ˛ad
równy 0 gdy yi = di, równy 1 gdy yi 6= di
• Przykład: przeetykietowanie obiektu z klasy i do klasy j ma koszt Lij
• Bł ˛ad w postaci odległo´sci mi ˛edzy klasami |yi− di| niszczy
Kodowanie klas (przykład 5 klas)
Propozycja I
Nowa etykieta obiektu xi∈ X kodowana jako zmienna di ∈ {1, 2, 3, 4, 5}
Problemy
• Jak modelowa´c bł ˛edy?
• Przykład: je´sli oryginalna etykieta to yito jak zamodelowa´c bł ˛ad równy 0 gdy yi = di, równy 1 gdy yi 6= di
• Przykład: przeetykietowanie obiektu z klasy i do klasy j ma koszt Lij
• Bł ˛ad w postaci odległo´sci mi ˛edzy klasami |yi− di| niszczy unimodularno´s´c ogranicze ´n
Kodowanie klas (przykład 5 klas)
Propozycja II
Kodowanie m klas za pomoc ˛a m − 1 zmiennych di,1, . . . , di,5: klasa di,1 di,2 di,3 di,4
1 0 0 0 0
2 1 0 0 0
3 1 1 0 0
4 1 1 1 0
5 1 1 1 1
• Modelowanie dowolnych funkcji bł ˛edów, np. (1 − di,yi−1) + di,yi • Warunki monotoniczno´sci zmiennych:
di,j> di,j+1 dla i ∈ {1, . . . , n}, j ∈ {1, . . . , m − 2}
di,j> dk,j dla i, k ∈ {1, . . . , n}, xi xk, j ∈ {1, . . . , m − 1}
Kodowanie klas (przykład 5 klas)
Propozycja II
Kodowanie m klas za pomoc ˛a m − 1 zmiennych di,1, . . . , di,5: klasa di,1 di,2 di,3 di,4
1 0 0 0 0
2 1 0 0 0
3 1 1 0 0
4 1 1 1 0
5 1 1 1 1
• Modelowanie dowolnych funkcji bł ˛edów, np. (1 − di,yi−1) + di,yi
• Warunki monotoniczno´sci zmiennych:
di,j> di,j+1 dla i ∈ {1, . . . , n}, j ∈ {1, . . . , m − 2}
di,j> dk,j dla i, k ∈ {1, . . . , n}, xi xk, j ∈ {1, . . . , m − 1} • Nowa klasa (etykieta) dla obiektu xi to 1 +Pm−1j=1 di,j.
Sformułowanie problemu
• Problem programowania liniowego całkowitoliczbowego z unimodaln ˛a macierz ˛a ogranicze ´n.
• Funkcja celu: L= n X i=1 (1 − di,yi−1) + di,yi • Ograniczenia: di,j > di,j+1 16 i 6 n, 16 j 6 m − 2 dij> dkj ∀i, k : xi xk 16 j 6 m − 1 dij∈ {0, 1} 16 i 6 n, 16 j 6 m − 1
• Polu´zniamy ostatnie ograniczenie do dij∈ [0, 1] i rozwi ˛azujemy jako problem PL.
Formalizm uogólnionej decyzji
Uogólniona decyzja
Uogólnionym przedziałem decyzji dla obiektu x nazywamy przedział: δ(x) = [l(x), u(x)]
gdzie l(x) = min{yi: xi x}, u(x) = max{yi: x xi}.
Jest to przedział zawieraj ˛acy ka˙zd ˛a klas ˛e, do której xmo˙ze nale˙ze´c; zachodzi oczywi´scie l(x) 6 y(x) 6 u(x).
Formalizm uogólnionej decyzji — przykład
q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 1 3 2 1 3 2 3 3Formalizm uogólnionej decyzji — przykład
q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 1 3 2 1 3 2 3 3Formalizm uogólnionej decyzji — przykład
q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 1 3 2 1 3 2 3 3 [1,3]Formalizm uogólnionej decyzji — przykład
q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 1 3 2 1 3 2 3 3 [1,1] [1,1] [1,2] [1,2] [1,1] [1,3] [1,3] [1,3] [3,3] [2,3] [3,3] [3,3]Równowa˙zno´s´c uogólnionej decyzji i przybli˙ze ´n zbioru
Wyznaczanie dolnych i górnych przybli˙ze ´n z przedziału uogólnionej decyzji
P(Cl>t ) = {x ∈ U : l(x) > t}, P(Cl>t ) = {x ∈ U : u(x) > t}, P(Cl6t ) = {x ∈ U : u(x) 6 t}, P(Cl6t ) = {x ∈ U : l(x) 6 t}
Wyznaczanie przedziału uogólnionej decyzji z dolnych i górnych przybli˙ze ´n l(x) = maxnt: x ∈ P(Cl>t ) o = minnt: x ∈ P(Cl6t ) o u(x) = minnt: x ∈ P(Cl6t ) o = maxnt: x ∈ P(Cl>t ) o
Równowa˙zno´s´c uogólnionej decyzji i przybli˙ze ´n zbioru
Wyznaczanie dolnych i górnych przybli˙ze ´n z przedziału uogólnionej decyzji
P(Cl>t ) = {x ∈ U : l(x) > t}, P(Cl>t ) = {x ∈ U : u(x) > t}, P(Cl6t ) = {x ∈ U : u(x) 6 t}, P(Cl6t ) = {x ∈ U : l(x) 6 t}
Wyznaczanie przedziału uogólnionej decyzji z dolnych i górnych przybli˙ze ´n l(x) = maxnt: x ∈ P(Cl>t ) o = minnt: x ∈ P(Cl6t ) o u(x) = minnt: x ∈ P(Cl6t ) o = maxnt: x ∈ P(Cl>t ) o
Redukcja zmiennych poprzez uogólnion ˛
a decyzj ˛e
Twierdzenie
Istnieje rozwi ˛azanie optymalne problemu przeetykietowania obiektów z warto´sciami nowych etykiet d(xi)spełniaj ˛acymi:
l(xi) 6 d(xi) 6 u(xi)
W szczególno´sci, je´sli obiekt xi jest spójny, zachodzi: l(xi) = y(xi) = d(xi) = u(xi)
czyli etykiety obiektów spójnych nie zostaj ˛a zmienione i obiekty takie mo˙zna usun ˛a´c z problemu optymalizacyjnego.
Spis tre´sci
1 Wprowadzenie
2 Model probabilistyczny i estymacja parametrów
3 Problem przeetykietowywania obiektów
4 Własno´sci rozwi ˛aza ´n optymalnych
5 Nowa definicja uogólnionej decyzji
Niejednoznaczno´s´c rozwi ˛
azania
q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 2 1 2 1 2 2 2Niejednoznaczno´s´c rozwi ˛
azania
q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 2 1 2 1 2 2 2 1●
1●
Niejednoznaczno´s´c rozwi ˛
azania
q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 1 2 1 2 1 2 1 2 2 2 2●
2●
Porz ˛
adek mi ˛edzy rozwi ˛
azaniami optymalnymi
Definicja
Niech F b ˛edzie zbiorem rozwi ˛aza ´n optymalnych problemu
przeetykietowania, F = {f1, . . . , f|F|}. Ka˙zde z rozwi ˛aza ´n optymalnych mo˙zemy traktowa´c jako wektor etykiet fr= (fr(x1), . . . , fr(x`)).
Wprowadzamy relacj ˛ecz ˛e ´sciowego porz ˛adku mi ˛edzy rozwi ˛azaniami optymalnymi w sposób nast ˛epuj ˛acy:
fs fr ⇐⇒ ∀16i6` fs(xi) > fr(xi)
Definicja
Zdefiniujmy operatory min, max działaj ˛ace w przestrzeni rozwi ˛aza ´n, w sposób nast ˛epuj ˛acy:
min{fs, fr} = (min{fs(x1), fr(x1)}, . . . , min{fs(x`), fr(x`)})
Porz ˛
adek mi ˛edzy rozwi ˛
azaniami optymalnymi
Definicja
Niech F b ˛edzie zbiorem rozwi ˛aza ´n optymalnych problemu
przeetykietowania, F = {f1, . . . , f|F|}. Ka˙zde z rozwi ˛aza ´n optymalnych mo˙zemy traktowa´c jako wektor etykiet fr= (fr(x1), . . . , fr(x`)).
Wprowadzamy relacj ˛ecz ˛e ´sciowego porz ˛adku mi ˛edzy rozwi ˛azaniami optymalnymi w sposób nast ˛epuj ˛acy:
fs fr ⇐⇒ ∀16i6` fs(xi) > fr(xi)
Definicja
Zdefiniujmy operatory min, max działaj ˛ace w przestrzeni rozwi ˛aza ´n, w sposób nast ˛epuj ˛acy:
min{fs, fr} = (min{fs(x1), fr(x1)}, . . . , min{fs(x`), fr(x`)}) max{fs, fr} = (max{fs(x1), fr(x1)}, . . . , max{fs(x`), fr(x`)})
Porz ˛
adek mi ˛edzy rozwi ˛
azaniami optymalnymi
Lemat
Je´sli f1i f2s ˛a rozwi ˛azaniami optymalnymi, to rozwi ˛azania f3= max{f1, f2} i f4= min{f1, f2} s ˛a równie˙z rozwi ˛azaniami optymalnymi.
Twierdzenie
W zbiorze rozwi ˛aza ´n optymalnych F istniej ˛a elementy najmniejszy i najwi ˛ekszy.
∃fmin : ∀f ∈ F fmin f ∃fmax : ∀f ∈ F fmax f
Porz ˛
adek mi ˛edzy rozwi ˛
azaniami optymalnymi
Lemat
Je´sli f1i f2s ˛a rozwi ˛azaniami optymalnymi, to rozwi ˛azania f3= max{f1, f2} i f4= min{f1, f2} s ˛a równie˙z rozwi ˛azaniami optymalnymi.
Twierdzenie
W zbiorze rozwi ˛aza ´n optymalnych F istniej ˛a elementy najmniejszy i najwi ˛ekszy.
∃fmin : ∀f ∈ F fmin f ∃fmax : ∀f ∈ F fmax f
Przykład - porz ˛
adek na kracie
● ● ● ● ● ● ● ● f1 f2 f3 f4 f5 f6 f7 f8Spis tre´sci
1 Wprowadzenie
2 Model probabilistyczny i estymacja parametrów
3 Problem przeetykietowywania obiektów
4 Własno´sci rozwi ˛aza ´n optymalnych
5 Nowa definicja uogólnionej decyzji
Optymalizowany przedział decyzji
Jak wyznaczy´c warto´sci fmini fmax?
Rozwi ˛azania fmini fmaxmo˙zna znale´z´c rozwi ˛azuj ˛ac problem
przeetykietowania ze zmodyfikowan ˛a funkcj ˛a celu L = L0± M−1L1,
gdzie: • L0=Pn
i=1(1 − di,yi−1) + di,yi jest przeetykietowa ´n. • L1=P`i=1Pu(xj=l(xi)−1
i) di,jjest (z dokładno´sci ˛a do stałej) sum ˛a
nowych etykiet (klas) obiektów.
• waga M−1jest tak dobrana, aby uzyska´c porz ˛adek leksykograficzny kryteriów — zachodzi dla M >P`
i=1(u(xi) − l(xi)).
Optymalizowany przedział decyzji
Jak wyznaczy´c warto´sci fmini fmax?
Rozwi ˛azania fmini fmaxmo˙zna znale´z´c rozwi ˛azuj ˛ac problem
przeetykietowania ze zmodyfikowan ˛a funkcj ˛a celu L = L0± M−1L1, gdzie:
• L0=Pni=1(1 − di,yi−1) + di,yi jest przeetykietowa ´n.
• L1=P`i=1Pu(xj=l(xi)−1
i) di,jjest (z dokładno´sci ˛a do stałej) sum ˛a
nowych etykiet (klas) obiektów.
• waga M−1jest tak dobrana, aby uzyska´c porz ˛adek
leksykograficzny kryteriów — zachodzi dla M >P`i=1(u(xi) − l(xi)). • znak ± dobierany jest aby uzyska´c fminlub fmax.
Optymalizowany przedział decyzji
Definicja
Zdefiniujmyoptymalizowany przedział uogólnionej decyzji δopt(xi) jako [fmin(xi), fmax(xi)], dla xi∈ X .
Na mocy równowa˙zno´sci, maj ˛ac optymalizowany przedział uogólnionej decyzji, mo˙zemy wyznaczy´c optymalizowane dolne i górne
Optymalizowany przedział decyzji — przykład
q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 1 2 2 1 3 3 3 1Optymalizowany przedział decyzji — przykład
q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 1 1 2 1 3 3 3 3●
●
Optymalizowany przedział decyzji — przykład
q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 1 2 2 2 3 3 3 3●
●
Optymalizowany przedział decyzji — przykład
q1 q2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 1 2 3 3 3 3 [1,1] [2,2] [1,1] [1,2] [2,2] [1,2] [3,3] [3,3] [3,3] [3,3]Zmienny poziom spójno´sci
Rozwa˙zmy problem optymalizacji L = L0± ML1, gdzie L0jest ilo´sci ˛a przeetykietowanych obiektów, a L1jest sum ˛a etykiet.
• Je´sli = −1, otrzymujemy optymalizowany przedział decyzji. • Je´sli = 1, porz ˛adek leksykograficzny kryteriów zamienia si ˛e i
otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Je´sli ∈ (−1, 1), pojawia si ˛e przetarg mi ˛edzy ilo´sci ˛a
przeetykietowa ´n, a klasycznymi przybli˙zeniami DRSA.
-optymalizowany przedział uogólnionej decyzji
-optymalizowany przedział uogólnionej decyzji (na poziomie spójno´sci ) powstaje poprzez rozwi ˛azanie problemu optymalizacyjnego
Zmienny poziom spójno´sci
Rozwa˙zmy problem optymalizacji L = L0± ML1, gdzie L0jest ilo´sci ˛a przeetykietowanych obiektów, a L1jest sum ˛a etykiet.
• Je´sli = −1, otrzymujemy optymalizowany przedział decyzji. • Je´sli = 1, porz ˛adek leksykograficzny kryteriów zamienia si ˛e i
otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Je´sli ∈ (−1, 1), pojawia si ˛e przetarg mi ˛edzy ilo´sci ˛a
przeetykietowa ´n, a klasycznymi przybli˙zeniami DRSA.
-optymalizowany przedział uogólnionej decyzji
-optymalizowany przedział uogólnionej decyzji (na poziomie spójno´sci ) powstaje poprzez rozwi ˛azanie problemu optymalizacyjnego
Zmienny poziom spójno´sci
Rozwa˙zmy problem optymalizacji L = L0± ML1, gdzie L0jest ilo´sci ˛a przeetykietowanych obiektów, a L1jest sum ˛a etykiet.
• Je´sli = −1, otrzymujemy optymalizowany przedział decyzji. • Je´sli = 1, porz ˛adek leksykograficzny kryteriów zamienia si ˛e i
otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Je´sli ∈ (−1, 1), pojawia si ˛e przetarg mi ˛edzy ilo´sci ˛a
przeetykietowa ´n, a klasycznymi przybli˙zeniami DRSA.
-optymalizowany przedział uogólnionej decyzji
-optymalizowany przedział uogólnionej decyzji (na poziomie spójno´sci ) powstaje poprzez rozwi ˛azanie problemu optymalizacyjnego
Zmienny poziom spójno´sci
Rozwa˙zmy problem optymalizacji L = L0± ML1, gdzie L0jest ilo´sci ˛a przeetykietowanych obiektów, a L1jest sum ˛a etykiet.
• Je´sli = −1, otrzymujemy optymalizowany przedział decyzji. • Je´sli = 1, porz ˛adek leksykograficzny kryteriów zamienia si ˛e i
otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Je´sli ∈ (−1, 1), pojawia si ˛e przetarg mi ˛edzy ilo´sci ˛a
przeetykietowa ´n, a klasycznymi przybli˙zeniami DRSA.
-optymalizowany przedział uogólnionej decyzji
-optymalizowany przedział uogólnionej decyzji (na poziomie spójno´sci ) powstaje poprzez rozwi ˛azanie problemu optymalizacyjnego
Zmienny poziom spójno´sci
Rozwa˙zmy problem optymalizacji L = L0± ML1, gdzie L0jest ilo´sci ˛a przeetykietowanych obiektów, a L1jest sum ˛a etykiet.
• Je´sli = −1, otrzymujemy optymalizowany przedział decyzji. • Je´sli = 1, porz ˛adek leksykograficzny kryteriów zamienia si ˛e i
otrzymujemy klasyczny przedział decyzji (klasyczne DRSA). • Je´sli ∈ (−1, 1), pojawia si ˛e przetarg mi ˛edzy ilo´sci ˛a
przeetykietowa ´n, a klasycznymi przybli˙zeniami DRSA.
-optymalizowany przedział uogólnionej decyzji
-optymalizowany przedział uogólnionej decyzji (na poziomie spójno´sci ) powstaje poprzez rozwi ˛azanie problemu optymalizacyjnego
L= L0± ML
Procedura klasyfikacji
1 Wyznacz -optymalizowany przedział uogólnionej decyzji.
2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz
z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.
3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),
osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.
4 Przy pó´zniejszej klasyfikacji obiektu x:
• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za
pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,
przydziel do niej obiekt x, w przeciwnym przypadku podaj jako
wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a
odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.
• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa
przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))
oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas
p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2 .
Procedura klasyfikacji
1 Wyznacz -optymalizowany przedział uogólnionej decyzji.
2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz
z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.
3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),
osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.
4 Przy pó´zniejszej klasyfikacji obiektu x:
• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za
pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,
przydziel do niej obiekt x, w przeciwnym przypadku podaj jako
wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a
odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.
• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa
przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))
oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas
p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2 .
Procedura klasyfikacji
1 Wyznacz -optymalizowany przedział uogólnionej decyzji.
2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz
z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.
3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),
osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.
4 Przy pó´zniejszej klasyfikacji obiektu x:
• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za
pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,
przydziel do niej obiekt x, w przeciwnym przypadku podaj jako
wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a
odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.
• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa
przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))
oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas
p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2 .
Procedura klasyfikacji
1 Wyznacz -optymalizowany przedział uogólnionej decyzji.
2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz
z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.
3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),
osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.
4 Przy pó´zniejszej klasyfikacji obiektu x:
• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za
pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,
przydziel do niej obiekt x, w przeciwnym przypadku podaj jako
wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a
odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.
• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa
przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))
oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas
p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2 .
Procedura klasyfikacji
1 Wyznacz -optymalizowany przedział uogólnionej decyzji.
2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz
z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.
3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),
osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.
4 Przy pó´zniejszej klasyfikacji obiektu x:
• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za
pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,
przydziel do niej obiekt x, w przeciwnym przypadku podaj jako
wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a
odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.
• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa
przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))
oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas
p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2 .
Procedura klasyfikacji
1 Wyznacz -optymalizowany przedział uogólnionej decyzji.
2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz
z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.
3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),
osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.
4 Przy pó´zniejszej klasyfikacji obiektu x:
• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,
przydziel do niej obiekt x, w przeciwnym przypadku podaj jako wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a
odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.
• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa
przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))
oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas
p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2 .
Procedura klasyfikacji
1 Wyznacz -optymalizowany przedział uogólnionej decyzji.
2 Utwórz dwa zbiory danych, jeden zawieraj ˛acy zbiór obiektów wraz
z etykietami równymi dolnej granicy -optymalizowanego przedziału, drugi — górnej granicy przedziału.
3 Naucz klasyfikator (najlepiej zachowuj ˛acy monotoniczno´s´c),
osobno na obu zbiorach, otrzymuj ˛ac dwa klasyfikatory Cl i Cu.
4 Przy pó´zniejszej klasyfikacji obiektu x:
• Je´sli klasyfikator wskazuje pojedyncz ˛a klas ˛e, oce ´n obiekt x za pomoc ˛a Cli Cu. Je´sli oba klasyfikatory wskazuj ˛a t ˛a sam ˛a klas ˛e,
przydziel do niej obiekt x, w przeciwnym przypadku podaj jako wynik przedział klas [Cl, Cu]lub (je´sli trzeba udzieli´c dokładn ˛a
odpowied´z) u˙zyj jakiegokolwiek innego sposobu rozstrzygania konfliktów.
• Je´sli klasyfikatory podaj ˛a rozkład prawdopodobie ´nstwa
przynale˙zno´sci do klas, tzn. wektory (pl(y = 1|x), . . . , pl(y = m|x))
oraz (pu(y = 1|x), . . . , pu(y = m|x)), podaj na wyj´sciu rozkład klas
p l(y=1|x)+pu(y=1|x) 2 , . . . , pl(y=m|x)+pu(y=m|x) 2 .
Spis tre´sci
1 Wprowadzenie
2 Model probabilistyczny i estymacja parametrów
3 Problem przeetykietowywania obiektów
4 Własno´sci rozwi ˛aza ´n optymalnych
5 Nowa definicja uogólnionej decyzji
Eksperyment
• Wybrano sze´s´c zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sze´s´c typów klasyfikatorów:
• SVM liniowy (svm-lin),
• SVM wielomianowy (stopie ´n 3) (svm-poly),
• drzewa decyzyjne (j48),
• AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),
• rodziny reguł decyzyjnych (ensembles),
• rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)
• Ka˙zdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy
klasyfikatorów z domy´slnymi parametrami, 10-krotna walidacja krzy˙zowa, dodatkowo powtórzona 10-krotnie.
• Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotn ˛a walidacj ˛e krzy˙zow ˛a.
Eksperyment
• Wybrano sze´s´c zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sze´s´c typów klasyfikatorów:
• SVM liniowy (svm-lin),
• SVM wielomianowy (stopie ´n 3) (svm-poly),
• drzewa decyzyjne (j48),
• AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),
• rodziny reguł decyzyjnych (ensembles),
• rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)
• Ka˙zdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy
klasyfikatorów z domy´slnymi parametrami, 10-krotna walidacja krzy˙zowa, dodatkowo powtórzona 10-krotnie.
• Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotn ˛a walidacj ˛e krzy˙zow ˛a.
Eksperyment
• Wybrano sze´s´c zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sze´s´c typów klasyfikatorów:
• SVM liniowy (svm-lin),
• SVM wielomianowy (stopie ´n 3) (svm-poly),
• drzewa decyzyjne (j48),
• AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),
• rodziny reguł decyzyjnych (ensembles),
• rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)
• Ka˙zdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy
klasyfikatorów z domy´slnymi parametrami, 10-krotna walidacja krzy˙zowa, dodatkowo powtórzona 10-krotnie.
• Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotn ˛a walidacj ˛e krzy˙zow ˛a.
Eksperyment
• Wybrano sze´s´c zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sze´s´c typów klasyfikatorów:
• SVM liniowy (svm-lin),
• SVM wielomianowy (stopie ´n 3) (svm-poly),
• drzewa decyzyjne (j48),
• AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),
• rodziny reguł decyzyjnych (ensembles),
• rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)
• Ka˙zdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy
klasyfikatorów z domy´slnymi parametrami, 10-krotna walidacja krzy˙zowa, dodatkowo powtórzona 10-krotnie.
• Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotn ˛a walidacj ˛e krzy˙zow ˛a.
Eksperyment
• Wybrano sze´s´c zbiorów danych z repozytorium UCI: heart-c, heart-h, credit-g, credit-a, breast-cancer, breast-w. • Wybrano sze´s´c typów klasyfikatorów:
• SVM liniowy (svm-lin),
• SVM wielomianowy (stopie ´n 3) (svm-poly),
• drzewa decyzyjne (j48),
• AdaBoost (z bazowym uczniem Decision Stamps) (AdaBoost),
• rodziny reguł decyzyjnych (ensembles),
• rodziny monotonicznych reguł decyzyjnych (dom-ensmbls)
• Ka˙zdy algorytm w dwóch wersjach: uczony na oryginalnych danych oraz uczony na optymalizowanych przedziałach decyzji • Dla zbiorów heart-c, heart-h, credit-g, credit-a testy
klasyfikatorów z domy´slnymi parametrami, 10-krotna walidacja krzy˙zowa, dodatkowo powtórzona 10-krotnie.
• Dla zbiorów breast-cancer, breast-w optymalizacja parametrów poprzez 10-krotn ˛a walidacj ˛e krzy˙zow ˛a.
Wyniki
klasyfikator heart-c heart-h credit-g credit-a
svm-lin 84.1 80.6 75.0 86.3 83.0 80.3 75.5 86.2 svm-poly 77.8 76.7 71.3 82.2 78.4 77.8 74.0 84.0 j48 76.3 76.1 71.3 85.5 76.8 77.0 73.6 86.8 AdaBoost 82.3 79.0 70.9 85.5 82.4 79.5 72.5 86.2 ensembles 80.0 78.7 74.3 86.5 80.3 78.8 75.6 86.6 dom-ensmbls 80.7 79.8 74.4 86.6 81.2 79.6 75.8 86.4
Legenda:niebieski— istotny statystycznie spadek trafno´sci po u˙zyciu optymalizowanych przedziałów decyzji;pomara ´nczowy— istotny statystycznie wzrost trafno´sci po u˙zyciu optymalizowanych przedziałów decyzji; czarny — ró˙znica nieistotna statystycznie.
Wyniki
klasyfikator breast-cancer breast-w
svm-lin 75.0 97.0 76.8 97.2 j48 76.1 96.3 74.7 95.6 ensembles 74.7 97.0 77.6 97.3 dom-ensmbls 77.2 97.0 77.6 97.6
Legenda: R — przyrost trafno´s´c predykcji przy u˙zyciu optymalizowanych przedziałów decyzji, R6 −0.5 −0.5 6 R 6 0.5 R> 0.5 R> 1