• Nie Znaleziono Wyników

2 35 maluch małe

N/A
N/A
Protected

Academic year: 2021

Share "2 35 maluch małe"

Copied!
12
0
0

Pełen tekst

(1)

Wybrane zadania przygotowujące do egzaminu z ISO - cz. 2 dr Piotr Wąsiewicz

1. Ze zbioru treningowego podanego w tabeli poniżej wykreować metodą zstępującej kon- strukcji drzewo decyzyjne (jak najmniej rozbudowane - minimalizacja entropii). Atrybut wiek zdyskretyzować korzystając z dwóch progów 30 i 65 lat. Atrybut ryzyko będzie ka- tegorią.

x wiek samochód ryzyko

1 18 maluch duże

2 35 maluch małe

3 50 sportowy duże

4 66 minivan duże

5 18 sportowy duże

6 35 minivan małe

7 60 maluch małe

8 70 sportowy duże

9 25 minivan małe

Rozwiązanie:

Atrybut wiek otrzymuje po dyskretyzacji trzy wartości:

w 1 : wiek < 30, w 2 : wiek ­ 30 ∧ wiek < 65, w 3 : wiek ­ 65.

Najpierw obliczana jest informacja zawarta w zbiorze i entropie rozkładu wartości ka- tegorii tzw. etykiet między wybrane przez wartości atrybutów podzbiory zbioru trenu- jącego.

I(P ) = − |P mae |

|P | log 2 ( |P mae |

|P | ) − |P due |

|P | log 2 ( |P due |

|P | ) = − 4

9 log 2 ( 4 9 ) − 5

9 log 2 ( 5

9 ) = 0.991, E wiek,w

1

(P ) = − |P wiek,w mae

1

|

|P wiek,w

1

| log 2 ( |P wiek,w mae

1

|

|P wiek,w

1

| )− |P wiek,w due

1

|

|P wiek,w

1

| log 2 ( |P wiek,w due

1

|

|P wiek,w

1

| ) = − 1

3 log 2 ( 1 3 )− 2

3 log 2 ( 2 3 ) = 0.918,

E wiek,w

2

(P ) = − |P wiek,w mae

2

|

|P wiek,w

2

| log 2 ( |P wiek,w mae

2

|

|P wiek,w

2

| )− |P wiek,w due

2

|

|P wiek,w

2

| log 2 ( |P wiek,w due

2

|

|P wiek,w

2

| ) = − 3

4 log 2 ( 3 4 )− 1

4 log 2 ( 1 4 ) = 0.811,

E wiek,w

3

(P ) = − |P wiek,w mae

3

|

|P wiek,w

3

| log 2 ( |P wiek,w mae

3

|

|P wiek,w

3

| )− |P wiek,w due

3

|

|P wiek,w

3

| log 2 ( |P wiek,w due

3

|

|P wiek,w

3

| ) = − 0

2 log 2 ( 0 2 )− 2

2 log 2 ( 2 2 ) = 0,

E samochód,maluch (P ) = − |P samochód,maluch mae |

|P samochód,maluch | log 2 ( |P samochód,maluch mae |

|P samochód,maluch | )-

|P samochód,maluch due |

|P samochód,maluch | log 2 ( |P samochód,maluch due |

|P samochód,maluch | ) = − 2

3 log 2 ( 2 3 ) − 1

3 log 2 ( 1

3 ) = 0.918, E samochód,minivan (P ) = − |P samochód,minivan mae |

|P samochód,minivan | log 2 ( |P samochód,minivan mae |

|P samochód,minivan | )−

|P samochód,minivan due |

|P samochód,minivan | log 2 ( |P samochód,minivan due |

|P samochód,minivan | ) = − 2

3 log 2 ( 2 3 ) − 1

3 log 2 ( 1

3 ) = 0.918, E samochód,sportowy (P ) = − |P samochód,sportowy mae |

|P samochód,sportowy | log 2 ( |P samochód,sportowy mae |

|P samochód,sportowy | )−

|P samochód,sportowy due |

|P samochód,sportowy | log 2 ( |P samochód,sportowy due |

|P samochód,sportowy | ) = − 0

3 log 2 ( 0 3 ) − 3

3 log 2 ( 3

3 ) = 0,

(2)

Następnie obliczane są średnie ważone entropie:

E wiek (P ) = |P wiek,w

1

|

|P | E wiek,w

1

(P )+ |P wiek,w

2

|

|P | E wiek,w

2

(P )+ |P wiek,w

3

|

|P | E wiek,w

3

(P ) = 3

9 (0.918)+

4

9 (0.811) + 2

9 0 = 0, 666,

E samochod (P ) = |P samochod,maluch |

|P | E samochod,maluch (P )+ |P samochod,minivan |

|P | E samochod,minivan (P )+

|P samochod,sportowy |

|P | E samochod,sportowy (P ) = 3

9 (0.918) + 3

9 (0.918) + 3

9 0 = 0, 612, I wartości infomacyjne dla poszczególnych atrybutów:

IV wiek (P ) = − |P wiek,w

1

|

|P | log 2 ( |P wiek,w

1

|

|P | )− |P wiek,w

2

|

|P | log 2 ( |P wiek,w

2

|

|P | )− |P wiek,w

3

|

|P | log 2 ( |P wiek,w

3

|

|P | ) =

3

9 log 2 ( 3 9 ) − 4

9 log 2 ( 4 9 ) − 2

9 log 2 ( 2

9 ) = 0, 528 + 0, 519 + 0, 482 = 1, 53, IV samochód (P ) = − |P samochód,maluch |

|P | log 2 ( |P samochód,maluch |

|P | )−

|P samochód,minivan |

|P | log 2 ( |P samochód,minivan |

|P | ) − |P samochód,sportowy |

|P | log 2 ( |P samochód,sportowy |

|P | ) =

3

9 log 2 ( 3 9 ) − 3

9 log 2 ( 3 9 ) − 3

9 log 2 ( 3

9 ) = 0, 528 + 0, 528 + 0, 528 = 1, 584, Na końcu współczynniki przyrostu informacji wynoszą odpowiednio:

ϑ wiek (P ) = I (P ) − E wiek (P )

IV wiek (P ) = 0, 991 − 0, 666

1, 53 = 0, 212 ϑ samochód (P ) = I (P ) − E samochód (P )

IV samochód (P ) = 0, 991 − 0, 612

1, 584 = 0, 239

samochod

duze

sportowy

wiek maluch

duze w 1

male w 2 ∨ w 3

wiek minivan

duze w 3

male w 1 ∨ w 2

Jak widać atrybut samochód ma większy współczynnik i wygrywa staje się pierwszym węzłem drzewa decyzyjnego, a jego trzy łuki biegnące do następników mają za nazwy jego wartości.

Dla wartości sportowy każdy przykład zawierający ją ma etykietę duże atrybutu ryzyko,

stąd jej łuk kończy się liściem o wartości duże.

(3)

Dla wartości maluch jej łuk kończy się z braku jasnego wyboru etykiety tylko na podsta- wie wartości atrybutu samochód węzłem atrybutu wiek - ostatnim z dostępnych testów na drodze do określenia etykiety przykładu złożonego z testowanych dwóch atrybutów wiek i samochód. Poniżej zamieszczony został opis następników nowego węzła.

Przykłady z wartością w 1 atrybutu wiek i wartością maluch mają zawsze etykietę duże stąd łuk biegnący od węzła wiek o nazwie w 1 kończy się liściem duże, a dla innych war- tości atrybutu wiek przy wartości maluch atrybutu samochód przykłady mają etykiety małe stąd odpowiednie liście.

Wracając do trzeciego łuku o nazwie minivan biegnącego od korzenia można zauważyć, że też z braku takich samych etykiet dla przykładów z wartością minivan i z dowolną wartością atrybutu wiek łuk ten kończy się węzłem o nazwie wiek i dalej zależności i liście są takie same jak dla węzła kończącego łuk maluch.

2. Za pomocą algorytmu sekwencyjnego pokrywania CN2 uzyskać nieuporządkowany zbiór zdaniowych reguł ze zbioru treningowego podanego w tabeli poniżej. Opisać dokładnie kolejne kroki algorytmu. Atrybut wiek zdyskretyzować korzystając z dwóch progów 30 i 65 lat. Atrybut ryzyko będzie kategorią. Dla ułatwienia założyć, że wszystkie kom- pleksy są istotne statystycznie oraz że kompleks warunkujący z reguły zdaniowej musi pokrywać przykłady tylko z jedną etykietą - jedną wartością kategorii.

x wiek samochód ryzyko

1 18 maluch duże

2 35 maluch małe

3 50 sportowy duże

4 66 minivan duże

5 18 sportowy duże

6 35 minivan małe

7 60 maluch małe

8 70 sportowy duże

9 25 minivan małe

Rozwiązanie:

Atrybut wiek otrzymuje po dyskretyzacji trzy wartości:

• w 1 : wiek < 30,

• w 2 : wiek ­ 30 ∧ wiek < 65,

• w 3 : wiek ­ 65.

Zbiór S kompleksów atomowych (czyli tylko z jednym selektorem nieuniwersalnym) (S = {K 1 , K 2 , K 3 , K 4 , K 5 , K 6 , K 7 , K 8 , K 9 , K 10 , K 11 , K 12 }) jest następujący:

S = { K 1 < w 1 , ? >, K 2 < w 2 , ? >, K 3 < w 3 , ? >, K 4 < w 1 ∨ w 2 , ? >, K 5 < w 2 ∨ w 3 , ? >, K 6 < w 1 ∨ w 3 , ? >, K 7 <?, maluch >, K 8 <?, minivan >, K 9 <?, sportowy >,

K 10 <?, maluch ∨ minivan >,

K 11 < ?, minivan ∨ sportowy >,

K 12 <?, maluch ∨ sportowy >}

(4)

Kolejne kroki algorytmu CN2

(a) Początkowo R = φ, P = T = {1, 2, 3, 4, 5, 6, 7, 8, 9}, S (b) Następuje wywołanie znajdź-kompleks(T, P ).

• S = {<? >} 6= φ, k =<? >

ϑ k

(P ) = −E k

(P ) = |P mae |

|P | log 2 ( |P mae |

|P | ) + |P due |

|P | log 2 ( |P due |

|P | ) = 5

9 log 2 ( 5 9 ) + 4

9 log 2 ( 4

9 ) = −0.991,

• S = S = S ∩ S,

Ze względu na to, że dąży się do uzyskania nieuporządkowanego zbioru reguł funkcje oceny kompleksów atomowych są liczone tylko raz w zbiorze T i potem cały czas wykorzystywane.

ϑ K

1

(T ) = −E K

1

(T ) = |T K mae

1

|

|T K

1

| log 2 ( |T K mae

1

|

|T K

1

| ) + |T K due

1

|

|T K

1

| log 2 ( |T K due

1

|

|T K

1

| ) = 1

3 log 2 ( 1 3 ) + 2

3 log 2 ( 2

3 ) = −0.918,

ϑ K

2

(T ) = −E K

2

(T ) = |T K mae

2

|

|T K

2

| log 2 ( |T K mae

2

|

|T K

2

| ) + |T K due

2

|

|T K

2

| log 2 ( |T K due

2

|

|T K

2

| ) = 3

4 log 2 ( 3 4 ) + 1

4 log 2 ( 1

4 ) = −0.811,

ϑ K

3

(T ) = −E K

3

(T ) = |T K mae

3

|

|T K

3

| log 2 ( |T K mae

3

|

|T K

3

| ) + |T K due

3

|

|T K

3

| log 2 ( |T K due

3

|

|T K

3

| ) = 0

3 log 2 ( 0 3 ) + 3

3 log 2 ( 3 3 ) = 0,

ϑ K

4

(T ) = −E K

4

(T ) = |T K mae

4

|

|T K

4

| log 2 ( |T K mae

4

|

|T K

4

| ) + |T K due

4

|

|T K

4

| log 2 ( |T K due

4

|

|T K

4

| ) = 4

7 log 2 ( 4 7 ) + 3

7 log 2 ( 3

7 ) = −0.985,

ϑ K

5

(T ) = −E K

5

(T ) = |T K mae

5

|

|T K

5

| log 2 ( |T K mae

5

|

|T K

5

| ) + |T K due

5

|

|T K

5

| log 2 ( |T K due

5

|

|T K

5

| ) = 3

6 log 2 ( 3 6 ) + 3

6 log 2 ( 3

6 ) = −1,

ϑ K

6

(T ) = −E K

6

(T ) = |T K mae

6

|

|T K

6

| log 2 ( |T K mae

6

|

|T K

6

| ) + |T K due

6

|

|T K

6

| log 2 ( |T K due

6

|

|T K

6

| ) = 1

5 log 2 ( 1 5 ) + 4

5 log 2 ( 4

5 ) = −0.721,

ϑ K

7

(T ) = −E K

7

(T ) = |T K mae

7

|

|T K

7

| log 2 ( |T K mae

7

|

|T K

7

| ) + |T K due

7

|

|T K

7

| log 2 ( |T K due

7

|

|T K

7

| ) = 2

3 log 2 ( 2 3 ) + 1

3 log 2 ( 1

3 ) = −0.918,

ϑ K

8

(T ) = −E K

8

(T ) = |T K mae

8

|

|T K

8

| log 2 ( |T K mae

8

|

|T K

8

| ) + |T K due

8

|

|T K

8

| log 2 ( |T K due

8

|

|T K

8

| ) = 2

3 log 2 ( 2 3 ) + 1

3 log 2 ( 1

3 ) = −0.918,

ϑ K

9

(T ) = −E K

9

(T ) = |T K mae

9

|

|T K

9

| log 2 ( |T K mae

9

|

|T K

9

| ) + |T K due

9

|

|T K

9

| log 2 ( |T K due

9

|

|T K

9

| ) = 0

3 log 2 ( 0 3 ) + 3

3 log 2 ( 3 3 ) = 0,

ϑ K

10

(T ) = −E K

10

(T ) = |T K mae

10

|

|T K

10

| log 2 ( |T K mae

10

|

|T K

10

| ) + |T K due

10

|

|T K

10

| log 2 ( |T K due

10

|

|T K

10

| ) = 4

6 log 2 ( 4 6 ) + 2

6 log 2 ( 2

6 ) = −0.918,

(5)

ϑ K

11

(T ) = −E K

11

(T ) = |T K mae

11

|

|T K

11

| log 2 ( |T K mae

11

|

|T K

11

| ) + |T K due

11

|

|T K

11

| log 2 ( |T K due

11

|

|T K

11

| ) = 2

6 log 2 ( 2 6 ) + 4

6 log 2 ( 4

6 ) = −0.918,

ϑ K

12

(T ) = −E K

12

(T ) = |T K mae

12

|

|T K

12

| log 2 ( |T K mae

12

|

|T K

12

| ) + |T K due

12

|

|T K

12

| log 2 ( |T K due

12

|

|T K

12

| ) = 2

6 log 2 ( 2 6 ) + 4

6 log 2 ( 4

6 ) = −0.918

• K 9 =<?, sportowy > ma największą wartość ϑ = 0 w zbiorze S razem z K 3 , ale więcej przykładów pokrywa; S = {K 9 }, k = K 9 ,

(c) R = {<?, sportowy >→ duże}, P = {1, 2, 4, 6, 7, 9}, (d) P 6= φ ⇒znajdź-kompleks(T, P ),

• S = {<? >} 6= φ, k =<? > i ϑ k

(P ) = −0.991,

• S = S = S ∩ S,

ze względu na użycie K 9 wyklucza się wszystkie kompleksy atomowe z wartością atrybutu samochód = sportowy czyli K 9 ,K 11 ,K 12 , bo takich przykładów z wartością sportowy już w zbiorze P nie ma.

W następnym kroku chcąc uzyskać najlepszy kompleks wykorzystuje się funckje oceny liczone jeden raz na początku.

• K 3 =< w 3 , ? > ma największą wartość ϑ = 0; S = {K 3 }, k = K 3 , (e) R = {<?, sportowy >→ duże, < w3, ? >→ duże}, P = {1, 2, 6, 7, 9}, (f) P 6= φ ⇒znajdź-kompleks(T, P ),

• S = {<? >} 6= φ, k =<? > i ϑ k

(P ) = −0.991,

ze względu na użycie K 3 wyklucza się wszystkie kompleksy atomowe z wartością atrybutu wiek = w 3 czyli K 3 ,K 5 ,K 6 , bo takich przykładów z wartością w 3 już w zbiorze P nie ma.

• K 2 =< w 2 , ? > ma wartość ϑ = −0.811, ale przyjęto, że dla ułatwienia tworzy się reguły pokrywające przykłady tylko z jedną etykietą czyli dla kompleksów o wartości funkcji oceny 0, dlatego pętla wykonuje się dalej.

S = {< w2, ? >};

• Zgodnie z algorytmem CN2: S := S ∩ S; S := S − S − {< φ >};

Kompleks {< w2, maluch∨minivan >} ma wartość funkcji oceny równą 0 i pokrywa najwięcej przykladów z P , gdyż mimo, że ocenia się według zbioru T (zbiór reguł nieuporządkowany), to trzeba tworzyć reguły pokrywające przykłady ze zbioru P i to jak najwięcej.

(g) R = {<?, sportowy >→ duże, < w3, ? >→ duże, < w2, maluch∨minivan → małe >}, P = {1, 9},

(h) P 6= φ ⇒znajdź-kompleks(T, P ),

• S = {<? >} 6= φ, k =<? > i ϑ k

(P ) = −0.991,

• Pozostały tylko dwa przykłady o różnych etykietach, aby kompleksy mogły uzyskać ocenę równą 0 muszą mieć identyczne wartości atrybutów, stąd powstają dwie nowe reguły.

(i) Ostatecznie

R = {<?, sportowy >→ duże,

< w3, ? >→ duże,

< w2, maluch ∨ minivan → małe >

< w 1, minivan → małe >

< w1, maluch → duże >

}

W uzyskanym zbiorze reguł można reguły zamieniać miejscami, gdyż jest to zbiór

nieuporządkowany.

(6)

3. Za pomocą algorytmu sekwencyjnego pokrywania CN2 uzyskać uporządkowany zbiór zdaniowych reguł ze zbioru treningowego podanego w tabeli poniżej. Opisać dokładnie kolejne kroki algorytmu. Atrybut wiek zdyskretyzować korzystając z dwóch progów 30 i 65 lat. Atrybut ryzyko będzie kategorią. Dla ułatwienia założyć, że wszystkie kom- pleksy są istotne statystycznie oraz że kompleks warunkujący z reguły zdaniowej musi pokrywać przykłady tylko z jedną etykietą - jedną wartością kategorii.

x wiek samochód ryzyko

1 18 maluch duże

2 35 maluch małe

3 50 sportowy duże

4 66 minivan duże

5 18 sportowy duże

6 35 minivan małe

7 60 maluch małe

8 70 sportowy duże

9 25 minivan małe

Rozwiązanie:

Atrybut wiek otrzymuje po dyskretyzacji trzy wartości:

• w 1 : wiek < 30,

• w 2 : wiek ­ 30 ∧ wiek < 65,

• w 3 : wiek ­ 65.

Zbiór S kompleksów atomowych (czyli tylko z jednym selektorem nieuniwersalnym) (S = {K 1 , K 2 , K 3 , K 4 , K 5 , K 6 , K 7 , K 8 , K 9 , K 10 , K 11 , K 12 }) jest następujący:

S = { K 1 < w 1 , ? >, K 2 < w 2 , ? >, K 3 < w 3 , ? >, K 4 < w 1 ∨ w 2 , ? >, K 5 < w 2 ∨ w 3 , ? >, K 6 < w 1 ∨ w 3 , ? >, K 7 <?, maluch >, K 8 <?, minivan >, K 9 <?, sportowy >,

K 10 < ?, maluch ∨ minivan >, K 11 < ?, minivan ∨ sportowy >, K 12 <?, maluch ∨ sportowy >}

Kolejne kroki algorytmu CN2

(a) Początkowo R = φ, P = T = {1, 2, 3, 4, 5, 6, 7, 8, 9}, S (b) Następuje wywołanie znajdź-kompleks(T, P ).

• S = {<? >} 6= φ, k =<? >

ϑ k

(P ) = −E k

(P ) = |P mae |

|P | log 2 ( |P mae |

|P | ) + |P due |

|P | log 2 ( |P due |

|P | ) = 5

9 log 2 ( 5 9 ) + 4

9 log 2 ( 4

9 ) = −0.991,

• S = S = S ∩ S,

ϑ K

1

(P ) = −E K

1

(P ) = |P K mae

1

|

|P K

1

| log 2 ( |P K mae

1

|

|P K

1

| ) + |P K due

1

|

|P K

1

| log 2 ( |P K due

1

|

|P K

1

| ) = 1

3 log 2 ( 1

3 ) +

(7)

2

3 log 2 ( 2

3 ) = −0.918,

ϑ K

2

(P ) = −E K

2

(P ) = |P K mae

2

|

|P K

2

| log 2 ( |P K mae

2

|

|P K

2

| ) + |P K due

2

|

|P K

2

| log 2 ( |P K due

2

|

|P K

2

| ) = 3

4 log 2 ( 3 4 ) + 1

4 log 2 ( 1

4 ) = −0.811,

ϑ K

3

(P ) = −E K

3

(P ) = |P K mae

3

|

|P K

3

| log 2 ( |P K mae

3

|

|P K

3

| ) + |P K due

3

|

|P K

3

| log 2 ( |P K due

3

|

|P K

3

| ) = 0

3 log 2 ( 0 3 ) + 3

3 log 2 ( 3 3 ) = 0,

ϑ K

4

(P ) = −E K

4

(P ) = |P K mae

4

|

|P K

4

| log 2 ( |P K mae

4

|

|P K

4

| ) + |P K due

4

|

|P K

4

| log 2 ( |P K due

4

|

|P K

4

| ) = 4

7 log 2 ( 4 7 ) + 3

7 log 2 ( 3

7 ) = −0.985,

ϑ K

5

(P ) = −E K

5

(P ) = |P K mae

5

|

|P K

5

| log 2 ( |P K mae

5

|

|P K

5

| ) + |P K due

5

|

|P K

5

| log 2 ( |P K due

5

|

|P K

5

| ) = 3

6 log 2 ( 3 6 ) + 3

6 log 2 ( 3

6 ) = −1,

ϑ K

6

(P ) = −E K

6

(P ) = |P K mae

6

|

|P K

6

| log 2 ( |P K mae

6

|

|P K

6

| ) + |P K due

6

|

|P K

6

| log 2 ( |P K due

6

|

|P K

6

| ) = 1

5 log 2 ( 1 5 ) + 4

5 log 2 ( 4

5 ) = −0.721,

ϑ K

7

(P ) = −E K

7

(P ) = |P K mae

7

|

|P K

7

| log 2 ( |P K mae

7

|

|P K

7

| ) + |P K due

7

|

|P K

7

| log 2 ( |P K due

7

|

|P K

7

| ) = 2

3 log 2 ( 2 3 ) + 1

3 log 2 ( 1

3 ) = −0.918,

ϑ K

8

(P ) = −E K

8

(P ) = |P K mae

8

|

|P K

8

| log 2 ( |P K mae

8

|

|P K

8

| ) + |P K due

8

|

|P K

8

| log 2 ( |P K due

8

|

|P K

8

| ) = 2

3 log 2 ( 2 3 ) + 1

3 log 2 ( 1

3 ) = −0.918,

ϑ K

9

(P ) = −E K

9

(P ) = |P K mae

9

|

|P K

9

| log 2 ( |P K mae

9

|

|P K

9

| ) + |P K due

9

|

|P K

9

| log 2 ( |P K due

9

|

|P K

9

| ) = 0

3 log 2 ( 0 3 ) + 3

3 log 2 ( 3 3 ) = 0,

ϑ K

10

(P ) = −E K

10

(P ) = |P K mae

10

|

|P K

10

| log 2 ( |P K mae

10

|

|P K

10

| ) + |P K due

10

|

|P K

10

| log 2 ( |P K due

10

|

|P K

10

| ) = 4

6 log 2 ( 4 6 ) + 2

6 log 2 ( 2

6 ) = −0.918,

ϑ K

11

(P ) = −E K

11

(P ) = |P K mae

11

|

|P K

11

| log 2 ( |P K mae

11

|

|P K

11

| ) + |P K due

11

|

|P K

11

| log 2 ( |P K due

11

|

|P K

11

| ) = 2

6 log 2 ( 2 6 ) + 4

6 log 2 ( 4

6 ) = −0.918,

ϑ K

12

(P ) = −E K

12

(P ) = |P K mae

12

|

|P K

12

| log 2 ( |P K mae

12

|

|P K

12

| ) + |P K due

12

|

|P K

12

| log 2 ( |P K due

12

|

|P K

12

| ) = 2

6 log 2 ( 2 6 ) + 4

6 log 2 ( 4

6 ) = −0.918

• K 9 =<?, sportowy > ma największą wartość ϑ = 0 w zbiorze S razem z K 3 , ale więcej przykładów pokrywa; S = {K 9 }, k = K 9 ,

(c) R = {<?, sportowy >→ duże}, P = {1, 2, 4, 6, 7, 9}, (d) P 6= φ ⇒znajdź-kompleks(T, P ),

• S = {<? >} 6= φ, k =<? > i ϑ k

(P ) = −0.918,

• S = S = S ∩ S,

ze względu na użycie K 9 wyklucza się wszystkie kompleksy atomowe z wartością

atrybutu samochód = sportowy czyli K 9 ,K 11 ,K 12 , bo takich przykładów z wartością

(8)

sportowy już w zbiorze P nie ma.

Dla zbioru uporządkowanego trzeba wartość funkcji oceny kompleksów atomowych obliczać przed każdym wyborem najlepszego kompleksu.

ϑ K

1

(P ) = −1, ϑ K

2

(P ) = 0, ϑ K

3

(P ) = 0, ϑ K

4

(P ) = −0, 721, ϑ K

5

(P ) = −0, 811, ϑ K

6

(P ) = −0.918, ϑ K

7

(P ) = −0.918, ϑ K

8

(P ) = −0.918, ϑ K

10

(P ) = −0.918,

• K 2 =< w 2 , ? > ma największą wartość ϑ = 0 razem z K 3 , ale więcej przykładów pokrywa; S = {K 2 }, k = K 2 ,

(e) R = {<?, sportowy >→ duże, < w2, ? >→ małe}, P = {1, 4, 9}, (f) P 6= φ ⇒znajdź-kompleks(T, P ),

• S = {<? >} 6= φ, k =<? > i ϑ k

(P ) = −0.918,

ze względu na użycie K 2 wyklucza się wszystkie kompleksy atomowe z wartością atrybutu wiek = w 2 czyli K 2 ,K 4 ,K 5 , bo takich przykładów z wartością w 2 już w zbiorze P nie ma.

ϑ K

1

(P ) = −1, ϑ K

3

(P ) = 0, ϑ K

6

(P ) = −0.918, ϑ K

7

(P ) = 0, ϑ K

8

(P ) = −1, ϑ K

10

(P ) = −0.918,

• K 3 =< w 3 , ? > ma największą wartość ϑ = 0 razem z K 7 i tyle samo przykła- dów pokrywa, ale trzeba wybrać i można zauważyć, że w zbiorze T pokrywa tylko przykłady o jednej etykiecie; S = {K 3 }, k = K 3 ,

(g) R = {<?, sportowy >→ duże, < w2, ? >→ małe, < w3, ? >→ duże}, P = {1, 9}, (h) P 6= φ ⇒znajdź-kompleks(T, P ),

• S = {<? >} 6= φ, k =<? > i ϑ k

(P ) = −1,

• K 8 =<?, minivan > ma największą wartość ϑ = 0 razem z K 7 i tyle samo przy- kładów pokrywa, ale trzeba wybrać go wybrać, aby ostatni przykład miał etykietę duże; S = {K 8 }, k = K 8 ,

(i) R = {<?, sportowy >→ duże, < w2, ? >→ małe, < w3, ? >→ duże, <?, minivan >→

małe}, P = {1},

(j) P 6= φ ⇒znajdź-kompleks(T, P ),

• S = {<? >} 6= φ, k =<? > i ϑ k

(P ) = 0,

Kompleks k tym razem ma największą wartość funkcji oceny i zostaje częścią reguły.

(k) Ostatecznie

R = {<?, sportowy >→ duże,

< w 2, ? >→ małe,

< w 3, ? >→ duże,

< ?, minivan >→ małe,

<? >→ duże}

W uzyskanym zbiorze reguł NIE można reguł zamieniać miejscami, gdyż jest to zbiór uporządkowany. Najpierw nowe przykłady klasyfikuje reguła pierwsza, jak ona zawie- dzie to druga itd.

4. Za pomocą algorytmu sekwencyjnego pokrywania AQ uzyskać nieuporządkowany zbiór

zdaniowych reguł ze zbioru treningowego podanego w tabeli poniżej. Opisać dokładnie

kolejne kroki algorytmu. Atrybut wiek zdyskretyzować korzystając z dwóch progów 30

i 65 lat. Atrybut ryzyko będzie kategorią. Ziarna pozytywne należy wybierać po kolei ze

zbioru P przykładów nie pokrytych przez znalezione reguły. Ziarna negatywne po kolei

ze zbioru T z pozycji pod ziarnem pozytywnym, a jak się skończy tabela to wybierać

proszę ziarna negatywne jak najbardziej podobne do ziaren pozytywnych (jak najwięcej

takich samych wartości atrybutów).

(9)

x wiek samochód ryzyko

1 18 maluch duże

2 35 maluch małe

3 50 sportowy duże

4 66 minivan duże

5 18 sportowy duże

6 35 minivan małe

7 60 maluch małe

8 70 sportowy duże

9 25 minivan małe

Rozwiązanie:

Atrybut wiek otrzymuje po dyskretyzacji trzy wartości:

• w 1 : wiek < 30,

• w 2 : wiek ­ 30 ∧ wiek < 65,

• w 3 : wiek ­ 65.

Kolejne kroki algorytmu AQ

(a) Początkowo R = 0, P = T = {1, 2, 3, 4, 5, 6, 7, 8, 9}

(b) Następuje wywołanie znajdź-kompleks(T, P ).

• x s = 1, c(x s ) = duże, x n = 2, c(x n ) = małe, S = {<? >}

• powstaje częściowa gwiazda S : S = S ∩ S = {< w 1 ∨ w 3 , ? >};

• gwiazda w dalszym ciągu pokrywa przykłady z T o kategorii małe, wybór na- stępnego ziarna negatywnego x n = 6

• S = {< w 1 ∨ w 3 , ? >, <?, maluch ∨ sportowy >}

• S = S ∩ S = {< w 1 ∨ w 3 , ? >, < w 1 ∨ w 3 , maluch ∨ sportowy >}

• S = {k 1 , k 2 }, v k

1

= |T k duże

1

| + (|T małe | − |T k małe

1

|) = 4 + (4 − 1) = 7, v k

2

= 3 + 4 = 7 Wartości funkcji oceny dla dwóch uzyskanych kompleksów ze zbioru S są takie same, ale k 2 pokrywa wyłącznie przykłady o jednej etykiecie duże, stąd on wchodzi w skład nowej reguły:

(c) R = {< w 1 ∨ w 3 , maluch ∨ sportowy >→ duże}

(d) P = {2, 3, 4, 6, 7, 9}, dla P 6= 0 znajdź-kompleks(T, P )

• x s = 2, c(x s ) = małe, x n = 3, c(x n ) = duże, S = {<? >}

• powstaje częściowa gwiazda S : S = S ∩ S = {<?, maluch ∨ minivan >};

• gwiazda w dalszym ciągu pokrywa przykłady z T o kategorii duże, wybór na- stępnego ziarna negatywnego x n = 4

• S = {< w 1 ∨ w 2 , ? >, <?, maluch ∨ sportowy >}

• S = S ∩ S = {< w 1 ∨ w 2 , maluch ∨ minivan >, <?, maluch >}

• S = {k 1 , k 2 }, v k

1

= |T k małe

1

| + (|T duże | − |T k duże

1

|) = 4 + 5 = 9, v k

2

= 2 + (5 − 1) = 6 Kompleks k 1 ma lepszą wartość funkcji oceny, stąd pozostaje w składzie gwiazdy (jej parametr m = 1).

S = {< w 1 ∨ w 2 , maluch ∨ minivan >}.

• gwiazda w dalszym ciągu pokrywa przykłady z T o kategorii duże (ze zbioru T ), wybór następnego ziarna negatywnego x n = 5

• S = {< w 2 ∨ w 3 , ? >, <?, maluch ∨ minivan >}

• S = S ∩ S = {< w 2 , maluch ∨ minivan >, < w 1 ∨ w 2 , maluch ∨ minivan >}

(10)

• S = {k 1 , k 2 }, v k

1

= |T k małe

1

| + (|T duże | − |T k duże

1

|) = 3 + 5 = 8, v k

2

= 4 + (5 − 2) = 7 Kompleks k 1 nie dosyć, że ma lepszą wartość funkcji oceny, to jeszcze pokrywa wyłącznie przykłady o jednej etykiecie małe (ze zbioru T ), stąd on wchodzi w skład nowej reguły:

(e) R = {< w 1 ∨ w 3 , maluch ∨ sportowy >→ duże, < w 2 , maluch ∨ minivan >→ małe}

(f) P = {3, 4, 9}, dla P 6= 0 znajdź-kompleks(T, P )

• x s = 3, c(x s ) = duże, S = {<? >}, x n = 6

• S = S ∩ S = {<?, maluch ∨ sportowy >}

• gwiazda w dalszym ciągu pokrywa przykłady z T o kategorii małe ze zbioru T , wybór następnego ziarna negatywnego x n = 7

• S = {<?, sportowy ∨ minivan >}

• S = S ∩ S = {<?, sportowy >} Kompleks z S pokrywa wyłącznie przykłady o jednej etykiecie duże (ze zbioru T ), stąd on wchodzi w skład nowej reguły:

(g) R = {< w 1 ∨ w 3 , maluch ∨ sportowy >→ duże, < w 2 , maluch ∨ minivan >→ małe, <

?, sportowy >→ duże}

(h) P = {4, 9}, dla P 6= 0 znajdź-kompleks(T, P )

• x s = 4, c(x s ) = duże, S = {<? >}, x n = 9

• S = S ∩ S = {< w2 ∨ w3, ? >}

• gwiazda w dalszym ciągu pokrywa przykłady z T o kategorii małe ze zbioru T , wybór następnego ziarna negatywnego x n = 6

• S = {< w1 ∨ w3, ? >}

• S = S ∩ S = {< w3, ? >}

Kompleks z S pokrywa wyłącznie przykłady o jednej etykiecie duże (ze zbioru T ), stąd on wchodzi w skład nowej reguły:

(i) R = {< w 1 ∨ w 3 , maluch ∨ sportowy >→ duże, < w 2 , maluch ∨ minivan >→ małe, <

?, sportowy >→ duże, < w3, ? >→ duże}

(j) P = {9}, dla P 6= 0 znajdź-kompleks(T, P )

• x s = 9, c(x s ) = duże, S = {<? >}, x n = 4

• S = S ∩ S = {< w1 ∨ w2, ? >}

• gwiazda w dalszym ciągu pokrywa przykłady z T o kategorii duże ze zbioru T , wybór następnego ziarna negatywnego x n = 1

• S = {<?, minivan ∨ sportowy >}

• S = S ∩ S = {< w1 ∨ w2, minivan ∨ sportowy >}

• gwiazda w dalszym ciągu pokrywa przykłady z T o kategorii duże ze zbioru T , wybór następnego ziarna negatywnego x n = 5

• S = {<?, minivan ∨ maluch >}

• S = S ∩ S = {< w1 ∨ w2, minivan >}

Kompleks z S pokrywa wyłącznie przykłady o jednej etykiecie małe (ze zbioru T ), stąd on wchodzi w skład nowej reguły:

(k) Ostatecznie

R = {< w 1 ∨ w 3 , maluch ∨ sportowy >→ duże,

< w 2 , maluch ∨ minivan >→ małe,

< ?, sportowy >→ duże,

< w3, ? >→ duże,

< w1 ∨ w2, minivan >→ małe}

W uzyskanym zbiorze reguł można reguły zamieniać miejscami, gdyż jest to zbiór

nieuporządkowany.

(11)

5. Za pomocą algorytmu sekwencyjnego pokrywania AQ uzyskać uporządkowany zbiór zdaniowych reguł ze zbioru treningowego podanego w tabeli poniżej. Opisać dokładnie kolejne kroki algorytmu. Atrybut wiek zdyskretyzować korzystając z dwóch progów 30 i 65 lat. Atrybut ryzyko będzie kategorią. Ziarna pozytywne należy wybierać po kolei ze zbioru P przykładów nie pokrytych przez znalezione reguły. Ziarna negatywne po kolei ze zbioru P z pozycji pod ziarnem pozytywnym, a jak się skończy zbiór P to wybierać proszę ziarna negatywne ze zbioru T jak najbardziej podobne do ziaren pozytywnych (jak najwięcej takich samych wartości atrybutów).

x wiek samochód ryzyko

1 18 maluch duże

2 35 maluch małe

3 50 sportowy duże

4 66 minivan duże

5 18 sportowy duże

6 35 minivan małe

7 60 maluch małe

8 70 sportowy duże

9 25 minivan małe

Rozwiązanie:

Atrybut wiek otrzymuje po dyskretyzacji trzy wartości:

• w 1 : wiek < 30,

• w 2 : wiek ­ 30 ∧ wiek < 65,

• w 3 : wiek ­ 65.

Kolejne kroki algorytmu AQ

(a) Początkowo R = 0, P = T = {1, 2, 3, 4, 5, 6, 7, 8, 9}

(b) Następuje wywołanie znajdź-kompleks(T, P ).

• x s = 1, c(x s ) = duże, x n = 2, c(x n ) = małe, S = {<? >}

• powstaje częściowa gwiazda S : S = S ∩ S = {< w 1 ∨ w 3 , ? >};

• gwiazda w dalszym ciągu pokrywa przykłady z T o kategorii małe, wybór na- stępnego ziarna negatywnego x n = 6

• S = {< w 1 ∨ w 3 , ? >, <?, maluch ∨ sportowy >}

• S = S ∩ S = {< w 1 ∨ w 3 , ? >, < w 1 ∨ w 3 , maluch ∨ sportowy >}

• S = {k 1 , k 2 }, v k

1

= |T k duże

1

| + (|T małe | − |T k małe

1

|) = 4 + (4 − 1) = 7, v k

2

= 3 + 4 = 7 Wartości funkcji oceny dla dwóch uzyskanych kompleksów ze zbioru S są takie same, ale k 2 pokrywa wyłącznie przykłady o jednej etykiecie duże, stąd on wchodzi w skład nowej reguły:

(c) R = {< w 1 ∨ w 3 , maluch ∨ sportowy >→ duże}

(d) P = {2, 3, 4, 6, 7, 9}, dla P 6= 0 znajdź-kompleks(P, P )

• x s = 2, c(x s ) = małe, x n = 3, c(x n ) = duże, S = {<? >}

• powstaje częściowa gwiazda S : S = S ∩ S = {<?, maluch ∨ minivan >};

• gwiazda w dalszym ciągu pokrywa przykłady z T o kategorii duże, wybór na- stępnego ziarna negatywnego x n = 4

• S = {< w 1 ∨ w 2 , ? >, <?, maluch ∨ sportowy >}

• S = S ∩ S = {< w 1 ∨ w 2 , maluch ∨ minivan >, <?, maluch >}

(12)

• S = {k 1 , k 2 }, v k

1

= |P k małe

1

| + (|P duże | − |P k duże

1

|) = 4 + 2 = 6, v k

2

= 2 + 2 = 4 Kompleks k 1 nie dosyć, że ma lepszą wartość funkcji oceny, to jeszcze pokrywa wyłącznie przykłady o jednej etykiecie małe (ze zbioru P ), stąd on wchodzi w skład nowej reguły:

(e) R = {< w 1 ∨w 3 , maluch∨sportowy >→ duże, < w 1 ∨w 2 , maluch∨minivan >→ małe}

(f) P = {3, 4}, dla P 6= 0 znajdź-kompleks(P, P )

• x s = 3, c(x s ) = duże, S = {<? >} Gwiazda S pokrywa przykłady o jednej etykiecie duży i kompleks <? > wchodzi w skład nowej reguły:

• R = {< w 1 ∨ w 3 , maluch ∨ sportowy >→ duże, < w 1 ∨ w 2 , maluch ∨ minivan >→

małe, <? >→ duże}

• ewentualnie, gdy x n = 9, to

• S = S ∩ S = {< w 2 ∨ w 3 , ? >, <?, maluch ∨ sportowy >}

Kompleks k 1 pokrywa wszystkie przykłady ze zbioru P i wchodzi w skład nowej reguły:

(g) Ostatecznie

R = {< w 1 ∨ w 3 , maluch ∨ sportowy >→ duże,

< w 1 ∨ w 2 , maluch ∨ minivan >→ małe,

< w 2 ∨ w 3 , ? >→ duże}

W uzyskanym zbiorze reguł NIE można reguł zamieniać miejscami, gdyż jest to

zbiór uporządkowany. Najpierw nowe przykłady klasyfikuje reguła pierwsza, jak

ona zawiedzie to druga itd.

Cytaty

Powiązane dokumenty

5. Listy dzieci zakwalifikowanych do projektu zostaną wywieszone w siedzibie E-Maluch s.c.- biurze projektu tj.: 93-478 Łódź, ul.. ramach Regionalnego Programu Operacyjnego

„Parki narodowe” – rozmowa z dziećmi na temat polskich parków narodowych i zwierząt znajdujących się pod ochroną.. Czym jest

Słonko mocno świeci, podnoszą ręce i naśladują wkręcanie żarówek, cieszą się więc dzieci podskakują obunóż,.. Chi, chi, cha, chi, chi, cha, powtarzają

Materiał edukacyjny wytworzony w ramach projektu „Scholaris – portal wiedzy dla nauczycieli”.. współfinansowanego przez Unię Europejską w ramach Europejskiego

W kolejnych rubrykach (dom, szkoła, podwórko) uczniowie wymieniają działania, czynności, które – jak sądzą – wykonują bardzo dobrze. Na wykonanie zadania mają 10 minut.

Szczegółowy zakres robót opisany został w SIWZ w tym dokumentacji projektowej, Programie Funkcjonalno-Użytkowym (PF-U), specyfikacjach technicznych wykonania i odbioru robót

Wszystkie ewidencje oraz dowody na podstawie, których są dokonywane wpisy do ewidencji, a także dowody zakupu, należy przechowywać w miejscu wykonywania

Krowa – łaciate cielątko, Koza – rogate koźlątko, Owca – kudłate jagniątko, Świnka – różowe prosiątko, Kurka – pierzaste kurczątko, Gąska – puchate gąsiątko,