Og´ olny schemat przeszukiwania w przestrzeni stan´ ow

(1)

Jeste´smy ekspertem/doradca_֒ w jednej z agencji rzadowych, i w niedziel_֒ e_֒ wieczorem prezes agencji dzwoni do nas na kom´orke, ˙zeby poinformowa´c, ˙ze_֒ w poniedzia lek rano o godzinie 10-tej odbedzie si_֒ e_֒ wa˙zna narada

w Ministerstwie Infrastruktury, i konieczna jest nasza niezawodna obecno´s´c.

Co robi´c?

Mamy wiele mo˙zliwo´sci, mo˙zemy wrócić do kolacji z rodzina, mo˙zemy pój´sć na_֒ spacer ˙zeby sie_֒ odstresować.

Wiemy jednak, ˙ze musimy zaplanować podró˙z do Warszawy. Samolot nie jest dobra_֒ opcja. W tanich liniach lotniczych wszystkie miejsca s_֒ a_֒dawno wykupione, a w LOT sa_֒ pewnie jeszcze miejsca, ale jak rano bedzie mg la i samolot nie_֒ odleci, to zostawimy szefa na lodzie, i potem pewnie mo˙zemy sie_֒ ju˙z w ogóle nie pokazywać w agencji (odprawe_֒ przy´sla_֒ nam na konto).

Co gorsza, PKP w dzisiejszych czasach równie˙z ma zwyczaj odwo lywać pociagi_֒ z dnia na dzień, i nie ma pewno´sci, czy mo˙zemy liczyć na nocny pociag 1:32_֒ (jest w Warszawie o 7:32). Mo˙zemy sprawdzić te_֒ opcje, ale mo˙ze si_֒ e_֒ okazać, ˙ze czeka nas jazda samochodem.

Metody przeszukiwania — motywacja 1

Og´olnie, jest szereg mo˙zliwo´sci, ka˙zda z nich wymaga starannego rozwa˙zenia.

Prowadzi to do przeszukiwania.

Przeszukiwanie jest elementem sk ladowym wszystkich metod sztucznej inteligencji, i zdolno´sć skutecznego przeszukiwania w ogóle zdaje sie_֒ być inherentnym elementem inteligencji.

(2)

1. opis przestrzeni stan´ow

• czesto przestrzeń mo˙ze mieć postać iloczynu kartezjańskiego dziedzin_֒ parametrów opisu

• przestrzeń mo˙ze być skończona lub nieskończona, choć nie musi to być zwiazane z trudno´sci_֒ a_֒ problemu (np. szachy)

• czasem cze´s´c_֒ ca lej formalnie zdeﬁniowanej przestrzeni stanowia_֒ stany niedozwolone (inaczej: nieosiagalne)_֒

2. opis stanu poczatkowego, zawsze jawny_֒

3. opis stanu celowego, jawny lub niejawny (warunek osiagni_֒ ecia celu)_֒ 4. opis dostepnych operator´ow przej´scia od stanu do stanu_֒

• np. w postaci warunk´ow stosowalno´sci i efekt´ow dzia lania

• operator mo˙ze by´c sparametryzowany (np. w labiryncie mo˙zemy mie´c jeden operator ruchu, cztery operatory, albo liczbe_֒ miejsc razy cztery)

⇒ Zadaniem jest wyznaczenie sekwencji operator´ow prowadzacych ze stanu_֒ poczatkowego do celowego._֒

Metody przeszukiwania — reprezentacja w przestrzeni stan´ow 3

Og´ olny schemat przeszukiwania w przestrzeni stan´ ow

PROCEDURE GT(St) ; St - opis stanu poczatkowego BEGIN

UNTIL Term(St) DO ; stan St spelnia warunek celu BEGIN

Op := first(ApplOps(St)) ; wybierz operator stosowalny w stanie St St := Apply(Op, St) ; rezultat zastosowania Op do stanu St END

END

Co prawda powy˙zszy zapis algorytmu GT (Generate-and-Test) sugeruje, ˙ze wybiera on pierwszy mo˙zliwy do zastosowania w stanie St operator, jednak algorytm ma wp lyw na ten wyb´or operatora przez odpowiednie posortowanie listy operator´ow. Metode_֒ wyboru operatora przez algorytm przeszukiwania nazywamy strategi

a.֒

Zastosowanie dobrej strategii jest w algorytmach przeszukiwania zagadnieniem kluczowym.

(3)

Strategia mo˙ze by´c ca lkowicie og´olna, bazujaca tylko na syntaktycznych_֒

w lasno´sciach reprezentacji zagadnienia, i dajaca si_֒ e_֒ wykorzysta´c we wszystkich mo˙zliwych przypadkach. Takie strategie nazywa sie_֒ ´slepymi.

Przyk lad: ca lkiem u˙zyteczna ´s_֒ lepa_֒(i to dos lownie) strategia_֒w przeszukiwaniu labirynt´ow jest strategia prawej reki. Strategia ta pozwala znale´z´c wyj´scie_֒ z labiryntu, je´sli tylko takowe istnieje.

Strategie moga_֒ równie˙z wykorzystywać informacje o stanie, specyficzne dla danej dziedziny problemowej. Takie strategie nazywamy poinformowanymi.

Strategie poinformowane korzystaja_֒z informacji, które w ogólnym przypadku nie sa_֒dostepne, i mog_֒ a_֒ być niezrozumia le dla osoby postronnej, oraz dla ca lkowicie ogólnego algorytmu przeszukiwania.

Przyk lad: wyobra´zmy sobie, ˙ze poszukujac wyj´scia z labiryntu wiemy, ˙ze na_֒ zewnatrz jest ha las (np. szum morza), a w labiryncie ca lkowita cisza. Wtedy_֒ zwyczajne nads luchiwanie we wszystkich kierunkach mog loby być ´zród lem strategii poinformowanej, pomagajac w wyborze w la´sciwych kroków (choć_֒ strategia ta mo˙ze być skuteczna tylko w pewnej niewielkiej odleg lo´sci od wyj´scia).

Metody przeszukiwania — podstawowe strategie 5

Przeszukiwanie nieodwracalne i z introspekcj a

֒

Mo˙zna rozpatrywa´c dwa podej´scia do zagadnienia przeszukiwania:

• gdy istnieje mo˙zliwo´s´c introspekcji, to znaczy wgladu w ca l_֒ a_֒ przestrze´n przeszukiwania,

albo inaczej: symulacji rozwiazania_֒

”na sucho”, albo inaczej: cofania ruch´ow,

• gdy takiej mo˙zliwo´sci nie ma i wykonywane ruchy sa_֒ nieodwracalne.

⇒ Nawet je´sli posiadamy kompletny i stuprocentowo pewny opis zagadnienia to introspekcja mo˙ze by´c ograniczona przez wielko´s´c przestrzeni, np. szachy.

⇒ z kolei w niektórych zagadnieniach wszystkie operatory moga_֒ mieć operatory odwrotne, co praktycznie daje mo˙zliwo´sć cofania ruchów, nawet je´sli

teoretycznie ona nie istnieje. Wtedy jednak mo˙zliwe sa_֒petle._֒

(4)

Sformu lowano szereg zagadnień testowych (toy problems) — prostych i pogladowych — ale zawieraj_֒ acych jak_֒ a´s_֒ trudno´sć, pozwalajac_֒ a_֒sprawdzić podstawowe mo˙zliwo´sci algorytmów rozwiazywania problemów._֒

Jednym z takich zagadnie´n testowych jest problem misjonarzy i kanibali:

• 3 misjonarzy i 3 kanibali na jednym brzegu rzeki,

• dwuosobowa l´od´z,

• nale˙zy przeprawi´c wszystkich na drugi brzeg rzeki tak, aby liczba kanibali w ˙zadnym miejscu i czasie nie przekracza la liczby misjonarzy.

Problem ma lpy i banan´ ow

Innym klasycznym zagadnieniem testowym jest problem ma lpy i banan´ow:

• ma lpa w zamknietym pokoju,_֒

• na suﬁcie wisza_֒banany, zbyt wysoko by ma lpa mog la ich dosiegn_֒ a´c,_֒

• z boku stoi stó l, z którego mog laby dosiegn_֒ ać_֒ bananów, gdyby go odpowiednio

przesuna´c._֒

(5)

1. Z czego sk lada sie_֒ reprezentacja problemu w przestrzeni stan´ow?

2. Co to sa ´slepe i poinformowane strategie przeszukiwania? Czym si_֒ e_֒ r´o˙znia?_֒

(6)

FUNCTION BT(st) BEGIN

IF Term(st) THEN RETURN(NIL) ; trywialne rozwiazanie IF DeadEnd(st) THEN RETURN(FAIL) ; brak rozwiazania

ops := ApplOps(st) ; lista oper.stosowalnych L: IF null(ops) THEN RETURN(FAIL) ; brak rozwiazania

o1 := first(ops) ops := rest(ops) st2 := Apply(o1,st) path := BT(st2)

IF path == FAIL THEN GOTO L RETURN(push(o1,path))

END

Algorytm BT skutecznie przeszukuje przestrze´n rozwiaza´n bez jawnego_֒ budowania drzewa przeszukiwania przestrzeni. Struktury jakich u˙zywa do

zapamietania stanu przeszukiwań s_֒ a_֒ niejawne (na stosie). Mo˙zna skonstruować iteracyjna_֒ wersje_֒ tego algorytmu, która buduje te struktury jawnie.

Metody przeszukiwania — przeszukiwanie z nawracaniem 11

Przeszukiwanie z nawracaniem — w lasno´sci

BT ma minimalne wymagania pamieciowe. W trakcie pracy pami_֒ eta tylko_֒ pojedyncza ´scie˙zk_֒ e_֒ do rozwiazania (oraz pewien kontekst dla ka˙zdego elementu_֒ tej ´scie˙zki). Zatem jego z lo˙zono´s´c pami

eciowa przypadku ´sredniego֒

wynosi O(d), gdzie d - odleg lo´s´c stanu poczatkowego od rozwi_֒ azania_֒ (w sensie liczby operator´ow).

Efektywno´sć czasowa jest gorsza. W najgorszym przypadku algorytm BT mo˙ze odwiedzić wszystkie stany przestrzeni przed znalezieniem rozwiazania._֒ Pozwala jednak na u˙zycie strategii — poinformowanej lub ´slepej — w momencie tworzenia listy operatorów, przez jej odpowiednie posortowanie.

Powa˙znym problemem algorytmu BT jest fakt, ˙ze mo˙ze on nie znale´z´c rozwi

azania, nawet je´sli istnieje ono w niewielkiej odleg lo´sci od stanu֒

startowego. Je´sli np. przestrzeń stanów jest nieskończona, algorytm mo˙ze w pewnym momencie przeszukiwania wybrać operator prowadzacy do stanu,_֒ z którego prowadza_֒ drogi do nieskończonej liczby stanów, ale ˙zaden z nich nie jest stanem docelowym. W takim przypadku algorytm BT nigdy nie zakończy przeszukiwania tej cze´sci przestrzeni stanów, i nigdy nie b_֒ edzie móg l wycofać si_֒ e_֒ z niew la´sciwego wyboru operatora.

(7)

Jednym z problem´ow algorytmu BT — jak r´ownie˙z wszystkich innych

algorytmów przeszukiwania — jest mo˙zliwo´sć powstawania petli. Je´sli algorytm_֒ kiedykolwiek wygeneruje opis stanu, do którego doszed l, ale który ju˙z istnieje na jego drodze od stanu poczatkowego, to nieuchronnie zacznie powtarzać badanie_֒ stanów wcze´sniej zbadanych.

Zjawisku temu mo˙zna oczywi´scie zapobiec. Najprostszym sposobem by loby sprawdzenie, po wygenerowaniu ka˙zdego nowego stanu, czy ten stan nie znajduje sie_֒ ju˙z na bie˙zacej ´scie˙zce od stanu pocz_֒ atkowego._֒

Mo˙zna równie˙z sprawdzić dok ladniej — czy nowo wygenerowany stan nie zosta l ju˙z w ogóle kiedykolwiek wcze´sniej znaleziony, i zbadany. Wymaga to

pamietania zbioru stanów zbadanych, tzw. listy Closed. Lista ta w algorytmie_֒ rekurencyjnym musi być globalna i ka˙zdy nowo wygenerowany opis stanu musi być porównywany ze wszystkimi stanami ju˙z obecnymi na li´scie.

Jedno i drugie sprawdzanie jest do´s´c kosztowne obliczeniowo. Dla

zaoszczedzenia czasu mo˙zna je pomin_֒ a´c, ryzykuj_֒ ac jednak zap_֒ etlenie procedury._֒

Metody przeszukiwania — przeszukiwanie z nawracaniem 13

Ograniczenie g l

eboko´sci z iteracyjnym pog l

֒

ebianiem

֒ Powa˙znym problemem dla algorytmu BT sa_֒niesko´nczone przestrzenie,

z którymi algorytm ogólnie sobie nie radzi. Podobnie zreszta_֒jak inne algorytmy o charakterze (hura-)optymistycznym, które preferuja_֒ marsz do przodu, o ile tylko jest mo˙zliwy.

Prostym rozwiazaniem jest ograniczenie g l_֒

eboko´sci przeszukiwania do jakiej´s֒

”rozsadnej” warto´sci. Zauwa˙zmy, ˙ze poza zabezpieczeniem przed nieskończonymi_֒ przestrzeniami, zabezpiecza ono jednocze´snie przed wpadnieciem w p_֒ etle, co_֒ pozwala pominać_֒ wykrywanie powtarzajacych si_֒ e_֒ stanów. W ogólnym przypadku mo˙ze nie być jednak latwe okre´slenie takiej warto´sci, a jej niedoszacowanie grozi oczywi´scie pora˙zka_֒algorytmu i nieznalezieniem rozwiazania, które istnieje._֒ Dla szeregu algorytmów podobnie jak BT optymistycznych (preferujacych ruchy_֒ wg lab) stosuje si_֒ e_֒ zatem ograniczenie g l

eboko´sci z iteracyjnym֒

pog l

ebianiem. Ten wariant gwarantuje znalezienie rozwi֒ azania, o ile istnieje._֒ Jednak w przypadku algorytmu BT ta metoda mo˙ze by´c bardzo nieefektywna.

(8)

Algorytmy dotychczas przedstawione sa_֒ og´olne i nie wymagaja_֒ do swojej pracy strategii poinformowanej. Jednak w ka˙zdym praktycznym zagadnieniu

posiadanie takiej strategii jest bardzo po˙zadane._֒ Heurystyk

a b֒ edziemy nazywa´c wiedz_֒ e_֒ o dziedzinie problemowej:

• kt´orej nie mo˙zna uzyska´c z syntaktycznej analizy opisu problemu,

• która mo˙ze nie mieć formalnie poprawnego uzasadnienia, a tak˙ze — co wiecej — która mo˙ze nie w ka˙zdym przypadku sprawdzać si_֒ e, i czasami_֒ dawać mylne wskazówki,

• ale która ogólnie pomaga w dokonywaniu dobrych wyborów w przeszukiwaniu.

Posiadanie heurystyki pozwala budowa´c strategie poinformowane. Og´olnym i czesto stosowanym schematem konstrukcji strategii wykorzystuj_֒ acym_֒

informacje_֒ heurystyczna, jest statyczna funkcja oceny stanu. Dla ka˙zdego_֒ stanu okre´sla ona jego

”dobroć”, czyli szanse, ˙ze przez ten stan prowadzi droga do rozwiazania. Warto´sć tej funkcji mo˙zna równie˙z interpretować jako miar_֒ e_֒ odleg lo´sci stanu od rozwiazania._֒

Metody przeszukiwania — heurystyczne funkcje oceny stany 15

Metody gradientowe

Funkcje_֒ oceny stanu mo˙zna w przeszukiwaniu zastosowa´c bezpo´srednio.

Prowadzi to do metody lub metod gradientowych (hill-climbing). Metody te okre´sla sie_֒ w informatyce jako metody zach lanne.

Ich bezpo´srednie zastosowanie ograniczone jest do dziedzin z bardzo regularna_֒ funkcja_֒ oceny (np. ´sci´sle monotoniczna). W praktyce mamy typowo do_֒

czynienia z nastepuj_֒ acymi problemami:_֒

1. lokalne maksima funkcji oceny 2. obszary

”plateau” funkcji oceny 3. uko´sne granie funkcji oceny

current state objective function

state space global maximum

local maximum

"flat" local maximum shoulder

(9)

Skuteczna_֒i czesto stosowan_֒ a_֒ grupe_֒ metod gradientowych stanowi technika zwana wy˙zarzaniem (simulated annealing). Jej nazwa odwo luje sie_֒ do analogii z procesem wytapiania metalu, kiedy stopniowe i powolne zmniejszanie

temperatury pozwala osiagn_֒ a´c_֒ stan globalnego optimum energetycznego, z pe lnym uporzadkowaniem cz_֒ asteczek w ca lej obj_֒ eto´sci metalu._֒

Metoda polega na generowaniu ruch´ow losowych, i nastepnie wykonywaniu ich,_֒ lub nie, zgodnie z przedstawionym na wykresie rozk ladem prawdopodobie´nstwa.

Jak wida´c, je´sli wygenerowany ruch poprawia warto´s´c funkcji oceny to jest zawsze wykonywany, natomiast je´sli ja_֒ pogarsza to jest wykonywany

z prawdopodobie´nstwem p < 1 zale˙znym od stopnia pogorszenia oceny,

w por´ownaniu ze stanem aktualnym.

Metody przeszukiwania — metody gradientowe 17

Jednocze´snie, w trakcie pracy algorytmu stopniowo obni˙zana jest temperatura, co powoduje zmniejszanie prawdopodobie´nstwa wyboru ruch´ow

”z lych”.

Metode_֒ wy˙zarzania stosuje sie_֒ z powodzeniem do projektowania uk ladów VLSI, sieci ró˙znego rodzaju, przydzia lu zadań w procesach produkcyjnych, i innych zadań optymalizacji procesów z lo˙zonych. Problemem w jej zastosowaniu jest dobór parametrów, np. algorytmu obni˙zania temperatury.

(10)

1. Jakie wymagania algorytmu BT sa_֒bardziej krytyczne: pamieciowe czy_֒ czasowe? Uzasadnij odpowied´z.

2. W jakich sytuacjach algorytm BT mo˙ze nie znale´z´c rozwiazania, gdy ono_֒ istnieje?

3. Na czym polega zjawisko powtarzajacych si_֒ e_֒ stan´ow w algorytmach przeszukiwania? Jakie sa_֒ jego mo˙zliwe konsekwencje?

4. Jaki problem rozwiazuje metoda iteracyjnego pog l_֒ ebiania?_֒ W jakich przypadkach konieczne jest jej stosowanie?

5. Jakie sa_֒g l´owne problemy jako´sciowe (nie uwzgledniaj_֒ ac z lo˙zono´sci)_֒ w zastosowaniu gradientowych metod przeszukiwania?

Metody przeszukiwania — metody gradientowe 19

(11)

Przypomnijmy sobie wersje_֒ algorytmu BT z iteracyjnym pog lebianiem,_֒

i konieczno´sć wielokrotnego przeszukiwania poczatkowej cz_֒ e´sci przestrzeni. Aby_֒ uniknać_֒ wielokrotnego odwiedzania tych samych stanów mo˙zna u˙zyć struktury grafowej do pamietania zbadanych ju˙z cz_֒ e´sci przestrzeni stanów. Algorytmy,_֒ które u˙zywaja_֒ takiej struktury sa_֒ algorytmami przeszukiwania grafów.

Og´olne strategie przeszukiwania graf´ow (´slepe):

• strategia wszerz BFS (breadth-first search)

• strategia wg lab DFS_֒ (depth-first search),

• inne strategie.

Metody przeszukiwania — przeszukiwanie graf´ow 21

Przyk lad: 8-ka (8-puzzle)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Uk ladanka 15-tka (15-puzzle) — popularna w szkole podstawowej.

8-ka (8-puzzle) — zmniejszona wersja, odpowiednia do ilustracji dzia lania r´o˙znych strategii i algorytm´ow sztucznej inteligencji.

7 3 2 6 1 8 5 4

7 6 5

8 4

1 2 3

(12)

• Badaj wszystkie stany w odleg lo´sci d od stanu poczatkowego s_֒ ₀ przed zbadaniem jakiegokolwiek stanu w odleg lo´sci (d + 1) od s₀.

• Zawsze gwarantuje znalezienie rozwiazania je´sli tylko istnieje._֒

• Co wiecej, zawsze znajduje rozwi_֒ azanie optymalne (tzn. znajduje najkr´otsz_֒ a_֒ droge_֒ ze stanu poczatkowego do ka˙zdego stanu)._֒

• Nie jest inherentnie odporny na wpadanie w petle stan´ow i mo˙ze wymaga´c_֒ zastosowania listy Closed.

• Z lo˙zono´s´c pamieciowa i czasowa fatalna, obie O(b_֒ ^d), gdzie:

b - ´srednia liczba ga lezi wyrastaj_֒ acych z w_֒ ez la (tzw. branching factor),_֒ d - odleg lo´s´c stanu poczatkowego od rozwi_֒ azania (liczba operator´ow)._֒

• Praktycznie jednakowa z lo˙zono´s´c przypadku najgorszego i ´sredniego (jak r´ownie˙z najlepszego).

• Uwaga implementacyjna: dodawaj nowo odkryte stany na koniec listy Open.

(Pomimo i˙z m´owi sie_֒ o listach wez l´ow, ze wzgl_֒ edu na cz_֒ este odwo lania_֒ w praktyce stosuje sie_֒ szybsze struktury danych, np. tablice haszowe.)

Przeszukiwanie wszerz — przyk lad

Diagram przedstawia fragment grafu przeszukiwania wszerz. Numery nad planszami (1–26) pokazuja_֒ tu kolejno´s´c wyboru wez l´ow do ekspansji grafu._֒

(13)

• Badaj wszystkie nowo odkryte stany pochodne (potomki) danego stanu n przed powrotem do badania sasiad´ow stanu n._֒

• Nie daje ˙zadnych z gwarancji BFS (pewno´sci znalezienia rozwiazania_֒ optymalnego, albo w og´ole znalezienia jakiego´s rozwiazania)._֒

• Z lo˙zono´s´c obliczeniowa przypadku najgorszego: przetwarzanie i pamietanie_֒ wszystkich stan´ow.

• Z lo˙zono´s´c przypadku ´sredniego: O(b^d) pamieciowa i czasowa._֒

• Dla przestrzeni niesko´nczonych jedynym praktycznie u˙zytecznym wariantem jest ograniczenie g leboko´sci z iteracyjnym pog l_֒ ebianiem (ale przeszukiwanie_֒ grafu DFS nie jest a˙z tak bezsensownie stratne jak algorytm BT).

• Efektywno´s´c algorytmu gwa ltownie polepsza sie_֒ dla przypadk´ow istotnie lepszych ni˙z ´sredni (czyli wyjatkowo szcz_֒ e´sliwych), zatem sens jego_֒ stosowania jest tylko w po laczeniu z dobrymi heurystykami._֒

• Uwaga implementacyjna: dodawaj nowo odkryte stany na poczatek listy_֒ Open.

Przeszukiwanie wg l

ab — przyk lad

֒

Fragment

”przecietnego” grafu przeszukiwania wg l_֒ ab z ograniczeniem g l_֒ eboko´sci_֒ do 5. Numery wez lów pokazuj_֒ a_֒kolejno´sć wyboru wez lów do ekspansji grafu._֒

(14)

W przypadku, gdy koszty pojedynczych ruchów nie sa_֒ równe, przeszukiwanie wszerz oparte na liczbie ruchów w oczywisty sposób nie gwarantuje znalezienia optymalnej ´scie˙zki. Mo˙zna okre´slić prosta_֒ modyfikacje_֒ algorytmu wszerz, która znajdzie optymalna ´scie˙zk_֒ e_֒ dla dowolnych (dodatnich) kosztów pojedynczych ruchów. Ta modyfikacja, zwana algorytmem równego kosztu (uniform-cost search UCS), wymaga ka˙zdorazowo wybrania wez la o najni˙zszym koszcie ´scie˙zki._֒

S G

5 5

3 3 3

S G

5 5

3 3 3

S G

5 5

3 3 3

S G

5 5

3 3 3

S G

5 5

3 3 3

W przypadku równych kosztów ruchów sprowadza sie_֒ to do metody wszerz.

Optymalno´sć algorytmu mo˙zna (trywialnie) wykazać pod warunkiem, ˙ze koszt pojedynczego ruchu jest jaka´s_֒ warto´scia_֒dodatnia_֒(≥ ǫ). Poniewa˙z algorytm kieruje sie_֒ d lugo´scia ´s_֒ cie˙zki, jego z lo˙zono´sci nie mo˙zna scharakteryzować jako funkcji b i d. Zamiast tego, oznaczajac przez C_֒ ^∗ koszt optymalnego

rozwiazania, mo˙zna otrzymać z lo˙zono´sć najgorszego przypadku, zarówno_֒ czasowa_֒ jak i pamieciow_֒ a, jako O(b_֒ ^1+⌊C^∗^/ǫ⌋).

W przypadku r´ownych koszt´ow formu la ta redukuje sie_֒ do O(b^d).

Zako´ nczenie przeszukiwania

Celem przeszukiwania mo˙ze by´c samo znalezienie ´scie˙zki do rozwiazania, b_֒ ad´z_֒ znalezienie ´scie˙zki optymalnej. W pierwszym przypadku, algorytm mo˙ze

zakończyć prace_֒ ju˙z w momencie, kiedy nowy stan, wygenerowany w wyniku kolejnego ruchu, oka˙ze sie_֒ stanem docelowym, a wiec zostanie umieszczony na_֒ li´scie Open. Ale czy tak samo mo˙zemy postapić w przypadku poszukiwania_֒ rozwiazania optymalnego?_֒

S G

5 5

3 3 3

S G

5 5

3 3 3

S G

5 5

3 3 3

S G

5 5

3 3 3

S G

5 5

3 3 3

Przeszukiwanie nale˙zy zakończyć w momencie, gdy algorytm przeszukiwania optymalnego wybierze do ekspansji weze l, który jest w_֒ ez lem docelowym (czyli_֒ ju˙z wcze´sniej znalaz l jeden lub kilka wez lów docelowych). Jego ekspansji mo˙zna_֒ wtedy zaniechać, a najlepsza znaleziona do niego ´scie˙zka jest rozwiazaniem_֒ optymalnym. Poniewa˙z algorytm systematycznie znajduje wszystkie najtańsze

´scie˙zki, wiec moment wybrania w_֒ ez la do ekspansji oznacza, ˙ze nie mo˙ze si_֒ e_֒ ju˙z w grafie znale´zć ˙zadna tańsza ´scie˙zka do niego.

Jednak zanim to nastapi, algorytm bada ´scie˙zki o ni˙zszych kosztach, i nie ma_֒ pewno´sci, ˙ze kt´ora´s z nich nie oka˙ze sie_֒ nowa, lepsz_֒ a ´scie˙zk_֒ a_֒ do wez la celowego._֒

(15)

Zastosowanie heurystycznej funkcji oceny do przeszukiwania na grafach w najprostszym przypadku daje tzw. przeszukiwanie najpierw-najlepszy (best-first search). W ka˙zdej chwili wykonuje ono ruch, kt´ory minimalizuje funkcje_֒ oceny. Je´sli funkcja oceny jest dobra, w la´sciwie wybiera stany do

analizy, i odpowiednio maleje wzd lu˙z drogi do rozwiazania, to wtedy ta metoda_֒

”idzie” bezpo´srednio do celu, nie tracac czasu na rozwijanie jakichkolwiek_֒ niepotrzebnych wez l´ow grafu._֒

Równie˙z w przypadku drobnych defektów funkcji oceny, kiedy niektóre jej warto´sci sa_֒ nietrafne i ´zle oceniaja_֒stany, ale po rozwinieciu kilku_֒

niepotrzebnych wez l´ow funkcja ocenia dalsze w_֒ ez ly w przybli˙zeniu poprawnie,_֒ ten schemat przeszukiwania dobrze sie_֒ sprawdza.

K lopoty zaczynaja_֒ sie_֒ jednak kiedy funkcja ma jaki´s b lad systematyczny, np._֒ jako najlepsza_֒konsekwentnie wskazuje droge, która w ogóle nie prowadzi do_֒ celu. Wtedy metoda najpierw-najlepszy ma takie same wady jak metoda wg lab,_֒ pomimo, i˙z funkcja być mo˙ze poprawnie oszacowuje wiele wez lów._֒

Najpierw-najlepszy jako wersja przeszukiwania wg l ab

֒ Spostrze˙zenie, ˙ze metoda najpierw-najlepszy zachowuje sie_֒ podobnie jak metoda wg lab pozwala na wyci_֒ agni_֒ ecie pewnych wniosk´ow. Algorytm_֒

najpierw-najlepszy jest obarczony wszystkimi potencjalnymi wadami algorytmów wg lab, takimi jak mo˙zliwo´sć nieznalezienia rozwi_֒ azania, które istnieje, wpadania_֒ w b ledne ale nieskończone ga l_֒ ezie, itp. Ma zatem sens stosowanie wobec niej_֒ ograniczenia g leboko´sci (z iteracyjnym pog l_֒ ebianiem), itp._֒

Jak wkr´otce zobaczymy, istnieje pewna

”inteligentna” metoda wykorzystania strategii heurystycznej w algorytmie wg lab, zabezpieczaj_֒ aca przed_֒

przeszukiwaniem niesko´nczonych przestrzeni lepiej ni˙z sztywne ograniczenie g leboko´sci._֒

(16)

Na poz´or, algorytm UCS r´o˙zni sie_֒ zasadniczo od algorytmu najpierw-najlepszy.

Pierwszy jest algorytmem ´slepym, a drugi poinformowanym. Jednak por´ownanie kodu tych algorytm´ow wskazuje, ˙ze sa_֒niemal identyczne. Oba dokonuja_֒

systematycznej ekspansji grafu, wybierajac z listy Open w_֒ eze l o najni˙zszej_֒ warto´sci oceny, a nastepnie przenosz_֒ a_֒go na liste Closed_֒ wykonujac_֒

jednocze´snie jego ekspansje. Ekspansja polega na wygenerowaniu wszystkich_֒ jego nastepnik´ow, zainstalowaniu ich na graﬁe i dodaniu do listy Open._֒

Ró˙znica pomiedzy tymi algorytmami polega wi_֒ ec tylko na stosowaniu ró˙znych_֒ kryteriów wyboru wez la do ekspansji. W pierwszym jest ono deterministyczne,_֒ a w drugim heurystyczne.

Poniewa˙z oba stale wybieraja_֒ najlepszy weze l z listy Open, ma sens jej_֒

implementacja jako listy sortowanej. Innym dobrym wyborem struktury danych dla listy Open jest kolejka priorytetowa, pozwalajaca na latwy wyb´or najlepszego_֒ kandydata z listy, i tanie operacje dodawania i usuwania z listy (O(log(N ))).

´Slepe algorytmy BFS i DFS r´o˙znia_֒ sie_֒ tylko tym, ˙ze nie porzadkuj_֒ a_֒listy Open, ale sztywno dodaja_֒ nowe wez ly na koniec lub pocz_֒ atek listy._֒

Warto tu dodać, ˙ze istnieje algorytm Dijkstry (1959) znajdowania najkrótszych dróg na grafie z jednego wez la do wszystkich w_֒ ez lów grafu. W pewnym sensie_֒ jest on równowa˙zny algorytmowi UCS. Jednak Dijkstra zak lada l operacje na grafie skończonym, w ca lo´sci znanym, zbudowanym, i za ladowanym do pamieci._֒

(17)

1. Czym r´o˙zni sie_֒ przeszukiwanie r´ownokosztowe od przeszukiwania wszerz?

2. Czym r´o˙zni sie_֒ przeszukiwanie wg lab od przeszukiwania najpierw-najlepszy?_֒ 3. Opisz bazowy cykl pracy algorytmu przeszukiwania graf´ow.

4. Opisz operacje na listach Open i Closed w r´o˙znych algorytmach przeszukiwania graf´ow.

(18)

Rozwa˙zmy nastepuj_֒ ace deterministyczne funkcje oceny (w_֒ ez la):_֒ h*(n) – koszt kosztowo-optymalnej drogi z n do celu

g*(n) – koszt kosztowo-optymalnej drogi z s₀ do n Wtedy:

f*(n) := g*(n) + h*(n)

f*(n) – koszt kosztowo-optymalnej drogi z s₀ do celu biegnacej przez n_֒ Znajomo´sć funkcji f *(n) pozwoli laby zawsze wybierać tylko wez ly le˙z_֒ ace na_֒ optymalnej drodze od poczatku do celu. Podobnie zreszt_֒ a_֒ wystarczy laby do tego znajomo´sć samej funkcji h*(n).

Niestety, zwykle funkcje h*(n) ani g*(n) nie sa_֒ dostepne. Jeste´smy zmuszeni_֒ pos lugiwać sie_֒ ich przybli˙zeniami, które pozwalaja_֒jedynie aproksymować wybieranie w la´sciwych wez lów. Jednak gdy pos lugujemy si_֒ e_֒ przybli˙zeniami, wtedy przeszukiwanie bazujace na funkcji f *(n) nie musi ju˙z dawać takich_֒ samych wyników jak to opierajace si_֒ e_֒ na funkcji h*(n).

Metody przeszukiwania — przeszukiwanie graf´ow — algorytm A* 35

Modyﬁkacja funkcji wyboru — algorytm A*

Rozwa˙zmy zatem nastepuj_֒ ace heurystyczne funkcje oceny w_֒ ez la:_֒ h(n) – funkcja heurystyczna aproksymujaca h*(n)

g(n) – koszt najlepszej znanej drogi z s₀ do n; zauwa˙zmy g(n) ≥ g*(n) f(n) := g(n) + h(n)

Jak dzia la tak okre´slona strategia? Je´sli funkcja h(n) oszacowuje h*(n) bardzo precyzyjnie, to algorytm dzia la niemal idealnie, i zmierza prosto do celu.

Jednak gdy funkcja h(n) pope lnia b ledy, i np. optymistycznie okre´sla jakie´s_֒ stany jako lepsze ni˙z sa_֒ one w rzeczywisto´sci, to algorytm najpierw poda˙za_֒ w ich kierunku, zwabiony niska_֒ warto´scia_֒ funkcji h(n), gdy g(n) jest pomijalne.

Po jakim´s czasie, tak b lednie oszacowane ´scie˙zki przestaj_֒ a_֒ by´c atrakcyjne, ze wzgledu na narastaj_֒ acy sk ladnik g(n), i algorytm z konieczno´sci przerzuca swoje_֒ zainteresowanie na inne atrakcyjne wez ly. Przy tym na atrakcyjno´s´c nie ma_֒ wp lywu, czy sa_֒one bardziej czy mniej oddalone od startu. Decyduje laczna_֒ ocena, czy przez dany stan prowadzi najlepsza droga do rozwiazania._֒

Algorytm przeszukiwania graf´ow stosujacy powy˙zsz_֒ a_֒funkcje f_֒ (n) jako swoja_֒ strategie_֒ nazywa sie_֒ algorytmem A*.

(19)

Sk ladniki h(n) i g(n) reprezentuja_֒ w funkcji f (n) dwie przeciwstawne tendencje: optymizm (h(n)) i konserwatyzm (g(n)). Mo˙zemy ca lkiem swobodnie sterowa´c strategia_֒ w jedna_֒lub druga_֒ strone_֒ stosujac wz´or:_֒

f(n) := (1 − k) ∗ g(n) + k ∗ h(n)

Zwiekszaj_֒ ac wspó lczynnik wagi k mo˙zemy nadawać przeszukiwaniu charakter_֒ bardziej agresywny (i ryzykowny), gdy np. mamy zaufanie do funkcji h(n) i chcemy posuwać sie_֒ szybko do przodu. z kolei zmniejszajac ten wspó lczynnik,_֒ zapewniamy dok ladniejsze badanie przestrzeni, posuwajac si_֒ e_֒ wolniej do przodu, ale kompensujac niektóre b l_֒ edy funkcji h(n)._֒

Zauwa˙zmy, ˙ze w skrajnych przypadkach, k = 1 daje przeszukiwanie najpierw-najlepszy, natomiast k = 0 daje przeszukiwanie r´ownokosztowe.

Jednak najwiekszy wp lyw na przebieg przeszukiwania ma jako´s´c funkcji h(n)._֒

W lasno´sci funkcji h(n) w algorytmie A*

Heurytyczna_֒ funkcje_֒ oceny h(n) w algorytmie A* nazywamy dopuszczaln a֒

(admissible) gdy ogranicza ona od do lu rzeczywista_֒ funkcje h*(n), czyli_֒

∀n h(n) ≤ h*(n). Dopuszczalno´sć oznacza chroniczne niedoszacowywanie przysz lych kosztów, zatem bywa nazywane optymizmem. Mo˙zna dowie´sć, ˙ze je´sli tylko istnieje ´scie˙zka z wez la pocz_֒ atkowego do celowego, to A*_֒

z dopuszczalna_֒ heurystyka_֒ zawsze znajduje optymalna_֒ taka ´scie˙zk_֒ e._֒

Czy trudno jest znale´z´c taka_֒dopuszczalna_֒heurystyke? Niekoniecznie, np._֒ h(n) ≡ 0 rzeczywi´scie ogranicza z do lu h*(n), dla dowolnego zagadnienia. Czy taka trywialna heurystyka mo˙ze by´c przydatna? Odpowied´z brzmi: raczej

rzadko. Taki algorytm wybiera zawsze wez ly o najkrótszej drodze z s_֒ ₀, a zatem jest to algorytm wszerz (ogólniej: równego kosztu), który rzeczywi´scie zawsze znajduje optymalna_֒ droge, ale samo w sobie to jeszcze nie jest wielka zaleta._֒ Oczywi´scie im lepiej h(n) przybli˙za h*(n) tym efektywniejsze przeszukiwanie.

Je´sli mamy dwie funkcje h₁(n), h₂(n), takie ˙ze dla wszystkich wez lów_֒ h₁(n) < h₂(n) ≤ h*(n) to mo˙zna dowie´sć, ˙ze u˙zycie h₁ prowadzi do rozwiniecia co najmniej tyle samo w_֒ ez lów co h_֒ ₂.

(20)

Dopuszczalno´sć funkcji h(n) jest ciekawa_֒ w lasno´scia, któr_֒ a_֒ czesto mo˙zna_֒ udowodnić dla funkcji bardzo zgrubnie oszacowujacej h*(n), ale ju˙z_֒ niekoniecznie dla mozolnie opracowanej funkcji, np. z wykorzystaniem numerycznego uczenia sie_֒ na serii przyk ladów (co jak sie_֒ oka˙ze jest jedna_֒ z metod konstrukcji takich funkcji).

Jeszcze mocniejsza_֒ w lasno´scia_֒ heurystycznej funkcji oceny h(n) jest jej spójno´sć (consistency), zwana równie˙z ograniczeniem monotonicznym (monotone restriction), lub po prostu nierówno´scia_֒ trójkata:_֒

∀

ni→nj h(ni) − h(nj) ≤ c(ni, n_j)

Mo˙zna dowie´sć, ˙ze dla funkcji h(n) spe lniajacych ograniczenie monotoniczne_֒ algorytm A* zawsze ma ju˙z znaleziona_֒optymalna_֒droge_֒ do ka˙zdego wez la, który_֒ decyduje sie_֒ rozwijać. W praktyce pozwala to nieco upro´scić implementacje_֒ algorytmu przeszukiwania, je´sli wiemy, ˙ze funkcja oceny jest spójna.

Z lo˙zono´s´ c obliczeniowa algorytmu A*

Dla wiekszo´sci praktycznych problemów liczba w_֒ ez lów przestrzeni stanów ro´snie_֒ eksponencjalnie z d lugo´scia_֒poszukiwanego rozwiazania. Oczywi´scie, efektywna_֒ heurystyka mog laby zmniejszyć z lo˙zono´sć obliczeniowa_֒algorytmu.

Pytanie, kiedy mogliby´smy na to liczy´c?

Mo˙zna dowie´sć, ˙ze aby to osiagn_֒ ać, czyli aby algorytm A* dzia la l w czasie_֒ wielomianowym, b lad w heurystycznej funkcji oceny nie powinien przekroczyć_֒ logarytmu rzeczywistej d lugo´sci rozwiazania:_֒

|h(n) − h^∗(n)| ≤ O(log h^∗(n)) Pytanie: czy takie heurystyki sa_֒ praktyczne?

W praktycznych przypadkach nie mo˙zna liczyć na znalezienie tak dobrych heurystyk. Zatem algorytm A* nale˙zy ogólnie uwa˙zać za eksponencjalny. To jednak zwykle nie jest jego najwieksz_֒ a_֒wada. Podobnie jak wszystkie algorytmy_֒ przeszukiwania na grafach, przechowuje on wszystkie wez ly grafu w pami_֒ eci_֒ i z regu ly wyczerpuje pamieć_֒ komputera du˙zo wcze´sniej ni˙z dostepny czas!!_֒

(21)

wymaganiami pami

eciowymi

֒ Istnieja_֒modyfikacje algorytmu A* pozwalajace pokonać problemy_֒ z zapotrzebowaniem na pamieć._֒

Algorytm IDA* (Iterative-Deepening A*) dodaje standardowe ograniczenie g leboko´sci. Po osi_֒ agni_֒ eciu limitu g l_֒ eboko´sci przeszukiwania jest on zwi_֒ ekszany,_֒ przy jednoczesnym usunieciu przebadanych w_֒ ez l´ow grafu z pami_֒ eci._֒

Algorytm RBFS (Recursive Best-First Search) jest podobny do algorytmu BT w wersji rekurencyjnej. Przeszukuje on rekurencyjnie pojedyncza ´s_֒ cie˙zke_֒ grafu, pamietaj_֒ ac jednocze´snie na ka˙zdym poziomie rekurencji najlepsz_֒ a_֒alternatywe_֒ pojedynczego kroku. Kiedy aktualnie analizowana ´scie˙zka okazuje sie_֒ gorsza od tej alternatywy, algorytm wraca, kasujac wyniki swojej pracy (lecz wchodz_֒ ac_֒ w nowe wywo lania rekurencyjne, ponownie zapamietuje najlepsz_֒ a_֒alternatywe)._֒ Algorytm SMA* (Simplified Memory-Bounded A*) dzia la dok ladnie jak A*, ale tylko do momentu zape lnienia ca lej dostepnej pami_֒ eci. W tym momencie,_֒ algorytm kontynuuje prace, kasuj_֒ ac jednak najgorsze znane w_֒ ez ly grafu aby_֒ zrobi´c miejsce na nowo odkrywane stany. Jednak oszacowanie skasowanych wez l´ow jest przechowywane w ich rodzicach, aby mo˙zliwe by lo ponowne_֒ podjecie przeszukiwania w danej cz_֒ e´sci grafu._֒

Algorytm A* w praktyce

Dobrym pytaniem jest, czy algorytmy heurystycznego przeszukiwania graf´ow, takie jak A*, maja_֒ zastosowania praktyczne w ´swiecie rzeczywistym.

Odpowied´z na to pytanie brzmi: tak, w pewnych ograniczonych dziedzinach, jak np. planowanie optymalnej trasy przejazdu robota, albo znajdowanie najkr´otszej drogi w grach komputerowych.

Algorytm A* jest heurystyczna_֒ wersja_֒algorytmu Dijkstry (1959) obliczajacego_֒ najkrótsze drogi od ustalonego wez la do wszystkich pozosta lych w_֒ ez lów grafu._֒ Algorytm Dijkstry jest równie˙z stosowany w wielu zagadnieniach technicznych, jak np. sieciowe protoko ly trasowania (routing ), takie jak OSPF, oraz

znajdowanie drogi na mapie w nawigacjach GPS. W tych ostatnich

zastosowaniach, ze wzgledu na wielko´sć grafu, algorytm Dijkstry musi być_֒ wspomagany przez dodatkowe techniki. Moga_֒to być w la´snie heurystyki, albo wprowadzenie abstrakcji i hierarchii ´scie˙zek. Jednak ze wzgledu na komercyjny_֒ aspekt tej bardzo rozwijajacej si_֒ e_֒ technologii, techniki nie sa_֒ zbyt czesto_֒ szczegó lowo opisywane.

(22)

Przeszukiwanie przestrzeni stanów mo˙zna prowadzić równie dobrze wprzód jak i wstecz. Przeszukiwanie wstecz zaczyna sie_֒ od stanu końcowego (lub ca lego zbioru stanów końcowych), i w pierwszym kroku znajduje zbiór stanów

poprzedzajacych, z których mo˙zna osi_֒ agn_֒ ać_֒ jaki´s stan końcowy w jednym kroku przez który´s z dostepnych operatorów. W kolejnych krokach proces jest_֒

kontynuowany.

Przeszukiwanie wstecz mo˙ze być równie latwe w realizacji obliczeniowej jak przeszukiwanie wprzód, albo mo˙ze być utrudnione ze wzgledu na w lasno´sci_֒ przyjetej reprezentacji. W tym drugim przypadku konieczna mo˙ze być zmiana_֒ reprezentacji.

Kluczowa jest jednak latwo´s´c pozyskania heurystyk. W przypadku

przeszukiwania wprzód heurystyka powinna podpowiadać nam, jakie kroki nale˙zy wybierać, aby skutecznie przybli˙zać sie_֒ do celu. W niektórych

zagadnieniach brak jest w la´sciwych intuicji. W przypadku przeszukiwania wstecz herustyka powinna podpowiada´c, kt´ore kroki przybli˙zaja_֒ nas od nieznanego stanu docelowego, do dobrze znanego ´srodowiska startowego. Czasem latwiej jest o intuicje wspomagajace podejmowanie takich decyzji._֒

Przeszukiwanie dwukierunkowe

Idee_֒ przeszukiwania wstecz mo˙zna latwo uog´olni´c do przeszukiwania

dwukierunkowego. Je´sli reprezentacja na to pozwala, to dlaczego nie robić na przemian kroków przeszukiwania wprzód i wstecz. Jak widać na rysunku po lewej, mog loby to przynie´sć oszczedno´sci rz_֒ edu 50% (πr_֒ ² ≈ 2 × π(^r₂)²):

Jednak jak pokazuje rysunek po prawej, zamiast zaoszczedzić, mo˙zna nad lo˙zyć_֒ pracy. Przeszukiwanie dwukierunkowe latwo przynosi oszczedno´sci w przypadku_֒ algorytmu Dijkstry (równokosztowego), jednak posiadajac wyrafinowan_֒ a,_֒

ukierunkowana_֒ heurystyke, lepiej jej zaufa´c i pod_֒ a˙za´c za ni_֒ a_֒ w jednym kierunku.

(23)

Kr´ otkie podsumowanie — pytania sprawdzaj ace

֒ 1. Czym r´o˙zni sie_֒ algorytm A* od przeszukiwania najpierw-najlepszy?

Jaki skutek wywiera ta r´o˙znica na proces przeszukiwania?

2. Co to sa_֒ dopuszczalne heurystyki dla algorytmu A*?

Jakie maja_֒ znaczenie praktyczne?

3. Algorytm heurystycznego przeszukiwania grafów A* z dopuszczalna_֒ funkcja_֒ oceny h gwarantuje znalezienie optymalnego rozwiazania problemu, o ile tylko_֒ takie istnieje na grafie. Rozwa˙z poni˙zsze modyfikacje funkcji f i odpowiedz, czy zachowuja_֒ one powy˙zsza_֒ w lasno´sć algorytmu A*. Odpowied´z uzasadnij.

(a) wprowadzenie górnego ograniczenia (kresu) na warto´sć funkcji h(n) (b) wprowadzenie dolnego ograniczenia (kresu) na warto´sć funkcji g(n)

(24)

Jak w ogólnym przypadku skonstruować funkcje_֒ heurystyczna, gdy nie znamy_֒ dostatecznie dobrze zagadnienia, ˙zeby ja_֒po prostu wymy´sleć?

Eksperymentować, eksperymentować, eksperymentować!

Metody przeszukiwania — konstrukcja funkcji heurystycznych 47

Przyk lad: heurystyki dla 8-puzzle

Heurystyka 1: policz elementy nie na swoich miejscach, funkcja h₁(n) = W (n) Heurystyka 2: dla wszystkich element´ow nie na swoich miejscach, zsumuj

odleg lo´sci od ich w la´sciwych miejsc (tzw. odleg lo´s´c Manhattanu). Otrzymana liczba bedzie na pewno mniejsza ni˙z liczba ruch´ow w ka˙zdym rozwi_֒ azaniu_֒ (dolne oszacowanie kosztu rozwiazania). Nazwijmy j_֒ a_֒funkcja h_֒ ₂(n) = P (n) Heurystyka 3: h₃(n) = P (n) + 3 ∗ S(n)

gdzie funkcja S(n) jest obliczana dla elementów na obrze˙zu uk ladanki, biorac 0_֒ dla elementów, po których nastepuje ich w la´sciwy prawy s_֒ asiad, i 2 dla ka˙zdego_֒ elementu, po którym nastepuje niew la´sciwy element. ´Srodek wnosi 1, je´sli jest._֒ Ani S(n) ani h₃(n) nie sa_֒ dolnymi oszacowaniami rzeczywistej odleg lo´sci do rozwiazania uk ladanki, a jednak h_֒ ₃(n) jest jedna_֒z najlepszych funkcji oceny dla uk ladanki 8-puzzle, dajac_֒ a_֒ niezwykle ukierunkowane i efektywne przeszukiwanie.

Zauwa˙zmy, ˙ze dolnym oszacowaniem odleg lo´sci od rozwiazania, zatem_֒

gwarantujacym znalezienie rozwi_֒ azania optymalnego, jest funkcja h_֒ ₀(n) ≡ 0.

Jest to ilustracja og´olnego faktu, ˙ze poprawno´s´c formalna nie zawsze idzie w parze z dobra_֒ efektywno´scia_֒ obliczeniowa._֒

(25)

Przybli˙zona liczba wez l´ow IDS dla d=24: 54,000,000,000_֒

Przeszukiwanie heurystyczne drzewa 8-puzzle

(26)

Jedna z ogólnych metod tworzenia funkcji heurystycznych jest nastepuj_֒ aca._֒ Nale˙zy rozwa˙zyć zadanie uproszczone, w którym rezygnuje sie_֒ z jakiego´s trudnego wymagania, aby zadanie dawa lo sie_֒ rozwiazać. Dla ka˙zdego_֒

wygenerowanego stanu rozwiazuje si_֒ e_֒ zadanie uproszczone (np. metoda_֒ pe lnego przegladu). Koszt optymalnego rozwi_֒ azania zadania uproszczonego przyjmuje_֒ sie_֒ nastepnie jako oszacowanie (dolne) kosztu rozwi_֒ azania zadania oryginalnego._֒

Na przyk lad, je´sli stany w zagadnieniu maja n_֒ parametrów, czyli sa_֒ elementami n-wymiarowej przestrzeni, to mo˙zemy porzucić jeden z tych parametrów, czyli zrzutować stany do przestrzeni (n − 1)-wymiarowej.

Je´sli istnieje kilka wersji uproszczenia, pomiedzy którymi nie wiemy jak wybrać_֒ (np. która_֒zmienna stanu odrzucić), to mo˙zemy u˙zyć ich kombinacji jako funkcji oceny: h(n) = max_k(h₁(n), ..., h_k(n))

Zauwa˙zmy, ˙ze gdyby´smy w uk ladance 8-puzzle zezwolili na teleportacje_֒

elementów jednym ruchem na swoje miejsce, to by loby to przyk ladem takiego w la´snie podej´scia, i da loby w efekcie funkcje h_֒ ₁(n). Natomiast zgoda na przesuwanie elementów o jedna_֒ pozycje, ale niezale˙znie od po lo˙zenia innych_֒ elementów, da laby funkcje_֒ oceny h₂(n).

Konstrukcja funkcji heurystycznych (cd.)

Inna_֒metoda_֒ opracowania funkcji heurystycznej jest jej zamodelowanie statystyczne.

Nale˙zy wyznaczyć atrybuty stanu, które mo˙zna uwa˙zać za znaczace dla_֒

oszacowania odleg lo´sci do rozwiazania. Wtedy definiuj_֒ ac funkcj_֒ e_֒ heurystyczna_֒ jako kombinacje_֒ liniowa_֒ tych atrybutów, z nieznanymi wspó lczynnikami, mo˙zna nauczyć sie tych wspó lczynników wykonuj_֒ ac pewn_֒ a_֒ liczbe_֒ eksperymentów wykorzystujacych pe lne przeszukiwanie lub inn_֒ a_֒ funkcje_֒ heurystyczna._֒ Otrzymane d lugo´sci optymalnych rozwiazań mo˙zna u˙zyć do skonstruowania_֒ uk ladu równań i w efekcie wyznaczenia przybli˙zonych warto´sci wspó lczynników.

Zauwa˙zmy, ˙ze ta_֒ metoda_֒ mo˙znaby otrzyma´c funkcje_֒ oceny h3(n) dla 8-puzzle.

Funkcje W (n) i P (n) mo˙zna uzna´c za przydatne do budowy dobrej heurystyki.

Mo˙zna te˙z uznać, ˙ze funkcja S(n) dobrze oddaje trudno´sć osiagni_֒ ecia stanu_֒ docelowego. Zaczynajac od funkcji h(n) = a ∗ W (n) + b ∗ P (n) + c ∗ S(n)_֒ i przeprowadzajac wiele eksperymentów, jest mo˙zliwe, ˙ze optymalne warto´sci_֒ okaza lyby sie_֒ zbli˙zone do: a ≈ 0, b ≈ 1 i c ≈ 3, co w efekcie da loby funkcje_֒ h₃(n).

(27)

1. Wymie´n i opisz znane Ci og´olne metody tworzenia heurystycznych funkcji oceny.

(28)

Gry sa_֒fascynujac_֒ a_֒ rozrywka_֒i czesto stanowi_֒ a_֒ wyzwanie dla intelektu cz lowieka.

Nic dziwnego, ˙ze od dawna by ly obiektem zainteresowania sztucznej inteligencji.

Metody przeszukiwania w przestrzeni stanów nie daja_֒ sie_֒ bezpo´srednio zastosować w typowej grze dwuosobowej ze wzgledu na konieczno´sć_֒ uwzglednienia ruchów przeciwnika, które nie s_֒ a_֒ znane.

”Rozwiazaniem” musi by´c_֒ tu schemat uwzgledniaj_֒ acy wszystkie mo˙zliwe reakcje przeciwnika._֒

Dodatkowo, w niekt´orych grach pe lna wiedza o stanie w og´ole nie jest dostepna_֒ dla obu graczy.

Rodzaje gier:

deterministyczne losowe

z pe lna_֒ szachy, warcaby, backgammon, informacja_֒ go, othello monopol z niepe lna_֒ statki, k´o lko i bryd˙z, poker, informacja_֒ krzy˙zyk na ´slepo scrabble

Metody przeszukiwania — przeszukiwanie dla gier 55

Drzewo gry dwuosobowej

X X

X X X

X X

MAX (X)

MIN (O)

X X

O

O O X O

O

O O

O O O

MAX (X)

X O X O

X O X

X X

MIN (O)

X O X X O X X O X

. . . . . . . . . . . . . . . . . .

. . . TERMINAL

X X

−1 0 +1

Utility

(29)

Mo˙zna wyznaczy´c optymalna_֒strategie_֒ gry dla gry deterministycznej z pe lna_֒ informacja_֒za pomoca_֒ nastepuj_֒ acej procedury, zwanej procedur_֒ a_֒ minimax.

Oblicza ona warto´sć wez la startowego przez propagacj_֒ e_֒ warto´sci końcowych (warto´sci wygranej dla naszego gracza) w góre_֒ drzewa gry:

1. poziomy drzewa odpowiadaja_֒ ruchom graczy: MAX-a i MIN-a; przyjmujemy,

˙ze MAX ma pierwszy ruch,

2. stanom terminalnym w li´sciach drzewa przypisujemy warto´s´c wygranej MAX’a (ujemna, je´sli faktycznie jest to jego przegrana)_֒

3. wez lom drzewa powy˙zej li´sci przypisujemy stopniowo warto´sci: maksymaln_֒ a_֒ ze wszystkich ga lezi je´sli w_֒ eze l odpowiada ruchowi MAX-a, i minimalna ze_֒ wszystkich ga lezi je´sli w_֒ eze l odpowiada ruchowi MIN-a,_֒

4. najwy˙zsza ga la´z_֒ o najwieksz_֒ a_֒ warto´scia_֒ wskazuje optymalny ruch MAX-a.

MAX

3 12 8 2 4 6 14 5 2

MIN

3 A₁ A₂ A₃

A₁₃ A12

A11 A₂₁ A₂₂ A₂₃ A

A₃₂ 33 A₃₁

3 2 2

Metody przeszukiwania — przeszukiwanie minimax 57

Ograniczenie zasob´ ow — zastosowanie heurystyki

Procedura minimaksu definiuje optymalna_֒strategie_֒ gracza przy za lo˙zeniu, ˙ze przeciwnik równie˙z gra optymalnie. Jednak tylko pod warunkiem, ˙ze da sie_֒ przeanalizować ca le drzewo gry.

Dla prawdziwego drzewa gry mo˙ze być z tym problem. Np., dla szachów b ≈ 35, m ≈ 100 dla sensownej rozgrywki, i kompletne drzewo gry mo˙ze mieć oko lo 35¹⁰⁰ ≈ 10¹⁵⁵ wez lów._֒

(Liczba atomów w znanej cze´sci Wszech´swiata szacowana jest na 10_֒ ⁸⁰.) Aby rozwiazać ten problem, mo˙zna pos lu˙zyć si_֒ e_֒ heurystyczn

a funkcj֒

a oceny֒

warto´sci pozycji, aby podobnie jak w zwyk lych metodach przeszukiwania przestrzeni stanów, wyznaczać dobry ruch bez posiadania jawnej reprezentacji ca lej przestrzeni. W przypadku gry dwuosobowej pozwoli loby to zastosować te_֒ sama_֒zasade_֒ minimaksu, ale ograniczyć analize_֒ do kilku ruchów.

Dla szachów, mo˙zna taka_֒ocene_֒ obliczyć jako warto´sć materialn a֒

posiadanych figur, np. 1 za piona, 3 za wie˙ze_֒ lub gońca, 5 za skoczka, i 9 za hetmana. Dodatkowo mo˙zna uwzglednić warto´sć pozycji takich jak_֒

”dobre rozstawienie pionów”, albo wy˙zsza_֒ warto´sć wie˙zy w końcówce gry, a jeszcze wy˙zsza_֒ dwóch wie˙z.

(30)

Ograniczenie g leboko´sci analizy czasami prowadzi do sytuacji szczególnych,_֒ które wymagaja_֒nieco zmodyfikowanego podej´scia.

Jedna_֒ z nich jest zagadnienie opanowanego zagro˙zenia. W niekt´orych sytuacjach funkcja oceny mo˙ze sugerowa´c warto´sci korzystne dla jednego z graczy, ale najbli˙zsze ruchy — poza g leboko´sci_֒ a_֒ uwzglednion_֒ a_֒przez funkcje_֒ przeszukiwania — nieuchronnie doprowadza do drastycznej zmiany.

Rozwiazaniem jest wykrywanie takich niestabilnych sytuacji zagro˙zenia_֒ i pog lebienie przeszukiwania a˙z do osi_֒ agni_֒ ecia stan´ow bardziej stabilnych_֒ (quiescent states).

Innym problemem jest problem horyzontu. Ma on miejsce wtedy, gdy nadchodzi nieuchronne zagro˙zenie dla jednego z graczy, ale jest on w stanie odsuwa´c je w czasie wykonujac ruchy, kt´ore jednak nie rozwi_֒ azuj_֒ a_֒ problemu.

Przeszukiwanie minimax — odcinanie przeszukiwania

Na jakie efekty praktyczne mo˙zna liczy´c stosujac ocen_֒ e_֒ heurystyczna_֒ na g leboko´sci kilku ruch´ow?_֒

Np., dla szachów, przyjmujac 10_֒ ⁶ wez lów na sekund_֒ e, i 180 sekund na ruch,_֒ mo˙zemy zbadać 10⁸ ≈ 35⁵ pozycji, czyli do 5 ruchów wprzód. Program grajacy_֒ w ten sposób zachowuje sie_֒ racjonalnie, lecz przecietnemu cz lowiekowi_֒

nietrudno z nim wygra´c. Potrzebne sa_֒ dodatkowe metody zwiekszaj_֒ ace_֒ efektywno´s´c przeszukiwania.

Latwo zauwa˙zy´c, ˙ze mo˙zna w analizie minimaksowej drzewa gry poczyni´c pewne oszczedno´sci. Najprostsze z nich nazywane s_֒ a_֒ odcieciami alfa-beta._֒

(31)

Cwiczenie: znajd´z b l´ ad w powy˙zszym drzewie (´zr´od lo: Patrick Henry Winston,_֒ Artificial Intelligence, 3rd ed.).

Odp ow ied

´ z:w kro ku 10

Odci ecia α–β — algorytm

֒

PROCEDURE MINIMAX-ALPHA-BETA(n,alpha,beta,depth) BEGIN

IF depth==MAXDEPTH THEN RETURN(h(n))

choices := Lista_potomkow(n)

WHILE (NOT Empty(choices)) AND (alpha < beta) DO

;; zaniechanie badania kolejnych potomkow wezla n oznacza odciecie BEGIN

n1 := First(choices) choices := Rest(choices)

w1 := MINIMAX-ALPHA-BETA(n1,alpha,beta,depth+1)

IF EVEN(depth) THEN ; dla wezlow MAX’a IF w1 > alpha THEN alpha := w1

IF ODD(depth) THEN ; dla wezlow MIN’a IF w1 < beta THEN beta := w1

END

IF EVEN(depth) THEN RETURN(alpha) ; wezel MAX’a ELSE RETURN(beta) ; wezel MIN’a END

⇒ w pierwszym wywo laniu przyjmujemy α = −∞, β = +∞

(32)

Optymalny przypadek przeszukiwania minimaksowego z odcieciami alfa-beta_֒ zachodzi gdy na ka˙zdym poziomie wez ly s_֒ a_֒rozpatrywane w kolejno´sci od najbardziej korzystnego, dla danego gracza. Wtedy w ka˙zdym poddrzewie obliczana jest tylko jedna

”seria” wez l´ow, natomiast przy ka˙zdym powrocie_֒ w g´ore_֒ drzewa nastepuje odci_֒ ecie._֒

Na powy˙zszym diagramie oszczedno´sć wynosi 16 w_֒ ez lów; na 27 w_֒ ez lów na_֒ najni˙zszym poziomie obliczonych musi być tylko 11.

Zród lo: Patrick Henry Winston, Artificial Intelligence, 3rd ed. (uwaga, b l´ ad:_֒ wez ly 18, 19, 21, i 22 mog lyby równie˙z być odci_֒ ete)._֒

W lasno´sci algorytmu α–β

Zastosowanie odcie´c_֒ w analizie drzewa minimax nie zmienia ostatecznego wyniku, tzn. ruchu gracza.

Dobre uporzadkowanie pozwala osi_֒ agn_֒ a´c_֒ wieksz_֒ a_֒efektywno´s´c odcinania.

W granicy, optymalne odciecia pozwalaj_֒ a_֒osiagn_֒ a´c O(b_֒ ^m/2).

W praktyce pozwala to podwoi´c g leboko´s´c przeszukiwania._֒

Wynik analizy minimax/α–β nie zale˙zy od konkretnych warto´sci funkcji oceny.

Istotne jest tylko uporzadkowanie warto´sci. Oznacza to, ˙ze dowolna_֒

transformacja monotoniczna funkcja oceny dzia la tak samo jak oryginalna funkcja.

MIN MAX

2 1 1

4 2

2

20 1

1 20 400

20