Informatyka Nr 4; miesięcznik profesjonalistów - Digital Library of the Silesian University of Technology

(1)

y

i

T l

■

BW

W g

i

9

i i

a

•'■ r|S... ■ >

1 I I

Kadra naukowa pilnie poszukiwana

Każdego dnia w prasie można znaleźć co naj

mniej kilkanaście ofert pracy dla informatyków.

Poszukiwani są administratorzy systemów i ich projektanci, pracownicy działów sprzedaży i ser

wisu, programiści pracujący we wszystkich ist

niejących językach programowania, nawet tych najstarszych. Ogłoszenia te powtarzają się wielo

krotnie, co oznacza, że stanowiska nadal nie są obsadzone. Trwa też swoista karuzela kadry.

Nawet ci, którzy nie najlepiej bywali oceniani w poprzedniej firmie, odchodząc natychmiast znajdują nową pracę, i to z reguły na lepszych warunkach. Nagminnie występuje podkupywa- nie pracowników firm komputerowych. Przy

czyna jest prosta: rozwój naszego rynku infor

matycznego sprawia, iż podaż na rynku pracy nie nadąża za popytem. W niektórych specjalizac

jach podaż jest nieomal zerowa. Aby wykształcić projektantów systemów, integratorów i anality

ków systemowych nie starcza wiedzy zdobywanej na uczelniach, trzeba jeszcze stałej współpracy z praktykami, którzy potrafią przekazywać swoją

Krystyna Karwicka

wiedzę. A takich nadal jest u nas jeszcze jak na lekarstwo.

Przyczyny tego, że podaż na rynku pracy nie nadąża za popytem, zostały dokładnie określone na I Kongresie Informatyki Polskiej (Poznań, 1-3 grudnia 1994 r.). Studia na wszystkich kie

runkach informatycznych państwowych wyż

szych uczelni - matematycznym, technicznym i ekonomicznym - kończy rocznie zaledwie kil

kuset studentów. Wprawdzie coraz większą rolę w kształceniu informatyków zaczynają odgrywać szkoły niepaństwowe, a także powstające na państwowych wyższych uczelniach studia podyp

lomowe i zaoczne, ale na ich absolwentów jeszcze trochę trzeba poczekać.

Wszystkie wyższe szkoły, zwłaszcza państwo

we, cierpią na niedobór kadry dydaktycznej.

W Raporcie kongresowym zostało to określone w sposób jasny: Najpoważniejszym zagrożeniem dla przyszłości rozwoju informatyzacji w Polsce jest zmniejszenie się liczebności kadr w uczelniach i obniżenie poziomu nauczania oraz brak motywa

cjifinansowych dla nowych kadr. Wszystkie uczel

nie alarmują, że liczebność kadry dydaktycznej w zastraszającym tempie ubywa. Przyczyna jest bardzo prosta: absolwent, a nawet student kie

runku informatycznego na dzień dobry otrzymu

je w firmie pensję nieraz i trzykrotnie przewyż

szającą apanaże pracowników naukowych.

Wśród osób, które decydują się podjąć pracę dydaktyczną, ze świeczką trzeba szukać takiej, która by nie dorabiała poza uczelnią różnymi sposobami do akademickiej pensyjki. W nie

których specjalnościach najbardziej na rynku pracy deficytowych, takich jak analitycy sys

temów, integratorzy, administratorzy sieci - uczelnie nie są w stanie znaleźć chętnych do prowadzenia zajęć dydaktycznych. Zresztą i w fir

mach są oni na wagę złota. Chociaż coraz po

wszechniej informatyką interesuje się młodzież szkół średnich, a także podstawowych, coraz trudniej jest o nauczycieli informatyki.

dokończenie na

s.

34 ^

Od teorii do praktyki

Z prof. dr. hab. Janem M adeyem - prodziekanem Wydziału M a te m a ty k i, Inform atyki i Mechaniki U niw e rsyte tu W arszawskiego - na te m a t zmian w uniw ersyteckim nauczaniu inform atyki

- rozm aw ia Krystyna Karwicka

- J a k ie j w iedzy m oże o czekiw ać od absolwenta W ydziału M a te m a ty k i, In fo rm a ty k i i M e c h a n ik i je g o praco

dawca?

- To pow inna być osoba, która posia

dła znajom ość kanonów wyższej m a

tem atyki i informatyki, umie rozwią-

dokończenie na

s. I ^

Cena 5,00 zł (50 0 0 0 zł)

(2)

T ak d o b r a to m a to p o w ie d z ia n e , b o p rz e c ie ż d ru k u je z ro z d z ie lc z o ś c ią 6 0 0 d p i i ja k o śc ią lasera (ostre ko n tu ry , ła g o d n e łuki, sz e ro k a sk a la sz aro ści). C z y to tekst c z y grafika w y p u s z c z a 4 stro n y n a m in u tę na p a p ie ra c h ró ż n y c h fo rm a tó w . T ak d o b ra b o p r z e z n a c z o n a d o p ra c y w śro d o w isk u W in d o w s 3.1 i W in d o w s 9 5 . T ak d o b ra , tak sz y b k a, tak p ro sta w o b s łu d z e z a 9 9 9 z ł - i m o ż e s z ją m ie ć .

_ _ _ J

People to People Technolog)'

(3)

|d teorii do praktyki

d o k o ń c z e n i e z p ie r w s z e j s t r o n y o k ł a d k i

zywać problemy, m a zdolność szyb

kiego uczenia się nowych rzeczy oraz zna różne stosow ane n a świecie now o

czesne m etody i narzędzia (aczkolwiek nie musi mieć ich opanow anych z n ad zwyczajną zręcznością).

- C zy na sz dynam icznie rozw ijający się ryn ek in fo rm a tyczn y wpływa na p ro g ra m y nauczania in fo rm a tyki?

- Tak, ale pam iętajm y, że Uniw er

sytet musi nauczać przede wszystkim podstaw, pewnych niezmiennych za

sad oraz rozwijać naukę. Inform atyka z racji swego młodego wieku bardzo się zmienia i pewne problemy, które przed dwudziestu laty mogły być przedm iotem badań doktorskich, przed dziesięcioma laty starczyłyby może na m agisterium, teraz bywają om awiane na ćwiczeniach czy labora

toriach. Określenie tego, co jest w in

formatyce trwałe, co się nie zdeak- tualizuje, nie jest rzeczą łatwą. S tara

my się jed n ak m odernizow ać progra

my nauczania tak, aby z jednej strony zachować ów uniwersytecki charakter studiów, a z drugiej dobrze przygoto

wać naszych absolw entów do pracy w pozaakadem ickim środowisku. Jed

nakże nie zawsze możemy zaoferować atrakcyjne zajęcia, do niektórych b ra

kuje nam specjalistów. T rudno na przykład oczekiwać od kolegi, który zajmuje się teorią typów, by poprow a

dził dobry wykład z sieci kom putero

wych. Zatrzym anie na uczelni kogoś, kto zna się dobrze na nowoczesnych, praktycznych działach informatyki, jest bardzo trudne, bo takie osoby zarabiają w ielokrotnie więcej w fir

m ach kom puterowych. P onadto, wy

niki naukow e trudniej uzyskuje się w dziedzinach, które wiążą się z p rak tycznym zastosowaniem , a od takich wyników zależy przecież kariera ak a

demicka. Poza m odernizacją samych program ów nauczania, a dotyczy to nie tylko inform atyki, ale może nawet w większym stopniu m atem atyki (bo popyt na „czystych” m atem atyków jest coraz mniejszy), unowocześniamy także strukturę i tok studiów. Część osób będzie mogła zakończyć naukę po trzech latach, bez magisterium, z tytułem licencjata. Oferujemy różne potoki studiów, pozwalające zdoby

wać przydatne kwalifikacje w w ybra

nych zastosowaniach, np. w m atem a

tyce finansowej. Od czterech lat p ro wadzimy także płatne trzyletnie zawo

dowe studia informatyczne, z oddziel

nym program em , w którym jest mniej teorii, a więcej praktyki i ćwiczeń w laboratoriach. Staraliśmy się jed nak, aby ten program dawał szansę kontynuacji studiów na poziomie m a

gisterskim i część absolwentów ZSI z tego korzysta. C hoć więc z racji naszej wspólnoty z m atem atykam i studia informatyczne na naszym W y

dziale dają świetne przygotowanie teoretyczne i metodyczne, dbam y tros

kliwie także i o tych, którzy nie mając na celu kariery akademickiej są bar

dzo potrzebni w kraju na różnorod

nych stanow iskach pracy. Patrząc na popularność naszego W ydziału sądzę, że udaje się nam to nieźle robić.

- C zy wielu studentów j e s t gotow ych zrezygnow ać z tytułu m agistra na rzecz wcześniej p o d ję te j pracy?

- Tak, i nic dziwnego, skoro i bez tytułu m ogą uzyskać atrakcyjną pracę oraz uposażenie przewyższające pen

sję profesora z 30-letnim stażem.

- P olscy in fo rm a tycy są bardzo ce

nieni za granicą. A le w kra ju n a rzeka się na b ra k ta kich specjalistów , j a k na p r z y k ła d integrator system u.

- Na to składa się kilka przyczyn.

Najważniejsza to w spom niana już że

nująca sytuacja finansowa nauczycieli akadem ickich. T rudno jest zatrzym ać na uczelni młodych, zdolnych ludzi zainteresowanych popularnym i p rak tycznymi działami inform atyki, jak sieci kom puterow e czy bazy danych.

Ci, którzy się na tym znają, mogą sprzedać swoją wiedzę za duże pienią

dze. D latego też pewnych kierunków nie możemy rozwijać w stopniu wy

starczającym. Ale chciałbym jeszcze raz obalić mit, że na Uniwersytecie kształci się tylko „teoretyków ”. W arto może przypomnieć, że to ekipa stu

dentów naszego W ydziału wygrywa

jąc jesienią 1994 roku w Am sterdam ie eliminacje, aw ansow ała do św iato

wych finałów prestiżowego studenc

kiego konkursu program istycznego, organizow anego przez am erykańskie towarzystwo naukow e ACM (jako pierwsza polska drużyna w dziewięt

nastoletniej historii tych konkursów).

Założeniem konkursów ACM jest ze

społowa praca i nie tylko znalezienie algorytmów, ale i bezbłędne ich zako

dowanie w zadanym środowisku. Je

sienią 1995 roku powtórzyliśmy ten sukces, wygrywając eliminacje tym ra

zem w Bratysławie i z 1001 drużyn awansowaliśmy do 43 zespołowej czo

łówki światowej, znowu ja k o jedyny zespół z Polski (Europę reprezentow a

ło 10 drużyn, 5 było z Dalekiego W schodu, jedna z Australii, jedna z Nowej Zelandii, a reszta to Am eryka Północna).

- C zy w nauczaniu in fo rm a ty k i nie dałoby się wprowadzić w życie lan

sowanego u nas bez e fektó w hasła:

więź n a u ki z p rzem ysłem ? To roz

w iązałoby p ro b lem y fin a n so w e nau

czycieli akadem ickich.

- Tak, ale brak jest mechanizmów, które by to umożliwiły. N a Zachodzie o zweryfikowanie znaczącego systemu informatycznego prosi się naukow ców; sam brałem w K anadzie udział w końcowej fazie prac mających na celu sprawdzenie popraw ności oprog

ram ow ania sterującego awaryjnym wyłączaniem elektrowni atomowej.

Przy wykonywaniu takiego zadania naukow cy zdobywają dodatkow e d o świadczenie (i niebanalne korzyści fi

nansowe), ich badania są inspirowane ważnymi zastosow aniam i, a wyniki prac są publikow ane w dobrych cza

sopismach. Podejmowaliśmy dawniej próby takiej współpracy, m.in. z prze

mysłem chemicznym, mieliśmy swego czasu k o n tak t z Żarnowcem , negoc

jowaliśm y z FSM , ale nic sensownego z tego nie wyszło. Także obecnie p ro wadzimy rozmowy z różnymi k rajo wymi i zagranicznym i instytucjam i oraz firmami, ale nawiązanie długo

terminowej współpracy gwarantującej uczestniczącym osobom i godziwe wa

runki finansowe i możliwość w ykaza

nia się publikowalnym i wynikami, nie jest łatwe. A przy tym trudno jest znaleźć entuzjastów do niepewnego przedsięwzięcia, gotowych do szybkie

go działania - w iadom o bowiem p o wszechnie, że każdy pracow nik n a u kowy, by utrzym ać rodzinę jest uwik

łany w tysiące różnych prac, których nie zostawi dla niepewnej doraźnej korzyści. Kiedy pow staną m echani

zmy pozwalające na podejm ow anie w spółpracy z firmami, to będzie to z obopólną korzyścią i w szczegól

ności wspomoże nauczanie praktycz

nych dziedzin informatyki.

- D zięku ję Panu za rozm ow ę.

Inform atyka nr 4. 1996 r.

1

(4)

Zastosowanie komputera do automatycznego układania rozkładu zajęć dla szkoły wyższej

Beata Jendrzejczyk Marek Skotnorowski

In s ty tu t In fo rm a ty k i U n iw e rs y te t Ja g ie llo ń s k i

K ra k ó w

Zastosow anie kom putera do układania rozkładu zajęć jest tem atem wielu publikacji. N a przykład, zamieszczona w [5] literatura liczy około 300 pozycji dotyczących zastosow ania kom putera do układania rozkładu zajęć.

W typowym problem ie układania rozkładu zajęć w szkole wyższej w ystępują uczestnicy w sensie ogólnym, tj. stu

denci, sale wykładowe, lab o rato ria itd. W ystępuje rów nież zbiór godzin (jednostek lekcyjnych). D ostępność określa podzbiór godzin, w których każdy z uczestników może brać udział w zajęciach, do których został przypisa

ny. K ażde spotkanie jest opisane przez zbiór wszystkich uczestników przypisanych do danych zajęć oraz liczbę godzin określających czas ich trw ania. Rozkład zajęć jest harm onogram em przypisującym wszystkim przewidzia

nym spotkaniom godziny ich przeprow adzenia, speł

niającym jednocześnie podstaw ow e żądanie: żaden z uczestników nie może być zaplanow any więcej niż jeden raz o tej samej godzinie. Powyżej został przedstaw iony problem podstawowy. W praktyce, w zależności od typu szkoły wyższej, istnieje duża różnorodność żądań specjal

nych, które rozkład zajęć powinien uwzględniać.

Problem układania rozkładu zajęć jest problem em N P-zupełnym ([1-2]). O znacza to, że nie istnieje efektyw

ny, to znaczy o wielomianowej złożoności obliczeniowej algorytm konstruow ania optym alnego, ze względu na przyjęty wskaźnik jakości, rozkładu zajęć w przypadku ogólnym.

Prezentow any tu kom puterow y system autom atycz

nego układania rozkładu zajęć jest oparty na algorytm ie heurystycznym, przedstaw ionym w [ 4 ,6], którego działa

nie m ożna opisać ogólnie w następujący sposób.

N a podstaw ie danych wejściowych jest przygotow yw a

na lista zajęć do zaplanow ania. Każde zajęcia mają określony priorytet. Priorytety zajęć są wyliczane na podstaw ie analizy danych wejściowych. N astępnie al

gorytm próbuje ułożyć kolejno wszystkie zajęcia z listy zajęć do zaplanow ania, rozpoczynając od zajęć o najwyż

szym priorytecie, spełniając jednocześnie ograniczenia podane w danych wejściowych. Zajęcia ułożone są usuwa- 7

ne z listy zajęć do zaplanow ania. W przypadku ułożenia wszystkich zajęć algorytm kończy pracę. W przeciwnym przypadku priorytety zajęć nie ułożonych są zwiększa-

Rozklad z a ję ć ( )

|

W C Z Y T A J_ d a n e ();

P R Z Y P IS Z _ zajęcio m _ p rio ry tety ();

iteracja = i;

w skaźnik J a k o ś c i = 1;

w h ite ( ( w skaźnik j a k o ś c i > 0 ) i ( iteracja < M A X ITER A CJI ) )

I

PO SO R T U J_zajęcia_w edlug_przypisanych im _ p rio ry te tó w ();

w skaźnik j a k o ś c i = U Ł Ó Ż _ R 0 Z K 1 A D _ ();

/* funkcja zw raca 0 (w przypadku /* uło żen ia w szystkich zajęć) lub I* liczbę godzin nie ułożonych if ( w skaźnik j a k o ś c i > 0 )

i

if ( iteracja = 1 ) /* rozkład zajęć układany pierw szy raz

ji

Z A P A M IĘ T A J_ u lo żo n y _ ro zk lad _ zajęć ();

Z A P A M IĘ T A JJistę _ z a ję ć _ n ie _ u lo ż o n y c h ();

1

else

I

P O R Ó W N A J_ z_ n a jIep szy m _ u zy sk an y m _ d o ty ch c zas_ ro zk lad em _ zajęć ():

if ( uło żo n y _ w _ b ieżącej_ iteracji_ ro zk ład _ zajęć j e s t j e p s z y )

!

Z A P A M lĘ T A J_ u ło ż o n y _ ro z k ła d _ z a ję ć ();

Z A P A M łĘ T A JJistę _ z a ję ć _ n ie u ło ż o n y c h f):

I

} /* else

Z.W1F;KSZ_PRIO RY TETY z a ję ć _ n ie _ u ło ż o n y c h ();

} /* if ( /* w hile

\V Y P IS Z _ N A JL E P S Z Y _ u ło żo n y _ ro zk lad _ zajęć():

i f ( lista _ z a ję ć _ m e _ u ło ż o n y c h _ m e je s t_ p u s ta ) W YPISZ listę _ z a ję ć _ n ie _ u lo ż o n y c h ():

) /* R ozkład zajęć */

R y s. 1. A lg o ry tm u k ła d a n ia ro z k ła d u zajęć

Inform atyka nr 4. 1996 r.

(5)

nc i przygotow yw ana jest lista zajęć do zaplanow ania, uwzględniająca wyższe priorytety zajęć poprzednio nie ułożonych. N astępnie algorytm próbuje kolejny raz uło

żyć zajęcia z listy zajęć do zaplanow ania. Poszukiw anie kolejnych rozw iązań jest kontynuow ane do m om entu ułożenia wszystkich zajęć z listy zajęć do zaplanow ania lub do m om entu uzyskania rozw iązania najlepszego, ze względu na przyjęty w skaźnik jakości, w ram ach zadanej liczby prób (kolejnych iteracji algorytmu). Jako wskaźnik jakości została przyjęta liczba godzin nie ułożonych w danym rozkładzie. W dow olnym momencie obliczeń są pam iętane co najwyżej dw a rozkłady zajęć: układany w danej iteracji algorytm u i najlepszy spośród rozkładów uzyskanych w poprzednich iteracjach. Po uzyskaniu rozw iązania końcowego są w yprow adzane rozkłady dla poszczególnych zajęć, wykładowców i sal. W przypadku nie ułożenia wszystkich zajęć jest wyprow adzany również zbiór zajęć nie zaplanow anych. O m ów iony algorytm jest pokazany na rysunku 1.

D ane wejściowe systemu są zapisywane w trzech pli

kach zawierających informacje o zajęciach, salach i wy

kładowcach. Fragm ent przykładowego pliku zawiera

jącego informacje o zajęciach jest pokazany na rys. 2.

#

1. U kłady cyfrow e 2. UC

3 . 1

01. d r M . S kom orow ski 0 2 .4 0

03. 2

11. dr M. Skom orow ski 12. 2 0

13. 2

21. m gr H. T eleg a 2 2. 20

2 3 .2

U

R y s. 2. F ra g m e n t p rz y k ła d o w e g o p lik u zaw ierająceg o in fo rm a c je o zajęciach

Fragm ent ten zawiera informacje na tem at wykładu zatytułow anego „U kłady cyfrowe” (pole 1) o kodzie U C (pole 2), należącego do grupy przedm iotów inform atycz

nych (kod I w polu 3). W ykład ten jest planow any dla 40 osób (pole 02) z dwiema grupam i ćwiczeniowymi (pola 11,

# 221 50

n

217 p 16

zajęta czw 16.00 - 20.00, pt 8 - 16

#

218 p 16

#

R y s. 3. F ra g m e n t p rz y k ła d o w e g o p lik u zaw ierająceg o in fo rm a c je o sa lach

21) dla 20 osób (pola 12,22). W ykład i ćwiczenia będą się odbywać raz w tygodniu (pole 03 - wykład, pola 13, 23 — ćwiczenia). P odane są również nazwiska prow adzących w ykład (pole 01) i ćwiczenia (pola 11, 21). Z nak # jest separatorem poszczególnych zajęć. W pliku tym m ożna podać również inne informacje. N a przykład: w ym agania dotyczące term inu i sali dla danych zajęć, wym agania dotyczące tego, ile razy w tygodniu i po ile godzin pow inny odbywać się dane zajęcia. W przypadku kiedy zajęcia z tego samego przedm iotu odbywają się dw a razy w tygodniu, m ożna podać, ja k długa m a być przerw a między nimi.

Fragm ent przykładowego pliku zawierającego infor

macje o salach jest pokazany na rys. 3. Fragm ent ten zawiera informacje o trzech salach (221, 217, 218). Sala 221 może pomieścić 50 studentów . Sale 217 i 218 są pracow niam i kom puterow ym i (p ) mogącymi pomieścić 16 osób. Sale 221 i 218 są dostępne w ciągu całego tygodnia. Sala 217 jest zajęta w czw artki w godzinach od 16:00 do 20:00 i w piątki w godzinach od 8:00 do 16:00.

Z nak # jest separatorem poszczególnych sal.

u

dr M. Skom orow ski

1 .p n 8 .0 0 - 2 0 .0 0 , pt 8 .0 0 - 1 0 .0 0 2. w t. sr, czw 8.00 - 2 0.00

U

R ys. 4. F ra g m e n t p rzy k ła d o w e g o p lik u zaw ierający in fo rm a c je o p ro w a d z ą c y c h zajęcia

F ragm ent przykładow ego pliku zawierającego infor

mację o dostępności prow adzących zajęcia jest pokazany na rys. 4. Zaw iera informację o ograniczeniach czasowych prow adzącego zajęcia. Pole 1 zaw iera informacje o ter

m inach, w których prow adzący zajęcia nie jest dostępny, a pole 2 o term inach preferowanych przez prow adzącego zajęcia.

U kłady cyfrow e UC

w ykład: dr M. Skom orow ski sr 14 - 16 s 221 grupy cw iczeniow e:

g r.l dr M . Skom orow ski sr 12 - 14 s 221 gr.2 m g rH . T eleg a sr 12 - 14 s 205

R y s. 5. F ra g m e n t p rz y k ła d o w e g o ro z k ła d u dla zajęć

Godzina Poniedziałek Wtorek Środa Czwartek Piątek

8 - 9 MD2 w WDMw LSKw

9 -1 0 MD2 w WDM w LSKw

10- 11 RPS w MT w WDIw ALI r t . 3

11-12 RPS w MT w WDIw ALI Rr.3

12-13 RPS w WDI w UCcr.l MP2 rt.3 ALI gr.3

13- 14 WDIw UCgr.l MP2 gr.3

14-15 ALI w MP2 w UC w

15-16 ALI w MP2 w UC w

16- 17 ALI w TPęr.l WZTW w

17-18 MN A w TPgr.l WZTWw

18-19 MNA w TP w

19-20 NI w TP w

R ys. 6. F ra g m e n t p rz y k ła d o w e g o ro z k ła d u d la sal sa la 221

dokończenie na

s.

14 ^

Inform atyka nr 4, 1996 r. 3

(6)

publikacje

Wprowadzenie do systemów uczących się ze wzmocnieniem

Paweł Cichosz

Instytut Podstaw Elektroniki Politechnika Warszawska

A r t y k u ł r e k o m e n d o w a n y

Artykuł ma na celu przybliżenie Czytelnikowi m ało znanego w Polsce, a bez wątpienia godnego uwagi i budzącego gwałtownie rosnące w ostatnich latach zainteresowanie na świecie, działu uczenia się maszyn, nazywanego uczeniem się ze wzmocnieniem (ang.

rein fo rcem en t learning).

Jest to jeden z najnowszych podobszarów uczenia się maszyn, przeżywający w ostatnich latach prawdziwą eksplozję wzrostu zainteresowania i zaliczany do tzw. „gorących tem atów” , zwłaszcza w U SA , natomiast bardzo słabo znany w Polsce. Czytelników zainteresowanych bardziej wszechstronną dyskusją różnych metod uczenia się maszyn odsyłamy do prac [5, 6, 16].

Rozważa się w nim problemy, w których uczący się system m a zadanie nauczenia się podejm ow ania decyzji w pewnym nieznanym środow isku, n a podstaw ie skalar

nych rzeczywistoliczbowych wartości nagrody lub kary.

K oncentrow ać się będziemy na najbardziej interesują

cym przypadku, w którym owe nagrody lub kary m ogą być opóźnione w stosunku do akcji systemu, których są konsekwencją. Po scharakteryzow aniu paradygm atu uczenia się ze wzmocnieniem i jego miejsca w dziedzinie uczenia się maszyn, rozważym y kluczowy dla jego realiza

cji praktycznej problem tem poralnego przypisania za

sługi. O m ówiony zostanie najbardziej obecnie znany i najczęściej stosow any algorytm rozwiązywania tego problem u, Q-learning. A rtykuł zam knie przegląd najb ar

dziej obiecujących obszarów zastosow ań systemów uczą

cych się ze wzmocnieniem.

Uczenie się w sztucznej inteligencji

Wysiłki badawcze, podejm ow ane już od p onad czter

dziestu lat w dziedzinie sztucznej inteligencji (SI), m ają na celu wypracowanie m etod, dzięki którym możliwe byłoby konstruow anie sztucznych systemów (kom puterowych) zdolnych do wykonyw ania zadań, o których sądzi się, że wymagają inteligencji pokrewnej (w każdym razie pod pewnymi względami) inteligencji ludzkiej. Takie, tyleż

am bitne co nieprecyzyjne określenie tej dziedziny, było i wciąż bywa przyczyną wielu kontrow ersji, dotyczących zarów no tego, co do niej należy, a co nie, jak i tego, czy w ogóle może o na rościć sobie praw a do m iana dyscypliny naukowej.

Elementem inteligentnego zachow ania, którego klu

czowa rola jest najbardziej chyba bezdyskusyjna, jest zdolność do uczenia się. Spośród wielu możliwych defini

cji uczenia się, podaw anych zarów no w kontekście ucze

nia się ludzi, zwierząt, ja k i maszyn, wybierzmy n ajprost

szą: Uczenie się je st procesem poprawy jakości działania systemu na podstawie doświadczeń z przeszłości. Z kon tek  stu związanego z konkretnie rozw ażanym procesem ucze

nia się wynika, co dokładnie rozum ie się przez popraw ę jakości działania i jak i rodzaj doświadczeń może być wykorzystywany do jej osiągnięcia. Zawsze m ożna jednak przyjąć, że jej niezbędnym w arunkiem jest zdobywanie i doskonalenie wiedzy lub umiejętności oraz odpowiednie ich wykorzystywanie w dalszych działaniach systemu.

Paradygm aty uczenia się

W dalszej dyskusji posłużymy się ogólnym schem atem interakcji systemu uczącego się z jego środowiskiem przedstaw ionym na rys. 1. Bez istotnego zm niejszania ogólności rozw ażań m ożna przyjąć, że interakcja ta polega na obserw ow aniu przez system uczący się ak tu al

nego stanu środow iska oraz generow aniu w odpowiedzi

R y s. 1. O g ó ln y s c h e m a t in te ra k c ji sy ste m u ucząc eg o się ze śr o d o w iskiem

Rekomenduje:

P ro f. d r h a b . J a n J. M u la w k a Instytut Podstaw Elektroniki Politechnika Warszawska

4

P ra c a w sp ie ra n a przez K B N w r a m a c h g r a n tu n r 8 S503 019 05.

Inform atyka nr 4„ 1996 r.

(7)

na ten stan pewnej akcji na podstaw ie jego aktualnej wiedzy. Systemowi może być dostarczona inform acja trenująca, której źródło będziemy, w zależności od jej charakteru, nazywać nauczycielem lub krytykiem . Infor

m acja ta może, w ogólnym przypadku, zależeć zarów no od stanu środow iska, ja k i od wykonanej akcji systemu.

N a podstaw ie interakcji ze środowiskiem z jednej strony oraz informacji trenującej z drugiej strony, system może doskonalić swoją wiedzę lub umiejętności.

U c ze n ie się bez n adzoru

W przypadku uczenia się bez nadzoru (ang. unsupervised learning) celem jest zazwyczaj przetransform ow anie infor

macji wejściowej, dostarczonej ze środowiska, do pew

nych innych form lepiej dopasow anych do dalszego przetwarzania. Typowym przykładem może być zadanie grupow ania (ang. clustering), w którym porcje danych wejściowych (w naszej terminologii reprezentowanych przez stany środow iska) m uszą być podzielone na pewne rozłączne klasy lub kategorie. M oże to dotyczyć zarówno punktów w pewnych przestrzeniach rzeczywistoliczbowych, ja k i symbolicznych opisów pewnych obiektów, w tym ostatnim przypadku m am y do czynienia z tzw.

grupow aniem pojęciowym (ang. conceptual clustering).

Zasada, według której następuje transform ow anie da

nych wejściowych w uczeniu się bez nadzoru, jest usta

lona dla określonej klasy zadań, które rozwiązuje system uczący się, i w budow ana do jego wewnętrznej struktury.

Nie ma żadnego źródła zewnętrznej informacji trenującej, które określałoby pożądany sposób działania systemu.

W związku z tym mówi się niekiedy, że systemy uczące się bez nadzoru m ają w budow anego nauczyciela lub kry

tyka.

U c ze n ie się z n a d zo rem

Uczenie się z nadzorem (ang. supervised learning) jest nazywane także uczeniem się z nauczycielem dla podkreś

lenia charakteru wykorzystywanej informacji trenującej.

Pożądany sposób działania systemu jest w tym przypad

ku określany przez zewnętrzne źródło informacji trenują

cej za pom ocą tzw. wzorców trenujących lub przykładów, w podstawowym w ariancie rozum ianych ja k o pary wią

żące przykładowe wejście systemu (stan) z wymaganym dla niego wyjściem (akcją).

Paradygm at uczenia się z nadzorem obejmuje wyraźną większość m etod uczenia się maszyn i wiele różnorodnych problem ów, takich ja k uczenie się opisów pojęć i reguł decyzyjnych z przykładów, indukcja drzew decyzyjnych, indukcyjne program ow anie logiczne, aproksym acja funk

cji i inne. W praktyce inform acja dostarczana przez nauczyciela może przybierać różne formy. W przypadku uczenia się pojęć są to przykłady pozytywne, które musi obejmować opis pojęcia konstruow any przez system, i negatywne, których ten opis obejm ować nie może.

W przypadku uczenia się aproksym acji funkcji każda para trenująca może podaw ać wymagane wyjście dla danego wejścia, w ektor błędu - różnicy pomiędzy doce

lowym a aktualnym wyjściem systemu, bądź też tylko informację gradientow ą, określającą kierunek w prze

strzeni wyjściowej, w którym pow inna ulec zmianie odpow iedź systemu dla danego wejścia. M im o tej różno

rodności, w każdym problem ie uczenia się z nadzorem ,

inform acja trenująca ma charakter dyrektywny i specyfikuje bezpośrednio lub pośrednio pożądany sposób zm ia

ny działania systemu.

U c ze n ie się ze w z m o c n ie n ie m

W przypadku uczenia się ze wzmocnieniem (ang. reinfor

cement learning) również istnieje zewnętrzne źródło infor

macji trenującej, m a ono jednak naturę raczej krytyka niż nauczyciela. Inform acja trenująca m a charakter wartoś

ciujący a nie dyrektywny. Zatem systemowi uczącemu się nie mówi się nigdy, jakich akcji oczekuje się od niego w określonych stanach, ani naw et jakie akcje (jeśli w ogóle jakiekolwiek) byłyby lepsze od tych, które on faktycznie wykonuje. D ostarczany jest natom iast skalarny rzeczy wi- stoliczbowy sygnał wzmocnienia, nazywanego także wy

płatą lub nagrodą (karą), stanowiący pewną względną m iarę jakości działania systemu ze względu na stawiane przed nim cele. System musi samodzielnie ustalić, jakie akcje wykonywać w każdym stanie, aby maksymalizować uzyskiwane wartości wzmocnienia. Przyporządkow anie stanom akcji do wykonania, którego uczy się system, nazywać będziemy strategią decyzyjną. W przestrzeni możliwych strategii będziemy wyróżniać strategie opty

malne, wyznaczane w pewien sposób, którego na razie nie precyzujemy, przez wartości nagród, do otrzym ania których prowadzą.

Term in „wzmocnienie” wywodzi się z badań nad uczeniem się zwierząt w psychologii behawiorystycznej.

Po raz pierwszy został on przypuszczalnie w prowadzony do inform atyki przez M insky’ego [15], Podstaw ow a zdrow orozsądkow a idea, ja k a się za nim kryje, jest następująca: jeśli pewna akcja pociąga za sobą zadow ala

jący stan rzeczy lub popraw ę w stanie rzeczy, to tendencja do w ykonywania tej akcji (w danej sytuacji) pow inna zostać wzmocniona [1]. Jak zobaczymy w następnym podrozdziale, pojęcie „pociągania za sobą zadow alające

go stanu rzeczy” może być rozciągnięte na długoter

minowe konsekwencje akcji.

Uczenie się na podstawie opóźnionych nagród

Uczenie się ze wzmocnieniem, chociaż wyodrębnione przez nas najpierw z dziedziny sztucznej inteligencji, a potem z uczenia się maszyn, stanow i sam o w sobie dziedzinę stosunkow o pojem ną. Uściślijmy zatem , które z obejm owanych przez nią zagadnień uważam y za najb ar

dziej interesujące, i na których chcemy się dalej skon

centrować.

P o d s ta w o w y scen ariu sz

Zaczniemy od kilku oznaczeń i uzupełnienia terminologii.

Będziemy używać symboli x„ a, i r, do oznaczenia, odpowiednio, stanu, akcji i wartości wzmocnienia w chwi

li czasu t. Czwórkę złożoną ze stanu, akcji, otrzym anego po jej w ykonaniu w tym stanie wzmocnienia oraz następ

nego stanu nazywać będziemy doświadczeniem systemu.

Przy użyciu wprow adzonych właśnie symboli dośw iad

czenie z kroku czasu t zapiszemy ja k o < x t, a,, rt, x , + 1 > . Podstaw ow y scenariusz uczenia się ze wzmocnieniem m ożna wówczas przedstawić ja k o sekwencję operacji

(8)

publikacje

w ykonywanych przez system uczący się w każdym kroku dyskretnego czasu t (rys.2).

W każdym kroku czasu /:

1. obserwuj aktualny stan x,;

2. wybierz akcję a, do wykonania w stanie x, zgodnie z aktualną strategią decyzyjną;

3. wykonaj akcję a,\

4. obserwuj wartość wzmocnienia r, i nowy stan ;

5. aktualizuj strategię decyzyjną na podstawie doświadczenia <x„ a„ r„ xl+i).

R ys. 2. P o d sta w o w y sc e n a riu sz u czenia się ze w zm o cn ien iem

Szerokie spektrum algorytm ów uczenia się ze wzmoc

nieniem m ożna przedstaw ić ja k o jego uściślone wersje, przy czym uściślenie dotyczy w gruncie rzeczy tylko jednego (ale za to kluczowego) k ro k u 5, w którym następuje aktualizacja strategii decyzyjnej pod wpływem kolejnego doświadczenia.

Ś ro d o w is k o

Środow isko jest pewnym złożonym systemem, którego stany, zmieniające się pod wpływem akcji systemu uczą

cego się, m ogą być przezeń obserwowane. O dstępując chwilowo od m odelu z rys. 1, założymy dla wygody, że także w artości wzmocnienia są dostarczane przez śro d o wisko. Przyjmiemy, że zarów no zm iany stanów środow is

ka, jak i generowane przez nie nagrody m ogą być, w ogólnym przypadku, stochastyczne. Będziemy też za

kładać, że odpow iadające im rozkłady praw d o p o d o bieństw (w pełni opisujące środowisko) nie są znane systemowi uczącemu się, ale że jednocześnie dostępna mu inform acja wejściowa w postaci stanu, obserwowanego w każdym kroku, jest dostateczna do podjęcia optym alnej decyzji (czyli istotnie optym alna strategia może być reprezentow ana ja k o odw zorow anie ze stanów na akcje).

Powszechnie przyjęty m atem atyczny model dla problem u uczenia się ze wzmocnieniem w tego typu środow iskach stanow i proces decyzyjny M arkowa, dla którego optym al

ne strategie decyzyjne m ogą być odnalezione za pom ocą m etod stochastycznego program ow ania dynamicznego [4], pod w arunkiem jednak, że znane są p raw dopodo

bieństwa zm ian stanów i oczekiwane w artości wzmoc

nienia dla każdej pary stan-akcja. W przypadku, gdy wiedza tak a nie jest dostępna, otw iera się pole do stosow ania m etod uczenia się ze wzmocnieniem.

M ia r a o p ty m a ln o ś c i s tra te g ii

Zadaniem system u uczącego się ze wzmocnieniem jest nauczenie się optym alnej strategii decyzyjnej, to jest takiej, k tó ra prow adzi do optym alizacji pewnej m iary jakości jego działania opartej na otrzym yw anych w artoś

ciach wzmocnienia. W przypadku najbardziej interesują

cym i stanow iącym największe wyzwanie chodzi o m a

ksymalizację nagród w długim horyzoncie czasowym.

System m a więc wybierać swoje akcje tak, aby uzyskiwać wysokie dochody niekoniecznie natychm iast, lecz raczej długoterm inow o. T ak ja k w grze w szachy w arto oddać piona po to, aby kilka ruchów później zagrozić królow i przeciwnika, może opłacać się w ykonać kilka akcji nisko

6

nagradzanych po to, aby po pewnej liczbie kroków stworzyć możliwość uzyskania wysokich w artości wzmo

cnienia. Ten rodzaj uczenia się jest nazywany uczeniem się na podstawie opóźnionych nagród lub uczeniem się z opóź

nionym wzmocnieniem (ang. learning fro m delayed re- wards, delayed reinforcement learning) [17, 22] i właśnie jem u chcemy poświęcić dalszy ciąg tego tekstu.

Z adanie długoterm inow ej m aksymalizacji wzmocnie

nia m ożna form alizować w różny sposób. Ograniczymy się tutaj do zdecydowanie dom inującego obecnie, choć nie wolnego od pewnych niedostatków podejścia, w którym m iarę jakości działania system u określa się ja k o oczeki

w aną całkow itą zdyskontowaną sumę wzmocnienia, jakie uzyskuje on w okresie swojego funkcjonow ania, czyli:

E

gdzie E je s t symbolem wartości oczekiwanej, rv ja k wyżej, oznacza nagrodę otrzym aną w kroku czasu t, zaś 0 <}’ < 1 jest tzw. współczynnikiem dyskontowania (ang. discount factor), który determ inuje stopień względnej ważności nagród bliskich i odległych w czasie. Jeśli 0 < y < l , wartości wzm ocnienia z kolejnych kroków czasu są ważone wykładniczo malejącymi współczynnikami, zgo

dnie ze zdrow orozsądkow ą zasadą, że nagrody stają się mniej atrakcyjne (a kary mniej odstraszające), jeśli m ają być otrzym ane w odległej przyszłości. Aby m aksym alizo

wać powyższe wyrażenie dla dowolnego 7 > 0 system uczący się musi brać pod uwagę nie tylko natychm ias

towe, ale także długoterm inow e konsekwencje swoich akcji.

Realizacja uczenia się ze w zm o cn ien iem

D la realizacji uczenia się ze wzmocnieniem kluczowe znaczenie m a problem temporalnego przypisania zasługi (ang. temporal credit assignment) [17]. Polega on na przypisaniu „zasługi” bądź „winy” za całościowe wyniki działania systemu (a więc jego długoterm inow e nagrody) poszczególnym akcjom podjętym przez system, być może w ykonanym wiele kroków wcześniej, zanim wyniki te mogły być zaobserw ow ane. Obecnie najwięcej uwagi poświęca się algorytm om rozwiązującym ten problem , które są oparte na m etodach różnic czasowych (ang.

temporal differences) S uttona [18], zaś najbardziej zna

nym z nich jest algorytm Q-learning [22, 23].

A lg o ry tm Q -le a rn in g

Algorytm Q -learning konstruuje oszacowanie pewnej funkcji, nazywanej g-funkcją, k tó ra wartościuje wszyst

kie pary stan -ak cja ze względu na oczekiwane przyszłe nagrody. D okładniej, każdej parze stan -ak cja (x,a) przy

porządkow uje on a tzw. g -w arto ść Q (x,a), k tó ra doce

lowo m a być oszacowaniem skum ulow anego zdyskon

tow anego wzmocnienia, jak ie będzie otrzym ane po w yko

naniu akcji a w stanie x, a następnie posługiw aniu się strategią zachłanną względem aktualnych g-w artości (tj. w ybieraniu w każdym kolejnym stanie akcji, której Q -w artość jest największa). Zatem , poniew aż w każdym stanie g-funkcja zawiera (uzyskane n a podstaw ie dotych

Inform atyka nr 4, 1996 r.

z a

^>

(9)

czasowych doświadczeń) informacje na tem at spodziewa

nych przyszłych długoterm inow ych skutków poszczegól

nych akcji, umożliwia o na podejm ow anie optym alnych decyzji bez żadnego kosztownego planow ania czy prze

szukiwania w przód przestrzeni stanów. W każdym kroku g-funkcja jest m odyfikow ana zgodnie z algorytm em przedstawionym na rys. 3. W ystępujące tam odw ołania do g-w artości zawierają indeks t określający krok czasu, z którego w artości te pochodzą.

1. W każdym kroku czasu /:

2. obserwuj aktualny stan x,;

3. wybierz akcję a, do wykonania w stanic x, (na podstawie Q{x„a,) dla każdego a);

4. wykonaj akcję a,\

5. obserwuj wartość wzmocnienia r, i nowy stan x*i;

6. A := r, + y maxfl Q¿xnUa) - Q¿x„a,)\

7. uaktualni/*(Q, x„ a„ A);

R ys. 3. A lg o ry tm Q -le a rn in g

W y b ó r akcji. W kroku 2 następuje w ybór akcji do w ykonania w aktualnym stanie, na podstaw ie wartości g-funkcji dla tego stanu. Jest naturalne, że przy wyborze tym należy preferować akcje o najwyższych g-w artoś- ciach (skoro po ich w ykonaniu oczekiwane są najwyższe przyszłe nagrody), nie może to być jednak wybór w pełni determ inistyczny - wykonywanie zawsze akcji, które obecnie wydają się najlepsze, może uniemożliwić syste

mowi uczącemu się odkrycie innych, być może lepszych akcji. M am y tu do czynienia z tzw. w ym ianą pomiędzy eksploracją (wykonywaniem akcji nie uważanych za najlepsze w celu popraw ienia posiadanej wiedzy) i eks

ploatacją (korzystaniem z aktualnie dostępnej wiedzy w celu zdobyw ania nagród).

N ajprostsze podejście do problem u w yboru akcji za

pewniającego dostateczny poziom eksploracji polega na zastosow aniu pewnego stochastycznego m echanizmu wy

boru. Typowym przykładem może być mechanizm wyko

rzystujący rozkład Boltzm anna, zgodnie z którym praw dopodobieństw o w yboru akcji a* w stanie x jest równe:

Prob(x,a )

.

2 , exP

T)

a

gdzie param etr T, nazywany temperaturą, jest liczbą dodatnią regulującą stopień losowości wyboru. Stosując duże w artości T uzyskujemy system wybierający akcje w sposób niemal losowy, zaś małe w artości pow odują prawie determ inistyczny w ybór akcji o maksym alnych g-w artościach.

O bliczenie b łę d u . C entralnym krokiem algorytm u jest krok 5, w którym jest obliczany błąd, używany następnie do zm iany g-w artości dla aktualnego stanu i akcji. Jak powiedziano wyżej, g (x, a) m a być oceną oczekiwanej zdyskontow anej sumy wzmocnienia otrzym ywanego po w ykonaniu akcji a w stanie x i następnie zawsze wybiera

niu akcji o m aksym alnych g-w artościach. Wówczas o max„ g (x, a) m ożna myśleć ja k o o pewnej mierze wartości stanu x (i pisać w zam ian V(x)), oceniającej m aksym alne całkowite zdyskontow ane wzmocnienie, ja

kie może być otrzym ane przez system rozpoczynający działanie w tym stanie. Stosow ana przez algorytm Q -lear

ning reguła obliczania błędu pow oduje przybliżenie g-w artości dla aktualnego stanu i aktualnej akcji do sumy natychm iastow ego wzmocnienia otrzym anego po w ykonaniu tej akcji oraz zdyskontow anej sumy wartości następnego stanu:

Q ( x , , a , ) + y K (x ,+1) .

Uzasadnienie dla tej reguły wywodzi się z teorii p ro gram ow ania dynamicznego i nie będziemy go tutaj przy

taczać, odsyłając Czytelników do oryginalnej pracy W atkinsa [22], Poprzestaniem y na odnotow aniu, że pod pewnymi w arunkam i prowadzi ona do zbieżności g-funkcji do optymalnej g-funkcji, tj. takiej, że strategia zachłanna względem niej jest strategią optym alną. Ściśle sform ułowane twierdzenie o zbieżności algorytm u Q -learning i jego dowód m ożna znaleźć w [23],

R e p re z e n tac ja fu n k cji. K rok 6 algorytm u z rys. 3 wyko

rzystuje wyznaczony w poprzednim kroku błąd do ak tualizacji g-w artości dla aktualnego stanu i aktualnej akcji. O peracja ta, zapisana jak o

uaktualnij^(Q,x, , a , , A),

m a za zadanie zmianę wartości g (xt, at) w ten sposób, aby stała się on a bliższa g (x„ a,) -1- A, w stopniu k o n t

rolowanym przez współczynnik szybkości uczenia /?.

Im plem entacja tej operacji zależy w oczywisty sposób od przyjętej reprezentacji funkcji g .

N ajprostsze podejście polega na przechowywaniu g-w artości w tablicy, zawierającej jeden element dla każdej pary stan-akcja. Wówczas operacja aktualizacji, opisana przez równanie, im plem entow ana jest w n atu ral

ny sposób ja k o przypisanie:

Q ( x , , a , ) : = 0 ( x , , a , ) + pA.

D ostępne rezultaty teoretyczne dotyczące gwarancji zbieżności algorytm u Q-learning dotyczą tego właśnie, najprostszego przypadku [23]. Niestety, reprezentacja tablicow a m a pow ażne wady, zwłaszcza dla bardziej złożonych i realistycznych problemów. Po pierwsze, jej zapotrzebow anie na pamięć, proporcjonalne do liczby stanów i do liczby akcji, może okazać się nieakceptow alne. Po drugie, nie pozwala ona na uogólnianie w zbiorach podobnych stanów. W związku z tym były prow adzone liczne, głównie eksperym entalne prace dotyczące w yko

rzystywania przez algorytm y uczenia się ze wzmocnie

niem innych m etod reprezentacji funkcji, na ogół uczą

cych się i generalizujących aproksym atorów funkcji [ 8, 12, 21, 24],

M e to d y TD (A )

Jak ju ż w spom niano wyżej, algorytm Q -learning jest przykładem algorytm ów wykorzystujących m etody ró ż

nic czasowych do tem poralnego przypisania zasługi.

W istocie jest to pewna klasa m etod, param etryzow ana przez tzw. współczynnik świeżości (ang. recency factor) 0 < A < 1 , oznaczana ja k o T D (1), przy czym Q -learning odpow iada najprostszem u przypadkow i T D (0). M etody te mogą być w ogólnym przypadku stosow ane do uczenia się predykcji w wieloetapowych problem ach predykcyj-

7

(10)

publikacje

nych. W takich problem ach na każdym etapie należy p odać prognozę pewnej końcowej wielkości, k tó ra staje się dostępna po ostatnim etapie, jednak pewna cząstkowa inform acja na jej tem at dostępna jest na każdym etapie ja k o aktualny stan. M etody T D wykorzystują do uczenia się różnice predykcji z dwóch lub, dla A > 0, z większej liczby kolejnych kroków czasu. F orm alną definicję m etod T D (A) w ich ogólnej postaci m ożna znaleźć w oryginalnej pracy Suttona [18]. Sposób wykorzystania tych metod do uczenia się ze wzmocnieniem jest obszernie dyskutow any w [7].

Zastosowania uczenia się ze w zm o cn ien iem

P aradygm at uczenia się ze wzmocnieniem jest sform uło

wany w sposób bardzo ogólny i abstrakcyjny. Czyni go to niezwykle pojem nym i szeroko stosowalnym . W istocie, aby sform ułować problem w kategoriach uczenia się ze wzmocnieniem należy jedynie określić odpow iednio re

prezentację stanów obserwowanych przez system na wejściu i rodzaj akcji generowanych przez niego na wyjściu oraz m echanizm wzmocnienia, stanow iący właś

ciwą specyfikację zadania do wykonania. Przy pewnych zastrzeżeniach, m ożna zaryzykować porów nanie pierw

szej z tych czynności do projektow ania stru k tu r danych, drugiej zaś do projektow ania algorytm u w inżynierii program ow ania. Poniew aż rozważam y uczenie się na podstaw ie opóźnionych nagród, projektant, który za pom ocą funkcji wzmocnienia specyfikuje systemowi za

danie do wykonania, nie musi wiedzieć dokładnie, kiedy poszczególne akcje zasługują na pozytywne lub negatyw

ne wzmocnienie. W ystarczy, jeśli będzie potrafił wyróżnić i nagrodzić sytuacje szczególnie korzystne (takie, ja k np. osiągnięcie pewnych cząstkowych celów zadania) oraz wyróżnić i ukarać sytuacje szczególnie niekorzystne (ta

kie, ja k np. popełnienie pewnych ewidentnych błędów).

Oczywiście, stosow anie m etod uczenia się ze wzmoc

nieniem, chociaż często możliwe, nie zawsze jest sensow

ne. Jako generalną zasadę m ożna przyjąć, że gdziekolwiek jest dostępna wiedza na tem at środow iska i zadania systemu uczącego się pozw alająca na zastosow anie m etod uczenia się z nadzorem , należy z niej skorzystać. G łów ną dom eną m etod uczenia się na podstaw ie nagród są dziedziny, w których tak a wiedza nie jest dostępna, jest tru d n a do otrzym ania lub sform ułowania, bądź jej otrzy

m anie wiąże się z dużym kosztem (w sensie wysiłku ludzi lub dodatkow ych obliczeń).

Do dziedzin, w których stosow anie m etod uczenia się ze wzmocnieniem jest uzasadnione i było ju ż intensywnie badane, należy na pewno autom atyczne sterowanie.

W uproszczeniu, w problem ach sterow ania rozw aża się dynam iczny system, na którego wejście należy podaw ać odpow iednie sygnały sterow ania tak, aby osiągnąć pe

wien predefiniowany cel. W przypadku, gdy cel ten jest sform ułow any ja k o optym alizacja pewnej m iary aktual

nej sytuacji sterow anego systemu, mam y do czynienia z problem em optym alnego sterow ania. Niekiedy o d p o wiedni sterow nik m ożna zbudow ać posługując się m ate

m atycznym opisem problem u. Jeśli jed n ak nie jest to możliwe lub jest możliwe tylko częściowo i przynajmniej niektóre param etry sterow nika muszą być m odyfikowane na podstaw ie obserwacji rzeczywistego zachow ania się sterow anego systemu, m am y do czynienia ze sterow aniem adaptacyjnym .

8

M ożna, generalnie rzecz biorąc, rozróżnić dwie klasy podejść do jego realizacji. Podejście pośrednie polega na przeprow adzeniu wstępnie tzw. identyfikacji systemu, czyli skonstruow aniu jego wiarygodnego m odelu, po

przez obserwację jego reakcji na podaw ane na jego wejście sygnały, następnie zaś określeniu strategii ste

row ania na podstaw ie tego modelu. W przypadku, gdy problem sterow ania m ożna reprezentow ać za pom ocą procesu decyzyjnego M arkow a, oznacza to najpierw identyfikację praw dopodobieństw zm ian stanów i w arto

ści oczekiwanych nagrody, a następnie znalezienie op

tymalnej strategii sterow ania za pom ocą m etod p ro gram ow ania dynamicznego. Podejście bezpośrednie p o lega natom iast na poszukiw aniu optym alnej strategii sterow ania bezpośrednio n a podstaw ie obserwacji za

chow ania się sterow anego systemu, bez potrzeby k o n struow ania modeli. Uczenie się ze wzmocnieniem o d pow iada więc bezpośredniem u adaptacyjnem u sterow a

niu optym alnem u [19]. Pokazano eksperym entalnie, że takie bezpośrednie podejście oparte na uczeniu się ze wzmocnieniem może niekiedy być wyraźnie bardziej skuteczne niż tradycyjne m etody pośrednie [2]. Szerzej zagadnienia zastosow ania uczenia się ze wzmocnieniem do sterow ania om aw iane są np. w pracy [ 11].

Inną, częściowo pokrew ną dziedziną, w której uczenie się ze wzmocnieniem jest stosow ane co najmniej równie często, jest robotyka. Celem tych prób jest uzyskanie inteligentnego ro b o ta zdolnego do sam odzielnego działa

nia w złożonych i na ogół niedeterm inistycznych środow i

skach. D la takich środow isk sporządzenie tradycyjnie rozum ianego oprogram ow ania sterującego dla ro b o ta jest niemożliwe lub bardzo trudne. Często również w yko

rzystanie m etod uczenia się z nadzorem okazuje się niemożliwe ze względu na trudność sform ułow ania o d powiednich przykładów. Tymczasem zaprojektow anie odpowiedniej funkcji wzmocnienia zazwyczaj nie przed

stawia dużej trudności, zwłaszcza, że może to być wzmoc

nienie opóźnione. System uczący się ze wzmocnieniem, sterujący robotem , obserwuje ja k o stany środow iska informacje z sensorów robota, a wygenerowane przez niego akcje są używane do aktyw ow ania różnych fizycz

nych układów ro b o ta służących do poruszania się, w yko

nyw ania m anipulacji. P rzeprow adzano liczne ekspery

m enty z takim i systemami, w zastosow aniu do w ykony

w ania typowych zadań ruchom ych robotów , takich jak przechodzenie przez drzwi, nawigowanie w wąskich kory

tarzach i omijanie przeszkód, znajdow anie drogi, przesu

wanie pudełek, ładow anie akum ulatorów i inne, zarów no w środow iskach sym ulowanych, ja k i rzeczywistych. O pi

sy tego typu doświadczeń m ożna znaleźć np. w [12, 14].

Nieco mniej popularny, lecz także obiecujący obszar zastosow ań, wiąże się z tworzeniem program ów k o m puterow ych grających w gry. Znaczący sukces odniósł wykorzystujący m etody uczenia się ze wzmocnieniem program do gry w trik -trak a (ang. backgammori) [ 21], zwycięzca kom puterow ej olim piady tej gry. P rogram ten, nazw any TD-Gammon i uważany obecnie za jednego z najlepszych graczy na świecie (zarówno wśród ludzi, jak i w śród program ów kom puterow ych), pokonał tradycyj

ne nie uczące się program y z „ręcznie” zakodow anym i heurystykam i uzyskanym i na podstaw ie wiedzy eksper

tów trik-traka, a także wcześniejszy program Neurogam- mon [ 20] tego samego autora, uczący się z nadzorem z odpow iednio dobranych przykładów. Swoje m istrzost

wo osiągnął TD-Gammon ucząc się wyłącznie na p o d  stawie własnej gry, zaczynając od zerowej wiedzy i nie

(11)

korzystając z żadnej pom ocy lub innej ingerencji człowie

ka. Jest to jeden z najbardziej spektakularnych sukcesów nie tylko uczenia się ze wzmocnieniem, lecz także uczenia się maszyn i sztucznej inteligencji w ogóle.

O statnio w kilku pracach opisano udane zastosow ania uczenia się ze wzmocnieniem do problem ów optym aliza

cji kom binatorycznej, m.in. problem u kom iw ojażera [ 10]

i problem u szeregowania zadań [24], Obiecujące są także wyniki uzyskane przy stosow aniu pewnej wersji algoryt

mu Q-learning do adaptacyjnego znajdow ania optym al

nych połączeń (routingu) w sieciach z kom utacją pakie

tów [13]. Z pewnością wiele innych obiecujących za

stosow ań czeka jeszcze na swoich odkrywców.

★ ★ ★

Uczeniu się ze wzmocnieniem w jego dzisiejszym kształcie dały początek w pierwszej połowie lat osiemdziesiątych pionierskie prace Andrew G. B arto i Richarda S. Suttona [3,17], który opracow ał nie om ówiony tu z braku miejsca algorytm AHC (ang. Adaptive Heuristic Critic).

Kolejnym krokiem milowym była praca C hristophera W atkinsa [22], który odkrył bliskie pokrewieństwo zaga

dnień badanych wcześniej przez S uttona z teorią stochas

tycznego program ow ania dynam icznego i opierając się na tych pokrew ieństw ach zaproponow ał algorytm Q -lear

ning. Osiągnięcia te stworzyły podstaw ę do dalszego rozwoju dziedziny, który wyraźnie nabrał tem pa na początku lat dziewięćdziesiątych, aby w ostatnich dwóch- -trzech latach zaowocować gwałtownie rosnącą liczbą publikacji, opisujących nowe rezultaty teoretyczne, prace eksperym entalne, zastosow ania w coraz bardziej złożo

nych i realistycznych środowiskach. Świadectwem tego rozwoju są, między innymi, poświęcone uczeniu się ze wzmocnieniem dwa specjalne num ery czasopism a M achi

ne Learning (pierwszy - Vol. 8, 1992, drugi - ukaże się w tym roku). N a ubiegłorocznej m iędzynarodowej k o n ferencji na tem at uczenia się maszyn (The Twelfth Inter

national Conference on M achine Learning, Tahoe City, USA) spośród 68 prezentow anych referatów kilkanaście poświęconych było uczeniu się ze wzmocnieniem. P lan o wane jest wydanie w Stanach Zjednoczonych pierwszej książki w całości poświęconej temu tematowi, autorstw a B arto i Suttona.

Jednocześnie w dziedzinie uczenia się ze wzmocnieniem pozostaje wiele problem ów otw artych, które czekają na nowe propozycje rozwiązań. D otyczą one między innymi szybkości uczenia się, ograniczeń zakresu stosowalności dostępnych algorytm ów, integracji uczenia się i planow a

nia, konstruow ania systemów o strukturze hierarchicznej.

Wszystkie one są właściwie związane z jednym wspólnym celem, którym jest zwiększenie skuteczności istniejących m etod na tyle, aby m ożna było je stosow ać z powodze

niem do dużych i realistycznych problemów.

O b a powyższe spostrzeżenia (gwałtownie zwiększające się zainteresowanie z jednej strony oraz duża liczba wciąż nie rozwiązanych problem ów z drugiej) nie pozostaw iają wątpliwości, że w arto zwrócić uwagę na dziedzinę uczenia się ze wzmocnieniem i usprawiedliwiają popularyzator

ską funkcję tego artykułu. Jego ograniczona objętość pozwoliła jedynie na pobieżne omówienie najbardziej podstaw ow ych zagadnień. Czytelników zainteresow a

nych uzyskaniem bliższych informacji na ten tem at au to r gorąco zachęca do bezpośredniego kontaktow ania się z nim.

L IT E R A T U R A

[1] Barto A. G.: Reinforcement learning and adaptive critic methods.

D. A. W hite, D. A. Sofge (Eds.): H andbook of Intelligent C ontrol, pp. 469-491. Van N o stran d Reinhold, New York, 1992

[2] Barto A .G ., Singh S. P.: O n the com putational econom ics of reinforcement learning. Proceedings o f the 1990 Connectionists M odels Sum m er School. M organ K aufm ann, 1990

[3] Barto A. G., Sutton R. S., A nderson C. W.: N euronlike adaptive ele

ments that can solve difficult learning control problems. IEE E T ran s

actions on Systems, M an, and Cybernetics, 13, pp. 835-846, 1983 [4] Bellman R. E.: D ynam ic Program m ing. Princeton U niversity Press,

Princeton, N J, 1957

[5] Bole L., Z arem ba J.: W prow adzenie do uczenia się maszyn. A kade

micka Oficyna W ydawnicza RM , 1992

[6] C arbonell J. G., M ichalski R. S., Mitchell T. M.: An overview of m a

chine learning. R. S. Michalski, J. G. Carbonell, T. M. Mitchell (Eds.):

M achine Learning: An Artificial Intelligence A pproach, Vol. 1.

Tioga (obecnie M organ Kaufmann), 1983

[7] Cichosz P.: T runcating tem poral differences: O n the efficient im

plem entation of TD(,l) for reinforcement learning. Jo u rn al of Ar

tificial Intelligence Research, 2, pp. 287-318, 1995

[8] Cichosz P.: T runcated tem poral differences with function ap proxi

m ation: Successful examples using CM AC. U każe się w: Proceedings of the T hirteenth European Symposium on Cybernetics and Systems Research (EMCSR-96), 1996

[9] Cichosz P., M ulaw ka J. J.: F ast and efficient reinforcement learning with truncated tem poral differences. Proceedings of the Twelfth International Conference on M achine Learning (ML-95), 1995 [10] G am bardella L. M., D origo M.: Ant-Q: A reinforcement learning

approach to the traveling salesm an problem . Proceedings of the Twelfth International Conference on M achine Learning (ML-95), 1995

[11] G ullapalli V.: Reinforcement Learning and Its A pplication to Control. P h D thesis, D epartm ent o f C om puter and Inform ation Science, University of M assachusetts, 1992

[12] Long-Ji Lin: Reinforcement Learning for R obots Using N eural N etw orks. P hD thesis, School of C om puter Science, Carnegie- -M ellon University, 1993

[13] L ittm an M. L., Boyan J. A.: A distributed reinforcement learning scheme for netw ork routing. Technical Report CM U-CS-93-165, School o f C om puter Science, Carnegie-M ellon University, 1993 [14] M ahadevan S., Connell J.: A utom atic program m ing o f behavior-

-based robots using reinforcem ent learning. Artificial Intelligence, 55, pp. 311-365, 1992

[15] M insky M . L.: Steps tow ard artificial intelligence. Proceedings o f the Institute of Radio Engineers, 1961. Przedruk w E. A. Feingenbaum , J. Feldm an (Eds.): C om puters and T hought, M cG raw -H ill, New York, 1963

[16] M itchell T. M.: M achine Learning (w przygotow aniu)

[17] S u tto n R. S.: T em poral Credit Assignment in Reinforcement L ear

ning. P hD thesis, D epartm ent of C om puter and Inform ation Science, U niversity of M assachusetts, 1984

[18] Sutton R. S.: Learning to predict by the m ethods o f tem poral differences. M achine Learning, 3, pp. 9 -4 4 , 1988

[19] Sutton R.S., B arto A .G ., Williams R.J.: Reinforcement learning is direct adaptive optim al control. Proceedings o f the American C ontrol Conference. Boston, MA, 1991

[20] T esauro G.: N eurogam m on wins com puter olym piad. N eural C o m putation, 1, pp. 321-323, 1990

[21] T esauro G.: Practical issues in tem poral difference learning. M achine Learning, 8, pp. 257-277, 1992

[22] W atkins C .J .C . H.: Learning from Delayed Rewards. P h D thesis, K ing’s College, Cam bridge, 1989

[23] W atkins C. J. C. H., D ayan P.: Technical note: Q-learning. M achine Learning, 8, pp. 279-292, 1992

[24] Z hang W., D ietterich T. G.: A reinforcem ent learning ap p ro ach to jo b-shop scheduling. Proceedings o f the F o urteenth Jo in t In ter

national Conference on Artificial Intelligence (lJCAI-95), 1995.

K ontakt z Autorem:

cichosz@ipe.pw.edu.pl

http://www.ipe.pw.edu.pl/ ~ cichosz

(12)

m

N

U

ooX

u s

en

f t .

a a N J* v*-i

C o '

° É

60 5 N g>

U •§

s! s J - i

I

_er

p-

s

&

o

> -i _

ê °

J i H

•* (/)

a d ą s

in oo ^«HH à o

u ^

- «N

<N ><

-1ÍO

2

£ ' O - X

‘ S

¡s N U UN

Ut

3 3N U Ua

“</îc ?