y
i
T l
■
BW
W g
i
9i i
a
•'■ r|S... ■ >
1 I I
Kadra naukowa pilnie poszukiwana
Każdego dnia w prasie można znaleźć co naj
mniej kilkanaście ofert pracy dla informatyków.
Poszukiwani są administratorzy systemów i ich projektanci, pracownicy działów sprzedaży i ser
wisu, programiści pracujący we wszystkich ist
niejących językach programowania, nawet tych najstarszych. Ogłoszenia te powtarzają się wielo
krotnie, co oznacza, że stanowiska nadal nie są obsadzone. Trwa też swoista karuzela kadry.
Nawet ci, którzy nie najlepiej bywali oceniani w poprzedniej firmie, odchodząc natychmiast znajdują nową pracę, i to z reguły na lepszych warunkach. Nagminnie występuje podkupywa- nie pracowników firm komputerowych. Przy
czyna jest prosta: rozwój naszego rynku infor
matycznego sprawia, iż podaż na rynku pracy nie nadąża za popytem. W niektórych specjalizac
jach podaż jest nieomal zerowa. Aby wykształcić projektantów systemów, integratorów i anality
ków systemowych nie starcza wiedzy zdobywanej na uczelniach, trzeba jeszcze stałej współpracy z praktykami, którzy potrafią przekazywać swoją
Krystyna Karwicka
wiedzę. A takich nadal jest u nas jeszcze jak na lekarstwo.
Przyczyny tego, że podaż na rynku pracy nie nadąża za popytem, zostały dokładnie określone na I Kongresie Informatyki Polskiej (Poznań, 1-3 grudnia 1994 r.). Studia na wszystkich kie
runkach informatycznych państwowych wyż
szych uczelni - matematycznym, technicznym i ekonomicznym - kończy rocznie zaledwie kil
kuset studentów. Wprawdzie coraz większą rolę w kształceniu informatyków zaczynają odgrywać szkoły niepaństwowe, a także powstające na państwowych wyższych uczelniach studia podyp
lomowe i zaoczne, ale na ich absolwentów jeszcze trochę trzeba poczekać.
Wszystkie wyższe szkoły, zwłaszcza państwo
we, cierpią na niedobór kadry dydaktycznej.
W Raporcie kongresowym zostało to określone w sposób jasny: Najpoważniejszym zagrożeniem dla przyszłości rozwoju informatyzacji w Polsce jest zmniejszenie się liczebności kadr w uczelniach i obniżenie poziomu nauczania oraz brak motywa
cjifinansowych dla nowych kadr. Wszystkie uczel
nie alarmują, że liczebność kadry dydaktycznej w zastraszającym tempie ubywa. Przyczyna jest bardzo prosta: absolwent, a nawet student kie
runku informatycznego na dzień dobry otrzymu
je w firmie pensję nieraz i trzykrotnie przewyż
szającą apanaże pracowników naukowych.
Wśród osób, które decydują się podjąć pracę dydaktyczną, ze świeczką trzeba szukać takiej, która by nie dorabiała poza uczelnią różnymi sposobami do akademickiej pensyjki. W nie
których specjalnościach najbardziej na rynku pracy deficytowych, takich jak analitycy sys
temów, integratorzy, administratorzy sieci - uczelnie nie są w stanie znaleźć chętnych do prowadzenia zajęć dydaktycznych. Zresztą i w fir
mach są oni na wagę złota. Chociaż coraz po
wszechniej informatyką interesuje się młodzież szkół średnich, a także podstawowych, coraz trudniej jest o nauczycieli informatyki.
dokończenie na
s.34 ^
Od teorii do praktyki
Z prof. dr. hab. Janem M adeyem - prodziekanem Wydziału M a te m a ty k i, Inform atyki i Mechaniki U niw e rsyte tu W arszawskiego - na te m a t zmian w uniw ersyteckim nauczaniu inform atyki
- rozm aw ia Krystyna Karwicka
- J a k ie j w iedzy m oże o czekiw ać od absolwenta W ydziału M a te m a ty k i, In fo rm a ty k i i M e c h a n ik i je g o praco
dawca?
- To pow inna być osoba, która posia
dła znajom ość kanonów wyższej m a
tem atyki i informatyki, umie rozwią-
dokończenie na
s. I ^Cena 5,00 zł (50 0 0 0 zł)
T ak d o b r a to m a to p o w ie d z ia n e , b o p rz e c ie ż d ru k u je z ro z d z ie lc z o ś c ią 6 0 0 d p i i ja k o śc ią lasera (ostre ko n tu ry , ła g o d n e łuki, sz e ro k a sk a la sz aro ści). C z y to tekst c z y grafika w y p u s z c z a 4 stro n y n a m in u tę na p a p ie ra c h ró ż n y c h fo rm a tó w . T ak d o b ra b o p r z e z n a c z o n a d o p ra c y w śro d o w isk u W in d o w s 3.1 i W in d o w s 9 5 . T ak d o b ra , tak sz y b k a, tak p ro sta w o b s łu d z e z a 9 9 9 z ł - i m o ż e s z ją m ie ć .
_ _ _ J
People to People Technolog)'
|d teorii do praktyki
d o k o ń c z e n i e z p ie r w s z e j s t r o n y o k ł a d k i
zywać problemy, m a zdolność szyb
kiego uczenia się nowych rzeczy oraz zna różne stosow ane n a świecie now o
czesne m etody i narzędzia (aczkolwiek nie musi mieć ich opanow anych z n ad zwyczajną zręcznością).
- C zy na sz dynam icznie rozw ijający się ryn ek in fo rm a tyczn y wpływa na p ro g ra m y nauczania in fo rm a tyki?
- Tak, ale pam iętajm y, że Uniw er
sytet musi nauczać przede wszystkim podstaw, pewnych niezmiennych za
sad oraz rozwijać naukę. Inform atyka z racji swego młodego wieku bardzo się zmienia i pewne problemy, które przed dwudziestu laty mogły być przedm iotem badań doktorskich, przed dziesięcioma laty starczyłyby może na m agisterium, teraz bywają om awiane na ćwiczeniach czy labora
toriach. Określenie tego, co jest w in
formatyce trwałe, co się nie zdeak- tualizuje, nie jest rzeczą łatwą. S tara
my się jed n ak m odernizow ać progra
my nauczania tak, aby z jednej strony zachować ów uniwersytecki charakter studiów, a z drugiej dobrze przygoto
wać naszych absolw entów do pracy w pozaakadem ickim środowisku. Jed
nakże nie zawsze możemy zaoferować atrakcyjne zajęcia, do niektórych b ra
kuje nam specjalistów. T rudno na przykład oczekiwać od kolegi, który zajmuje się teorią typów, by poprow a
dził dobry wykład z sieci kom putero
wych. Zatrzym anie na uczelni kogoś, kto zna się dobrze na nowoczesnych, praktycznych działach informatyki, jest bardzo trudne, bo takie osoby zarabiają w ielokrotnie więcej w fir
m ach kom puterowych. P onadto, wy
niki naukow e trudniej uzyskuje się w dziedzinach, które wiążą się z p rak tycznym zastosowaniem , a od takich wyników zależy przecież kariera ak a
demicka. Poza m odernizacją samych program ów nauczania, a dotyczy to nie tylko inform atyki, ale może nawet w większym stopniu m atem atyki (bo popyt na „czystych” m atem atyków jest coraz mniejszy), unowocześniamy także strukturę i tok studiów. Część osób będzie mogła zakończyć naukę po trzech latach, bez magisterium, z tytułem licencjata. Oferujemy różne potoki studiów, pozwalające zdoby
wać przydatne kwalifikacje w w ybra
nych zastosowaniach, np. w m atem a
tyce finansowej. Od czterech lat p ro wadzimy także płatne trzyletnie zawo
dowe studia informatyczne, z oddziel
nym program em , w którym jest mniej teorii, a więcej praktyki i ćwiczeń w laboratoriach. Staraliśmy się jed nak, aby ten program dawał szansę kontynuacji studiów na poziomie m a
gisterskim i część absolwentów ZSI z tego korzysta. C hoć więc z racji naszej wspólnoty z m atem atykam i studia informatyczne na naszym W y
dziale dają świetne przygotowanie teoretyczne i metodyczne, dbam y tros
kliwie także i o tych, którzy nie mając na celu kariery akademickiej są bar
dzo potrzebni w kraju na różnorod
nych stanow iskach pracy. Patrząc na popularność naszego W ydziału sądzę, że udaje się nam to nieźle robić.
- C zy wielu studentów j e s t gotow ych zrezygnow ać z tytułu m agistra na rzecz wcześniej p o d ję te j pracy?
- Tak, i nic dziwnego, skoro i bez tytułu m ogą uzyskać atrakcyjną pracę oraz uposażenie przewyższające pen
sję profesora z 30-letnim stażem.
- P olscy in fo rm a tycy są bardzo ce
nieni za granicą. A le w kra ju n a rzeka się na b ra k ta kich specjalistów , j a k na p r z y k ła d integrator system u.
- Na to składa się kilka przyczyn.
Najważniejsza to w spom niana już że
nująca sytuacja finansowa nauczycieli akadem ickich. T rudno jest zatrzym ać na uczelni młodych, zdolnych ludzi zainteresowanych popularnym i p rak tycznymi działami inform atyki, jak sieci kom puterow e czy bazy danych.
Ci, którzy się na tym znają, mogą sprzedać swoją wiedzę za duże pienią
dze. D latego też pewnych kierunków nie możemy rozwijać w stopniu wy
starczającym. Ale chciałbym jeszcze raz obalić mit, że na Uniwersytecie kształci się tylko „teoretyków ”. W arto może przypomnieć, że to ekipa stu
dentów naszego W ydziału wygrywa
jąc jesienią 1994 roku w Am sterdam ie eliminacje, aw ansow ała do św iato
wych finałów prestiżowego studenc
kiego konkursu program istycznego, organizow anego przez am erykańskie towarzystwo naukow e ACM (jako pierwsza polska drużyna w dziewięt
nastoletniej historii tych konkursów).
Założeniem konkursów ACM jest ze
społowa praca i nie tylko znalezienie algorytmów, ale i bezbłędne ich zako
dowanie w zadanym środowisku. Je
sienią 1995 roku powtórzyliśmy ten sukces, wygrywając eliminacje tym ra
zem w Bratysławie i z 1001 drużyn awansowaliśmy do 43 zespołowej czo
łówki światowej, znowu ja k o jedyny zespół z Polski (Europę reprezentow a
ło 10 drużyn, 5 było z Dalekiego W schodu, jedna z Australii, jedna z Nowej Zelandii, a reszta to Am eryka Północna).
- C zy w nauczaniu in fo rm a ty k i nie dałoby się wprowadzić w życie lan
sowanego u nas bez e fektó w hasła:
więź n a u ki z p rzem ysłem ? To roz
w iązałoby p ro b lem y fin a n so w e nau
czycieli akadem ickich.
- Tak, ale brak jest mechanizmów, które by to umożliwiły. N a Zachodzie o zweryfikowanie znaczącego systemu informatycznego prosi się naukow ców; sam brałem w K anadzie udział w końcowej fazie prac mających na celu sprawdzenie popraw ności oprog
ram ow ania sterującego awaryjnym wyłączaniem elektrowni atomowej.
Przy wykonywaniu takiego zadania naukow cy zdobywają dodatkow e d o świadczenie (i niebanalne korzyści fi
nansowe), ich badania są inspirowane ważnymi zastosow aniam i, a wyniki prac są publikow ane w dobrych cza
sopismach. Podejmowaliśmy dawniej próby takiej współpracy, m.in. z prze
mysłem chemicznym, mieliśmy swego czasu k o n tak t z Żarnowcem , negoc
jowaliśm y z FSM , ale nic sensownego z tego nie wyszło. Także obecnie p ro wadzimy rozmowy z różnymi k rajo wymi i zagranicznym i instytucjam i oraz firmami, ale nawiązanie długo
terminowej współpracy gwarantującej uczestniczącym osobom i godziwe wa
runki finansowe i możliwość w ykaza
nia się publikowalnym i wynikami, nie jest łatwe. A przy tym trudno jest znaleźć entuzjastów do niepewnego przedsięwzięcia, gotowych do szybkie
go działania - w iadom o bowiem p o wszechnie, że każdy pracow nik n a u kowy, by utrzym ać rodzinę jest uwik
łany w tysiące różnych prac, których nie zostawi dla niepewnej doraźnej korzyści. Kiedy pow staną m echani
zmy pozwalające na podejm ow anie w spółpracy z firmami, to będzie to z obopólną korzyścią i w szczegól
ności wspomoże nauczanie praktycz
nych dziedzin informatyki.
- D zięku ję Panu za rozm ow ę.
Inform atyka nr 4. 1996 r.
1
Zastosowanie komputera do automatycznego układania rozkładu zajęć dla szkoły wyższej
Beata Jendrzejczyk Marek Skotnorowski
In s ty tu t In fo rm a ty k i U n iw e rs y te t Ja g ie llo ń s k i
K ra k ó w
Zastosow anie kom putera do układania rozkładu zajęć jest tem atem wielu publikacji. N a przykład, zamieszczona w [5] literatura liczy około 300 pozycji dotyczących zastosow ania kom putera do układania rozkładu zajęć.
W typowym problem ie układania rozkładu zajęć w szkole wyższej w ystępują uczestnicy w sensie ogólnym, tj. stu
denci, sale wykładowe, lab o rato ria itd. W ystępuje rów nież zbiór godzin (jednostek lekcyjnych). D ostępność określa podzbiór godzin, w których każdy z uczestników może brać udział w zajęciach, do których został przypisa
ny. K ażde spotkanie jest opisane przez zbiór wszystkich uczestników przypisanych do danych zajęć oraz liczbę godzin określających czas ich trw ania. Rozkład zajęć jest harm onogram em przypisującym wszystkim przewidzia
nym spotkaniom godziny ich przeprow adzenia, speł
niającym jednocześnie podstaw ow e żądanie: żaden z uczestników nie może być zaplanow any więcej niż jeden raz o tej samej godzinie. Powyżej został przedstaw iony problem podstawowy. W praktyce, w zależności od typu szkoły wyższej, istnieje duża różnorodność żądań specjal
nych, które rozkład zajęć powinien uwzględniać.
Problem układania rozkładu zajęć jest problem em N P-zupełnym ([1-2]). O znacza to, że nie istnieje efektyw
ny, to znaczy o wielomianowej złożoności obliczeniowej algorytm konstruow ania optym alnego, ze względu na przyjęty wskaźnik jakości, rozkładu zajęć w przypadku ogólnym.
Prezentow any tu kom puterow y system autom atycz
nego układania rozkładu zajęć jest oparty na algorytm ie heurystycznym, przedstaw ionym w [ 4 ,6], którego działa
nie m ożna opisać ogólnie w następujący sposób.
N a podstaw ie danych wejściowych jest przygotow yw a
na lista zajęć do zaplanow ania. Każde zajęcia mają określony priorytet. Priorytety zajęć są wyliczane na podstaw ie analizy danych wejściowych. N astępnie al
gorytm próbuje ułożyć kolejno wszystkie zajęcia z listy zajęć do zaplanow ania, rozpoczynając od zajęć o najwyż
szym priorytecie, spełniając jednocześnie ograniczenia podane w danych wejściowych. Zajęcia ułożone są usuwa- 7
ne z listy zajęć do zaplanow ania. W przypadku ułożenia wszystkich zajęć algorytm kończy pracę. W przeciwnym przypadku priorytety zajęć nie ułożonych są zwiększa-
Rozklad z a ję ć ( )
|
W C Z Y T A J_ d a n e ();
P R Z Y P IS Z _ zajęcio m _ p rio ry tety ();
iteracja = i;
w skaźnik J a k o ś c i = 1;
w h ite ( ( w skaźnik j a k o ś c i > 0 ) i ( iteracja < M A X ITER A CJI ) )
I
PO SO R T U J_zajęcia_w edlug_przypisanych im _ p rio ry te tó w ();
w skaźnik j a k o ś c i = U Ł Ó Ż _ R 0 Z K 1 A D _ ();
/* funkcja zw raca 0 (w przypadku /* uło żen ia w szystkich zajęć) lub I* liczbę godzin nie ułożonych if ( w skaźnik j a k o ś c i > 0 )
i
if ( iteracja = 1 ) /* rozkład zajęć układany pierw szy raz
ji
Z A P A M IĘ T A J_ u lo żo n y _ ro zk lad _ zajęć ();
Z A P A M IĘ T A JJistę _ z a ję ć _ n ie _ u lo ż o n y c h ();
1
else
I
P O R Ó W N A J_ z_ n a jIep szy m _ u zy sk an y m _ d o ty ch c zas_ ro zk lad em _ zajęć ():
if ( uło żo n y _ w _ b ieżącej_ iteracji_ ro zk ład _ zajęć j e s t j e p s z y )
!
Z A P A M lĘ T A J_ u ło ż o n y _ ro z k ła d _ z a ję ć ();
Z A P A M łĘ T A JJistę _ z a ję ć _ n ie u ło ż o n y c h f):
I
} /* else
Z.W1F;KSZ_PRIO RY TETY z a ję ć _ n ie _ u ło ż o n y c h ();
} /* if ( /* w hile
\V Y P IS Z _ N A JL E P S Z Y _ u ło żo n y _ ro zk lad _ zajęć():
i f ( lista _ z a ję ć _ m e _ u ło ż o n y c h _ m e je s t_ p u s ta ) W YPISZ listę _ z a ję ć _ n ie _ u lo ż o n y c h ():
) /* R ozkład zajęć */
R y s. 1. A lg o ry tm u k ła d a n ia ro z k ła d u zajęć
Inform atyka nr 4. 1996 r.
nc i przygotow yw ana jest lista zajęć do zaplanow ania, uwzględniająca wyższe priorytety zajęć poprzednio nie ułożonych. N astępnie algorytm próbuje kolejny raz uło
żyć zajęcia z listy zajęć do zaplanow ania. Poszukiw anie kolejnych rozw iązań jest kontynuow ane do m om entu ułożenia wszystkich zajęć z listy zajęć do zaplanow ania lub do m om entu uzyskania rozw iązania najlepszego, ze względu na przyjęty w skaźnik jakości, w ram ach zadanej liczby prób (kolejnych iteracji algorytmu). Jako wskaźnik jakości została przyjęta liczba godzin nie ułożonych w danym rozkładzie. W dow olnym momencie obliczeń są pam iętane co najwyżej dw a rozkłady zajęć: układany w danej iteracji algorytm u i najlepszy spośród rozkładów uzyskanych w poprzednich iteracjach. Po uzyskaniu rozw iązania końcowego są w yprow adzane rozkłady dla poszczególnych zajęć, wykładowców i sal. W przypadku nie ułożenia wszystkich zajęć jest wyprow adzany również zbiór zajęć nie zaplanow anych. O m ów iony algorytm jest pokazany na rysunku 1.
D ane wejściowe systemu są zapisywane w trzech pli
kach zawierających informacje o zajęciach, salach i wy
kładowcach. Fragm ent przykładowego pliku zawiera
jącego informacje o zajęciach jest pokazany na rys. 2.
#
1. U kłady cyfrow e 2. UC
3 . 1
01. d r M . S kom orow ski 0 2 .4 0
03. 2
11. dr M. Skom orow ski 12. 2 0
13. 2
21. m gr H. T eleg a 2 2. 20
2 3 .2
U
R y s. 2. F ra g m e n t p rz y k ła d o w e g o p lik u zaw ierająceg o in fo rm a c je o zajęciach
Fragm ent ten zawiera informacje na tem at wykładu zatytułow anego „U kłady cyfrowe” (pole 1) o kodzie U C (pole 2), należącego do grupy przedm iotów inform atycz
nych (kod I w polu 3). W ykład ten jest planow any dla 40 osób (pole 02) z dwiema grupam i ćwiczeniowymi (pola 11,
# 221 50
n
217 p 16
zajęta czw 16.00 - 20.00, pt 8 - 16
#
218 p 16
#
R y s. 3. F ra g m e n t p rz y k ła d o w e g o p lik u zaw ierająceg o in fo rm a c je o sa lach
21) dla 20 osób (pola 12,22). W ykład i ćwiczenia będą się odbywać raz w tygodniu (pole 03 - wykład, pola 13, 23 — ćwiczenia). P odane są również nazwiska prow adzących w ykład (pole 01) i ćwiczenia (pola 11, 21). Z nak # jest separatorem poszczególnych zajęć. W pliku tym m ożna podać również inne informacje. N a przykład: w ym agania dotyczące term inu i sali dla danych zajęć, wym agania dotyczące tego, ile razy w tygodniu i po ile godzin pow inny odbywać się dane zajęcia. W przypadku kiedy zajęcia z tego samego przedm iotu odbywają się dw a razy w tygodniu, m ożna podać, ja k długa m a być przerw a między nimi.
Fragm ent przykładowego pliku zawierającego infor
macje o salach jest pokazany na rys. 3. Fragm ent ten zawiera informacje o trzech salach (221, 217, 218). Sala 221 może pomieścić 50 studentów . Sale 217 i 218 są pracow niam i kom puterow ym i (p ) mogącymi pomieścić 16 osób. Sale 221 i 218 są dostępne w ciągu całego tygodnia. Sala 217 jest zajęta w czw artki w godzinach od 16:00 do 20:00 i w piątki w godzinach od 8:00 do 16:00.
Z nak # jest separatorem poszczególnych sal.
u
dr M. Skom orow ski
1 .p n 8 .0 0 - 2 0 .0 0 , pt 8 .0 0 - 1 0 .0 0 2. w t. sr, czw 8.00 - 2 0.00
U
R ys. 4. F ra g m e n t p rzy k ła d o w e g o p lik u zaw ierający in fo rm a c je o p ro w a d z ą c y c h zajęcia
F ragm ent przykładow ego pliku zawierającego infor
mację o dostępności prow adzących zajęcia jest pokazany na rys. 4. Zaw iera informację o ograniczeniach czasowych prow adzącego zajęcia. Pole 1 zaw iera informacje o ter
m inach, w których prow adzący zajęcia nie jest dostępny, a pole 2 o term inach preferowanych przez prow adzącego zajęcia.
U kłady cyfrow e UC
w ykład: dr M. Skom orow ski sr 14 - 16 s 221 grupy cw iczeniow e:
g r.l dr M . Skom orow ski sr 12 - 14 s 221 gr.2 m g rH . T eleg a sr 12 - 14 s 205
R y s. 5. F ra g m e n t p rz y k ła d o w e g o ro z k ła d u dla zajęć
Godzina Poniedziałek Wtorek Środa Czwartek Piątek
8 - 9 MD2 w WDMw LSKw
9 -1 0 MD2 w WDM w LSKw
10- 11 RPS w MT w WDIw ALI r t . 3
11-12 RPS w MT w WDIw ALI Rr.3
12-13 RPS w WDI w UCcr.l MP2 rt.3 ALI gr.3
13- 14 WDIw UCgr.l MP2 gr.3
14-15 ALI w MP2 w UC w
15-16 ALI w MP2 w UC w
16- 17 ALI w TPęr.l WZTW w
17-18 MN A w TPgr.l WZTWw
18-19 MNA w TP w
19-20 NI w TP w
R ys. 6. F ra g m e n t p rz y k ła d o w e g o ro z k ła d u d la sal sa la 221
dokończenie na
s.14 ^
Inform atyka nr 4, 1996 r. 3
publikacje
Wprowadzenie do systemów uczących się ze wzmocnieniem
Paweł Cichosz
Instytut Podstaw Elektroniki Politechnika Warszawska
A r t y k u ł r e k o m e n d o w a n y
Artykuł ma na celu przybliżenie Czytelnikowi m ało znanego w Polsce, a bez wątpienia godnego uwagi i budzącego gwałtownie rosnące w ostatnich latach zainteresowanie na świecie, działu uczenia się maszyn, nazywanego uczeniem się ze wzmocnieniem (ang.
rein fo rcem en t learning).Jest to jeden z najnowszych podobszarów uczenia się maszyn, przeżywający w ostatnich latach prawdziwą eksplozję wzrostu zainteresowania i zaliczany do tzw. „gorących tem atów” , zwłaszcza w U SA , natomiast bardzo słabo znany w Polsce. Czytelników zainteresowanych bardziej wszechstronną dyskusją różnych metod uczenia się maszyn odsyłamy do prac [5, 6, 16].
Rozważa się w nim problemy, w których uczący się system m a zadanie nauczenia się podejm ow ania decyzji w pewnym nieznanym środow isku, n a podstaw ie skalar
nych rzeczywistoliczbowych wartości nagrody lub kary.
K oncentrow ać się będziemy na najbardziej interesują
cym przypadku, w którym owe nagrody lub kary m ogą być opóźnione w stosunku do akcji systemu, których są konsekwencją. Po scharakteryzow aniu paradygm atu uczenia się ze wzmocnieniem i jego miejsca w dziedzinie uczenia się maszyn, rozważym y kluczowy dla jego realiza
cji praktycznej problem tem poralnego przypisania za
sługi. O m ówiony zostanie najbardziej obecnie znany i najczęściej stosow any algorytm rozwiązywania tego problem u, Q-learning. A rtykuł zam knie przegląd najb ar
dziej obiecujących obszarów zastosow ań systemów uczą
cych się ze wzmocnieniem.
Uczenie się w sztucznej inteligencji
Wysiłki badawcze, podejm ow ane już od p onad czter
dziestu lat w dziedzinie sztucznej inteligencji (SI), m ają na celu wypracowanie m etod, dzięki którym możliwe byłoby konstruow anie sztucznych systemów (kom puterowych) zdolnych do wykonyw ania zadań, o których sądzi się, że wymagają inteligencji pokrewnej (w każdym razie pod pewnymi względami) inteligencji ludzkiej. Takie, tyleż
am bitne co nieprecyzyjne określenie tej dziedziny, było i wciąż bywa przyczyną wielu kontrow ersji, dotyczących zarów no tego, co do niej należy, a co nie, jak i tego, czy w ogóle może o na rościć sobie praw a do m iana dyscypliny naukowej.
Elementem inteligentnego zachow ania, którego klu
czowa rola jest najbardziej chyba bezdyskusyjna, jest zdolność do uczenia się. Spośród wielu możliwych defini
cji uczenia się, podaw anych zarów no w kontekście ucze
nia się ludzi, zwierząt, ja k i maszyn, wybierzmy n ajprost
szą: Uczenie się je st procesem poprawy jakości działania systemu na podstawie doświadczeń z przeszłości. Z kon tek stu związanego z konkretnie rozw ażanym procesem ucze
nia się wynika, co dokładnie rozum ie się przez popraw ę jakości działania i jak i rodzaj doświadczeń może być wykorzystywany do jej osiągnięcia. Zawsze m ożna jednak przyjąć, że jej niezbędnym w arunkiem jest zdobywanie i doskonalenie wiedzy lub umiejętności oraz odpowiednie ich wykorzystywanie w dalszych działaniach systemu.
Paradygm aty uczenia się
W dalszej dyskusji posłużymy się ogólnym schem atem interakcji systemu uczącego się z jego środowiskiem przedstaw ionym na rys. 1. Bez istotnego zm niejszania ogólności rozw ażań m ożna przyjąć, że interakcja ta polega na obserw ow aniu przez system uczący się ak tu al
nego stanu środow iska oraz generow aniu w odpowiedzi
R y s. 1. O g ó ln y s c h e m a t in te ra k c ji sy ste m u ucząc eg o się ze śr o d o w iskiem
Rekomenduje:
P ro f. d r h a b . J a n J. M u la w k a Instytut Podstaw Elektroniki Politechnika Warszawska
4
P ra c a w sp ie ra n a przez K B N w r a m a c h g r a n tu n r 8 S503 019 05.
Inform atyka nr 4„ 1996 r.
na ten stan pewnej akcji na podstaw ie jego aktualnej wiedzy. Systemowi może być dostarczona inform acja trenująca, której źródło będziemy, w zależności od jej charakteru, nazywać nauczycielem lub krytykiem . Infor
m acja ta może, w ogólnym przypadku, zależeć zarów no od stanu środow iska, ja k i od wykonanej akcji systemu.
N a podstaw ie interakcji ze środowiskiem z jednej strony oraz informacji trenującej z drugiej strony, system może doskonalić swoją wiedzę lub umiejętności.
U c ze n ie się bez n adzoru
W przypadku uczenia się bez nadzoru (ang. unsupervised learning) celem jest zazwyczaj przetransform ow anie infor
macji wejściowej, dostarczonej ze środowiska, do pew
nych innych form lepiej dopasow anych do dalszego przetwarzania. Typowym przykładem może być zadanie grupow ania (ang. clustering), w którym porcje danych wejściowych (w naszej terminologii reprezentowanych przez stany środow iska) m uszą być podzielone na pewne rozłączne klasy lub kategorie. M oże to dotyczyć zarówno punktów w pewnych przestrzeniach rzeczywistoliczbo- wych, ja k i symbolicznych opisów pewnych obiektów, w tym ostatnim przypadku m am y do czynienia z tzw.
grupow aniem pojęciowym (ang. conceptual clustering).
Zasada, według której następuje transform ow anie da
nych wejściowych w uczeniu się bez nadzoru, jest usta
lona dla określonej klasy zadań, które rozwiązuje system uczący się, i w budow ana do jego wewnętrznej struktury.
Nie ma żadnego źródła zewnętrznej informacji trenującej, które określałoby pożądany sposób działania systemu.
W związku z tym mówi się niekiedy, że systemy uczące się bez nadzoru m ają w budow anego nauczyciela lub kry
tyka.
U c ze n ie się z n a d zo rem
Uczenie się z nadzorem (ang. supervised learning) jest nazywane także uczeniem się z nauczycielem dla podkreś
lenia charakteru wykorzystywanej informacji trenującej.
Pożądany sposób działania systemu jest w tym przypad
ku określany przez zewnętrzne źródło informacji trenują
cej za pom ocą tzw. wzorców trenujących lub przykładów, w podstawowym w ariancie rozum ianych ja k o pary wią
żące przykładowe wejście systemu (stan) z wymaganym dla niego wyjściem (akcją).
Paradygm at uczenia się z nadzorem obejmuje wyraźną większość m etod uczenia się maszyn i wiele różnorodnych problem ów, takich ja k uczenie się opisów pojęć i reguł decyzyjnych z przykładów, indukcja drzew decyzyjnych, indukcyjne program ow anie logiczne, aproksym acja funk
cji i inne. W praktyce inform acja dostarczana przez nauczyciela może przybierać różne formy. W przypadku uczenia się pojęć są to przykłady pozytywne, które musi obejmować opis pojęcia konstruow any przez system, i negatywne, których ten opis obejm ować nie może.
W przypadku uczenia się aproksym acji funkcji każda para trenująca może podaw ać wymagane wyjście dla danego wejścia, w ektor błędu - różnicy pomiędzy doce
lowym a aktualnym wyjściem systemu, bądź też tylko informację gradientow ą, określającą kierunek w prze
strzeni wyjściowej, w którym pow inna ulec zmianie odpow iedź systemu dla danego wejścia. M im o tej różno
rodności, w każdym problem ie uczenia się z nadzorem ,
inform acja trenująca ma charakter dyrektywny i specyfi- kuje bezpośrednio lub pośrednio pożądany sposób zm ia
ny działania systemu.
U c ze n ie się ze w z m o c n ie n ie m
W przypadku uczenia się ze wzmocnieniem (ang. reinfor
cement learning) również istnieje zewnętrzne źródło infor
macji trenującej, m a ono jednak naturę raczej krytyka niż nauczyciela. Inform acja trenująca m a charakter wartoś
ciujący a nie dyrektywny. Zatem systemowi uczącemu się nie mówi się nigdy, jakich akcji oczekuje się od niego w określonych stanach, ani naw et jakie akcje (jeśli w ogóle jakiekolwiek) byłyby lepsze od tych, które on faktycznie wykonuje. D ostarczany jest natom iast skalarny rzeczy wi- stoliczbowy sygnał wzmocnienia, nazywanego także wy
płatą lub nagrodą (karą), stanowiący pewną względną m iarę jakości działania systemu ze względu na stawiane przed nim cele. System musi samodzielnie ustalić, jakie akcje wykonywać w każdym stanie, aby maksymalizować uzyskiwane wartości wzmocnienia. Przyporządkow anie stanom akcji do wykonania, którego uczy się system, nazywać będziemy strategią decyzyjną. W przestrzeni możliwych strategii będziemy wyróżniać strategie opty
malne, wyznaczane w pewien sposób, którego na razie nie precyzujemy, przez wartości nagród, do otrzym ania których prowadzą.
Term in „wzmocnienie” wywodzi się z badań nad uczeniem się zwierząt w psychologii behawiorystycznej.
Po raz pierwszy został on przypuszczalnie w prowadzony do inform atyki przez M insky’ego [15], Podstaw ow a zdrow orozsądkow a idea, ja k a się za nim kryje, jest następująca: jeśli pewna akcja pociąga za sobą zadow ala
jący stan rzeczy lub popraw ę w stanie rzeczy, to tendencja do w ykonywania tej akcji (w danej sytuacji) pow inna zostać wzmocniona [1]. Jak zobaczymy w następnym podrozdziale, pojęcie „pociągania za sobą zadow alające
go stanu rzeczy” może być rozciągnięte na długoter
minowe konsekwencje akcji.
Uczenie się na podstawie opóźnionych nagród
Uczenie się ze wzmocnieniem, chociaż wyodrębnione przez nas najpierw z dziedziny sztucznej inteligencji, a potem z uczenia się maszyn, stanow i sam o w sobie dziedzinę stosunkow o pojem ną. Uściślijmy zatem , które z obejm owanych przez nią zagadnień uważam y za najb ar
dziej interesujące, i na których chcemy się dalej skon
centrować.
P o d s ta w o w y scen ariu sz
Zaczniemy od kilku oznaczeń i uzupełnienia terminologii.
Będziemy używać symboli x„ a, i r, do oznaczenia, odpowiednio, stanu, akcji i wartości wzmocnienia w chwi
li czasu t. Czwórkę złożoną ze stanu, akcji, otrzym anego po jej w ykonaniu w tym stanie wzmocnienia oraz następ
nego stanu nazywać będziemy doświadczeniem systemu.
Przy użyciu wprow adzonych właśnie symboli dośw iad
czenie z kroku czasu t zapiszemy ja k o < x t, a,, rt, x , + 1 > . Podstaw ow y scenariusz uczenia się ze wzmocnieniem m ożna wówczas przedstawić ja k o sekwencję operacji
Inform atyka nr 4, 1996 r. 5
publikacje
w ykonywanych przez system uczący się w każdym kroku dyskretnego czasu t (rys.2).
W każdym kroku czasu /:
1. obserwuj aktualny stan x,;
2. wybierz akcję a, do wykonania w stanie x, zgodnie z aktualną strategią decyzyjną;
3. wykonaj akcję a,\
4. obserwuj wartość wzmocnienia r, i nowy stan ;
5. aktualizuj strategię decyzyjną na podstawie doświadczenia <x„ a„ r„ xl+i).
R ys. 2. P o d sta w o w y sc e n a riu sz u czenia się ze w zm o cn ien iem
Szerokie spektrum algorytm ów uczenia się ze wzmoc
nieniem m ożna przedstaw ić ja k o jego uściślone wersje, przy czym uściślenie dotyczy w gruncie rzeczy tylko jednego (ale za to kluczowego) k ro k u 5, w którym następuje aktualizacja strategii decyzyjnej pod wpływem kolejnego doświadczenia.
Ś ro d o w is k o
Środow isko jest pewnym złożonym systemem, którego stany, zmieniające się pod wpływem akcji systemu uczą
cego się, m ogą być przezeń obserwowane. O dstępując chwilowo od m odelu z rys. 1, założymy dla wygody, że także w artości wzmocnienia są dostarczane przez śro d o wisko. Przyjmiemy, że zarów no zm iany stanów środow is
ka, jak i generowane przez nie nagrody m ogą być, w ogólnym przypadku, stochastyczne. Będziemy też za
kładać, że odpow iadające im rozkłady praw d o p o d o bieństw (w pełni opisujące środowisko) nie są znane systemowi uczącemu się, ale że jednocześnie dostępna mu inform acja wejściowa w postaci stanu, obserwowanego w każdym kroku, jest dostateczna do podjęcia optym alnej decyzji (czyli istotnie optym alna strategia może być reprezentow ana ja k o odw zorow anie ze stanów na akcje).
Powszechnie przyjęty m atem atyczny model dla problem u uczenia się ze wzmocnieniem w tego typu środow iskach stanow i proces decyzyjny M arkowa, dla którego optym al
ne strategie decyzyjne m ogą być odnalezione za pom ocą m etod stochastycznego program ow ania dynamicznego [4], pod w arunkiem jednak, że znane są p raw dopodo
bieństwa zm ian stanów i oczekiwane w artości wzmoc
nienia dla każdej pary stan-akcja. W przypadku, gdy wiedza tak a nie jest dostępna, otw iera się pole do stosow ania m etod uczenia się ze wzmocnieniem.
M ia r a o p ty m a ln o ś c i s tra te g ii
Zadaniem system u uczącego się ze wzmocnieniem jest nauczenie się optym alnej strategii decyzyjnej, to jest takiej, k tó ra prow adzi do optym alizacji pewnej m iary jakości jego działania opartej na otrzym yw anych w artoś
ciach wzmocnienia. W przypadku najbardziej interesują
cym i stanow iącym największe wyzwanie chodzi o m a
ksymalizację nagród w długim horyzoncie czasowym.
System m a więc wybierać swoje akcje tak, aby uzyskiwać wysokie dochody niekoniecznie natychm iast, lecz raczej długoterm inow o. T ak ja k w grze w szachy w arto oddać piona po to, aby kilka ruchów później zagrozić królow i przeciwnika, może opłacać się w ykonać kilka akcji nisko
6
nagradzanych po to, aby po pewnej liczbie kroków stworzyć możliwość uzyskania wysokich w artości wzmo
cnienia. Ten rodzaj uczenia się jest nazywany uczeniem się na podstawie opóźnionych nagród lub uczeniem się z opóź
nionym wzmocnieniem (ang. learning fro m delayed re- wards, delayed reinforcement learning) [17, 22] i właśnie jem u chcemy poświęcić dalszy ciąg tego tekstu.
Z adanie długoterm inow ej m aksymalizacji wzmocnie
nia m ożna form alizować w różny sposób. Ograniczymy się tutaj do zdecydowanie dom inującego obecnie, choć nie wolnego od pewnych niedostatków podejścia, w którym m iarę jakości działania system u określa się ja k o oczeki
w aną całkow itą zdyskontowaną sumę wzmocnienia, jakie uzyskuje on w okresie swojego funkcjonow ania, czyli:
E
gdzie E je s t symbolem wartości oczekiwanej, rv ja k wyżej, oznacza nagrodę otrzym aną w kroku czasu t, zaś 0 <}’ < 1 jest tzw. współczynnikiem dyskontowania (ang. discount factor), który determ inuje stopień względnej ważności nagród bliskich i odległych w czasie. Jeśli 0 < y < l , wartości wzm ocnienia z kolejnych kroków czasu są ważone wykładniczo malejącymi współczynnikami, zgo
dnie ze zdrow orozsądkow ą zasadą, że nagrody stają się mniej atrakcyjne (a kary mniej odstraszające), jeśli m ają być otrzym ane w odległej przyszłości. Aby m aksym alizo
wać powyższe wyrażenie dla dowolnego 7 > 0 system uczący się musi brać pod uwagę nie tylko natychm ias
towe, ale także długoterm inow e konsekwencje swoich akcji.
Realizacja uczenia się ze w zm o cn ien iem
D la realizacji uczenia się ze wzmocnieniem kluczowe znaczenie m a problem temporalnego przypisania zasługi (ang. temporal credit assignment) [17]. Polega on na przypisaniu „zasługi” bądź „winy” za całościowe wyniki działania systemu (a więc jego długoterm inow e nagrody) poszczególnym akcjom podjętym przez system, być może w ykonanym wiele kroków wcześniej, zanim wyniki te mogły być zaobserw ow ane. Obecnie najwięcej uwagi poświęca się algorytm om rozwiązującym ten problem , które są oparte na m etodach różnic czasowych (ang.
temporal differences) S uttona [18], zaś najbardziej zna
nym z nich jest algorytm Q-learning [22, 23].
A lg o ry tm Q -le a rn in g
Algorytm Q -learning konstruuje oszacowanie pewnej funkcji, nazywanej g-funkcją, k tó ra wartościuje wszyst
kie pary stan -ak cja ze względu na oczekiwane przyszłe nagrody. D okładniej, każdej parze stan -ak cja (x,a) przy
porządkow uje on a tzw. g -w arto ść Q (x,a), k tó ra doce
lowo m a być oszacowaniem skum ulow anego zdyskon
tow anego wzmocnienia, jak ie będzie otrzym ane po w yko
naniu akcji a w stanie x, a następnie posługiw aniu się strategią zachłanną względem aktualnych g-w artości (tj. w ybieraniu w każdym kolejnym stanie akcji, której Q -w artość jest największa). Zatem , poniew aż w każdym stanie g-funkcja zawiera (uzyskane n a podstaw ie dotych
Inform atyka nr 4, 1996 r.
z a
>czasowych doświadczeń) informacje na tem at spodziewa
nych przyszłych długoterm inow ych skutków poszczegól
nych akcji, umożliwia o na podejm ow anie optym alnych decyzji bez żadnego kosztownego planow ania czy prze
szukiwania w przód przestrzeni stanów. W każdym kroku g-funkcja jest m odyfikow ana zgodnie z algorytm em przedstawionym na rys. 3. W ystępujące tam odw ołania do g-w artości zawierają indeks t określający krok czasu, z którego w artości te pochodzą.
1. W każdym kroku czasu /:
2. obserwuj aktualny stan x,;
3. wybierz akcję a, do wykonania w stanic x, (na podstawie Q{x„a,) dla każdego a);
4. wykonaj akcję a,\
5. obserwuj wartość wzmocnienia r, i nowy stan x*i;
6. A := r, + y maxfl Q¿xnUa) - Q¿x„a,)\
7. uaktualni/*(Q, x„ a„ A);
R ys. 3. A lg o ry tm Q -le a rn in g
W y b ó r akcji. W kroku 2 następuje w ybór akcji do w ykonania w aktualnym stanie, na podstaw ie wartości g-funkcji dla tego stanu. Jest naturalne, że przy wyborze tym należy preferować akcje o najwyższych g-w artoś- ciach (skoro po ich w ykonaniu oczekiwane są najwyższe przyszłe nagrody), nie może to być jednak wybór w pełni determ inistyczny - wykonywanie zawsze akcji, które obecnie wydają się najlepsze, może uniemożliwić syste
mowi uczącemu się odkrycie innych, być może lepszych akcji. M am y tu do czynienia z tzw. w ym ianą pomiędzy eksploracją (wykonywaniem akcji nie uważanych za najlepsze w celu popraw ienia posiadanej wiedzy) i eks
ploatacją (korzystaniem z aktualnie dostępnej wiedzy w celu zdobyw ania nagród).
N ajprostsze podejście do problem u w yboru akcji za
pewniającego dostateczny poziom eksploracji polega na zastosow aniu pewnego stochastycznego m echanizmu wy
boru. Typowym przykładem może być mechanizm wyko
rzystujący rozkład Boltzm anna, zgodnie z którym praw dopodobieństw o w yboru akcji a* w stanie x jest równe:
Prob(x,a )
.2 , exP
T)a
gdzie param etr T, nazywany temperaturą, jest liczbą dodatnią regulującą stopień losowości wyboru. Stosując duże w artości T uzyskujemy system wybierający akcje w sposób niemal losowy, zaś małe w artości pow odują prawie determ inistyczny w ybór akcji o maksym alnych g-w artościach.
O bliczenie b łę d u . C entralnym krokiem algorytm u jest krok 5, w którym jest obliczany błąd, używany następnie do zm iany g-w artości dla aktualnego stanu i akcji. Jak powiedziano wyżej, g (x, a) m a być oceną oczekiwanej zdyskontow anej sumy wzmocnienia otrzym ywanego po w ykonaniu akcji a w stanie x i następnie zawsze wybiera
niu akcji o m aksym alnych g-w artościach. Wówczas o max„ g (x, a) m ożna myśleć ja k o o pewnej mierze wartości stanu x (i pisać w zam ian V(x)), oceniającej m aksym alne całkowite zdyskontow ane wzmocnienie, ja
Inform atyka nr 4, 1996 r.
kie może być otrzym ane przez system rozpoczynający działanie w tym stanie. Stosow ana przez algorytm Q -lear
ning reguła obliczania błędu pow oduje przybliżenie g-w artości dla aktualnego stanu i aktualnej akcji do sumy natychm iastow ego wzmocnienia otrzym anego po w ykonaniu tej akcji oraz zdyskontow anej sumy wartości następnego stanu:
Q ( x , , a , ) + y K (x ,+1) .
Uzasadnienie dla tej reguły wywodzi się z teorii p ro gram ow ania dynamicznego i nie będziemy go tutaj przy
taczać, odsyłając Czytelników do oryginalnej pracy W at- kinsa [22], Poprzestaniem y na odnotow aniu, że pod pewnymi w arunkam i prowadzi ona do zbieżności g-funkcji do optymalnej g-funkcji, tj. takiej, że strategia zachłanna względem niej jest strategią optym alną. Ściśle sform ułowane twierdzenie o zbieżności algorytm u Q -learning i jego dowód m ożna znaleźć w [23],
R e p re z e n tac ja fu n k cji. K rok 6 algorytm u z rys. 3 wyko
rzystuje wyznaczony w poprzednim kroku błąd do ak tualizacji g-w artości dla aktualnego stanu i aktualnej akcji. O peracja ta, zapisana jak o
uaktualnij^(Q,x, , a , , A),
m a za zadanie zmianę wartości g (xt, at) w ten sposób, aby stała się on a bliższa g (x„ a,) -1- A, w stopniu k o n t
rolowanym przez współczynnik szybkości uczenia /?.
Im plem entacja tej operacji zależy w oczywisty sposób od przyjętej reprezentacji funkcji g .
N ajprostsze podejście polega na przechowywaniu g-w artości w tablicy, zawierającej jeden element dla każdej pary stan-akcja. Wówczas operacja aktualizacji, opisana przez równanie, im plem entow ana jest w n atu ral
ny sposób ja k o przypisanie:
Q ( x , , a , ) : = 0 ( x , , a , ) + pA.
D ostępne rezultaty teoretyczne dotyczące gwarancji zbieżności algorytm u Q-learning dotyczą tego właśnie, najprostszego przypadku [23]. Niestety, reprezentacja tablicow a m a pow ażne wady, zwłaszcza dla bardziej złożonych i realistycznych problemów. Po pierwsze, jej zapotrzebow anie na pamięć, proporcjonalne do liczby stanów i do liczby akcji, może okazać się nieakceptow al- ne. Po drugie, nie pozwala ona na uogólnianie w zbiorach podobnych stanów. W związku z tym były prow adzone liczne, głównie eksperym entalne prace dotyczące w yko
rzystywania przez algorytm y uczenia się ze wzmocnie
niem innych m etod reprezentacji funkcji, na ogół uczą
cych się i generalizujących aproksym atorów funkcji [ 8, 12, 21, 24],
M e to d y TD (A )
Jak ju ż w spom niano wyżej, algorytm Q -learning jest przykładem algorytm ów wykorzystujących m etody ró ż
nic czasowych do tem poralnego przypisania zasługi.
W istocie jest to pewna klasa m etod, param etryzow ana przez tzw. współczynnik świeżości (ang. recency factor) 0 < A < 1 , oznaczana ja k o T D (1), przy czym Q -learning odpow iada najprostszem u przypadkow i T D (0). M etody te mogą być w ogólnym przypadku stosow ane do uczenia się predykcji w wieloetapowych problem ach predykcyj-
7
publikacje
nych. W takich problem ach na każdym etapie należy p odać prognozę pewnej końcowej wielkości, k tó ra staje się dostępna po ostatnim etapie, jednak pewna cząstkowa inform acja na jej tem at dostępna jest na każdym etapie ja k o aktualny stan. M etody T D wykorzystują do uczenia się różnice predykcji z dwóch lub, dla A > 0, z większej liczby kolejnych kroków czasu. F orm alną definicję m etod T D (A) w ich ogólnej postaci m ożna znaleźć w oryginalnej pracy Suttona [18]. Sposób wykorzystania tych metod do uczenia się ze wzmocnieniem jest obszernie dyskutow any w [7].
Zastosowania uczenia się ze w zm o cn ien iem
P aradygm at uczenia się ze wzmocnieniem jest sform uło
wany w sposób bardzo ogólny i abstrakcyjny. Czyni go to niezwykle pojem nym i szeroko stosowalnym . W istocie, aby sform ułować problem w kategoriach uczenia się ze wzmocnieniem należy jedynie określić odpow iednio re
prezentację stanów obserwowanych przez system na wejściu i rodzaj akcji generowanych przez niego na wyjściu oraz m echanizm wzmocnienia, stanow iący właś
ciwą specyfikację zadania do wykonania. Przy pewnych zastrzeżeniach, m ożna zaryzykować porów nanie pierw
szej z tych czynności do projektow ania stru k tu r danych, drugiej zaś do projektow ania algorytm u w inżynierii program ow ania. Poniew aż rozważam y uczenie się na podstaw ie opóźnionych nagród, projektant, który za pom ocą funkcji wzmocnienia specyfikuje systemowi za
danie do wykonania, nie musi wiedzieć dokładnie, kiedy poszczególne akcje zasługują na pozytywne lub negatyw
ne wzmocnienie. W ystarczy, jeśli będzie potrafił wyróżnić i nagrodzić sytuacje szczególnie korzystne (takie, ja k np. osiągnięcie pewnych cząstkowych celów zadania) oraz wyróżnić i ukarać sytuacje szczególnie niekorzystne (ta
kie, ja k np. popełnienie pewnych ewidentnych błędów).
Oczywiście, stosow anie m etod uczenia się ze wzmoc
nieniem, chociaż często możliwe, nie zawsze jest sensow
ne. Jako generalną zasadę m ożna przyjąć, że gdziekolwiek jest dostępna wiedza na tem at środow iska i zadania systemu uczącego się pozw alająca na zastosow anie m etod uczenia się z nadzorem , należy z niej skorzystać. G łów ną dom eną m etod uczenia się na podstaw ie nagród są dziedziny, w których tak a wiedza nie jest dostępna, jest tru d n a do otrzym ania lub sform ułowania, bądź jej otrzy
m anie wiąże się z dużym kosztem (w sensie wysiłku ludzi lub dodatkow ych obliczeń).
Do dziedzin, w których stosow anie m etod uczenia się ze wzmocnieniem jest uzasadnione i było ju ż intensywnie badane, należy na pewno autom atyczne sterowanie.
W uproszczeniu, w problem ach sterow ania rozw aża się dynam iczny system, na którego wejście należy podaw ać odpow iednie sygnały sterow ania tak, aby osiągnąć pe
wien predefiniowany cel. W przypadku, gdy cel ten jest sform ułow any ja k o optym alizacja pewnej m iary aktual
nej sytuacji sterow anego systemu, mam y do czynienia z problem em optym alnego sterow ania. Niekiedy o d p o wiedni sterow nik m ożna zbudow ać posługując się m ate
m atycznym opisem problem u. Jeśli jed n ak nie jest to możliwe lub jest możliwe tylko częściowo i przynajmniej niektóre param etry sterow nika muszą być m odyfikowane na podstaw ie obserwacji rzeczywistego zachow ania się sterow anego systemu, m am y do czynienia ze sterow aniem adaptacyjnym .
8
M ożna, generalnie rzecz biorąc, rozróżnić dwie klasy podejść do jego realizacji. Podejście pośrednie polega na przeprow adzeniu wstępnie tzw. identyfikacji systemu, czyli skonstruow aniu jego wiarygodnego m odelu, po
przez obserwację jego reakcji na podaw ane na jego wejście sygnały, następnie zaś określeniu strategii ste
row ania na podstaw ie tego modelu. W przypadku, gdy problem sterow ania m ożna reprezentow ać za pom ocą procesu decyzyjnego M arkow a, oznacza to najpierw identyfikację praw dopodobieństw zm ian stanów i w arto
ści oczekiwanych nagrody, a następnie znalezienie op
tymalnej strategii sterow ania za pom ocą m etod p ro gram ow ania dynamicznego. Podejście bezpośrednie p o lega natom iast na poszukiw aniu optym alnej strategii sterow ania bezpośrednio n a podstaw ie obserwacji za
chow ania się sterow anego systemu, bez potrzeby k o n struow ania modeli. Uczenie się ze wzmocnieniem o d pow iada więc bezpośredniem u adaptacyjnem u sterow a
niu optym alnem u [19]. Pokazano eksperym entalnie, że takie bezpośrednie podejście oparte na uczeniu się ze wzmocnieniem może niekiedy być wyraźnie bardziej skuteczne niż tradycyjne m etody pośrednie [2]. Szerzej zagadnienia zastosow ania uczenia się ze wzmocnieniem do sterow ania om aw iane są np. w pracy [ 11].
Inną, częściowo pokrew ną dziedziną, w której uczenie się ze wzmocnieniem jest stosow ane co najmniej równie często, jest robotyka. Celem tych prób jest uzyskanie inteligentnego ro b o ta zdolnego do sam odzielnego działa
nia w złożonych i na ogół niedeterm inistycznych środow i
skach. D la takich środow isk sporządzenie tradycyjnie rozum ianego oprogram ow ania sterującego dla ro b o ta jest niemożliwe lub bardzo trudne. Często również w yko
rzystanie m etod uczenia się z nadzorem okazuje się niemożliwe ze względu na trudność sform ułow ania o d powiednich przykładów. Tymczasem zaprojektow anie odpowiedniej funkcji wzmocnienia zazwyczaj nie przed
stawia dużej trudności, zwłaszcza, że może to być wzmoc
nienie opóźnione. System uczący się ze wzmocnieniem, sterujący robotem , obserwuje ja k o stany środow iska informacje z sensorów robota, a wygenerowane przez niego akcje są używane do aktyw ow ania różnych fizycz
nych układów ro b o ta służących do poruszania się, w yko
nyw ania m anipulacji. P rzeprow adzano liczne ekspery
m enty z takim i systemami, w zastosow aniu do w ykony
w ania typowych zadań ruchom ych robotów , takich jak przechodzenie przez drzwi, nawigowanie w wąskich kory
tarzach i omijanie przeszkód, znajdow anie drogi, przesu
wanie pudełek, ładow anie akum ulatorów i inne, zarów no w środow iskach sym ulowanych, ja k i rzeczywistych. O pi
sy tego typu doświadczeń m ożna znaleźć np. w [12, 14].
Nieco mniej popularny, lecz także obiecujący obszar zastosow ań, wiąże się z tworzeniem program ów k o m puterow ych grających w gry. Znaczący sukces odniósł wykorzystujący m etody uczenia się ze wzmocnieniem program do gry w trik -trak a (ang. backgammori) [ 21], zwycięzca kom puterow ej olim piady tej gry. P rogram ten, nazw any TD-Gammon i uważany obecnie za jednego z najlepszych graczy na świecie (zarówno wśród ludzi, jak i w śród program ów kom puterow ych), pokonał tradycyj
ne nie uczące się program y z „ręcznie” zakodow anym i heurystykam i uzyskanym i na podstaw ie wiedzy eksper
tów trik-traka, a także wcześniejszy program Neurogam- mon [ 20] tego samego autora, uczący się z nadzorem z odpow iednio dobranych przykładów. Swoje m istrzost
wo osiągnął TD-Gammon ucząc się wyłącznie na p o d stawie własnej gry, zaczynając od zerowej wiedzy i nie
Inform atyka nr 4, 1996 r.
korzystając z żadnej pom ocy lub innej ingerencji człowie
ka. Jest to jeden z najbardziej spektakularnych sukcesów nie tylko uczenia się ze wzmocnieniem, lecz także uczenia się maszyn i sztucznej inteligencji w ogóle.
O statnio w kilku pracach opisano udane zastosow ania uczenia się ze wzmocnieniem do problem ów optym aliza
cji kom binatorycznej, m.in. problem u kom iw ojażera [ 10]
i problem u szeregowania zadań [24], Obiecujące są także wyniki uzyskane przy stosow aniu pewnej wersji algoryt
mu Q-learning do adaptacyjnego znajdow ania optym al
nych połączeń (routingu) w sieciach z kom utacją pakie
tów [13]. Z pewnością wiele innych obiecujących za
stosow ań czeka jeszcze na swoich odkrywców.
★ ★ ★
Uczeniu się ze wzmocnieniem w jego dzisiejszym kształcie dały początek w pierwszej połowie lat osiemdziesiątych pionierskie prace Andrew G. B arto i Richarda S. Suttona [3,17], który opracow ał nie om ówiony tu z braku miejsca algorytm AHC (ang. Adaptive Heuristic Critic).
Kolejnym krokiem milowym była praca C hristophera W atkinsa [22], który odkrył bliskie pokrewieństwo zaga
dnień badanych wcześniej przez S uttona z teorią stochas
tycznego program ow ania dynam icznego i opierając się na tych pokrew ieństw ach zaproponow ał algorytm Q -lear
ning. Osiągnięcia te stworzyły podstaw ę do dalszego rozwoju dziedziny, który wyraźnie nabrał tem pa na początku lat dziewięćdziesiątych, aby w ostatnich dwóch- -trzech latach zaowocować gwałtownie rosnącą liczbą publikacji, opisujących nowe rezultaty teoretyczne, prace eksperym entalne, zastosow ania w coraz bardziej złożo
nych i realistycznych środowiskach. Świadectwem tego rozwoju są, między innymi, poświęcone uczeniu się ze wzmocnieniem dwa specjalne num ery czasopism a M achi
ne Learning (pierwszy - Vol. 8, 1992, drugi - ukaże się w tym roku). N a ubiegłorocznej m iędzynarodowej k o n ferencji na tem at uczenia się maszyn (The Twelfth Inter
national Conference on M achine Learning, Tahoe City, USA) spośród 68 prezentow anych referatów kilkanaście poświęconych było uczeniu się ze wzmocnieniem. P lan o wane jest wydanie w Stanach Zjednoczonych pierwszej książki w całości poświęconej temu tematowi, autorstw a B arto i Suttona.
Jednocześnie w dziedzinie uczenia się ze wzmocnieniem pozostaje wiele problem ów otw artych, które czekają na nowe propozycje rozwiązań. D otyczą one między innymi szybkości uczenia się, ograniczeń zakresu stosowalności dostępnych algorytm ów, integracji uczenia się i planow a
nia, konstruow ania systemów o strukturze hierarchicznej.
Wszystkie one są właściwie związane z jednym wspólnym celem, którym jest zwiększenie skuteczności istniejących m etod na tyle, aby m ożna było je stosow ać z powodze
niem do dużych i realistycznych problemów.
O b a powyższe spostrzeżenia (gwałtownie zwiększające się zainteresowanie z jednej strony oraz duża liczba wciąż nie rozwiązanych problem ów z drugiej) nie pozostaw iają wątpliwości, że w arto zwrócić uwagę na dziedzinę uczenia się ze wzmocnieniem i usprawiedliwiają popularyzator
ską funkcję tego artykułu. Jego ograniczona objętość pozwoliła jedynie na pobieżne omówienie najbardziej podstaw ow ych zagadnień. Czytelników zainteresow a
nych uzyskaniem bliższych informacji na ten tem at au to r gorąco zachęca do bezpośredniego kontaktow ania się z nim.
L IT E R A T U R A
[1] Barto A. G.: Reinforcement learning and adaptive critic methods.
D. A. W hite, D. A. Sofge (Eds.): H andbook of Intelligent C ontrol, pp. 469-491. Van N o stran d Reinhold, New York, 1992
[2] Barto A .G ., Singh S. P.: O n the com putational econom ics of reinforcement learning. Proceedings o f the 1990 Connectionists M odels Sum m er School. M organ K aufm ann, 1990
[3] Barto A. G., Sutton R. S., A nderson C. W.: N euronlike adaptive ele
ments that can solve difficult learning control problems. IEE E T ran s
actions on Systems, M an, and Cybernetics, 13, pp. 835-846, 1983 [4] Bellman R. E.: D ynam ic Program m ing. Princeton U niversity Press,
Princeton, N J, 1957
[5] Bole L., Z arem ba J.: W prow adzenie do uczenia się maszyn. A kade
micka Oficyna W ydawnicza RM , 1992
[6] C arbonell J. G., M ichalski R. S., Mitchell T. M.: An overview of m a
chine learning. R. S. Michalski, J. G. Carbonell, T. M. Mitchell (Eds.):
M achine Learning: An Artificial Intelligence A pproach, Vol. 1.
Tioga (obecnie M organ Kaufmann), 1983
[7] Cichosz P.: T runcating tem poral differences: O n the efficient im
plem entation of TD(,l) for reinforcement learning. Jo u rn al of Ar
tificial Intelligence Research, 2, pp. 287-318, 1995
[8] Cichosz P.: T runcated tem poral differences with function ap proxi
m ation: Successful examples using CM AC. U każe się w: Proceedings of the T hirteenth European Symposium on Cybernetics and Systems Research (EMCSR-96), 1996
[9] Cichosz P., M ulaw ka J. J.: F ast and efficient reinforcement learning with truncated tem poral differences. Proceedings of the Twelfth International Conference on M achine Learning (ML-95), 1995 [10] G am bardella L. M., D origo M.: Ant-Q: A reinforcement learning
approach to the traveling salesm an problem . Proceedings of the Twelfth International Conference on M achine Learning (ML-95), 1995
[11] G ullapalli V.: Reinforcement Learning and Its A pplication to Control. P h D thesis, D epartm ent o f C om puter and Inform ation Science, University of M assachusetts, 1992
[12] Long-Ji Lin: Reinforcement Learning for R obots Using N eural N etw orks. P hD thesis, School of C om puter Science, Carnegie- -M ellon University, 1993
[13] L ittm an M. L., Boyan J. A.: A distributed reinforcement learning scheme for netw ork routing. Technical Report CM U-CS-93-165, School o f C om puter Science, Carnegie-M ellon University, 1993 [14] M ahadevan S., Connell J.: A utom atic program m ing o f behavior-
-based robots using reinforcem ent learning. Artificial Intelligence, 55, pp. 311-365, 1992
[15] M insky M . L.: Steps tow ard artificial intelligence. Proceedings o f the Institute of Radio Engineers, 1961. Przedruk w E. A. Feingenbaum , J. Feldm an (Eds.): C om puters and T hought, M cG raw -H ill, New York, 1963
[16] M itchell T. M.: M achine Learning (w przygotow aniu)
[17] S u tto n R. S.: T em poral Credit Assignment in Reinforcement L ear
ning. P hD thesis, D epartm ent of C om puter and Inform ation Science, U niversity of M assachusetts, 1984
[18] Sutton R. S.: Learning to predict by the m ethods o f tem poral differences. M achine Learning, 3, pp. 9 -4 4 , 1988
[19] Sutton R.S., B arto A .G ., Williams R.J.: Reinforcement learning is direct adaptive optim al control. Proceedings o f the American C ontrol Conference. Boston, MA, 1991
[20] T esauro G.: N eurogam m on wins com puter olym piad. N eural C o m putation, 1, pp. 321-323, 1990
[21] T esauro G.: Practical issues in tem poral difference learning. M achine Learning, 8, pp. 257-277, 1992
[22] W atkins C .J .C . H.: Learning from Delayed Rewards. P h D thesis, K ing’s College, Cam bridge, 1989
[23] W atkins C. J. C. H., D ayan P.: Technical note: Q-learning. M achine Learning, 8, pp. 279-292, 1992
[24] Z hang W., D ietterich T. G.: A reinforcem ent learning ap p ro ach to jo b-shop scheduling. Proceedings o f the F o urteenth Jo in t In ter
national Conference on Artificial Intelligence (lJCAI-95), 1995.
K ontakt z Autorem:
cichosz@ipe.pw.edu.pl
http://www.ipe.pw.edu.pl/ ~ cichosz
Inform atyka nr 4, 1996 r. 9
m
N
U
ooX
u s
en
f t .
a a N J* v*-i
C o '
° É
60 5 N g>U •§
s! s J - i
I
erp-
s
&
o
> -i _
ê °
J i H•* (/)
a d ą s
in oo « HH à o
u ^
- «N
<N ><
-1ÍO
2
£ ' O - X
‘ S
¡s N U UN
Ut
3 3N U Ua
“</îc ?