• Nie Znaleziono Wyników

Informatyka Nr 4; miesięcznik profesjonalistów - Digital Library of the Silesian University of Technology

N/A
N/A
Protected

Academic year: 2022

Share "Informatyka Nr 4; miesięcznik profesjonalistów - Digital Library of the Silesian University of Technology"

Copied!
40
0
0

Pełen tekst

(1)

y

i

T l

BW

W g

i

9

i i

a

•'■ r|S... ■ >

1 I I

Kadra naukowa pilnie poszukiwana

Każdego dnia w prasie można znaleźć co naj­

mniej kilkanaście ofert pracy dla informatyków.

Poszukiwani są administratorzy systemów i ich projektanci, pracownicy działów sprzedaży i ser­

wisu, programiści pracujący we wszystkich ist­

niejących językach programowania, nawet tych najstarszych. Ogłoszenia te powtarzają się wielo­

krotnie, co oznacza, że stanowiska nadal nie są obsadzone. Trwa też swoista karuzela kadry.

Nawet ci, którzy nie najlepiej bywali oceniani w poprzedniej firmie, odchodząc natychmiast znajdują nową pracę, i to z reguły na lepszych warunkach. Nagminnie występuje podkupywa- nie pracowników firm komputerowych. Przy­

czyna jest prosta: rozwój naszego rynku infor­

matycznego sprawia, iż podaż na rynku pracy nie nadąża za popytem. W niektórych specjalizac­

jach podaż jest nieomal zerowa. Aby wykształcić projektantów systemów, integratorów i anality­

ków systemowych nie starcza wiedzy zdobywanej na uczelniach, trzeba jeszcze stałej współpracy z praktykami, którzy potrafią przekazywać swoją

Krystyna Karwicka

wiedzę. A takich nadal jest u nas jeszcze jak na lekarstwo.

Przyczyny tego, że podaż na rynku pracy nie nadąża za popytem, zostały dokładnie określone na I Kongresie Informatyki Polskiej (Poznań, 1-3 grudnia 1994 r.). Studia na wszystkich kie­

runkach informatycznych państwowych wyż­

szych uczelni - matematycznym, technicznym i ekonomicznym - kończy rocznie zaledwie kil­

kuset studentów. Wprawdzie coraz większą rolę w kształceniu informatyków zaczynają odgrywać szkoły niepaństwowe, a także powstające na państwowych wyższych uczelniach studia podyp­

lomowe i zaoczne, ale na ich absolwentów jeszcze trochę trzeba poczekać.

Wszystkie wyższe szkoły, zwłaszcza państwo­

we, cierpią na niedobór kadry dydaktycznej.

W Raporcie kongresowym zostało to określone w sposób jasny: Najpoważniejszym zagrożeniem dla przyszłości rozwoju informatyzacji w Polsce jest zmniejszenie się liczebności kadr w uczelniach i obniżenie poziomu nauczania oraz brak motywa­

cjifinansowych dla nowych kadr. Wszystkie uczel­

nie alarmują, że liczebność kadry dydaktycznej w zastraszającym tempie ubywa. Przyczyna jest bardzo prosta: absolwent, a nawet student kie­

runku informatycznego na dzień dobry otrzymu­

je w firmie pensję nieraz i trzykrotnie przewyż­

szającą apanaże pracowników naukowych.

Wśród osób, które decydują się podjąć pracę dydaktyczną, ze świeczką trzeba szukać takiej, która by nie dorabiała poza uczelnią różnymi sposobami do akademickiej pensyjki. W nie­

których specjalnościach najbardziej na rynku pracy deficytowych, takich jak analitycy sys­

temów, integratorzy, administratorzy sieci - uczelnie nie są w stanie znaleźć chętnych do prowadzenia zajęć dydaktycznych. Zresztą i w fir­

mach są oni na wagę złota. Chociaż coraz po­

wszechniej informatyką interesuje się młodzież szkół średnich, a także podstawowych, coraz trudniej jest o nauczycieli informatyki.

dokończenie na

s.

34 ^

Od teorii do praktyki

Z prof. dr. hab. Janem M adeyem - prodziekanem Wydziału M a te m a ty k i, Inform atyki i Mechaniki U niw e rsyte tu W arszawskiego - na te m a t zmian w uniw ersyteckim nauczaniu inform atyki

- rozm aw ia Krystyna Karwicka

- J a k ie j w iedzy m oże o czekiw ać od absolwenta W ydziału M a te m a ty k i, In fo rm a ty k i i M e c h a n ik i je g o praco­

dawca?

- To pow inna być osoba, która posia­

dła znajom ość kanonów wyższej m a­

tem atyki i informatyki, umie rozwią-

dokończenie na

s. I ^

Cena 5,00 zł (50 0 0 0 zł)

(2)

T ak d o b r a to m a to p o w ie d z ia n e , b o p rz e c ie ż d ru k u je z ro z d z ie lc z o ś c ią 6 0 0 d p i i ja k o śc ią lasera (ostre ko n tu ry , ła g o d n e łuki, sz e ro k a sk a la sz aro ści). C z y to tekst c z y grafika w y p u s z c z a 4 stro n y n a m in u tę na p a p ie ra c h ró ż n y c h fo rm a tó w . T ak d o b ra b o p r z e z n a c z o n a d o p ra c y w śro d o w isk u W in d o w s 3.1 i W in d o w s 9 5 . T ak d o b ra , tak sz y b k a, tak p ro sta w o b s łu d z e z a 9 9 9 z ł - i m o ż e s z ją m ie ć .

_ _ _ J

People to People Technolog)'

(3)

|d teorii do praktyki

d o k o ń c z e n i e z p ie r w s z e j s t r o n y o k ł a d k i

zywać problemy, m a zdolność szyb­

kiego uczenia się nowych rzeczy oraz zna różne stosow ane n a świecie now o­

czesne m etody i narzędzia (aczkolwiek nie musi mieć ich opanow anych z n ad ­ zwyczajną zręcznością).

- C zy na sz dynam icznie rozw ijający się ryn ek in fo rm a tyczn y wpływa na p ro g ra m y nauczania in fo rm a tyki?

- Tak, ale pam iętajm y, że Uniw er­

sytet musi nauczać przede wszystkim podstaw, pewnych niezmiennych za­

sad oraz rozwijać naukę. Inform atyka z racji swego młodego wieku bardzo się zmienia i pewne problemy, które przed dwudziestu laty mogły być przedm iotem badań doktorskich, przed dziesięcioma laty starczyłyby może na m agisterium, teraz bywają om awiane na ćwiczeniach czy labora­

toriach. Określenie tego, co jest w in­

formatyce trwałe, co się nie zdeak- tualizuje, nie jest rzeczą łatwą. S tara­

my się jed n ak m odernizow ać progra­

my nauczania tak, aby z jednej strony zachować ów uniwersytecki charakter studiów, a z drugiej dobrze przygoto­

wać naszych absolw entów do pracy w pozaakadem ickim środowisku. Jed­

nakże nie zawsze możemy zaoferować atrakcyjne zajęcia, do niektórych b ra­

kuje nam specjalistów. T rudno na przykład oczekiwać od kolegi, który zajmuje się teorią typów, by poprow a­

dził dobry wykład z sieci kom putero­

wych. Zatrzym anie na uczelni kogoś, kto zna się dobrze na nowoczesnych, praktycznych działach informatyki, jest bardzo trudne, bo takie osoby zarabiają w ielokrotnie więcej w fir­

m ach kom puterowych. P onadto, wy­

niki naukow e trudniej uzyskuje się w dziedzinach, które wiążą się z p rak ­ tycznym zastosowaniem , a od takich wyników zależy przecież kariera ak a­

demicka. Poza m odernizacją samych program ów nauczania, a dotyczy to nie tylko inform atyki, ale może nawet w większym stopniu m atem atyki (bo popyt na „czystych” m atem atyków jest coraz mniejszy), unowocześniamy także strukturę i tok studiów. Część osób będzie mogła zakończyć naukę po trzech latach, bez magisterium, z tytułem licencjata. Oferujemy różne potoki studiów, pozwalające zdoby­

wać przydatne kwalifikacje w w ybra­

nych zastosowaniach, np. w m atem a­

tyce finansowej. Od czterech lat p ro ­ wadzimy także płatne trzyletnie zawo­

dowe studia informatyczne, z oddziel­

nym program em , w którym jest mniej teorii, a więcej praktyki i ćwiczeń w laboratoriach. Staraliśmy się jed ­ nak, aby ten program dawał szansę kontynuacji studiów na poziomie m a­

gisterskim i część absolwentów ZSI z tego korzysta. C hoć więc z racji naszej wspólnoty z m atem atykam i studia informatyczne na naszym W y­

dziale dają świetne przygotowanie teoretyczne i metodyczne, dbam y tros­

kliwie także i o tych, którzy nie mając na celu kariery akademickiej są bar­

dzo potrzebni w kraju na różnorod­

nych stanow iskach pracy. Patrząc na popularność naszego W ydziału sądzę, że udaje się nam to nieźle robić.

- C zy wielu studentów j e s t gotow ych zrezygnow ać z tytułu m agistra na rzecz wcześniej p o d ję te j pracy?

- Tak, i nic dziwnego, skoro i bez tytułu m ogą uzyskać atrakcyjną pracę oraz uposażenie przewyższające pen­

sję profesora z 30-letnim stażem.

- P olscy in fo rm a tycy są bardzo ce­

nieni za granicą. A le w kra ju n a rzeka się na b ra k ta kich specjalistów , j a k na p r z y k ła d integrator system u.

- Na to składa się kilka przyczyn.

Najważniejsza to w spom niana już że­

nująca sytuacja finansowa nauczycieli akadem ickich. T rudno jest zatrzym ać na uczelni młodych, zdolnych ludzi zainteresowanych popularnym i p rak ­ tycznymi działami inform atyki, jak sieci kom puterow e czy bazy danych.

Ci, którzy się na tym znają, mogą sprzedać swoją wiedzę za duże pienią­

dze. D latego też pewnych kierunków nie możemy rozwijać w stopniu wy­

starczającym. Ale chciałbym jeszcze raz obalić mit, że na Uniwersytecie kształci się tylko „teoretyków ”. W arto może przypomnieć, że to ekipa stu­

dentów naszego W ydziału wygrywa­

jąc jesienią 1994 roku w Am sterdam ie eliminacje, aw ansow ała do św iato­

wych finałów prestiżowego studenc­

kiego konkursu program istycznego, organizow anego przez am erykańskie towarzystwo naukow e ACM (jako pierwsza polska drużyna w dziewięt­

nastoletniej historii tych konkursów).

Założeniem konkursów ACM jest ze­

społowa praca i nie tylko znalezienie algorytmów, ale i bezbłędne ich zako­

dowanie w zadanym środowisku. Je­

sienią 1995 roku powtórzyliśmy ten sukces, wygrywając eliminacje tym ra­

zem w Bratysławie i z 1001 drużyn awansowaliśmy do 43 zespołowej czo­

łówki światowej, znowu ja k o jedyny zespół z Polski (Europę reprezentow a­

ło 10 drużyn, 5 było z Dalekiego W schodu, jedna z Australii, jedna z Nowej Zelandii, a reszta to Am eryka Północna).

- C zy w nauczaniu in fo rm a ty k i nie dałoby się wprowadzić w życie lan­

sowanego u nas bez e fektó w hasła:

więź n a u ki z p rzem ysłem ? To roz­

w iązałoby p ro b lem y fin a n so w e nau­

czycieli akadem ickich.

- Tak, ale brak jest mechanizmów, które by to umożliwiły. N a Zachodzie o zweryfikowanie znaczącego systemu informatycznego prosi się naukow ­ ców; sam brałem w K anadzie udział w końcowej fazie prac mających na celu sprawdzenie popraw ności oprog­

ram ow ania sterującego awaryjnym wyłączaniem elektrowni atomowej.

Przy wykonywaniu takiego zadania naukow cy zdobywają dodatkow e d o ­ świadczenie (i niebanalne korzyści fi­

nansowe), ich badania są inspirowane ważnymi zastosow aniam i, a wyniki prac są publikow ane w dobrych cza­

sopismach. Podejmowaliśmy dawniej próby takiej współpracy, m.in. z prze­

mysłem chemicznym, mieliśmy swego czasu k o n tak t z Żarnowcem , negoc­

jowaliśm y z FSM , ale nic sensownego z tego nie wyszło. Także obecnie p ro ­ wadzimy rozmowy z różnymi k rajo ­ wymi i zagranicznym i instytucjam i oraz firmami, ale nawiązanie długo­

terminowej współpracy gwarantującej uczestniczącym osobom i godziwe wa­

runki finansowe i możliwość w ykaza­

nia się publikowalnym i wynikami, nie jest łatwe. A przy tym trudno jest znaleźć entuzjastów do niepewnego przedsięwzięcia, gotowych do szybkie­

go działania - w iadom o bowiem p o ­ wszechnie, że każdy pracow nik n a u ­ kowy, by utrzym ać rodzinę jest uwik­

łany w tysiące różnych prac, których nie zostawi dla niepewnej doraźnej korzyści. Kiedy pow staną m echani­

zmy pozwalające na podejm ow anie w spółpracy z firmami, to będzie to z obopólną korzyścią i w szczegól­

ności wspomoże nauczanie praktycz­

nych dziedzin informatyki.

- D zięku ję Panu za rozm ow ę.

Inform atyka nr 4. 1996 r.

1

(4)

Zastosowanie komputera do automatycznego układania rozkładu zajęć dla szkoły wyższej

Beata Jendrzejczyk Marek Skotnorowski

In s ty tu t In fo rm a ty k i U n iw e rs y te t Ja g ie llo ń s k i

K ra k ó w

Zastosow anie kom putera do układania rozkładu zajęć jest tem atem wielu publikacji. N a przykład, zamieszczona w [5] literatura liczy około 300 pozycji dotyczących zastosow ania kom putera do układania rozkładu zajęć.

W typowym problem ie układania rozkładu zajęć w szkole wyższej w ystępują uczestnicy w sensie ogólnym, tj. stu­

denci, sale wykładowe, lab o rato ria itd. W ystępuje rów ­ nież zbiór godzin (jednostek lekcyjnych). D ostępność określa podzbiór godzin, w których każdy z uczestników może brać udział w zajęciach, do których został przypisa­

ny. K ażde spotkanie jest opisane przez zbiór wszystkich uczestników przypisanych do danych zajęć oraz liczbę godzin określających czas ich trw ania. Rozkład zajęć jest harm onogram em przypisującym wszystkim przewidzia­

nym spotkaniom godziny ich przeprow adzenia, speł­

niającym jednocześnie podstaw ow e żądanie: żaden z uczestników nie może być zaplanow any więcej niż jeden raz o tej samej godzinie. Powyżej został przedstaw iony problem podstawowy. W praktyce, w zależności od typu szkoły wyższej, istnieje duża różnorodność żądań specjal­

nych, które rozkład zajęć powinien uwzględniać.

Problem układania rozkładu zajęć jest problem em N P-zupełnym ([1-2]). O znacza to, że nie istnieje efektyw­

ny, to znaczy o wielomianowej złożoności obliczeniowej algorytm konstruow ania optym alnego, ze względu na przyjęty wskaźnik jakości, rozkładu zajęć w przypadku ogólnym.

Prezentow any tu kom puterow y system autom atycz­

nego układania rozkładu zajęć jest oparty na algorytm ie heurystycznym, przedstaw ionym w [ 4 ,6], którego działa­

nie m ożna opisać ogólnie w następujący sposób.

N a podstaw ie danych wejściowych jest przygotow yw a­

na lista zajęć do zaplanow ania. Każde zajęcia mają określony priorytet. Priorytety zajęć są wyliczane na podstaw ie analizy danych wejściowych. N astępnie al­

gorytm próbuje ułożyć kolejno wszystkie zajęcia z listy zajęć do zaplanow ania, rozpoczynając od zajęć o najwyż­

szym priorytecie, spełniając jednocześnie ograniczenia podane w danych wejściowych. Zajęcia ułożone są usuwa- 7

ne z listy zajęć do zaplanow ania. W przypadku ułożenia wszystkich zajęć algorytm kończy pracę. W przeciwnym przypadku priorytety zajęć nie ułożonych są zwiększa-

Rozklad z a ję ć ( )

|

W C Z Y T A J_ d a n e ();

P R Z Y P IS Z _ zajęcio m _ p rio ry tety ();

iteracja = i;

w skaźnik J a k o ś c i = 1;

w h ite ( ( w skaźnik j a k o ś c i > 0 ) i ( iteracja < M A X ITER A CJI ) )

I

PO SO R T U J_zajęcia_w edlug_przypisanych im _ p rio ry te tó w ();

w skaźnik j a k o ś c i = U Ł Ó Ż _ R 0 Z K 1 A D _ ();

/* funkcja zw raca 0 (w przypadku /* uło żen ia w szystkich zajęć) lub I* liczbę godzin nie ułożonych if ( w skaźnik j a k o ś c i > 0 )

i

if ( iteracja = 1 ) /* rozkład zajęć układany pierw szy raz

ji

Z A P A M IĘ T A J_ u lo żo n y _ ro zk lad _ zajęć ();

Z A P A M IĘ T A JJistę _ z a ję ć _ n ie _ u lo ż o n y c h ();

1

else

I

P O R Ó W N A J_ z_ n a jIep szy m _ u zy sk an y m _ d o ty ch c zas_ ro zk lad em _ zajęć ():

if ( uło żo n y _ w _ b ieżącej_ iteracji_ ro zk ład _ zajęć j e s t j e p s z y )

!

Z A P A M lĘ T A J_ u ło ż o n y _ ro z k ła d _ z a ję ć ();

Z A P A M łĘ T A JJistę _ z a ję ć _ n ie u ło ż o n y c h f):

I

} /* else

Z.W1F;KSZ_PRIO RY TETY z a ję ć _ n ie _ u ło ż o n y c h ();

} /* if ( /* w hile

\V Y P IS Z _ N A JL E P S Z Y _ u ło żo n y _ ro zk lad _ zajęć():

i f ( lista _ z a ję ć _ m e _ u ło ż o n y c h _ m e je s t_ p u s ta ) W YPISZ listę _ z a ję ć _ n ie _ u lo ż o n y c h ():

) /* R ozkład zajęć */

R y s. 1. A lg o ry tm u k ła d a n ia ro z k ła d u zajęć

Inform atyka nr 4. 1996 r.

(5)

nc i przygotow yw ana jest lista zajęć do zaplanow ania, uwzględniająca wyższe priorytety zajęć poprzednio nie ułożonych. N astępnie algorytm próbuje kolejny raz uło­

żyć zajęcia z listy zajęć do zaplanow ania. Poszukiw anie kolejnych rozw iązań jest kontynuow ane do m om entu ułożenia wszystkich zajęć z listy zajęć do zaplanow ania lub do m om entu uzyskania rozw iązania najlepszego, ze względu na przyjęty w skaźnik jakości, w ram ach zadanej liczby prób (kolejnych iteracji algorytmu). Jako wskaźnik jakości została przyjęta liczba godzin nie ułożonych w danym rozkładzie. W dow olnym momencie obliczeń są pam iętane co najwyżej dw a rozkłady zajęć: układany w danej iteracji algorytm u i najlepszy spośród rozkładów uzyskanych w poprzednich iteracjach. Po uzyskaniu rozw iązania końcowego są w yprow adzane rozkłady dla poszczególnych zajęć, wykładowców i sal. W przypadku nie ułożenia wszystkich zajęć jest wyprow adzany również zbiór zajęć nie zaplanow anych. O m ów iony algorytm jest pokazany na rysunku 1.

D ane wejściowe systemu są zapisywane w trzech pli­

kach zawierających informacje o zajęciach, salach i wy­

kładowcach. Fragm ent przykładowego pliku zawiera­

jącego informacje o zajęciach jest pokazany na rys. 2.

#

1. U kłady cyfrow e 2. UC

3 . 1

01. d r M . S kom orow ski 0 2 .4 0

03. 2

11. dr M. Skom orow ski 12. 2 0

13. 2

21. m gr H. T eleg a 2 2. 20

2 3 .2

U

R y s. 2. F ra g m e n t p rz y k ła d o w e g o p lik u zaw ierająceg o in fo rm a c je o zajęciach

Fragm ent ten zawiera informacje na tem at wykładu zatytułow anego „U kłady cyfrowe” (pole 1) o kodzie U C (pole 2), należącego do grupy przedm iotów inform atycz­

nych (kod I w polu 3). W ykład ten jest planow any dla 40 osób (pole 02) z dwiema grupam i ćwiczeniowymi (pola 11,

# 221 50

n

217 p 16

zajęta czw 16.00 - 20.00, pt 8 - 16

#

218 p 16

#

R y s. 3. F ra g m e n t p rz y k ła d o w e g o p lik u zaw ierająceg o in fo rm a c je o sa lach

21) dla 20 osób (pola 12,22). W ykład i ćwiczenia będą się odbywać raz w tygodniu (pole 03 - wykład, pola 13, 23 — ćwiczenia). P odane są również nazwiska prow adzących w ykład (pole 01) i ćwiczenia (pola 11, 21). Z nak # jest separatorem poszczególnych zajęć. W pliku tym m ożna podać również inne informacje. N a przykład: w ym agania dotyczące term inu i sali dla danych zajęć, wym agania dotyczące tego, ile razy w tygodniu i po ile godzin pow inny odbywać się dane zajęcia. W przypadku kiedy zajęcia z tego samego przedm iotu odbywają się dw a razy w tygodniu, m ożna podać, ja k długa m a być przerw a między nimi.

Fragm ent przykładowego pliku zawierającego infor­

macje o salach jest pokazany na rys. 3. Fragm ent ten zawiera informacje o trzech salach (221, 217, 218). Sala 221 może pomieścić 50 studentów . Sale 217 i 218 są pracow niam i kom puterow ym i (p ) mogącymi pomieścić 16 osób. Sale 221 i 218 są dostępne w ciągu całego tygodnia. Sala 217 jest zajęta w czw artki w godzinach od 16:00 do 20:00 i w piątki w godzinach od 8:00 do 16:00.

Z nak # jest separatorem poszczególnych sal.

u

dr M. Skom orow ski

1 .p n 8 .0 0 - 2 0 .0 0 , pt 8 .0 0 - 1 0 .0 0 2. w t. sr, czw 8.00 - 2 0.00

U

R ys. 4. F ra g m e n t p rzy k ła d o w e g o p lik u zaw ierający in fo rm a c je o p ro w a d z ą c y c h zajęcia

F ragm ent przykładow ego pliku zawierającego infor­

mację o dostępności prow adzących zajęcia jest pokazany na rys. 4. Zaw iera informację o ograniczeniach czasowych prow adzącego zajęcia. Pole 1 zaw iera informacje o ter­

m inach, w których prow adzący zajęcia nie jest dostępny, a pole 2 o term inach preferowanych przez prow adzącego zajęcia.

U kłady cyfrow e UC

w ykład: dr M. Skom orow ski sr 14 - 16 s 221 grupy cw iczeniow e:

g r.l dr M . Skom orow ski sr 12 - 14 s 221 gr.2 m g rH . T eleg a sr 12 - 14 s 205

R y s. 5. F ra g m e n t p rz y k ła d o w e g o ro z k ła d u dla zajęć

Godzina Poniedziałek Wtorek Środa Czwartek Piątek

8 - 9 MD2 w WDMw LSKw

9 -1 0 MD2 w WDM w LSKw

10- 11 RPS w MT w WDIw ALI r t . 3

11-12 RPS w MT w WDIw ALI Rr.3

12-13 RPS w WDI w UCcr.l MP2 rt.3 ALI gr.3

13- 14 WDIw UCgr.l MP2 gr.3

14-15 ALI w MP2 w UC w

15-16 ALI w MP2 w UC w

16- 17 ALI w TPęr.l WZTW w

17-18 MN A w TPgr.l WZTWw

18-19 MNA w TP w

19-20 NI w TP w

R ys. 6. F ra g m e n t p rz y k ła d o w e g o ro z k ła d u d la sal sa la 221

dokończenie na

s.

14 ^

Inform atyka nr 4, 1996 r. 3

(6)

publikacje

Wprowadzenie do systemów uczących się ze wzmocnieniem

Paweł Cichosz

Instytut Podstaw Elektroniki Politechnika Warszawska

A r t y k u ł r e k o m e n d o w a n y

Artykuł ma na celu przybliżenie Czytelnikowi m ało znanego w Polsce, a bez wątpienia godnego uwagi i budzącego gwałtownie rosnące w ostatnich latach zainteresowanie na świecie, działu uczenia się maszyn, nazywanego uczeniem się ze wzmocnieniem (ang.

rein fo rcem en t learning).

Jest to jeden z najnowszych podobszarów uczenia się maszyn, przeżywający w ostatnich latach prawdziwą eksplozję wzrostu zainteresowania i zaliczany do tzw. „gorących tem atów” , zwłaszcza w U SA , natomiast bardzo słabo znany w Polsce. Czytelników zainteresowanych bardziej wszechstronną dyskusją różnych metod uczenia się maszyn odsyłamy do prac [5, 6, 16].

Rozważa się w nim problemy, w których uczący się system m a zadanie nauczenia się podejm ow ania decyzji w pewnym nieznanym środow isku, n a podstaw ie skalar­

nych rzeczywistoliczbowych wartości nagrody lub kary.

K oncentrow ać się będziemy na najbardziej interesują­

cym przypadku, w którym owe nagrody lub kary m ogą być opóźnione w stosunku do akcji systemu, których są konsekwencją. Po scharakteryzow aniu paradygm atu uczenia się ze wzmocnieniem i jego miejsca w dziedzinie uczenia się maszyn, rozważym y kluczowy dla jego realiza­

cji praktycznej problem tem poralnego przypisania za­

sługi. O m ówiony zostanie najbardziej obecnie znany i najczęściej stosow any algorytm rozwiązywania tego problem u, Q-learning. A rtykuł zam knie przegląd najb ar­

dziej obiecujących obszarów zastosow ań systemów uczą­

cych się ze wzmocnieniem.

Uczenie się w sztucznej inteligencji

Wysiłki badawcze, podejm ow ane już od p onad czter­

dziestu lat w dziedzinie sztucznej inteligencji (SI), m ają na celu wypracowanie m etod, dzięki którym możliwe byłoby konstruow anie sztucznych systemów (kom puterowych) zdolnych do wykonyw ania zadań, o których sądzi się, że wymagają inteligencji pokrewnej (w każdym razie pod pewnymi względami) inteligencji ludzkiej. Takie, tyleż

am bitne co nieprecyzyjne określenie tej dziedziny, było i wciąż bywa przyczyną wielu kontrow ersji, dotyczących zarów no tego, co do niej należy, a co nie, jak i tego, czy w ogóle może o na rościć sobie praw a do m iana dyscypliny naukowej.

Elementem inteligentnego zachow ania, którego klu­

czowa rola jest najbardziej chyba bezdyskusyjna, jest zdolność do uczenia się. Spośród wielu możliwych defini­

cji uczenia się, podaw anych zarów no w kontekście ucze­

nia się ludzi, zwierząt, ja k i maszyn, wybierzmy n ajprost­

szą: Uczenie się je st procesem poprawy jakości działania systemu na podstawie doświadczeń z przeszłości. Z kon tek ­ stu związanego z konkretnie rozw ażanym procesem ucze­

nia się wynika, co dokładnie rozum ie się przez popraw ę jakości działania i jak i rodzaj doświadczeń może być wykorzystywany do jej osiągnięcia. Zawsze m ożna jednak przyjąć, że jej niezbędnym w arunkiem jest zdobywanie i doskonalenie wiedzy lub umiejętności oraz odpowiednie ich wykorzystywanie w dalszych działaniach systemu.

Paradygm aty uczenia się

W dalszej dyskusji posłużymy się ogólnym schem atem interakcji systemu uczącego się z jego środowiskiem przedstaw ionym na rys. 1. Bez istotnego zm niejszania ogólności rozw ażań m ożna przyjąć, że interakcja ta polega na obserw ow aniu przez system uczący się ak tu al­

nego stanu środow iska oraz generow aniu w odpowiedzi

R y s. 1. O g ó ln y s c h e m a t in te ra k c ji sy ste m u ucząc eg o się ze śr o d o ­ w iskiem

Rekomenduje:

P ro f. d r h a b . J a n J. M u la w k a Instytut Podstaw Elektroniki Politechnika Warszawska

4

P ra c a w sp ie ra n a przez K B N w r a m a c h g r a n tu n r 8 S503 019 05.

Inform atyka nr 4„ 1996 r.

(7)

na ten stan pewnej akcji na podstaw ie jego aktualnej wiedzy. Systemowi może być dostarczona inform acja trenująca, której źródło będziemy, w zależności od jej charakteru, nazywać nauczycielem lub krytykiem . Infor­

m acja ta może, w ogólnym przypadku, zależeć zarów no od stanu środow iska, ja k i od wykonanej akcji systemu.

N a podstaw ie interakcji ze środowiskiem z jednej strony oraz informacji trenującej z drugiej strony, system może doskonalić swoją wiedzę lub umiejętności.

U c ze n ie się bez n adzoru

W przypadku uczenia się bez nadzoru (ang. unsupervised learning) celem jest zazwyczaj przetransform ow anie infor­

macji wejściowej, dostarczonej ze środowiska, do pew­

nych innych form lepiej dopasow anych do dalszego przetwarzania. Typowym przykładem może być zadanie grupow ania (ang. clustering), w którym porcje danych wejściowych (w naszej terminologii reprezentowanych przez stany środow iska) m uszą być podzielone na pewne rozłączne klasy lub kategorie. M oże to dotyczyć zarówno punktów w pewnych przestrzeniach rzeczywistoliczbo- wych, ja k i symbolicznych opisów pewnych obiektów, w tym ostatnim przypadku m am y do czynienia z tzw.

grupow aniem pojęciowym (ang. conceptual clustering).

Zasada, według której następuje transform ow anie da­

nych wejściowych w uczeniu się bez nadzoru, jest usta­

lona dla określonej klasy zadań, które rozwiązuje system uczący się, i w budow ana do jego wewnętrznej struktury.

Nie ma żadnego źródła zewnętrznej informacji trenującej, które określałoby pożądany sposób działania systemu.

W związku z tym mówi się niekiedy, że systemy uczące się bez nadzoru m ają w budow anego nauczyciela lub kry­

tyka.

U c ze n ie się z n a d zo rem

Uczenie się z nadzorem (ang. supervised learning) jest nazywane także uczeniem się z nauczycielem dla podkreś­

lenia charakteru wykorzystywanej informacji trenującej.

Pożądany sposób działania systemu jest w tym przypad­

ku określany przez zewnętrzne źródło informacji trenują­

cej za pom ocą tzw. wzorców trenujących lub przykładów, w podstawowym w ariancie rozum ianych ja k o pary wią­

żące przykładowe wejście systemu (stan) z wymaganym dla niego wyjściem (akcją).

Paradygm at uczenia się z nadzorem obejmuje wyraźną większość m etod uczenia się maszyn i wiele różnorodnych problem ów, takich ja k uczenie się opisów pojęć i reguł decyzyjnych z przykładów, indukcja drzew decyzyjnych, indukcyjne program ow anie logiczne, aproksym acja funk­

cji i inne. W praktyce inform acja dostarczana przez nauczyciela może przybierać różne formy. W przypadku uczenia się pojęć są to przykłady pozytywne, które musi obejmować opis pojęcia konstruow any przez system, i negatywne, których ten opis obejm ować nie może.

W przypadku uczenia się aproksym acji funkcji każda para trenująca może podaw ać wymagane wyjście dla danego wejścia, w ektor błędu - różnicy pomiędzy doce­

lowym a aktualnym wyjściem systemu, bądź też tylko informację gradientow ą, określającą kierunek w prze­

strzeni wyjściowej, w którym pow inna ulec zmianie odpow iedź systemu dla danego wejścia. M im o tej różno­

rodności, w każdym problem ie uczenia się z nadzorem ,

inform acja trenująca ma charakter dyrektywny i specyfi- kuje bezpośrednio lub pośrednio pożądany sposób zm ia­

ny działania systemu.

U c ze n ie się ze w z m o c n ie n ie m

W przypadku uczenia się ze wzmocnieniem (ang. reinfor­

cement learning) również istnieje zewnętrzne źródło infor­

macji trenującej, m a ono jednak naturę raczej krytyka niż nauczyciela. Inform acja trenująca m a charakter wartoś­

ciujący a nie dyrektywny. Zatem systemowi uczącemu się nie mówi się nigdy, jakich akcji oczekuje się od niego w określonych stanach, ani naw et jakie akcje (jeśli w ogóle jakiekolwiek) byłyby lepsze od tych, które on faktycznie wykonuje. D ostarczany jest natom iast skalarny rzeczy wi- stoliczbowy sygnał wzmocnienia, nazywanego także wy­

płatą lub nagrodą (karą), stanowiący pewną względną m iarę jakości działania systemu ze względu na stawiane przed nim cele. System musi samodzielnie ustalić, jakie akcje wykonywać w każdym stanie, aby maksymalizować uzyskiwane wartości wzmocnienia. Przyporządkow anie stanom akcji do wykonania, którego uczy się system, nazywać będziemy strategią decyzyjną. W przestrzeni możliwych strategii będziemy wyróżniać strategie opty­

malne, wyznaczane w pewien sposób, którego na razie nie precyzujemy, przez wartości nagród, do otrzym ania których prowadzą.

Term in „wzmocnienie” wywodzi się z badań nad uczeniem się zwierząt w psychologii behawiorystycznej.

Po raz pierwszy został on przypuszczalnie w prowadzony do inform atyki przez M insky’ego [15], Podstaw ow a zdrow orozsądkow a idea, ja k a się za nim kryje, jest następująca: jeśli pewna akcja pociąga za sobą zadow ala­

jący stan rzeczy lub popraw ę w stanie rzeczy, to tendencja do w ykonywania tej akcji (w danej sytuacji) pow inna zostać wzmocniona [1]. Jak zobaczymy w następnym podrozdziale, pojęcie „pociągania za sobą zadow alające­

go stanu rzeczy” może być rozciągnięte na długoter­

minowe konsekwencje akcji.

Uczenie się na podstawie opóźnionych nagród

Uczenie się ze wzmocnieniem, chociaż wyodrębnione przez nas najpierw z dziedziny sztucznej inteligencji, a potem z uczenia się maszyn, stanow i sam o w sobie dziedzinę stosunkow o pojem ną. Uściślijmy zatem , które z obejm owanych przez nią zagadnień uważam y za najb ar­

dziej interesujące, i na których chcemy się dalej skon­

centrować.

P o d s ta w o w y scen ariu sz

Zaczniemy od kilku oznaczeń i uzupełnienia terminologii.

Będziemy używać symboli x„ a, i r, do oznaczenia, odpowiednio, stanu, akcji i wartości wzmocnienia w chwi­

li czasu t. Czwórkę złożoną ze stanu, akcji, otrzym anego po jej w ykonaniu w tym stanie wzmocnienia oraz następ­

nego stanu nazywać będziemy doświadczeniem systemu.

Przy użyciu wprow adzonych właśnie symboli dośw iad­

czenie z kroku czasu t zapiszemy ja k o < x t, a,, rt, x , + 1 > . Podstaw ow y scenariusz uczenia się ze wzmocnieniem m ożna wówczas przedstawić ja k o sekwencję operacji

Inform atyka nr 4, 1996 r. 5

(8)

publikacje

w ykonywanych przez system uczący się w każdym kroku dyskretnego czasu t (rys.2).

W każdym kroku czasu /:

1. obserwuj aktualny stan x,;

2. wybierz akcję a, do wykonania w stanie x, zgodnie z aktualną strategią decyzyjną;

3. wykonaj akcję a,\

4. obserwuj wartość wzmocnienia r, i nowy stan ;

5. aktualizuj strategię decyzyjną na podstawie doświadczenia <x„ a„ r„ xl+i).

R ys. 2. P o d sta w o w y sc e n a riu sz u czenia się ze w zm o cn ien iem

Szerokie spektrum algorytm ów uczenia się ze wzmoc­

nieniem m ożna przedstaw ić ja k o jego uściślone wersje, przy czym uściślenie dotyczy w gruncie rzeczy tylko jednego (ale za to kluczowego) k ro k u 5, w którym następuje aktualizacja strategii decyzyjnej pod wpływem kolejnego doświadczenia.

Ś ro d o w is k o

Środow isko jest pewnym złożonym systemem, którego stany, zmieniające się pod wpływem akcji systemu uczą­

cego się, m ogą być przezeń obserwowane. O dstępując chwilowo od m odelu z rys. 1, założymy dla wygody, że także w artości wzmocnienia są dostarczane przez śro d o ­ wisko. Przyjmiemy, że zarów no zm iany stanów środow is­

ka, jak i generowane przez nie nagrody m ogą być, w ogólnym przypadku, stochastyczne. Będziemy też za­

kładać, że odpow iadające im rozkłady praw d o p o d o ­ bieństw (w pełni opisujące środowisko) nie są znane systemowi uczącemu się, ale że jednocześnie dostępna mu inform acja wejściowa w postaci stanu, obserwowanego w każdym kroku, jest dostateczna do podjęcia optym alnej decyzji (czyli istotnie optym alna strategia może być reprezentow ana ja k o odw zorow anie ze stanów na akcje).

Powszechnie przyjęty m atem atyczny model dla problem u uczenia się ze wzmocnieniem w tego typu środow iskach stanow i proces decyzyjny M arkowa, dla którego optym al­

ne strategie decyzyjne m ogą być odnalezione za pom ocą m etod stochastycznego program ow ania dynamicznego [4], pod w arunkiem jednak, że znane są p raw dopodo­

bieństwa zm ian stanów i oczekiwane w artości wzmoc­

nienia dla każdej pary stan-akcja. W przypadku, gdy wiedza tak a nie jest dostępna, otw iera się pole do stosow ania m etod uczenia się ze wzmocnieniem.

M ia r a o p ty m a ln o ś c i s tra te g ii

Zadaniem system u uczącego się ze wzmocnieniem jest nauczenie się optym alnej strategii decyzyjnej, to jest takiej, k tó ra prow adzi do optym alizacji pewnej m iary jakości jego działania opartej na otrzym yw anych w artoś­

ciach wzmocnienia. W przypadku najbardziej interesują­

cym i stanow iącym największe wyzwanie chodzi o m a­

ksymalizację nagród w długim horyzoncie czasowym.

System m a więc wybierać swoje akcje tak, aby uzyskiwać wysokie dochody niekoniecznie natychm iast, lecz raczej długoterm inow o. T ak ja k w grze w szachy w arto oddać piona po to, aby kilka ruchów później zagrozić królow i przeciwnika, może opłacać się w ykonać kilka akcji nisko

6

nagradzanych po to, aby po pewnej liczbie kroków stworzyć możliwość uzyskania wysokich w artości wzmo­

cnienia. Ten rodzaj uczenia się jest nazywany uczeniem się na podstawie opóźnionych nagród lub uczeniem się z opóź­

nionym wzmocnieniem (ang. learning fro m delayed re- wards, delayed reinforcement learning) [17, 22] i właśnie jem u chcemy poświęcić dalszy ciąg tego tekstu.

Z adanie długoterm inow ej m aksymalizacji wzmocnie­

nia m ożna form alizować w różny sposób. Ograniczymy się tutaj do zdecydowanie dom inującego obecnie, choć nie wolnego od pewnych niedostatków podejścia, w którym m iarę jakości działania system u określa się ja k o oczeki­

w aną całkow itą zdyskontowaną sumę wzmocnienia, jakie uzyskuje on w okresie swojego funkcjonow ania, czyli:

E

gdzie E je s t symbolem wartości oczekiwanej, rv ja k wyżej, oznacza nagrodę otrzym aną w kroku czasu t, zaś 0 <}’ < 1 jest tzw. współczynnikiem dyskontowania (ang. discount factor), który determ inuje stopień względnej ważności nagród bliskich i odległych w czasie. Jeśli 0 < y < l , wartości wzm ocnienia z kolejnych kroków czasu są ważone wykładniczo malejącymi współczynnikami, zgo­

dnie ze zdrow orozsądkow ą zasadą, że nagrody stają się mniej atrakcyjne (a kary mniej odstraszające), jeśli m ają być otrzym ane w odległej przyszłości. Aby m aksym alizo­

wać powyższe wyrażenie dla dowolnego 7 > 0 system uczący się musi brać pod uwagę nie tylko natychm ias­

towe, ale także długoterm inow e konsekwencje swoich akcji.

Realizacja uczenia się ze w zm o cn ien iem

D la realizacji uczenia się ze wzmocnieniem kluczowe znaczenie m a problem temporalnego przypisania zasługi (ang. temporal credit assignment) [17]. Polega on na przypisaniu „zasługi” bądź „winy” za całościowe wyniki działania systemu (a więc jego długoterm inow e nagrody) poszczególnym akcjom podjętym przez system, być może w ykonanym wiele kroków wcześniej, zanim wyniki te mogły być zaobserw ow ane. Obecnie najwięcej uwagi poświęca się algorytm om rozwiązującym ten problem , które są oparte na m etodach różnic czasowych (ang.

temporal differences) S uttona [18], zaś najbardziej zna­

nym z nich jest algorytm Q-learning [22, 23].

A lg o ry tm Q -le a rn in g

Algorytm Q -learning konstruuje oszacowanie pewnej funkcji, nazywanej g-funkcją, k tó ra wartościuje wszyst­

kie pary stan -ak cja ze względu na oczekiwane przyszłe nagrody. D okładniej, każdej parze stan -ak cja (x,a) przy­

porządkow uje on a tzw. g -w arto ść Q (x,a), k tó ra doce­

lowo m a być oszacowaniem skum ulow anego zdyskon­

tow anego wzmocnienia, jak ie będzie otrzym ane po w yko­

naniu akcji a w stanie x, a następnie posługiw aniu się strategią zachłanną względem aktualnych g-w artości (tj. w ybieraniu w każdym kolejnym stanie akcji, której Q -w artość jest największa). Zatem , poniew aż w każdym stanie g-funkcja zawiera (uzyskane n a podstaw ie dotych­

Inform atyka nr 4, 1996 r.

z a

>

(9)

czasowych doświadczeń) informacje na tem at spodziewa­

nych przyszłych długoterm inow ych skutków poszczegól­

nych akcji, umożliwia o na podejm ow anie optym alnych decyzji bez żadnego kosztownego planow ania czy prze­

szukiwania w przód przestrzeni stanów. W każdym kroku g-funkcja jest m odyfikow ana zgodnie z algorytm em przedstawionym na rys. 3. W ystępujące tam odw ołania do g-w artości zawierają indeks t określający krok czasu, z którego w artości te pochodzą.

1. W każdym kroku czasu /:

2. obserwuj aktualny stan x,;

3. wybierz akcję a, do wykonania w stanic x, (na podstawie Q{x„a,) dla każdego a);

4. wykonaj akcję a,\

5. obserwuj wartość wzmocnienia r, i nowy stan x*i;

6. A := r, + y maxfl Q¿xnUa) - Q¿x„a,)\

7. uaktualni/*(Q, x„ a„ A);

R ys. 3. A lg o ry tm Q -le a rn in g

W y b ó r akcji. W kroku 2 następuje w ybór akcji do w ykonania w aktualnym stanie, na podstaw ie wartości g-funkcji dla tego stanu. Jest naturalne, że przy wyborze tym należy preferować akcje o najwyższych g-w artoś- ciach (skoro po ich w ykonaniu oczekiwane są najwyższe przyszłe nagrody), nie może to być jednak wybór w pełni determ inistyczny - wykonywanie zawsze akcji, które obecnie wydają się najlepsze, może uniemożliwić syste­

mowi uczącemu się odkrycie innych, być może lepszych akcji. M am y tu do czynienia z tzw. w ym ianą pomiędzy eksploracją (wykonywaniem akcji nie uważanych za najlepsze w celu popraw ienia posiadanej wiedzy) i eks­

ploatacją (korzystaniem z aktualnie dostępnej wiedzy w celu zdobyw ania nagród).

N ajprostsze podejście do problem u w yboru akcji za­

pewniającego dostateczny poziom eksploracji polega na zastosow aniu pewnego stochastycznego m echanizmu wy­

boru. Typowym przykładem może być mechanizm wyko­

rzystujący rozkład Boltzm anna, zgodnie z którym praw ­ dopodobieństw o w yboru akcji a* w stanie x jest równe:

Prob(x,a )

.

2 , exP

T)

a

gdzie param etr T, nazywany temperaturą, jest liczbą dodatnią regulującą stopień losowości wyboru. Stosując duże w artości T uzyskujemy system wybierający akcje w sposób niemal losowy, zaś małe w artości pow odują prawie determ inistyczny w ybór akcji o maksym alnych g-w artościach.

O bliczenie b łę d u . C entralnym krokiem algorytm u jest krok 5, w którym jest obliczany błąd, używany następnie do zm iany g-w artości dla aktualnego stanu i akcji. Jak powiedziano wyżej, g (x, a) m a być oceną oczekiwanej zdyskontow anej sumy wzmocnienia otrzym ywanego po w ykonaniu akcji a w stanie x i następnie zawsze wybiera­

niu akcji o m aksym alnych g-w artościach. Wówczas o max„ g (x, a) m ożna myśleć ja k o o pewnej mierze wartości stanu x (i pisać w zam ian V(x)), oceniającej m aksym alne całkowite zdyskontow ane wzmocnienie, ja ­

Inform atyka nr 4, 1996 r.

kie może być otrzym ane przez system rozpoczynający działanie w tym stanie. Stosow ana przez algorytm Q -lear­

ning reguła obliczania błędu pow oduje przybliżenie g-w artości dla aktualnego stanu i aktualnej akcji do sumy natychm iastow ego wzmocnienia otrzym anego po w ykonaniu tej akcji oraz zdyskontow anej sumy wartości następnego stanu:

Q ( x , , a , ) + y K (x ,+1) .

Uzasadnienie dla tej reguły wywodzi się z teorii p ro ­ gram ow ania dynamicznego i nie będziemy go tutaj przy­

taczać, odsyłając Czytelników do oryginalnej pracy W at- kinsa [22], Poprzestaniem y na odnotow aniu, że pod pewnymi w arunkam i prowadzi ona do zbieżności g-funkcji do optymalnej g-funkcji, tj. takiej, że strategia zachłanna względem niej jest strategią optym alną. Ściśle sform ułowane twierdzenie o zbieżności algorytm u Q -learning i jego dowód m ożna znaleźć w [23],

R e p re z e n tac ja fu n k cji. K rok 6 algorytm u z rys. 3 wyko­

rzystuje wyznaczony w poprzednim kroku błąd do ak ­ tualizacji g-w artości dla aktualnego stanu i aktualnej akcji. O peracja ta, zapisana jak o

uaktualnij^(Q,x, , a , , A),

m a za zadanie zmianę wartości g (xt, at) w ten sposób, aby stała się on a bliższa g (x„ a,) -1- A, w stopniu k o n t­

rolowanym przez współczynnik szybkości uczenia /?.

Im plem entacja tej operacji zależy w oczywisty sposób od przyjętej reprezentacji funkcji g .

N ajprostsze podejście polega na przechowywaniu g-w artości w tablicy, zawierającej jeden element dla każdej pary stan-akcja. Wówczas operacja aktualizacji, opisana przez równanie, im plem entow ana jest w n atu ral­

ny sposób ja k o przypisanie:

Q ( x , , a , ) : = 0 ( x , , a , ) + pA.

D ostępne rezultaty teoretyczne dotyczące gwarancji zbieżności algorytm u Q-learning dotyczą tego właśnie, najprostszego przypadku [23]. Niestety, reprezentacja tablicow a m a pow ażne wady, zwłaszcza dla bardziej złożonych i realistycznych problemów. Po pierwsze, jej zapotrzebow anie na pamięć, proporcjonalne do liczby stanów i do liczby akcji, może okazać się nieakceptow al- ne. Po drugie, nie pozwala ona na uogólnianie w zbiorach podobnych stanów. W związku z tym były prow adzone liczne, głównie eksperym entalne prace dotyczące w yko­

rzystywania przez algorytm y uczenia się ze wzmocnie­

niem innych m etod reprezentacji funkcji, na ogół uczą­

cych się i generalizujących aproksym atorów funkcji [ 8, 12, 21, 24],

M e to d y TD (A )

Jak ju ż w spom niano wyżej, algorytm Q -learning jest przykładem algorytm ów wykorzystujących m etody ró ż­

nic czasowych do tem poralnego przypisania zasługi.

W istocie jest to pewna klasa m etod, param etryzow ana przez tzw. współczynnik świeżości (ang. recency factor) 0 < A < 1 , oznaczana ja k o T D (1), przy czym Q -learning odpow iada najprostszem u przypadkow i T D (0). M etody te mogą być w ogólnym przypadku stosow ane do uczenia się predykcji w wieloetapowych problem ach predykcyj-

7

(10)

publikacje

nych. W takich problem ach na każdym etapie należy p odać prognozę pewnej końcowej wielkości, k tó ra staje się dostępna po ostatnim etapie, jednak pewna cząstkowa inform acja na jej tem at dostępna jest na każdym etapie ja k o aktualny stan. M etody T D wykorzystują do uczenia się różnice predykcji z dwóch lub, dla A > 0, z większej liczby kolejnych kroków czasu. F orm alną definicję m etod T D (A) w ich ogólnej postaci m ożna znaleźć w oryginalnej pracy Suttona [18]. Sposób wykorzystania tych metod do uczenia się ze wzmocnieniem jest obszernie dyskutow any w [7].

Zastosowania uczenia się ze w zm o cn ien iem

P aradygm at uczenia się ze wzmocnieniem jest sform uło­

wany w sposób bardzo ogólny i abstrakcyjny. Czyni go to niezwykle pojem nym i szeroko stosowalnym . W istocie, aby sform ułować problem w kategoriach uczenia się ze wzmocnieniem należy jedynie określić odpow iednio re­

prezentację stanów obserwowanych przez system na wejściu i rodzaj akcji generowanych przez niego na wyjściu oraz m echanizm wzmocnienia, stanow iący właś­

ciwą specyfikację zadania do wykonania. Przy pewnych zastrzeżeniach, m ożna zaryzykować porów nanie pierw­

szej z tych czynności do projektow ania stru k tu r danych, drugiej zaś do projektow ania algorytm u w inżynierii program ow ania. Poniew aż rozważam y uczenie się na podstaw ie opóźnionych nagród, projektant, który za pom ocą funkcji wzmocnienia specyfikuje systemowi za­

danie do wykonania, nie musi wiedzieć dokładnie, kiedy poszczególne akcje zasługują na pozytywne lub negatyw­

ne wzmocnienie. W ystarczy, jeśli będzie potrafił wyróżnić i nagrodzić sytuacje szczególnie korzystne (takie, ja k np. osiągnięcie pewnych cząstkowych celów zadania) oraz wyróżnić i ukarać sytuacje szczególnie niekorzystne (ta­

kie, ja k np. popełnienie pewnych ewidentnych błędów).

Oczywiście, stosow anie m etod uczenia się ze wzmoc­

nieniem, chociaż często możliwe, nie zawsze jest sensow­

ne. Jako generalną zasadę m ożna przyjąć, że gdziekolwiek jest dostępna wiedza na tem at środow iska i zadania systemu uczącego się pozw alająca na zastosow anie m etod uczenia się z nadzorem , należy z niej skorzystać. G łów ną dom eną m etod uczenia się na podstaw ie nagród są dziedziny, w których tak a wiedza nie jest dostępna, jest tru d n a do otrzym ania lub sform ułowania, bądź jej otrzy­

m anie wiąże się z dużym kosztem (w sensie wysiłku ludzi lub dodatkow ych obliczeń).

Do dziedzin, w których stosow anie m etod uczenia się ze wzmocnieniem jest uzasadnione i było ju ż intensywnie badane, należy na pewno autom atyczne sterowanie.

W uproszczeniu, w problem ach sterow ania rozw aża się dynam iczny system, na którego wejście należy podaw ać odpow iednie sygnały sterow ania tak, aby osiągnąć pe­

wien predefiniowany cel. W przypadku, gdy cel ten jest sform ułow any ja k o optym alizacja pewnej m iary aktual­

nej sytuacji sterow anego systemu, mam y do czynienia z problem em optym alnego sterow ania. Niekiedy o d p o ­ wiedni sterow nik m ożna zbudow ać posługując się m ate­

m atycznym opisem problem u. Jeśli jed n ak nie jest to możliwe lub jest możliwe tylko częściowo i przynajmniej niektóre param etry sterow nika muszą być m odyfikowane na podstaw ie obserwacji rzeczywistego zachow ania się sterow anego systemu, m am y do czynienia ze sterow aniem adaptacyjnym .

8

M ożna, generalnie rzecz biorąc, rozróżnić dwie klasy podejść do jego realizacji. Podejście pośrednie polega na przeprow adzeniu wstępnie tzw. identyfikacji systemu, czyli skonstruow aniu jego wiarygodnego m odelu, po­

przez obserwację jego reakcji na podaw ane na jego wejście sygnały, następnie zaś określeniu strategii ste­

row ania na podstaw ie tego modelu. W przypadku, gdy problem sterow ania m ożna reprezentow ać za pom ocą procesu decyzyjnego M arkow a, oznacza to najpierw identyfikację praw dopodobieństw zm ian stanów i w arto­

ści oczekiwanych nagrody, a następnie znalezienie op­

tymalnej strategii sterow ania za pom ocą m etod p ro ­ gram ow ania dynamicznego. Podejście bezpośrednie p o ­ lega natom iast na poszukiw aniu optym alnej strategii sterow ania bezpośrednio n a podstaw ie obserwacji za­

chow ania się sterow anego systemu, bez potrzeby k o n ­ struow ania modeli. Uczenie się ze wzmocnieniem o d ­ pow iada więc bezpośredniem u adaptacyjnem u sterow a­

niu optym alnem u [19]. Pokazano eksperym entalnie, że takie bezpośrednie podejście oparte na uczeniu się ze wzmocnieniem może niekiedy być wyraźnie bardziej skuteczne niż tradycyjne m etody pośrednie [2]. Szerzej zagadnienia zastosow ania uczenia się ze wzmocnieniem do sterow ania om aw iane są np. w pracy [ 11].

Inną, częściowo pokrew ną dziedziną, w której uczenie się ze wzmocnieniem jest stosow ane co najmniej równie często, jest robotyka. Celem tych prób jest uzyskanie inteligentnego ro b o ta zdolnego do sam odzielnego działa­

nia w złożonych i na ogół niedeterm inistycznych środow i­

skach. D la takich środow isk sporządzenie tradycyjnie rozum ianego oprogram ow ania sterującego dla ro b o ta jest niemożliwe lub bardzo trudne. Często również w yko­

rzystanie m etod uczenia się z nadzorem okazuje się niemożliwe ze względu na trudność sform ułow ania o d ­ powiednich przykładów. Tymczasem zaprojektow anie odpowiedniej funkcji wzmocnienia zazwyczaj nie przed­

stawia dużej trudności, zwłaszcza, że może to być wzmoc­

nienie opóźnione. System uczący się ze wzmocnieniem, sterujący robotem , obserwuje ja k o stany środow iska informacje z sensorów robota, a wygenerowane przez niego akcje są używane do aktyw ow ania różnych fizycz­

nych układów ro b o ta służących do poruszania się, w yko­

nyw ania m anipulacji. P rzeprow adzano liczne ekspery­

m enty z takim i systemami, w zastosow aniu do w ykony­

w ania typowych zadań ruchom ych robotów , takich jak przechodzenie przez drzwi, nawigowanie w wąskich kory­

tarzach i omijanie przeszkód, znajdow anie drogi, przesu­

wanie pudełek, ładow anie akum ulatorów i inne, zarów no w środow iskach sym ulowanych, ja k i rzeczywistych. O pi­

sy tego typu doświadczeń m ożna znaleźć np. w [12, 14].

Nieco mniej popularny, lecz także obiecujący obszar zastosow ań, wiąże się z tworzeniem program ów k o m ­ puterow ych grających w gry. Znaczący sukces odniósł wykorzystujący m etody uczenia się ze wzmocnieniem program do gry w trik -trak a (ang. backgammori) [ 21], zwycięzca kom puterow ej olim piady tej gry. P rogram ten, nazw any TD-Gammon i uważany obecnie za jednego z najlepszych graczy na świecie (zarówno wśród ludzi, jak i w śród program ów kom puterow ych), pokonał tradycyj­

ne nie uczące się program y z „ręcznie” zakodow anym i heurystykam i uzyskanym i na podstaw ie wiedzy eksper­

tów trik-traka, a także wcześniejszy program Neurogam- mon [ 20] tego samego autora, uczący się z nadzorem z odpow iednio dobranych przykładów. Swoje m istrzost­

wo osiągnął TD-Gammon ucząc się wyłącznie na p o d ­ stawie własnej gry, zaczynając od zerowej wiedzy i nie

Inform atyka nr 4, 1996 r.

(11)

korzystając z żadnej pom ocy lub innej ingerencji człowie­

ka. Jest to jeden z najbardziej spektakularnych sukcesów nie tylko uczenia się ze wzmocnieniem, lecz także uczenia się maszyn i sztucznej inteligencji w ogóle.

O statnio w kilku pracach opisano udane zastosow ania uczenia się ze wzmocnieniem do problem ów optym aliza­

cji kom binatorycznej, m.in. problem u kom iw ojażera [ 10]

i problem u szeregowania zadań [24], Obiecujące są także wyniki uzyskane przy stosow aniu pewnej wersji algoryt­

mu Q-learning do adaptacyjnego znajdow ania optym al­

nych połączeń (routingu) w sieciach z kom utacją pakie­

tów [13]. Z pewnością wiele innych obiecujących za­

stosow ań czeka jeszcze na swoich odkrywców.

★ ★ ★

Uczeniu się ze wzmocnieniem w jego dzisiejszym kształcie dały początek w pierwszej połowie lat osiemdziesiątych pionierskie prace Andrew G. B arto i Richarda S. Suttona [3,17], który opracow ał nie om ówiony tu z braku miejsca algorytm AHC (ang. Adaptive Heuristic Critic).

Kolejnym krokiem milowym była praca C hristophera W atkinsa [22], który odkrył bliskie pokrewieństwo zaga­

dnień badanych wcześniej przez S uttona z teorią stochas­

tycznego program ow ania dynam icznego i opierając się na tych pokrew ieństw ach zaproponow ał algorytm Q -lear­

ning. Osiągnięcia te stworzyły podstaw ę do dalszego rozwoju dziedziny, który wyraźnie nabrał tem pa na początku lat dziewięćdziesiątych, aby w ostatnich dwóch- -trzech latach zaowocować gwałtownie rosnącą liczbą publikacji, opisujących nowe rezultaty teoretyczne, prace eksperym entalne, zastosow ania w coraz bardziej złożo­

nych i realistycznych środowiskach. Świadectwem tego rozwoju są, między innymi, poświęcone uczeniu się ze wzmocnieniem dwa specjalne num ery czasopism a M achi­

ne Learning (pierwszy - Vol. 8, 1992, drugi - ukaże się w tym roku). N a ubiegłorocznej m iędzynarodowej k o n ­ ferencji na tem at uczenia się maszyn (The Twelfth Inter­

national Conference on M achine Learning, Tahoe City, USA) spośród 68 prezentow anych referatów kilkanaście poświęconych było uczeniu się ze wzmocnieniem. P lan o ­ wane jest wydanie w Stanach Zjednoczonych pierwszej książki w całości poświęconej temu tematowi, autorstw a B arto i Suttona.

Jednocześnie w dziedzinie uczenia się ze wzmocnieniem pozostaje wiele problem ów otw artych, które czekają na nowe propozycje rozwiązań. D otyczą one między innymi szybkości uczenia się, ograniczeń zakresu stosowalności dostępnych algorytm ów, integracji uczenia się i planow a­

nia, konstruow ania systemów o strukturze hierarchicznej.

Wszystkie one są właściwie związane z jednym wspólnym celem, którym jest zwiększenie skuteczności istniejących m etod na tyle, aby m ożna było je stosow ać z powodze­

niem do dużych i realistycznych problemów.

O b a powyższe spostrzeżenia (gwałtownie zwiększające się zainteresowanie z jednej strony oraz duża liczba wciąż nie rozwiązanych problem ów z drugiej) nie pozostaw iają wątpliwości, że w arto zwrócić uwagę na dziedzinę uczenia się ze wzmocnieniem i usprawiedliwiają popularyzator­

ską funkcję tego artykułu. Jego ograniczona objętość pozwoliła jedynie na pobieżne omówienie najbardziej podstaw ow ych zagadnień. Czytelników zainteresow a­

nych uzyskaniem bliższych informacji na ten tem at au to r gorąco zachęca do bezpośredniego kontaktow ania się z nim.

L IT E R A T U R A

[1] Barto A. G.: Reinforcement learning and adaptive critic methods.

D. A. W hite, D. A. Sofge (Eds.): H andbook of Intelligent C ontrol, pp. 469-491. Van N o stran d Reinhold, New York, 1992

[2] Barto A .G ., Singh S. P.: O n the com putational econom ics of reinforcement learning. Proceedings o f the 1990 Connectionists M odels Sum m er School. M organ K aufm ann, 1990

[3] Barto A. G., Sutton R. S., A nderson C. W.: N euronlike adaptive ele­

ments that can solve difficult learning control problems. IEE E T ran s­

actions on Systems, M an, and Cybernetics, 13, pp. 835-846, 1983 [4] Bellman R. E.: D ynam ic Program m ing. Princeton U niversity Press,

Princeton, N J, 1957

[5] Bole L., Z arem ba J.: W prow adzenie do uczenia się maszyn. A kade­

micka Oficyna W ydawnicza RM , 1992

[6] C arbonell J. G., M ichalski R. S., Mitchell T. M.: An overview of m a­

chine learning. R. S. Michalski, J. G. Carbonell, T. M. Mitchell (Eds.):

M achine Learning: An Artificial Intelligence A pproach, Vol. 1.

Tioga (obecnie M organ Kaufmann), 1983

[7] Cichosz P.: T runcating tem poral differences: O n the efficient im­

plem entation of TD(,l) for reinforcement learning. Jo u rn al of Ar­

tificial Intelligence Research, 2, pp. 287-318, 1995

[8] Cichosz P.: T runcated tem poral differences with function ap proxi­

m ation: Successful examples using CM AC. U każe się w: Proceedings of the T hirteenth European Symposium on Cybernetics and Systems Research (EMCSR-96), 1996

[9] Cichosz P., M ulaw ka J. J.: F ast and efficient reinforcement learning with truncated tem poral differences. Proceedings of the Twelfth International Conference on M achine Learning (ML-95), 1995 [10] G am bardella L. M., D origo M.: Ant-Q: A reinforcement learning

approach to the traveling salesm an problem . Proceedings of the Twelfth International Conference on M achine Learning (ML-95), 1995

[11] G ullapalli V.: Reinforcement Learning and Its A pplication to Control. P h D thesis, D epartm ent o f C om puter and Inform ation Science, University of M assachusetts, 1992

[12] Long-Ji Lin: Reinforcement Learning for R obots Using N eural N etw orks. P hD thesis, School of C om puter Science, Carnegie- -M ellon University, 1993

[13] L ittm an M. L., Boyan J. A.: A distributed reinforcement learning scheme for netw ork routing. Technical Report CM U-CS-93-165, School o f C om puter Science, Carnegie-M ellon University, 1993 [14] M ahadevan S., Connell J.: A utom atic program m ing o f behavior-

-based robots using reinforcem ent learning. Artificial Intelligence, 55, pp. 311-365, 1992

[15] M insky M . L.: Steps tow ard artificial intelligence. Proceedings o f the Institute of Radio Engineers, 1961. Przedruk w E. A. Feingenbaum , J. Feldm an (Eds.): C om puters and T hought, M cG raw -H ill, New York, 1963

[16] M itchell T. M.: M achine Learning (w przygotow aniu)

[17] S u tto n R. S.: T em poral Credit Assignment in Reinforcement L ear­

ning. P hD thesis, D epartm ent of C om puter and Inform ation Science, U niversity of M assachusetts, 1984

[18] Sutton R. S.: Learning to predict by the m ethods o f tem poral differences. M achine Learning, 3, pp. 9 -4 4 , 1988

[19] Sutton R.S., B arto A .G ., Williams R.J.: Reinforcement learning is direct adaptive optim al control. Proceedings o f the American C ontrol Conference. Boston, MA, 1991

[20] T esauro G.: N eurogam m on wins com puter olym piad. N eural C o m ­ putation, 1, pp. 321-323, 1990

[21] T esauro G.: Practical issues in tem poral difference learning. M achine Learning, 8, pp. 257-277, 1992

[22] W atkins C .J .C . H.: Learning from Delayed Rewards. P h D thesis, K ing’s College, Cam bridge, 1989

[23] W atkins C. J. C. H., D ayan P.: Technical note: Q-learning. M achine Learning, 8, pp. 279-292, 1992

[24] Z hang W., D ietterich T. G.: A reinforcem ent learning ap p ro ach to jo b-shop scheduling. Proceedings o f the F o urteenth Jo in t In ter­

national Conference on Artificial Intelligence (lJCAI-95), 1995.

K ontakt z Autorem:

cichosz@ipe.pw.edu.pl

http://www.ipe.pw.edu.pl/ ~ cichosz

Inform atyka nr 4, 1996 r. 9

(12)

m

N

U

ooX

u s

en

f t .

a a N J* v*-i

C o '

° É

60 5 N g>

U •§

s! s J - i

I

er

p-

s

&

o

> -i _

ê °

J i H

•* (/)

a d ą s

in oo « HH à o

u ^

- «N

<N ><

-1ÍO

2

£ ' O - X

‘ S

¡s N U UN

Ut

3 3N U Ua

“</îc ?

Cytaty

Powiązane dokumenty

nie większe możliwości tego modelu w zakresie modelowania semantyki rzeczywistości, wydaje się być bardziej dogodny do modelowania wymiaru czasu rzeczywistości

■ Raport, mimo często sygnalizowanej globalizacji procesów produkcyjnych i informacyjnych, koncentruje się w gruncie rzeczy na rozwoju wewnętrznych rynków Unii Europejskiej

prawek błędnych zapisów. Modyfikacje elementów atrybutu są dużo bardziej kłopotliwe w obsłudze niż wstawianie lub wskazywanie na zakończenie istnienia elementu, gdyż często

zadanie, które wykonuje instrukcję accept uzyskuje priorytet zadania wywołującego to wejście (jeżeli jego własny priorytet jest niższy od priorytetu zadania

Innym aspektem badań rynkowych - nie tylko w Polsce - jest to, że zdarzają się badania zamawiane nie po to, aby od­. biorca dowiedział się „prawdy” (cokolwiek by to nie

specjalistów. W dyskusjach z Unią dobrym argumentem jest potwierdzenie jakości naszych specjalistów przez kraje Unii oraz USA jeżeli decydują się na ich zatrudnienie,

twarzania interakcyjnego, to ten zakres działania hurtowni danych, który jest dostrzegany przez użytkowników Systemu Wspomaga­. nia Podejmowania

kumentów jest możliwość szukania dokumentu, niezależnie od jego fizycznego miejsca składowania. Dla użytkownika nie ma znaczenia rodzaj bazy danych, w której