• Nie Znaleziono Wyników

Index of /rozprawy2/10860

N/A
N/A
Protected

Academic year: 2021

Share "Index of /rozprawy2/10860"

Copied!
214
0
0

Pełen tekst

(1)AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA W KRAKOWIE WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI I INŻYNIERII BIOMEDYCZNEJ. ROZPRAWA DOKTORSKA. Analiza i synteza systemu przetwarzania sygnałów opisujących gesty i elementy subkodu mimicznego w zastosowaniu do komunikacji z osobami niesłyszącymi. mgr inż. Wojciech Kozioł. Promotor rozprawy: prof. dr hab. inż. Wiesław Wajs. Kraków 2014.

(2) Składam serdeczne podziękowania Panu Profesorowi Wiesławowi Wajsowi za inspirację do podjęcia tematu tej Rozprawy oraz pomoc w jego realizacji.

(3) MOJEJ ŻONIE.

(4) SPIS TREŚCI. SPIS TREŚCI 1. WSTĘP...............................................................................................................................6 1.1. Wprowadzenie............................................................................................................7 1.2. Uzasadnienie podejmowanych badań.......................................................................10 1.3. Cel i zakres pracy.....................................................................................................13 1.4. Stan badań nad automatycznym tłumaczeniem tekstów na język migowy..............17 1.5. Metodologiczne podstawy opisu..............................................................................31 1.6. Zawartość pracy.......................................................................................................35 2. PODSTAWY TEORETYCZNE OPRACOWANIA. ASPEKTY LINGWISTYCZNE...37 2.1. Komunikacja językowa w aspekcie teoretycznym (modele komunikacyjne)..........38 2.2. Komunikacja werbalna – podstawowe cechy języka mówionego...........................43 2.2.1. Podstawowe elementy w strukturze komunikatu językowego.........................45 2.2.1.1. Założenia analizy syntaktycznej...............................................................45 2.2.1.2. Pozostałe typy konotacji składniowej.......................................................49 2.2.1.3. Połączenia szeregowe (współrzędne) składników....................................50 2.2.1.4. Wieloelementowe grupy składniowe (wybrane zagadnienia)...................50 2.2.2. Polisemia a struktura zdania.............................................................................51 2.2.2.1. Homonimia werbalna (czasownikowa) a składnia zdania........................52 2.2.2.2. Polisemia werbalna (czasownikowa) a składnia zdania...........................52 2.2.3. Mechanizmy składniowej akomodacji.............................................................52 2.2.4. Podstawowe funkcje składniowe .....................................................................54 2.2.4.1. Podmiot (subiekt)......................................................................................54 2.2.4.2. Dopełnienie (obiekt).................................................................................56 2.2.4.3. Okolicznik.................................................................................................61 2.2.4.4. Grupa (fraza) nominalna. Problem tzw. przydawki..................................63 2.3. Podstawowe wiadomości o języku migowym..........................................................69 2.3.1. Klasyfikacja uszkodzeń słuchu.........................................................................69 2.3.2. Sposoby komunikowania się osób niesłyszących.............................................70 2.3.3. Język migowy w Polsce i na świecie................................................................71 2.3.4. Klasyczny język migowy (PJM).......................................................................73 2.3.5. Język migany i system językowo migowy (SJM)............................................73 2.3.6. Cechy gestów języka migowego......................................................................74 2.3.7. Język migowy a język foniczny........................................................................77 3. BUDOWA SYSTEMU TŁUMACZĄCEGO...................................................................80 3.1. Architektura systemu tłumaczącego.........................................................................81 3.1.1. Modułowa architektura systemu.......................................................................82 3.1.2. Współpraca i komunikacja modułów w systemie.............................................84 3.1.3. Działanie systemu tłumaczącego......................................................................85 3.2. Aplikacje narzędziowe..............................................................................................89 3.2.1. Edytor mimiki twarzy.......................................................................................89 4.

(5) SPIS TREŚCI. 3.2.2. Edytor gestów...................................................................................................91 3.2.3. Edytor danych językowych...............................................................................96 3.3. Wizualizacja gestów języka migowego..................................................................100 3.3.1. Przegląd technik rejestracji ruchu...................................................................100 3.3.2. Przegląd technik animacji komputerowej.......................................................101 3.3.3. Animacja szkieletowa.....................................................................................103 3.3.4. Konstrukcja siatki aktora 3D..........................................................................104 3.3.5. Układ kości aplikacji końcowej......................................................................106 3.3.6. Układ kości w aplikacji Blender.....................................................................108 3.3.7. Akwizycja gestów języka migowego..............................................................110 3.3.8. Import danych zarejestrowanych systemem motion capture do aplikacji Blender......................................................................................................................113 3.3.9. Proces tworzenia animacji szkieletowej.........................................................114 3.3.10. Tworzenie animacji wypowiedzi w języku migowym.................................120 3.3.10.1. Animacja ruchu awatara........................................................................120 3.3.10.2. Animacja układów dłoni języka migowego..........................................121 3.3.10.3. Animacja ekspresji twarzy....................................................................123 3.3.10.4. Animacja gestów i wypowiedzi języka migowego...............................126 3.4. Baza wiedzy językowej..........................................................................................128 3.4.1. Własności kategorialne leksemów języka fonicznego....................................128 3.4.2. Reprezentacja leksemów w bazie wiedzy językowej.....................................133 3.4.3. Ramowy opis części mowy i ich reprezentacji w bazie wiedzy językowej. . .135 3.4.4. Kategorie leksykalno-pojęciowe języka migowego i ich przekazywanie (reprezentacja)..........................................................................................................156 3.4.5. Reprezentacja własności semantyczno-gramatycznych leksemów w bazie wiedzy językowej.....................................................................................................157 3.4.5.1. Znaczniki (cechy) semantyczne czasownika oraz rzeczownika.............158 3.4.5.2. Semantyka w grupie nominalnej.............................................................164 3.4.6. Reprezentacja cech składniowych czasownika..............................................167 3.4.6.1. Podstawowe funkcje składniowe............................................................168 3.4.6.2. Schematy zdaniowe zdania pojedynczego..............................................168 3.5. Główna baza danych...............................................................................................170 3.6. Analiza polskiego języka pisanego i synteza do postaci języka migowego...........175 3.6.1. Parsowanie tekstu i budowanie dynamicznej bazy wiedzy............................175 3.6.2. Predykaty pomocnicze i struktury danych opisujące segmenty.....................179 3.6.3. Homonimia wyrazowa....................................................................................181 3.6.4. Segmentacja tekstu.........................................................................................183 3.6.5. Identyfikacja wybranych części zdania..........................................................192 3.6.6. Wyodrębnianie konglomeratów (zbitek słownych, frazemów itp.) ..............197 3.6.7. Przykładowe struktury pytajne i dyrektywne.................................................198 3.6.8. Struktury złożone............................................................................................200 3.7. Aplikacja główna....................................................................................................205 4. ZAKOŃCZENIE............................................................................................................208 BIBLIOGRAFIA................................................................................................................209. 5.

(6) 1. WSTĘP.

(7) 1.1. Wprowadzenie. 1.1. Wprowadzenie Przezwyciężenie hermetyczności nauk informatycznych w stosunku do innych dyscyplin badawczych jest potrzebą chwili. Dotyczy to zwłaszcza nauk humanistycznych, gdzie zwykło się ograniczać rolę informatyki do zwykłego narzędzia do rozwiązywania problemów technicznych, matematycznych, statystycznych, gromadzenia danych opisowych czy wyszukiwania artykułów naukowych, a często również sprowadzających rolę komputera do zwykłej maszyny do pisania. Postęp na tym polu jest ciągle niewystarczający, a niezrozumienie dla pozycji poznawczych, jak też możliwości i oczekiwań badawczych pozornie czasem odległych dziedzin, bywa źródłem nieporozumień, szczególnie dotkliwych dla tych nauk w konsekwencji niewykorzystania nowoczesnych narzędzi analitycznych i inspiracji płynących z rozwoju technologii informatycznej. Współczesna epistemologia podkreśla integralność poznania w nauce. Niektóre dyscypliny dzielą więc pewne sztuczne i dogmatyczne podziały. Przykładem ukazującym, że taka koegzystencja jest możliwa jest zbliżające się metodologicznie do nauk ścisłych językoznawstwo. Lingwiści już dawno dostrzegli przydatność techniki komputerowej. Z wykorzystaniem takich narzędzi próbowano realizować koncepcje generowania tekstu zaproponowaną przez Noama Chomskiego. Skutecznie rozwinęły się badania nad frekwencją jednostek i stylem, a ostatnio – analizy korpusu tekstów (tzw. językoznawstwo korpusowe) jako skuteczne narzędzie badania tekstu. Nie pomyślano jednak o informatyce jako o narzędziu wspomagającym komunikację interpersonalną. Zainteresowanie językiem jako hierarchicznie zorganizowaną strukturą znaków (zdań) prostych i złożonych poddanych rygorom tekstotwórczym w naturalny sposób kieruje uwagę na poziom strukturalizacji wypowiedzi i opisu syntaktycznego języka. Przydatność paradygmatu informatycznego dla stworzenia formalnego opisu funkcjonowania języka jako systemu znaków jest bezdyskusyjna. Otwiera to także pole badań porównawczych w zakresie analiz strukturalnych różnych języków i automatyzacji procesów przekładu. Dowodzi tego najlepiej bujny rozwój translatoryki komputerowej,. 7.

(8) 1. WSTĘP. upowszechniającej się w zasobach Internetu, zob. kolejne wersje coraz doskonalszych translatorów typu Translatica, Google Translator, Bing Translator i wiele innych. Sprawność i skuteczność takiego informatycznego narzędzia objawić się winna także w przypadku przekładu pomiędzy językami o odmiennych podstawach substancjalnych, jakim jest naturalny język foniczny i język migowy. Wydaje się to założeniem oczywistym i w pełni uzasadnionym na gruncie lingwistyki. Jednak w odniesieniu do komunikacji pomiędzy dwoma językami o tak różnej strukturze, ograniczenia i niedostatki warsztatu naukowego obu dyscyplin stają się bardziej widoczne i wymagają próby nowego podejścia. Tworzenie tekstu z punktu widzenia języka to niejako pobieranie z bazy jednostek, dostępnych w postaci relacji in absentia (systemowych), a następnie – zgodnie z obowiązującymi regułami strukturyzacji wypowiedzi i intencją komunikacyjną nadawcy – ułożenie (w relacji in presentia) wybranych elementów w pewien ciąg linearny. Tworzenie tekstu, choć to mało oczywiste, jest procesem pochłaniającym mnóstwo uwagi i energii psychicznej, zarówno w piśmie, jak i w mowie. Nie przebiega też gładko, o czym świadczą najlepiej próby zapełnienia elementami fonicznymi pauz w mówieniu, por. tzw. „jęki namysłu”, nieuchronne pauzy, przerwania, zająknięcia, elementy fatyczne (wiesz, rozumiesz, słuchaj), dłuższe wypowiedzi przyjmujące postać tzw. potoków składniowych. Z punktu widzenia informatycznego tworzenie tekstu wygląda następująco. Jest baza faktów, dopuszczalne schematy składniowe i hipotetyczne warunki systemu. Na podstawie posiadanych reguł, oraz schematów składniowych system jest w stanie generować teksty poprawne jedynie z punktu widzenia składniowego, niekoniecznie jednak mające sens. Niepowodzenie w systemie Chomskiego, generowanie fałszywych, nieakceptowalnych komunikatów wynika z niedostatku refleksji humanistycznej, ograniczenia przedmiotowości i suwerenności nadawcy w tworzeniu sensu i odbiorcy jako świadomego użytkownika i osoby życzliwie współpracującej w rozumieniu tekstu. Bezwiednie utożsamiono język sztuczny z językiem naturalnym i pominięto tak oczywisty fakt, że jest on tyko częściowo izomorficzny wobec opisywanej rzeczywistości. Poddany rygorom utylitarnym, antropocentryczny i odzwierciedlający naiwną, przednaukową wizję rzeczywistości. Wyposażenie schematów składniowych we właściwości semantyczne pozwala na generowanie wypowiedzi poprawnych również pod względem sensu. W zalewie informacji werbalnej posiadanie narzędzia wspomagającego drążenie relewantnych składników wiedzy stanie się w krótkiej perspektywie koniecznością. Dziedzina sztucznej inteligencji zwana eksploracją danych (ang. data mining) polega na użyciu komputera do wyszukiwania i odkrywania prawidłowości, które są ukryte w danych. Ze względu na ogromne rozmiary przeszukiwanych danych (często są to hurtownie danych), człowiek nie jest w stanie dokonać ich analizy chociażby ze z uwagi na czas samego ich przeglądnięcia. W algorytmach drążących dane w procesie ich przeszukiwania i analizy stosowane są metody statystyczne lub metody cechujące się inteligencją obliczeniową tj. sieci neuronowe, algorytmy ewolucyjne, uczenie maszynowe, logika rozmyta, zbiory przybliżone itd. Ostatnio duży nacisk kładzie się również na metody analizujące obrazy oraz teksty zapisane w języku naturalnym. Metody te nazywane są rozumieniem wiedzy tj. obrazów, tekstów i treści w ogóle. Narzędzia te cechują się dużą abstrakcją, gdyż systemy takie poprzez analizę danych zapisanych w formie czytelnej dla człowieka, są w stanie wydrążyć z całości dane relewantne i z nich zbudować bazę wiedzy lub nawet system ekspertowy. Baza wiedzy i algorytmy realizowane w niniejszej. 8.

(9) 1.1. Wprowadzenie. rozprawie doktorskiej cechują się takimi właściwościami, jeśli idzie o analizę głęboką tekstu. Analiza ta pozwala na ustalenia znaczenia danego wyrazu w tekście, zatem można tu mówić o odkrywaniu pojęć w tekście. System ten może więc w przyszłości pełnić zadanie inteligentnego narzędzia umożliwiającego drążenie danych. Skuteczność takich systemów zależy od sposobu opisu semantycznego i jego ziarnistości. Problematyka tłumaczenia tekstów z polskiego języka pisanego na polski język migowy i odwrotnie – z polskiego języka migowego na polski język mówiony jest wielce skomplikowanym, zagadnieniem, a także zadaniem, zarówno od strony językowej, jak również informatycznej. Jego złożoności nie można sprowadzić do zasobności leksyku. Potwierdzone w źródłach leksykograficznych dysproporcje rzędu kilka : kilkadziesiąt tysięcy jednostek nie mogą przesłonić faktu, że mamy, w przypadku języka migowego do czynienia z równie sprawnym co polszczyzna narzędziem komunikacji, nawet na poziomie dokonań artystycznych. Jak widać, nie ma podstaw do utożsamiania mowy gestów z kodem ograniczonym. Sytuacja ta nakazuje skupić uwagę na właściwym skonstruowaniu płaszczyzny odniesienia i podstaw ekwiwalencji przekładu. Na danym etapie rozwijanych badań nad wspomaganiem komunikacji osób słyszących z niesłyszącymi dostępne jest opracowanie relacji jednostronnej, od języka pisanego i mówionego do wypowiedzi migowej. Warto w tym miejscu podkreślić, że podejmowane na świecie próby automatyzacji analizy informacji wizualnej 1, korzystające z kodu gestyczno-mimicznego, nigdzie nie dały zadowalających rezultatów. Decyduje o tym specyfika komunikacji wzrokowej i percepcji takiego znaku. Budowa translatorów z języka migowego do języka fonicznego oddala się tym bardziej, im lepiej rozpoznane zostają słabości narzędzi konstruowanych, głównie przez uczonych amerykańskich i z Dalekiego Wschodu. Sprawność tych systemów ogranicza się do rozpoznawania rzadko więcej niż 100 migów i na zdeklarowanym wstępnie wąskim repertuarze najprostszych zdań. W sytuacji gdy skutecznie rozpoznaje się pojedyncze gesty i ich izolowane sekwencje. Przydatność takich narzędzi, także w procedurze analitycznej, staje się iluzoryczna. Na liczące się osiągnięcia na tym polu trzeba będzie jeszcze poczekać. W ten sposób dostępność przetwarzania tekstów języka migowego na język foniczny wydaje się w pełni uzasadniona. Nie znaczy to, by autor wzdragał się przed podjęciem takiego wysiłku w przyszłości.. 1. spełniającej się w percepcyjnym kanale wzrokowym. 9.

(10) 1.2. Uzasadnienie podejmowanych badań. 1.2. Uzasadnienie podejmowanych badań Motywacją do podjęcia badań naukowych i prac nad utworzeniem systemu było zainteresowanie autora środowiskiem osób niesłyszących, a co za tym idzie również językiem migowym. Badając obszar własnych zainteresowań przeglądnięto zasób leksykalny słowników języka migowego dostępnych w formie papierowej i elektronicznej oraz podręczników i materiałów leksykalnych do nauki języka migowego. Zestawienie to pozwoliło określić, że zasób leksykalny zunifikowanych gestów języka migowego to około 5000 gestów. Zestawiając tą liczbę z leksykonem słownikowym języka polskiego można stwierdzić, że jest on kilkadziesiąt razy większy. Podczas rozmów i konsultacji z osobami niesłyszącymi zaobserwowano, że posługują się oni znacznie szerszym zakresem słownictwa, szczególnie jeśli idzie o opisywanie świata materialnego. Gesty te są wynikiem potrzeb komunikacyjnych osób niesłyszących i często powstają spontanicznie z konieczności nazwania kogoś lub czegoś. Autor ma w tym zakresie również własne doświadczenie. We wstępnych fazach badań nosił on długie włosy, co spowodowało, że w środowisku osób niesłyszących identyfikowano jego osobę z wymyślonym gestem łapania kucyka z tyłu głowy – nadano mu ksywkę w postaci nowego migu wymyślonego na potrzebę dalszej komunikacji. Spontaniczny rozwój języka migowego ma jednak swoją cenę. Skutkuje bowiem powstawaniem różnic w języku migowym w różnych regionach polski. Jedną z przyczyn podjęcia badań dotyczących języka migowego była chęć skompletowania jak największego zasobu ideogramów polskiego języka migowego w elektronicznej formie. Autor ma nadzieję, że będzie to zachętą i impulsem do wzmożenia prac unifikacyjnych w zakresie języka migowego w Polsce. Główną motywację dla prowadzonych badań stanowi fakt, że brak jest na polskim rynku odpowiedniego oprogramowania, serwisów www czy też urządzeń, które realizowałyby zadanie tłumaczenia z języka polskiego na język migowy lub odwrotnie. Brakuje nawet rozwiązań, które wspomagałyby proces komunikacji osób niesłyszących ze słyszącymi. Zaprojektowanie i wykonanie odpowiedniego oprogramowania wykorzystującego metody sztucznej inteligencji z całą pewnością może posłużyć jako użyteczne narzędzie wspomagające proces porozumiewania się osób. 10.

(11) 1. WSTĘP. słyszących z niesłyszącymi w konkretnych sytuacja życiowych. Przez konkretną sytuację życiową należy rozumieć szczególne miejsce, w którym osoba niesłysząca może porozumieć się z osobą słyszącą nie znającą języka migowego. Tym szczególnym miejscem może być np. miejsce pracy, stanowisko obsługi urządzeń technicznych i maszyn, ale także urząd państwowy, przychodnia lekarska, dziekanat wyższej uczelni, dworzec PKP itp. Zainstalowanie kiosków z aplikacją tłumaczącą w instytucjach użyteczności publicznej może zrekompensować braki tłumaczy języka migowego w tych placówkach. Podkreślić należy szeroki zakres możliwości zastosowania takiego systemu. Podjęcie takiej tematyki rozprawy doktorskiej wynika z podstawowych trudności w komunikacji osoby niesłyszącej z osobą słyszącą; jest następstwem faktu, że do tej pory nie udało się zbudować i wdrożyć uniwersalnego systemu komunikacji osoby niesłyszącej z osobą słyszącą w każdej sytuacji życiowej. Osoby niesłyszące chcą aktywnie uczestniczyć w życiu społecznym i podejmować pracę w zakładach przemysłowych, instytucjach państwowych. Współczesne doświadczenia pokazują, że osoby z tego typu dysfunkcją również aktywnie uczestniczą w rozwoju i wzroście gospodarczym regionu i mają silną motywację by dorównać w pracy osobom słyszącym. Za przykład posłużyć może chociażby program wsparcia zawodowego osób niesłyszących: „4 kroki” realizowany przez Oddział Łódzki PZG, finansowany z unijnych środków w ramach projektu Kapitał ludzki2. W przekonaniu autora system może wykazać szczególną przydatność w nauczaniu osób głuchoniemych obsługi urządzeń technologicznych, uczenia samodzielności w zakresie kontroli uzyskanych efektów pracy itp. Będzie to możliwe dzięki funkcjonowaniu systemu jako środowiska interaktywnego. Tłumaczone na język migowy instrukcje są przyjazne poznawczo dla osób niesłyszących. Warto też wspomnieć o walorach edukacyjnych tworzonego systemu jako swego rodzaju interaktywnego podręcznika do nauki języka migowego dla osób słyszących. W przyszłości planowana jest rozbudowa funkcjonalności aplikacji o moduły do prowadzenia kursów języka migowego KSS 1, 2, 3. Z uwagi na wykorzystanie technologi 3D do wizualizacji gestów, utworzony program będzie dobrym narzędziem wspomagającym prowadzenie kursów języka migowego na zajęciach zorganizowanych, kursach, jak również do nauki samodzielnej. Podczas nauki gestów osoby początkujące, dysponując jedynie nagraniem wideo danego gestu, czasami mają trudności z rozpoznaniem toru ruchu rąk, czy układów dłoni. Dzieje się się tak ponieważ nagrania wideo często są słabej jakości, a gesty wykonywane są szybko. Funkcjonalność modułu wizualizacji gestów tworzonego w ramach systemu tłumaczącego pozwala przezwyciężyć te trudności przez co ułatwia i przyspiesza przyswajanie wiedzy. Autor ma nadzieję, że będzie to skutkować poszerzaniem się grupy społecznej władającej językiem migowym przynajmniej w stopniu elementarnym. Zwiększona grupa osób znających język migowy w palcówkach użyteczności publicznej, zakładach pracy, placówkach handlowych itp. pozwoli osobom niesłyszącym poczuć większą pewność siebie i samodzielność. Działania te mają również na celu zachęcanie osób niesłyszących do używania systemu językowo – migowego /SJM/ jako narzędzia komunikacji w kontaktach z osobami słyszącymi. Osoby słyszące znacznie łatwiej opanowują systemowy język migowy /SJM/ niż naturalny język migowy /PJM/. Idzie tutaj o to, aby osoby niesłyszące i słyszące spotkały się w procesie komunikacji „niejako w pół drogi”. Osobom niesłyszącym powinno również zależeć na 2. http://www.4kroki.edu.pl/. 11.

(12) 1.2. Uzasadnienie podejmowanych badań. tym aby porozumieć się z osobami słyszącymi i szerzej otworzyć się na ich świat. Warto w związku z tym odnieść się do inspirujących uwag badaczy zajmujących się pragmatyką językową, podkreślających rolę współpracy w procesie komunikacji, np. tzw. maksymy konwersacyjne H. P. Grice’a (1975)3. Grice, wychodząc od dogmatu o wzajemnym zaangażowaniu partnerów rozmowy, tworzy dynamiczny model uniwersalnej komunikacji w postaci obligujących nadawcę i odbiorcę postulatów (reguł) konwersacji. Są one zamknięte w maksymach dotyczących swoistej gry i dopasowania zachowania językowego do społecznie obowiązujących norm zachowania się wobec innych. Maksymy konwersacyjne wynikają z rzeczywistego faktycznego respektowania przez mówiących jako najważniejszej tzw. zasady kooperacji 4. Jej uszczegółowieniem i rozwinięciem są poszczególne reguły przedstawione podpunktami: a) maksyma jakości – staraj się, by mówić prawdę; nie mów tego, o czym sądzisz, że jest nieprawdziwe; nie mów tego, na co nie masz dostatecznych podstaw; b) maksyma ilości – uczyń swoją wypowiedź maksymalnie informacyjną ze względu na realizowany cel komunikacji; nie czyń swojej wypowiedzi bardziej informatywną, niż potrzeba; c) maksyma relewancji (stosunku) – uczyń swoją wypowiedź stosowną do tematu rozmowy; mów na temat; d) maksyma sposobu mówienia – unikaj niejasności i dwuznaczności; mów zwięźle; mów w sposób uporządkowany. Ten idealny model komunikacji wynika wprost z modelu kultury i zasad społecznego współżycia. Aleksy Awdiejew (2007) przedstawia tę relację następująco: „Podporządkowanie się tym postulatom wynika – jak się wydaje – nie tyle z zasad logiki 5 ile przede wszystkim z zasad przyjętych w danej kulturze językowej. Efektywność konwersacji wzrasta właśnie dlatego, że mówiący, trzymający się tych zasad i należący do tej samej kultury, są w stanie przewidywać zachowania swoich partnerów, co znacznie ułatwia wzajemne porozumienie” (tamże: 47). Jest to stanowisko akcentujące społeczny, antropocentryczny a także etyczny wymiar języka. Z ogólnej reguły współpracy dadzą się bowiem wywieść ogólne cele językowej aktywności człowieka wobec drugich. Należą tu, zdaniem Awdiejewa: dążenie do prawdy, do solidarności uczuciowej mówiących oraz tworzenie wzajemnych zobowiązań w zachowaniach partnerów interakcji (tamże). Społecznie aprobowane reguły odnoszenia się do innych obejmują także kwestie etykiety, grzeczności, co słusznie podkreślił G. Leech (1983), dodając maksymę grzeczności – regułę taktu, nakazującą uczestnikom rozmowy sięgnięcie do takich form zachowania, które nie są atakiem na „twarz” partnera, nie są wobec niego obraźliwe ani nie naruszają jego dóbr osobistych. Praca niniejsza świadomie akcentuje społeczny, psychologiczny i operacyjny wymiar języka i komunikacji. W głębokim przekonaniu autora stanowisko takie dobrze służy podkreśleniu roli współpracy, otwarcia się na potrzeby ludzi po części wykluczonych społecznie, bo w znacznej mierze upośledzonych wskutek niemożności pełniejszego udziału w kulturze i pokonania bariery niezrozumienia. Realizowany projekt badawczy przeciera drogę do wprowadzenia ułatwień i udogodnień w komunikowaniu się z osobami głuchoniemymi, bez konieczności opanowania kłopotliwego języka migowego, by choć częściowo przybliżyć w ten sposób te dwa językowe światy. 3. 4 5. Omówienie za pracą: Awdiejew 2007, w której autor skupia się na spontanicznym i naturalnym aspekcie komunikacji językowej. Nikt, kto prosi o chleb, nie spodziewa się kamienia. Jest to aluzja do tytułu studium H.P. Grice’a: „Logic and Conversation”.. 12.

(13) 1.3. Cel i zakres pracy. 1.3. Cel i zakres pracy Celem pracy jest zbudowanie i przedstawienie zasad działania systemu wspomagającego proces komunikacji osób słyszących z osobami niesłyszącymi. W tym celu zaprojektowano i wykonano testową wersję systemu informatycznego w technologii 3D. Niedostatek pozycji leksykograficznych w postaci słowników języka migowego stworzył obiektywną konieczność uporania się z jeszcze jednym zadaniem, jakim była próba określenia i usystematyzowania zasobu gestów, w formie zunifikowanej – w postaci aplikacji komputerowej, tj. tłumacza oraz słownika języka migowego. Chodzi tutaj o opracowanie i wykonanie w miarę kompletnej i jednocześnie otwartej propozycji słownika języka migowego. Słownik taki mógłby stać się użytecznym narzędziem i źródłem wiedzy językowej dla zainteresowanych środowisk, osób i instytucji. Aspekt praktyczny, a zarazem walor ogólnospołeczny pracy, wynika z respektowania idei przeciwdziałania społecznemu wykluczeniu osób upośledzonych, pokonywania uprzedzeń i barier komunikacyjnych przez wspomaganie procesu komunikacji w konkretnych sytuacjach życiowych, np. w urzędach, bankach, przychodniach zdrowia, szpitalach, dworcach, a także i w miejscu pracy. Bariery te są przyczyną izolowania się osób głuchoniemych od reszty społeczeństwa, nieuczestniczenia w kulturze, życiu obywatelskim itd., zatem narzędzie to może wydatnie poprawić jakość ich życia, dostarczając użytecznego wsparcia podczas załatwiania wielu spraw bytowych. Studia socjologiczne i oficjalne dokumenty państwowych instytucji zajmujących się tymi problemami6 dowodzą, że osoby niesłyszące chcą aktywnie uczestniczyć w życiu społecznym i podejmować pracę w zakładach przemysłowych, instytucjach państwowych, nie mają jednak po temu dostatecznego wspomagania. Taką rolę mogą z powodzeniem spełnić współczesne środki techniki komputerowej. Niniejsza rozprawa doktorska wykorzystuje w związku z tym nowoczesne osiągnięcia IT do zbudowania systemu informatycznego, wspomagającego komunikację ludzi słyszących z osobami 6. np. PFRON. 13.

(14) 1. WSTĘP. niesłyszącymi, a więc tym samym ułatwiającego im funkcjonowanie w społeczeństwie. Kwestia ta jest niebagatelna z punktu widzenia całości społeczeństwa, bowiem szacuje się, że w Polsce żyje około 100 tysięcy osób, które mają problemy ze słuchem 7. Spora część spośród nich to ludzie w wieku produkcyjnym, zdolni do podjęcia pracy zarobkowej. Szczególnie boleśnie sytuacja ta dotyka ludzi młodych, chętnie korzystających z dobrodziejstw współczesnej cywilizacji i techniki. Dowodem na to, że dla państwa sprawa osób niesłyszących jest ważna, było podjęcie dodatkowych zobowiązań wobec interesującej nas grupy społecznej, wyrażonych w Ustawie Sejmu RP z dnia 19 sierpnia 2011 r. o języku migowym i innych środkach komunikowania8. Realizacja systemu tłumaczącego niesie ze sobą wiele korzystnych możliwości zastosowań: • porozumiewanie się z osobami niesłyszącymi w razie wystąpienia barier komunikacyjnych, np. w przypadku braku kontaktu bezpośredniego; • wzrost samodzielności i operatywności osób niesłyszących w miejscu pracy; • tworzenie interaktywnych instrukcji obsługi stanowisk pracy, maszyn i procesów technologicznych, przeznaczonych do samodzielnej aktywacji; • komunikowanie się na poziomie zawodowym (specjalistycznym) z przełożonym, instruktorem w miejscu pracy; • komunikowanie się w warunkach niewspółmierności kompetencji językowych i komunikacyjnych, np. relacja petent – urzędnik przy warunkach dysfunkcjonalności pisma jednej strony i nieznajomości języka migowego drugiej strony i in. Problem, rozwiązany w ramach niniejszej rozprawy doktorskiej jest wieloaspektowy i skomplikowany. Skala związanych z nim trudności znajduje wyraz choćby w tym, że mimo podejmowanych wysiłków9 jak dotychczas nie wdrożono automatycznego translatora z języka polskiego do języka migowego. Należałoby tu przede wszystkim wskazać na: • interdyscyplinarność problematyki – do realizacji zadania konieczna jest wiedza z zakresu zaawansowanej gramatyki języka polskiego, gramatyki języka migowego, programowania z wykorzystaniem najnowszych narzędzi informatycznych, animacji komputerowej 3D, w tym analiza i projektowanie mimiki twarzy; • brak ekwiwalencji na poziomie pojedynczych znaków – słów. Konieczność tłumaczenia sytuacyjno-opisowego, która wynika z nierównomiernego rozkładu zasobności leksykalnych, por. słownik ogólny języka polskiego zawierający kilkaset tysięcy jednostek leksykalnych ze słownikiem języka migowego, który zawiera ok. 5000 leksemów10; 7 8. 9 10. http://www.tea.org.pl/userfiles/file/Seminaria/niepelnosprawnosc_sluchowa_mczajkowska-kisil.pdf Pełny tekst z poprawkami i uzupełnieniami jest dostępny pod adresem: http://isap.sejm.gov.pl/DetailsServlet?id=WDU20112091243. Szerzej na ten temat w dalszej części pracy. Konfrontacja dostępnych źródeł leksykograficznych i internetowych, jak też fakt twórczej aktywności rozmaitych ośrodków w Polsce wskazuje, że jest to liczba raczej zaniżona. Można oczekiwać, wobec wzrastającego zainteresowania językiem migowym, znacznego przyrostu liczbowego nowych znaków. 14.

(15) 1.3. Cel i zakres pracy. • •. wysokie koszty profesjonalnej aparatury umożliwiającej rejestrowanie przestrzennych koordynatów kodu migowego; niewystarczająca integracja świata nauki z gospodarką (obszarem wdrożeń).. Z naukowego punktu widzenia praca przynosi także próbę opisu przestrzeni i ruchu oraz mimiki twarzy jako substancji i formy kodu językowego. Otwiera perspektywy systematycznych badań nad tym obszarem zagadnień z wszechstronnym wykorzystaniem narzędzi informatycznych, objaśnienia istoty zjawiska semantyzacji przestrzeni w komunikacji migowej, wyznaczenia cech dystynktywnych formy znaku ideograficznego tego typu zarówno w odniesieniu partykularnym – systemu polskiego, jak też ogólnym – systemu komunikacji gestycznej jako takiej. Domenę poznawczą i zarazem zaplecze teoretyczne prezentowanego opracowania wyznacza informatyka. Warsztat naukowy pracy korzysta więc przede wszystkim z wielu użytecznych narzędzi programistycznych, bazodanowych i graficznych, z dobrym skutkiem używanych w rozwijających się coraz bardziej komputerowych badaniach języków naturalnych i pracach nad automatycznym przekładem struktur komunikacji (wypowiedzeń i tekstów). W związku z powyższym główną tezę pracy można ująć następująco: Możliwe jest uzyskanie „substytutu gramatyki” języka migowego poprzez realizację znaczników semantycznych w bazie danych języka polskiego i zastosowanie struktur grafowych w języku Prolog. Zakładany cel pracy wraz z uzasadnieniem tezy implikował następujące zadania badawcze: • • • • •. • • •. opracowanie i zaprojektowanie architektury systemu; zaprojektowanie i utworzenie bazy danych przechowującej gesty języka migowego wraz ze znakami subkodu mimicznego twarzy; utworzenie aplikacji narzędziowych do wprowadzania i edycji danych językowych, obróbki gestów języka migowego i projektowania mimiki twarzy; przygotowanie modelu 3D – awatara pokazującego gesty; realizację zadań związanych z rejestracją gestów w studio motion capture: zaprojektowanie i rozmieszczenie układu markerów na ciele aktora pokazującego gesty, uszycie specjalnej kamizelki na potrzeby rejestracji gestów, wyposażenie awatara w układ szkieletowy oraz markery. Wymagane było również sprzęgnięcie układu szkieletowego z markerami; utworzenie skryptów umożliwiających import surowych danych, interpolację brakujących fragmentów sygnału opisującego gesty języka migowego, wygładzanie sygnału, przekształcenie sygnału i jego eksport do głównej bazy danych; utworzenie serwisu danych wyciągającego odpowiednie dane z bazy wiedzy językowej (bazy danych języka polskiego); utworzenie serwera translacji – reguł dokonujących analizy głębokiej tekstu na podstawie danych otrzymanych od serwisu translacji, reguł ustalania ekwiwalencji tekstu do języka migowego, opracowanie odpowiednich struktur danych opisujących struktury głębokie zawarte w tekście;. w najbliższych latach.. 15.

(16) 1. WSTĘP. • • •. utworzenie aplikacji głównej spełniającej zadania interakcji z użytkownikiem i wizualizacji gestów; realizację łącza danych pomiędzy serwisem danych językowych, serwerem translacji i aplikacją główną; dokonanie testów w celu weryfikacji poprawności generowania ekwiwalentnych struktur języka migowego w postaci sekwencji gestów.. Jak pokazała praktyka badań wszystkie te zadania tworzyły układ wzajemnie uzupełniających się i warunkujących elementów. Należało je zatem wykonywać równolegle. Przyniosły one autorowi wiele doświadczeń wykorzystanych w innowacyjny sposób. Pośrednio z tego okresu badań zdaje sprawę cykl czterech autorskich publikacji zamieszczonych w bibliografii.. 16.

(17) 1.4. Stan badań nad automatycznym tłumaczeniem tekstów na język migowy. 1.4. Stan badań nad automatycznym tłumaczeniem tekstów na język migowy Niniejszy przeglądy dotyczy przede wszystkim badań informatycznym nad tytułowym zagadnieniem. Selekcja źródeł naukowych była umotywowana założeniami niniejszej pracy. Wybór ten wymagał także sproblematyzowania obszaru badawczego. Z tego względu omawia się poniżej wybrane teksty naukowe w następującym porządku tematycznym, obejmującym: ogólny aspekt architektur translatorycznych i ich wykorzystań w systemach tłumaczących, przedstawienie najważniejszych systemów z włączeniem zagadnienia struktury języka migowego, porównanie polskich i zagranicznych osiągnięć nauki w omawianym zakresie. W świetle ustaleń L. d'Armonda Speersa (2001) i M. Huenerfautha (2006) istnieje zakres architektur, według którego sklasyfikować można większość istniejących systemów maszynowej translacji tekstu pomiędzy językami naturalnymi. Wyróżnia się trzy podstawowe rodzaje architektur: bezpośrednią, opartą na transferze i międzyjęzykową (łac. interlingua). W systemach bezpośrednich wyrazy tekstu źródłowego przetwarzane są indywidualnie. Translacja osiągana jest natomiast bez wykonywania analizy syntaktycznej tekstu – słowo za słowo. W systemach transferu tekst wejściowy analizowany jest na jakimś poziomie syntaktycznym i/lub semantycznym, a następnie zestaw reguł przejścia produkuje odpowiednie struktury syntaktyczne i/lub semantyczne. Ostatecznie komponent generujący zamienia te struktury w tekst języka docelowego – tłumaczenie z uwzględnieniem odrębności językowych wskazanych poziomów. Najbardziej złożoną architekturą cechują się systemy międzyjęzykowe. Posuwają się one w procesie analizy o krok dalej. Źródło jest analizowane i przetwarzane semantycznie, w celu wytworzenia reprezentacji semantycznej tekstu niezależnej językowo, określanej mianem interlingua (swoistego medium). Następnie komponent generujący wykorzystuje wytworzoną wcześniej postać pośrednią, formułując strukturę powierzchniową komunikatu języka docelowego.. 17.

(18) 1. WSTĘP. Rodzaje architektur tłumaczących są często przedstawiane schematycznie w postaci piramidy przedstawionej na rys. poniżej.. Rysunek 1: Piramida przedstawiająca rodzaje architektur maszynowych systemów tłumaczących (Dorr i in. 1998; też Huenerfauth 2006: 46).. Ogólnie wobec braku informacji statystycznej bądź informacji opartej na użyciach, im wyżej wg schematu piramidy odbywa się analiza tekstu źródłowego, tym bardziej złożone i subtelne mogą być niejednoznaczności. W szczególności na poziomie międzyjęzykowym baza wiedzy może uzupełniać informację lingwistyczną, generując tłumaczenia, które wykorzystują wiedzę o świecie i które ze względu na brak kontekstu w źródle mogą przekazywać więcej informacji niż mieści się w tekście źródłowym. Niemniej jednak każde z tych podejść może dać w wyniku poprawną translację dla konkretnych wejść, bowiem nie wszystkie zdania wymagają aż tak wyrafinowanej analizy w celu ich przetłumaczenia – niektóre proste zdania cechują się niską niejednoznacznością. Należy również zauważyć, że w miarę przesuwania się w górę po schemacie piramidy, złożoność wykonywanej analizy treści, związanej z konkretną wiedzą dziedzinową, gwałtownie rośnie. O ile systemy bezpośrednie do wykonania translacji mogą wymagać jedynie leksykonu dwujęzycznego, to systemy transferu muszą dysponować również zestawem reguł analitycznych i transferu. Systemy międzyjęzykowe są jeszcze bardziej wymagające, gdyż muszą posiadać reprezentacje międzyjęzykowe. Bywa nawet, że systemy te podczas tłumaczenia wykorzystują odpowiednie bazy wiedzy obejmujące konkretne obszary wiedzy dziedzinowej. Doświadczenia Huenerfautha (2006) w zakresie translacji do języka migowego z języka angielskiego w niestatystycznym podejściu bezpośrednim dowodzą, że systemy tego typu zazwyczaj generują proste tłumaczenia, które najczęściej odpowiadają prostemu. 18.

(19) 1.4. Stan badań nad automatycznym tłumaczeniem tekstów na język migowy. wyszukaniu ekwiwalentu słowa do gestu – w odpowiednim słowniku języka migowego. Przy dodaniu prostej heurystyki zmieniającej szyk wyrazów w zdaniu takie systemy mogą czasami produkować akceptowane wyjścia (komunikaty) dla prostych wejść języka angielskiego i wyjścia w postaci par zdań język angielski – język angielski migany, które cechują się podobnym szykiem słów w zdaniu. Ponieważ nie jest wykonywana żadna analiza syntaktyczna, nie występuje też możliwość, że sekwencja wyjściowa będzie znajdowała się poza zakresem pokrycia lingwistycznego systemu. Zatem proces tłumaczenia zawsze da ten sam wynik. Nawet gdy słowo nie znajduje się w leksykonie służącym do automatycznego tłumaczenia, to można użyć mechanizmu manualnej wizualizacji liter (przekazu daktylograficznego) w celu wyrażenia słowa. Użycie architektury transferu dostarcza mechanizmów, które radzą sobie z większością niedostatków, cechujących systemy bezpośrednie. Wymagają one jednak wytworzenia dodatkowych zasobów lingwistycznych. Zbudowano niewiele systemów typu transferowego do tłumaczenia języka angielskiego na język migowy i tylko nieliczne z nich odniosły sukces w poszczególnych aspektach tłumaczenia maszynowego tj. wyrażanie przydawek (Zhao i in. 2000) lub fonologicznych reprezentacji amerykańskiego języka migowego (d'Armond Speers 2001; Sáfár & Marshall 2001 – za Huenerfauth 2004). Systemy te stwarzają nadzieję, że podejście oparte na architekturze transferu może dokonywać tłumaczenia większości zdań ASL (American Sign Language), które nie wymagają złożonego lub topologicznego użycia przestrzeni migania czyli jej sygnifikacji. Systemy tłumaczenia z języka angielskiego do miganego języka angielskiego Pierwsze prototypy systemów służące do tłumaczenia z języka angielskiego na angielski język migany lub do postaci języka ASL, zawierającej składnię naturalnego języka angielskiego, zostały przedstawione w pracach: Grive-Smith 2002; Bangham i in. 2000 (za Huenerfauth 2006). Jak wynika z badań, dorosłe osoby głuche, mające niskie umiejętności pisania i czytania w języku angielskim, które stanowią grupę docelową oprogramowania tłumaczącego z angielskiego do języka ASL, zazwyczaj nie są w stanie zrozumieć formy tłumaczenia, zachowującej składnię naturalnego języka angielskiego. Systemy takie pomijają rozbieżności pomiędzy językami angielskim i ASL, dlatego dla niniejszej pracy mają niewielką wartość. Warto mimo to dodać, że ponieważ w systemach tych rozbieżność strukturalna pomiędzy tekstem języka angielskiego a wynikową animacją w języku miganym angielskim jest mała, więc i architektura tych systemów jest stosunkowo prosta. Sprowadza się ona głównie do procesu wyszukiwania słownikowego: dla każdego słowa w wejściowym łańcuchu tekstu języka angielskiego system wyszukuje odpowiadający mu znak w słowniku języka miganego, a następnie tworzy animację, w której złączone są wszystkie migi składające się na nią w jedną całość. Wspomina się o nich w pracy, ponieważ mimo stwierdzonych niedoskonałości11, dostarczają one wielu interesujących i inspirujących wskazówek, gdyż w toku implementacji tych architektur opracowano po raz pierwszy pewne użyteczne technologie, które stały się komponentami późniejszych bardziej złożonych rozwiązań. 11. Głównie idzie tu o to, że wskutek uproszczonej i ograniczonej konstrukcji architektury tych systemów nie dokonują dokładnego i adekwatnego tłumaczenia z języka angielskiego na język ASL.. 19.

(20) 1. WSTĘP. Warto tu dodać, że w niektórych z ówczesnych prototypów przedstawiono rozwiązania baz danych zawierających już animacje migów (Furst i in. 2000 – za Huenerfauth 2006) oraz oprogramowanie narzędziowe dla ekspertów z dziedziny lingwistyki, wspomagające kompletowanie tych baz poprawnymi treściami (Wolfe i in. 1999 – za Huenerfauth 2006). Niektóre z tych systemów już wówczas wykorzystywały technologie rękawicy wirtualnej (ang. data glove), która w procesie motion capture zbierała koordynaty 3D wykonywanych gestów, zob. Bangham i in. 2000, Ohki i in. 1994 – za Huenerfauth 2006. W innych systemach animacje gestów generowane były na podstawie jakiejś postaci zapisu symbolicznego każdego migu (Grive-Smith 2002, Lu i in. 1997 – za Huenerfauth 2006). Badacze idący innym tropem skupili się na implementacji komponentów służących do literowania za pomocą alfabetu palcowego (Davidson i in. 2000, 2001 – za Huenerfauth 2006). W rzeczywistości niektóre z tych systemów były na wyrost przez ich twórców określane mianem systemów tłumaczących, bowiem zdolne były do tworzenia ułomnych czasem fałszywych komunikatów w języku migowym – co wprowadzało w błąd projektantów oprogramowania, którzy nie byli świadomi różnic pomiędzy miganiem w ASL a SE12 (ang. Signed English). Jak już zostało powiedziane, technologia, która tłumaczy tekst języka angielskiego do postaci komunikatu w języku migowym, mającym składnię przypominającą naturalny język angielski, nie jest zdolna do zapewnienia tego samego poziomu dostępności dla użytkowników głuchych posiadających niskie umiejętności czytania i pisania w języku angielskim, które zapewniałby prawdziwy system tłumaczący z angielskiego do ASL.. Systemy tłumaczenia maszynowego z języka angielskiego do ASL Wśród podejmowanych prób skonstruowania narzędzia tłumaczącego kilka niewątpliwie zasługuje na baczniejszą uwagę, przynosi też interesujące naukowo propozycje rozwiązań kluczowych dla translacji na odległy substancjalnie i formalnie system językowy. Poniżej przedstawia się je w przypadkowej kolejności. ALS Workbench Pod nazwą ASL Workbench został zaproponowany i częściowo zaimplementowany system tłumaczenia, wspomagany maszynowo z języka angielskiego do ASL, który zawierał nowoczesne rozwiązania badawcze dotyczące modeli fonologicznych – cech dystynktywnych znaku języka ASL (d'Armond Speers 2001). Subtelny i wyrafinowany model fonologiczny wykorzystywany w tym systemie jest szczególnie wiarygodny i jest oparty na nowoczesnym modelu typu Movement-Hold13, fonologii języka ASL 12 13. Angielski język migany, zbliżony do polskiego SJM. Podstawowym założeniem dotyczącym struktury znaków w modelu Movent-Hold jest to, że znaki składają się z segmentów statycznych i segmentów dynamicznych (segmentów ruchu), które są generowane sekwencyjnie. Informacje o kształcie dłoni, położeniu, kierunku i sygnałach niemanualnych (mimika twarzy) są przedstawione w pakietach własności artykulacyjnych. Pakiety te przypominają pakiety opisujące dźwięki języków fonicznych. Do opisu znaków migowych należy kategoria przestoju i przemieszczenia. Przestoje są definiowane jako okresy czasu, podczas których wszystkie aspekty pakietu artykulacyjnego znajdują się w stanie ustalonym. Natomiast przemieszczenia to okresy, w których niektóre aspekty artykulacji znajdują się w stanach przejściowych.. 20.

(21) 1.4. Stan badań nad automatycznym tłumaczeniem tekstów na język migowy. (Liddell&Johnson 1989 – za Huenerfauth 2006). Rozwiązanie to używa: funkcjonalnej gramatyki leksykalnej do analizy tekstu języka angielskiego przekształcającej go do postaci struktury funkcjonalnej; reguł przejścia wprowadzonych manualnie służących do zamiany angielskiej f-struktury14 do f-struktury ASL oraz reguł funkcjonalnej gramatyki leksykalnej do wygenerowania wyjścia w języku ASL. System wykorzystuje leksykon zorientowany na transjenty służące do zmapowania angielskich słów i wyrażeń do analogicznych migów i wyrażeń języka ASL. W przypadkach, kiedy system napotyka trudności w trakcie wyboru leksykalnego lub innych zadań, związanych z procesem tłumaczenia, zapytuje użytkownika systemu o radę. System zapisuje także bardzo uproszczony model rozmowy z wejścia języka angielskiego, składający się z płaskiej listy jej elementów i ich przestrzennych położeń, z których wszystkie są wyszczególnione przez operatora ludzkiego. System ASL Workbench został zaprojektowany jako narzędzie wspomagające prace profesjonalnych tłumaczy w tłumaczeniu z angielskiego do ASL. Podkreślić jednak należy, że system nie może działać poprawnie bez interakcji z człowiekiem. Nie podejmuje próby rozwiązania problemów dotyczących określenia obiektów będących przedmiotem dyskusji w tekście języka angielskiego; wymaga od użytkownika określenia w przypadku, kiedy dwa wyrażenia odnoszą się do tego samego bytu (desygnatu). Omówiona kwestia stanowi jego istotne ograniczenie. TEAM Team był systemem tłumaczenia języka angielskiego do ASL, który został zaprojektowany na Uniwersytecie w Pensylwanii. Wykorzystuje on reguły gramatyki fraz przyłączanych w strukturze drzewa metodą synchroniczną (ang. Sychronous Tree Adjoining Grammar)15, w celu zbudowania struktury syntaktycznej w języku ASL równocześnie z procesem parsowania tekstu wejściowego w języku angielskim (Zhao i in. 2000). Wyjście części lingwistycznej systemu posiada strukturę języka ASL podobną do łańcucha „zapis fonetyczny z zagnieżdżonymi parametrami”, który koduje ograniczoną informację o wariacjach morfologicznych, wyrazach twarzy i nastroju zdania jako własnościach powiązanych z indywidualnymi słowami w łańcuchu. Ten projekt wykorzystuje osiągnięcia badań nad grafiką, pochodzące z Uniwersytetu w Pensylwanii. Użyto w nim jednej z animowanych wirtualnych postaci, wymodelowanych w Centrum Modelowania Ludzi i Symulacji (Center for Human Modeling and Simulation’s – HMS), 14 15. Reprezentacja funkcji gramatycznych – struktura własności. Gramatyka typu TAG jest formalizmem gramatycznym zdefiniowanym przez A. Joshiego. Gramatyki typu TAG są nieco podobne do gramatyk bezkontekstowych, ale podstawową jednostką przekształcenia nie jest symbol, lecz drzewo. Podczas gdy gramatyki bezkontekstowe posiadają reguły przekształcania symboli jako łańcuchów innych symboli, to gramatyki typu TAG posiadają reguły przekształcania węzłów drzew jako innych drzew (gramatyki fraz przyłączanych w strukturze drzewa metodą synchroniczną). Reguły w gramatykach TAG są drzewami posiadającymi specjalne liście, znane pod nazwą węzłów stóp, które są przypisane do słów. Istnieją dwa typy podstawowych drzew w gramatykach TAG: drzewa początkowe oznaczone symbolem alfa i drzewa pomocnicze oznaczone symbolem β. Drzewa początkowe reprezentują początkowe relacje walencji, podczas gdy drzewa pomocnicze pozwalają na rekursywność. Drzewa pomocnicze posiadają węzeł korzenia (górny) i węzeł stopy oznaczony takim samym symbolem (górny). Wywiedzenie rozpoczyna się od drzewa początkowego, łącząc za pomocą podstawienia lub przyłączenia. Podstawienie zamienia węzeł graniczny z innym drzewem, którego etykieta węzła górnego jest taka sama. Przyłączenie wstawia drzewo pomocnicze do centrum innego drzewa. Etykieta stopy lub korzenia drzewa pomocniczego musi pasować do etykiety węzła, do którego jest przyłączana.. 21.

(22) 1. WSTĘP. jako migającego awatara. W szczególności w projekcie zbadano, w jaki sposób zdolność technologii HMS do modyfikowania sposobu ruchu animowanej postaci może być użyta do modyfikacji niektórych gestów języka ASL w celu wskazania na informację okolicznościową (przysłówkową) lub do tworzenia wykładników fleksji (flektemów) – jako operacji morfologicznych – poprzez modyfikację niewielkiej liczby parametrów w oprogramowaniu służącym animacji. ViSiCAST Pod postacią tego programu, będącego częścią projektu wywodzącego się z obszaru Unii Europejskiej o nazwie ViSICAST, badacze z Uniwersytetu Wschodniej Anglii zaimplementowali system tłumaczący tekst z języka angielskiego do Brytyjskiego Języka Migowego, zob. Marshall & Sáfár 2001; Sáfár & Marshall 2001, 2002; Bangham i in. 2000 – za Huenerfauth 2006. Ich koncepcja wykorzystuje narzędzie o nazwie CMU Link Parser do analizy wejściowego tekstu języka angielskiego, a następnie używa deklaratywnych klauzul reguł gramatycznych zaimplementowanych w języku Prolog do zamiany wyjściowych sprzężeń (połączeń) do postaci struktury reprezentującej rozmowę (ang. Discourse Representaion Structure – DRS). W trakcie pierwszej fazy tłumaczenia reguły zawarte są w strukturach16 o nazwie Head Driven Phrase Structure. Są one używane do wygenerowania skryptu reprezentującego symboliczny język migowy. Skrypt ten z kolei jest zapisany w specyficznym dla systemu formacie o nazwie „Signing Gesture Markup Language”, który jest symbolicznym schematem zapisu dla ruchów wymaganych do wykonania gestów w naturalnym języku migowym, por. Kennaway 2001 – za Huenerfauth 2006. ZARDOZ System ZARDOZ (Veale i in. 1998 – za Huenerfauth 2006) był zaproponowanym i częściowo zaimplementowanym systemem tłumaczenia z języka angielskiego na język migowy, z wykorzystaniem zestawu schematów kodowanych dłońmi jako międzyjęzyka dla komponentu tłumaczącego systemu. Na uwagę zasługuje zwłaszcza zaproponowana ambitna architektura, nie zaś sama implementacja. Podczas gdy zaimplementowana część systemu skupiała się na ASL, to autorzy tego systemu prowadzili prace nad implementacją tłumaczenia do języków migowych brytyjskiego, irlandzkiego i japońskiego. Część z głównych problemów badawczych realizowanych w tym systemie stanowiły: wykorzystanie reprezentacji wiedzy przez sztuczną inteligencję, wnioskowanie metaforyczne i architektura systemu sztucznej inteligencji typu tablica (ang. blackboard artificial intelligence architecture); w związku z czym proces tłumaczenia jest w dużej mierze oparty na wiedzy dziedzinowej i wnioskowaniu realizowanym przez sztuczną inteligencję. Na etapie analizy tekst języka angielskiego zostaje poddany szczegółowemu rozkładowi pojęć idiomatycznych, dokonywanym przed etapem rozkładu syntaktycznego, w celu wypełniania poszczególnych pozycji schematu zawierającego pojęcia, zdarzenia i sytuacje. Zaletą zdań logicznych i pozycji oznaczonych etykietami, które są zapewniane przez architekturę schematu, jest to, że w późniejszym etapie komponenty wnioskujące i zdroworozsądkowe systemu mogły w łatwy sposób operować na informacji semantycznej. W związku ze znaczną ilością ręcznego kodowania, wymaganego do 16. Konstrukcja tych struktur opiera się na modelu teoretycznym gramatyki transformacyjno-generatywnej.. 22.

(23) 1.4. Stan badań nad automatycznym tłumaczeniem tekstów na język migowy. wygenerowania nowego schematu, opisywany system był możliwy do zrealizowania tylko dla ograniczonych domen – sytuacji życiowych. Dla zrównoważenia tych ograniczeń, jeżeli nie istniał schemat dla konkretnego tekstu wejściowego, wówczas istniała możliwość wykonania przez system transliteracji słowa do znaku, której wynikiem był komunikat w angielskim języku miganym. eSIGN Projekt eSIGN ma na celu zapewnienie dostępu do tłumaczenia języka migowego poprzez strony sieciowe. Do zadań realizowanych w tym projekcie należą: opracowanie narzędzi niezbędnych do tworzenia treści w języku migowym, poprawienie jakości sygnału treści wyjściowej animowanej przez awatara, stworzenie pierwszego internetowego serwisu informacyjnego opartego na animowanym języku migowym, a ponadto – stworzenie treści dla trzech języków państw uczestniczących w projekcie partnerskim, ciągły proces ewaluacji jakości narzędzi i poprawności komunikatów animowanych przez awatara (Elliott i in. 2008). Koncepcja Huenerfautha Koncepcja Matta Huenerfautha, przedstawiona w jego rozprawie doktorskiej (Huenerfauth 2006) stanowi jedno z najlepiej przemyślanych i zaawansowanych rozwiązań w dziedzinie maszynowego tłumaczenia tekstów języka angielskiego na amerykański język migowy (ASL). Proponuje on, by w procesie tłumaczenia maszynowego tekstów języka angielskiego do ASL używać wielościeżkowej architektury tłumaczącej, która łączy w sobie wszystkie typy architektur tłumaczących składających się na piramidę architektur maszynowych systemów tłumaczących, zob. wyżej, rys. nr 1. Dla najbardziej złożonej architektury (międzyjęzykowej), Huenerfauth proponuje generowanie specjalnych predykatów klasyfikujących, używanych w procesie komunikacji przez osoby niesłyszące. Jak podaje autor, osoby migające w ASL, używają przestrzeni naokoło nich – obszaru sygnifikacji do kilkunastu gramatycznych, opisowych oraz konwersacyjnych celów. Podczas komunikacji byt będący jej przedmiotem 17, może zostać umiejscowiony w danym punkcie przestrzeni migania. Kolejne odniesienia typu zaimkowego (w rozumieniu deiktycznym) do tego bytu, mogą następować poprzez wskazanie tej lokacji, a niektóre znaki czasowników mogą przesuwać się w kierunku do tej lokacji lub w kierunku do niej przeciwnym, wskazując ich argumenty. W ogólności lokacje wybrane do przeznaczenia zaimkowego nie są znaczące topologicznie (odwzorowane), tzn. że dla wyimaginowanego bytu umiejscowionego na lewo od innego bytu w przestrzeni migania, niekoniecznie oznacza to umiejscowienie tego pierwszego bytu na lewo od drugiego bytu w przestrzeni świata rzeczywistego. Inne wyrażenia języka ASL są bardziej złożone w swoim użyciu w przestrzeni. Umiejscawiają niewidoczne obiekty wokół osoby migającej, aby wskazać topologiczne ułożenie bytów w trójwymiarowej scenie będącej przedmiotem komunikacji. Predykat klasyfikujący zazwyczaj składa się z odpowiedniego układu dłoni18, który przesuwa się po trójwymiarowej ścieżce w przestrzeni przed osobą migającą. Dla przykładowego zdania: „Samochód jadąc wyboistą drogą minął kota”, w języku ASL tworzone są dwa predykaty 17 18. Przedmiot komunikacji może być zarówno konkretny, jak i abstrakcyjny. Jedno z ułożeń dłoni, należące do skończonego zbioru semantycznie znaczących kształtów.. 23.

(24) 1. WSTĘP. klasyfikujące. Po pierwsze osoba migająca wykonuje dłonią gest w zgięte V do przodu i w dół do punktów przestrzeni, które znajdują się przed tą osobą i jej torsem, gdzie wyimaginowana miniatura kota może zostać wyobrażona. Następnie dłonią wygiętą w znak liczby 3, może ona prześledzić ścieżkę przestrzeni za kotem, przemieszczając się w górę i w dół, jak gdyby samochód podskakiwał wzdłuż wyboistej drogi. W ogólności dla języka ASL, układ dłoni „zgięte V” używany jest do określania zwierząt, natomiast cyfra trzy dla pojazdów. Zdolność predykatów klasyfikujących do topologicznej reprezentacji trójwymiarowej sceny sprawia, że są one wyjątkowo trudne do wytworzenia przy użyciu tradycyjnych lingwistycznych metod i modeli obliczeniowych. Osoby migające w języku ASL, opisując przestrzennie złożoną scenę przy użyciu predykatów klasyfikujących, wizualizują elementy tej sceny, zajmując te jej obszary, które są zazwyczaj w zasięgu ramion przed torsem. Zatem osoby migające dysponują de facto przestrzennym modelem sceny, będącym przedmiotem dyskusji, który mogą rozważać przy wyborze i generowaniu predykatów klasyfikujących do przekazania informacji. Automatyczny system do tworzenia predykatów klasyfikujących musi więc być, zdaniem autora, zdolny do używania analogicznych reprezentacji. Huenerfauth w architekturze międzyjęzykowej używa do wytworzenia tego modelu reprezentacji sceny wirtualnej rzeczywistości 3D. Model sceny odzwierciedlający informację przekazywaną w tekście języka angielskiego zostaje wykreowany w wyniku analizy tekstu angielskiego. Wygenerowany model przestrzenny może służyć jako podstawa do generowania trójwymiarowych i przestrzennie analogicznych ruchów osoby migającej podczas wykonywania gestu reprezentującego predykat klasyfikujący. Autor w procesie generowania zmieniającego się modelu 3D sceny wykorzystuje istniejącą już bibliotekę o nazwie NLI – „Instrukcje języka naturalnego dla Dynamicznie Zmieniających się zachowań Agenta” (ang. Natural Language Instructions For Dynamially Altering Agent Behaviors). Pozwala ona wyświetlać scenę wirtualnej rzeczywistości 3D dzięki zdolności przyjmowania tekstu wejściowego w języku angielskim zawierającego instrukcje do wykonania dla awatarów i obiektów na scenie. Odświeżanie animacji polega na wykonywaniu poleceń w języku angielskim przez obiekty znajdujące się na scenie. System ten wykorzystywano pierwotnie w ćwiczeniach wojskowych w domenie naprawy ekwipunku. W celu pokrycia dodatkowych domen tekstów wejściowych języka angielskiego system zaprojektowano w taki sposób, by mógł być rozszerzony poprzez dodawanie nowych elementów do biblioteki Sparametryzowanych Reprezentacji Czynności PAR (ang. Parametrized Action Representations). Biblioteka PAR zawiera struktury własności przechowywane jako szablony, których pola określają przemieszczenia agenta, sposób przesunięcia i obrotu podczas ruchu, warunki końcowe, prędkość, synchronizację i inne informacje związane z opisem ruchu. Zleksykalizowane struktury syntaktyczne języka angielskiego są powiązane ze strukturami PAR w ten sposób, że analiza tekstu może być użyta do wybrania konkretnego szablonu struktury PAR i wypełnienia jej pól wartościami. Struktury PAR służą jako typy podstawowe ruchu w przestrzeni 3D i są używane jako operatory planowania hierarchicznego do wygenerowania szczegółowych specyfikacji animacji. W związku z tym zawierają pola, tj. warunki wstępne i pod-akcje używane w procesie planowania animacji biblioteki NLI (Badler i in. 2000 – za Huenerfauth 2006). Struktura PAR w ogólności odpowiada czasownikowi ruchu w języku angielskim. 24.

(25) 1.4. Stan badań nad automatycznym tłumaczeniem tekstów na język migowy. lub zbiorowi powiązanych czasowników. W związku z tym, aby rozszerzyć bibliotekę NLI do kontekstu zastosowań związanych z ASL, autor wygenerował dodatkowe struktury PAR dla tych czasowników ruchu w języku angielskim, które są najczęściej wynikiem predykatów klasyfikujących. System tłumaczenia maszynowego dla modelu międzyjęzykowego będzie używał oprogramowania NLI do tłumaczenia tekstu wejściowego w języku angielskim w taki sposób, jakby tekst ten składał się z poleceń dla bytów wymienionych w tym tekście. System ten, w przeciwieństwie do innych zastosowań oprogramowania NLI, nie wymaga dokładnej informacji o kształcie lub wyglądzie modelowanych obiektów, dla każdego z nich można używać kształtów w postaci prostopadłościanów. Najistotniejszym elementem w procesie generowania predykatów klasyfikujących są natomiast położenia i ścieżki ruchu tych obiektów w abstrakcyjnej przestrzeni 3D. System tłumaczenia maszynowego używa modelu przestrzennego do wygenerowania instancji przeźroczystej miniaturowej animacji tych obiektów. Animacja ta jest nałożona na obszar przestrzeni przed torsem postaci wykonującej gesty w języku ASL. W wypadku przykładowej „wyboistej drogi” mały, niewidoczny obiekt zostanie umieszczony w przestrzeni przed klatką piersiową postaci migającej dla reprezentacji kota. Następnie ścieżka animacji 3D i położenie pojazdu w odniesieniu do kota zostają wybrane w przestrzeni przed klatką piersiową postaci. Gdy obiekty w tym niewidocznym świecie są przemieszczane lub ich orientacja zmienia się, by odzwierciedlić informację zawartą w tekście, animowana postać w języku ASL może ułożyć swoją dłoń wewnątrz tego przeźroczystego obiektu, w celu wskazania jego nowego położenia, kierunku i ścieżki ruchu. Poprzez wybór odpowiedniego kształtu dłoni dla postaci generowany jest predykat klasyfikujący, który ma za zadanie przekazać informację zawartą w tekście języka angielskiego. Więcej na temat rozszerzeń tej architektury dla bardziej złożonych konstrukcji predykatów klasyfikujących można znaleźć w omawianej pracy Huenerfautha (2004). Autor podkreśla jednak, że bardzo trudno jest stworzyć prawdziwy system międzyjęzykowy do zadania bardziej ogólnego niż konkretnie wybrana dziedzina wiedzy. Jako środek na pokonanie tej trudności proponuje on wielościeżkowy proces tłumaczenia. Huenerfauth sugeruje zastosowanie analizy międzyjęzykowej dla zdań trudnych, wymagających budowania predykatów klasyfikujących. Należą do nich: wypowiedzi z czasownikami opisującymi relacje w przestrzeni tj. położenie, kierunki czy przemieszczenia; przyimki przestrzenne oraz przysłówki z konkretnymi i ożywionymi bytami oraz pozycje leksykalne odnoszące się do typowych tematów lub kategorii, w których zazwyczaj używane są predykaty klasyfikujące, np. przemieszczanie się pojazdów, rozlokowanie mebli w pokoju itp. Autor podkreśla, że poza wymienionymi wyżej typami wypowiedzi istnieje duża liczba zdań wejściowych, dla których tak głęboka analiza i wnioskowanie nie są konieczne. Zdania, które nie są objęte domeną międzyjęzykową, ale których własności syntaktyczne podlegają zakresowi analizy lingwistycznej i regułom transferu, mogą zostać przetworzone przy pomocy architektury transferu. Wszystkie pozostałe zdania można tłumaczyć przy użyciu podejścia bezpośredniego – z wykorzystaniem prostych algorytmów wyszukiwania wyrazów w słowniku dwujęzycznym. Ograniczenie domen jest korzystne dla metody międzyjęzykowej. Zamiast budowania struktury analizy międzyjęzykowej jej reprezentacji oraz innych zasobów dla wszystkich możliwych domen, implementacja metody międzyjęzykowej może skupić się na konkretnych domenach, w których wykorzystywane są predykaty klasyfikujące,. 25.

(26) 1. WSTĘP. np. przemieszczające się pojazdy, spacerujące osoby, meble lub inne przedmioty rozmieszczone w pomieszczeniu, wskazywanie kierunków itp. W ten sposób głębia analizy niejednoznaczności niektórych ścieżek tłumaczenia i szerokość pokrycia innych mogą być jednocześnie częściami tej samej architektury wielościeżkowej. Takie podejście nie tylko ogranicza domeny dla których powinna być zastosowana architektura międzyjęzykowa, ale redukuje całość złożoności ontologicznej, która musiałaby zostać obsłużona przez metodę międzyjęzykową. Wybór konkretnej ścieżki tłumaczenia nie musi być problematyczny. System może być zaimplementowany jako architektura, która podejmuje próbę tłumaczenia przy pomocy najbardziej złożonego podejścia międzyjęzykowego oraz wycofania się do podejścia mniej złożonego za każdym razem, gdy pomyślne tłumaczenie przy pomocy podejścia bardziej złożonego nie może zakończyć się powodzeniem z uwagi na brak odpowiednich zasobów leksykalnych, syntaktycznych, semantycznych lub zasobów wiedzy. W ten sposób pokrycie lingwistyczne każdego z poziomów reprezentacji definiuje jednoznacznie w jaki sposób zdania wejściowe są przekierowywane przez system. Jeżeli system ma użyć bardziej złożonej ścieżki podczas tłumaczenia, niż to jest wymagane i ścieżka ta zostałaby odpowiednio zaimplementowana, to zostałoby wygenerowane wyjście, które mogłoby być wytworzone przy użyciu prostszego podejścia. Takie działanie systemu jest akceptowalne, chociaż mało wydajne. Przy tych mankamentach system przedstawiony przez Huenerfautha wyróżnia się bardzo pozytywnie, biorąc pod uwagę przejrzystość konstrukcji, logikę odwzorowań a przede wszystkim bogaty, inspirujący metajęzyk opisu naukowego, wynikający wprost z doświadczenia użytkownika ASL i posiadania szerokiej kompetencji językowej w tym zakresie. Jak się wydaje, jest to bodaj największy niedostatek polskiej refleksji naukowej nad komunikacją osób głuchoniemych. Przyczynia się to do utrzymywania się licznych trudności na poziomie teoretycznometodologicznym opracowania tego zagadnienia.. System syntezy hiszpańskiego języka migowego i inne projekty W pracy Fernando Lópeza-Coliny i José Colása (2012) przedstawiono nowe podejście do syntezy hiszpańskiego języka migowego. Głównymi cechami tego projektu są: użycie centralnej relacyjnej bazy danych do przechowywania i opisów gestów; propozycja nowej metody notacji tekstu wejściowego i złożona postać awatara 3D, którego struktura szkieletu poprawia wyniki procesu syntezy. Relacyjna baza danych zawiera bardzo szczegółowy opis fonologiczny gestów, który uwzględnia synchronizację czasową parametrów animacji. Podejście oparte na centralnej bazie danych zostało użyte, aby umożliwić walidację reprezentacji każdego z gestów przez Państwowy Instytut Hiszpańskiego Języka Migowego. Zapis tekstu wejściowego, oznaczony jako HLSML, zawiera wielokrotne poziomy abstrakcji, które znacznie różnią się od obecnie stosowanych metod notacji. Ta nowa metoda notacji tekstu wejściowego jest użyta do uproszczenia opisu i definicji manualnych komunikatów w języku LSE. Komunikaty zsyntetyzowane przy użyciu tego podejścia zostały wysoko ocenione przez głuchych użytkowników; w wyniku tej oceny maksymalny procent poprawnie rozpoznanych gestów wynosił 98,5% dla pojedynczych migów, a stopień poprawnego rozpoznania dla zsyntetyzowanych zdań wynosił 95% (López-Colino, Colas 2012). Istniały również inne projekty badawcze, które zajmują się tłumaczeniem tekstu. 26.

(27) 1.4. Stan badań nad automatycznym tłumaczeniem tekstów na język migowy. pisanego do języka miganego, np. Japoński język migowy (Okhi i in. 1994; Lu i in. 1997; Tokuda&Okumura 1998; Adachi i in. 2000 – za Huenerfauth 2006) Chiński język migowy (Xu&Gao 2000 – za Huenerfauth 2006), Południowoafrykański język migowy (van Zijl&Barker 2003 – za Huenerfauth 2006), Holenderski Język migowy (Verlinden i in. 2001 – za Huenerfauth 2006). Jednakże projekty te zazwyczaj były krótkotrwałe, proste w warstwie lingwistycznej, przypominające charakterem prototypy, zatem nie zostaną omówione bardziej szczegółowo.. Systemy rozpoznawania języka migowego Dwa nowe duże projekty, które skupiają się na rozpoznawaniu języka migowego to DICTA-SIGN(Efthimiou i in. 2010; Hanke i in. 2010), i SIGN-SPEAK (Dreuw i in. 2010a, 2010b). DICTA-SIGN ma na celu opracowanie technologii niezbędnych do umożliwienia interakcji w języku migowym w oparciu o platformę Web 2.0, natomiast głównym celem projektu SIGN-SPEAK jest opracowanie nowych technologii opartych na koncepcji rozpoznawania i tłumaczenia komunikatów języka migowego do postaci tekstu.. Stan badań w Polsce Uchwalenie przez sejm RP Ustawy z dnia 19 sierpnia 2011 r. o języku migowym i innych środkach komunikowania się, dało nowy bodziec do poszukiwań w zakresie upowszechnienia znajomości języka migowego w życiu publicznym i przyspieszyło pracę na elektronicznymi systemami tłumaczeń jedno- i dwustronnych. Według wiedzy autora obecnie toczą się tak ukierunkowane prace badawcze i projektowe w kilku ośrodkach akademickich w Polsce. Należy tu wymienić przede wszystkim projekt zespołu naukowego Akademii Górniczo-Hutniczej, działający pod kierownictwem dr inż. Jakuba Gałki. We współpracy z firmą Unico Software podjęto badania zmierzające do opracowania "Wirtualnego tłumacza komunikacji migowej" – WITKoM. Projekt zakłada docelowo uzyskanie możliwości swobodnej komunikacji osób niesłyszących ze słyszącymi. Pozyskano na ten cel środki z Narodowego Centrum Badań i Rozwoju (NCBiR). Autorzy zamierzają korzystać w analizie gestów języka migowego między innymi z dynamicznych skanerów 3D i technik animacji 3D – w celu utworzenia tłumaczącego awatara. Przewiduje się szerokie zastosowanie powstałego produktu w życiu publicznym, oraz w dyskursie medialnym i handlowym. Własne doświadczenia autora w tym zakresie pozwalają uznać przedstawiony wyżej projekt za zamierzenie niesłychanie ambitne i wymagające koncentracji poważnego wysiłku naukowego. Innym godnym uwagi przedsięwzięciem jest system rozpoznawania znaków języka migowego – wspierany przez fundusz PFRON oraz firmę Microsoft, w ramach ogólnego projektu migam.pl. Zgodnie z zapowiedziami twórców system 19 ma ułatwiać komunikację z osobami niesłyszącymi. System wykorzystywał będzie w procesie rozpoznawania gestów kamery Kinect. Kierownictwo projektu związane ze środowiskiem Politechniki Warszawskiej zakłada w projekt o nazwie Kinect, stworzenie oprócz słownika języka migowego, systemu tłumaczącego w technologii 3D. Oprócz zapowiedzi brak jednak informacji o postępach w prowadzonych badaniach. Należy do tego zamierzenia odnieść 19. http://www.migam.pl/Aktualno%C5%9Bci/W_Polsce_powstaje_system_rozpoznawania_znak %C3%B3w_j%C4%99zyka_migowego._Prace_s%C4%85_wspierane_przez_Microsoft,_PFRON. 27.

Cytaty

Powiązane dokumenty

This word-formation and etymological investigation is complemented with the results of an on-line survey submitted by Polish speakers in which they were asked to assess the

des villages, c’est vrai, où cette obligation n’existait pas, mais dans d’autres villa- ges on observait des formes plus anciennes et moins pénibles de corvées (les presta- tions

Gedanken Raum gab, dass man noch vordem von einer karolingischen und einer ottonisehen Renaissance der klassischen, insbesonders lateini­ schen L iteratur sprechen

Proces budowania marki miejsca powinien obj ąć następuj ące etapy: okre­ ślenie jasnych, wyraźnych celów, zrozumienie docelowej grupy odbiorców, identyfikacja

The canon provided slaves with a wider scope of protection than the norms of Roman law did, both those in force at the time of its release and later introduced by Emperor

In this master ’s degree project, the assignment was to design a helmet for adults with an attractive shape and good fit for a company, EGG, which was known as a producer of helmets

Ponieważ omawiana w tej pracy zinstytucjonalizowana współpraca niemiecko-rosyjska przypadła na czas przełomu późnych lat dwudziestych, w których w szczególny sposób