Rok akademicki 2005/2006 (semestr letni)
Kurs internetowy
Lingwistyka informatyczna.
Problematyka określoności
Prowadzący:
dr hab. Janusz S. Bień, prof. UW
Katedra Lingwistyki Formalnej jsbien@uw.edu.pl
Rozpoczęcie kursu: 22.02.2006
Kurs jest przeznaczony dla studentów i doktorantów kierunków lingwistycz- nych oraz informatyki. W kursie mogą brać udział studenci zagraniczni z bier- ną znajomością polskiego. Niezbędna jest dobra znajomość języka angielskiego, wskazana znajomość systemu Linux, edytora Emacs i systemu redakcyjnego LaTeX.
Kurs w zasadzie trwa 15 tygodni, od 22.02.2006 do 7.06.2006, ale szczególnie aktywni uczestnicy mogą go zrealizować i zaliczyć w krótszym terminie; oprócz zajęć przez Internet kurs obejmuje również kilka tzw. godzin kontaktowych — będzie to spotkanie, które odbędzie się pod koniec kursu w terminie uzgodnio- nym z uczestnikami.
Studenci zaliczający kurs jako zajęcia ogólnouniwersyteckie rejestrują się w systemie USOS (http://rejestracja.usos.uw.edu.pl/). Zaliczanie kursu w innym charakterze wymaga uzgodnienia z prowadzącym i macierzystą jednostką.
Przez lingwistykę informatyczną rozumiemy badanie języka natu- ralnego z punktu widzenia potrzeb i możliwości przetwarzania tek- stów. Rozwój tej dziedziny umożliwia obecnie empiryczne badania bardzo cie- kawego problemu określoności, wyrażanej np. w języku angielskim przez tzw.
przedimki (a, an, the), a w językach słowiańskich głównie przez szyk wyrazów.
Na zajęciach omówimy wybrane publikacje na ten temat, wykorzystując jednocześnie narzędzia komputerowe jako pomoc w analizie omawianych tek- stów. Punktem wyjścia będzie artykuł Massimo Poesio z 2004 r. ”An em- pirical investigation of definiteness” (http://cswww.essex.ac.uk/Research/
nle/corpora/GNOME/papers.html) i publikacje z nim związane, dostępne na witrynach autorów lub w archiwum Towarzystwa Lingwistyki Obliczeniowej (http://acl.ldc.upenn.edu/). Będą też omawiane wybrane publikacje pro- wadzącego.
Do analizy tekstów będzie służyć przede wszystkim program ”kolokacje”
(http://www.mimuw.edu.pl/polszczyzna/kolokacje/); pozwala on tworzyć listy alfabetyczne i frekwencyjne słów tekstu, tzw. konkordancje czyli wykazy słów w kontekście, a także - jak wskazuje na to jego nazwa - pozwala automa- tycznie wykrywać tzw. kolokacje.
Innym istotnie wykorzystywanym narzędziem będzie system redakcyjny (au- thoring system) LaTeX wspomagany edytorem Emacs, za pomocą którego uczestnicy będą przygotowywać swoje teksty. Oprogramowanie to można znaleźć m.in. w praktycznie wszystkich dystrybucjach systemu Linux.
Kurs będzie miał charakter seminaryjny, dominować będzie praca własna uczestników.
Dodatkowe informacje o kursie są dostępne pod adresem http://www.
mimuw.edu.pl/~jsbien/Okr05/.