• Nie Znaleziono Wyników

niesie za sobą konsekwencje gramatyczne, które mogą objawić się w postaci akcep-tacji wyrażeń niepoprawnych, skonstruowanych zgodnie ze schematem ujawnionym przez wariant). Oczywiście, pozostaje jeszcze kwestia wariantowości opisów genero-wanych przez formalizm modelu (jak w przypadku opozycji fraza luźna/fraza wyma-gana), która musi zostać rozstrzygnięta przez twórcę gramatyki zgodnie z kryterium zdrowego rozsądku.

Wątek weryfikacji gramatyki poruszam tu jednak przede wszystkim w celu podkre-ślenia potrzeby i wagi dokonania pełnej analizy składniowej, która w historii opisy-wanego korpusu nie została wcześniej wykonana; jest on jednak poboczny do samego zadania weryfikacji korpusu, toteż w poprzednim i bieżącym rozdziale rozwijam go jedynie w takim zakresie, w jakim jest mi potrzebny do uzyskania zadowalającego opisu porównawczego.

12.2 Dyskusja metody tworzenia korpusu wypowiedników

Niektóre kwestie omawiające krytycznie metodę tworzenia i anotowania korpusu zostały poruszone w części prezentującej korpus (por. np. rozdziały 1.3.1 — s. 17, 1.3.2 — s. 19), poniżej przedstawiam zagadnienia nie adresowane wcześniej.

12.2.1 Dobór próbek

W opisie metody wyboru danych korpusu wypowiedników6 silnie akcentowany jest sposób zapewnienia zrównoważenia zestawu opisywanych danych (poprzez wybór dokładnie co dziesiątej próbki z korpusu słownika frekwencyjnego, zastępowanie pró-bek niedostępnych lub uszkodzonych itp.) Założenie to zostało oczywiście spełnione w jednym z aspektów (udziału próbek źródłowych), chciałbym jednak zwrócić uwagę na jego konsekwencje.

W rozdziale podsumowującym projekt7 podane zostały następujące liczby określa-jące udział wypowiedzeń i wypowiedników z próbek poszczególnych stylów w po-wstałym korpusie:

Podkorpus (styl) Wypowiedzenia Wypowiedniki Liczba Liczba słów Liczba Liczba słów

popularnonaukowy 576 10335 1109 16826

wiadomości prasowych 551 9642 916 13737

publicystyczny 552 10208 1196 17760

proza 924 10994 2278 20832

dramat 1911 11119 3318 16918

Powyższy rozkład łącznej długości wypowiedzeń jest zrozumiały w kontekście meto-dyki tworzenia korpusu słownika frekwencyjnego: długość każdej z próbek wynosiła

6Patrz [Świdziński, 1996], s. 16.

7[Świdziński, 1996], s. 73 i s. 154 — dwa cytowania tabeli.

12.2 Dyskusja metody tworzenia korpusu wypowiedników 146

ok. 50 słów, co znalazło odzwierciedlenie w średniej łącznej długości wybranych danych (co dziesiąta, czyli 200 próbek z każdego stylu).

Będący wynikiem konsekwentnie zrealizowanej metody wyboru próbek rozkład liczby wypowiedzeń (więc i wypowiedników) sprawia jednak, że już źródłowy ze-staw danych wydaje się konfliktować z podze-stawowym celem projektu — weryfikacją formalizmu gramatycznego stworzonego dla subkodu pisanego. Mimo „tekstowego”

źródła danych, redaktorzy słownika włączali do transzy dramatu artystycznego „tek-sty oparte na dialogu i przeznaczone do realizacji scenicznej”8 o charakterze mó-wionym, co wpłynęło na rodzaj ekstrahowanych wypowiedników — w znaczącym procencie oznajmieniowych (31% rekordów dramatu to wypowiedniki tego typu, dla porównania współczynniki dla pozostałych stylów wynoszą od 4,1% do 11,4% — średnio 6,8%).

Wybór 42,6% wypowiedzeń (co daje blisko 38-procentowy udział wypowiedników9) ze stylu dramatycznego mimowolnie staje więc w opozycji do zadania weryfikacji, a sam Świdziński przyznaje10:

Nawet pobieżna analiza próbek dramatu pokazała, że aparat GFJP nie chwyta znacznej części wypowiedników; konstatacja ta spowodowała ko-nieczność sięgnięcia po dodatkowe narzędzia badawcze.

Wspomnianymi narzędziami są zapewne metoda opisu wypowiedników oznajmie-niowych, być może także sposób opisu niektórych cech ilościowych. Nie zostały one jednak wskazane jawnie.

12.2.2 Specyfika analizy ręcznej

Jak już wspomniałem w rozdziale 8.3 (s. 85), w pracy [Świdziński, 1993a] Świdziński podaje wysoką wartość udziału zdań akceptowanych w badanej próbce zdań korpu-sowych11:

Przeprowadzona analiza materiału empirycznego pokazała, że stopień adekwatności obserwacyjnej testowanej gramatyki jest bardzo wysoki:

z 855 zdań poddanych analizie ponad osiemset stanowi wyrażenia po-prawne w sensie GFJP. Jest to wynik zadowalający, nawet jeśli zważyć, że analizę zatrzymywano na poziomie fraz: budowa wewnętrzna frazy nie była ujawniana, chyba że dana fraza była frazą zdaniową lub zawierała frazę zdaniową jako składnik.

Rezultat ten odbiega od współczynnika uzyskanego przeze mnie z oryginalną wersją gramatyki w procesie automatycznej analizy całego zestawu wypowiedników zda-niowych (patrz także rozdział 8.3); cytowana próbka Świdzińskiego miała jednak

8[Kurcz i in., 1977], s. 9.

9W posiadanej wersji korpusu, zawierającej pełen zestaw próbek dramatu i stylu popularno-naukowego oraz mniej więcej po połowie danych pozostałych stylów współczynnik ten wynosi aż 49,3%.

10[Świdziński, 1996], s. 154.

11Patrz s. 21.

12.2 Dyskusja metody tworzenia korpusu wypowiedników 147

objętość pięciokrotnie mniejszą niż cały zestaw dostępnych danych, na wynik mógł zatem wpłynąć sposób jej doboru, nigdzie nie opisany.

Oczywiście, zastosowana przeze mnie analiza automatyczna była prowadzona przy skrajnie odmiennych założeniach, mianowicie aż do osiągnięcia jednostek termi-nalnych, toteż o wykluczeniu zdań w wielu przypadkach mogła zadecydować ich podstruktura frazowa, niesłusznie zaniedbywana w eksperymencie Świdzińskiego.

Nie wiadomo także, czy i w jaki sposób badano uzgodnienie parametrów jednostek frazowych (czy np. zatrzymywano analizę na poziomie struktury jednostki zdanio-wej, badając zgodność parametrów reprezentanta jednostki frazozdanio-wej, czy zarzucano uzgadnianie tych parametrów i akceptowano zdanie wyłącznie na podstawie jego zgodności z wzorcem reguły zdaniowej). Podawane przykłady wypowiedzeń nieak-ceptowanych przez GFJP zawierają się całkowicie w zbiorze konstrukcji programowo zaniedbywanych (patrz rozdział 7.1.4, s. 65), co pozwala wnioskować, że w przyję-tym przeze mnie zestawie próbek procentowy udział zdań akceptowanych byłby jeszcze wyższy — przeczą temu wyniki empiryczne. Problemy naprawiane w po-przednim rozdziale nie wynikają też z niedostatków mechanizmu Świgry, co pozwala przypuszczać, że akceptacja jednostek frazowych (jak również eliminacja wieloznacz-ności, o czym piszę niżej) odbywała się zapewne przy milczącym założeniu pełnej zgodności z modelem GFJP, co nie było działaniem uprawnionym, czego dowodzą problemy napotkane przy przetwarzaniu w pełni automatycznym. Być może było to wynikiem projekcji prawdziwego założenia o pełnej poprawności przykładów kor-pusowych na założenie o pełności opisu GFJP, jednak w tym wypadku nie można by mówić o pełnej weryfikacji poprawności, wymienianej jako główny cel powstania korpusu.

W świetle powyższego uprawniony wydaje się wniosek, że projekt korpusowy należy traktować jako faktyczną weryfikację nie pełnego opisu GFJP, a jedynie jej frag-mentu opisującego zdania złożone, co więcej, w postaci zmodyfikowanej w stosunku do opisu oryginalnego. Wbrew cytowanym na wstępie rozdziału intencjom przyjęta przy tworzeniu korpusu wypowiedników metoda położyła więc nacisk na analizę schematów zdaniowych, a nie rzeczywistego opisu składniowego z GFJP. Wydaje się też to pośrednio potwierdzać waga, z jaką Świdziński podchodzi do wyników ilościowych dotyczących rozkładu schematów.

Wysoki wynik Świdzińskiego można by zweryfikować prowadząc automatyczną sy-mulację analizy z zaniedbywaniem poziomu frazowego, na przykład modyfikując tekst wypowiedników, tak by analiza elementów frazowych zawsze kończyła się suk-cesem (wszystkie wystąpienia fraz zostałyby zastąpione reprezentantami odnośnych klas fraz — maksymalnie prostymi konstrukcjami, co do których wiadomo, że są akceptowane przez GFJP). Prowadzenie takiego eksperymentu zarzucam jednak ze względu na wątpliwą korzyść interpretacyjną: ze względu na wspomniany brak de-finicji użytej próbki uzyskane wyniki byłyby nieporównywalne z wynikiem Świdziń-skiego. Co więcej, ze względu na niepełny opis parametrów jednostek frazowych zadanie to mogłoby okazać się niewykonalne (patrz rozdział 4.4, s. 43).