• Nie Znaleziono Wyników

4.1 Rozprawy naukowe i wywiady

Znaczenie wywiadów (kwestionariuszowych) jako narzędzia badania w demografii jest bardzo dobrze znane. Technika statystyki tekstowej może odgrywać wysoce efektywną rolę w rozszyfrowywaniu i porównywaniu wywiadów. Do tego celu szczególnie przydatny jest program Alceste.

Największym problemem, jaki pojawił się przy zastosowaniu tej metody, był właściwy podział długich tekstów na jednostki. Jak długa powinna być taka jednostka?

Najlepiej, gdy długość jednostki wynika z kontekstu i jest proporcjonalna do długości korpusu. Natomiast w przypadku analizy pojedynczego wywiadu lub zbioru prac bardziej wskazana jest praca na podziale tekstu stworzonym przez samego autora (tzn. paragrafy, rozdziały itp.)

Algorytm Alceste przebiega następująco: najpierw następuje podział początkowego tekstu na podstawowe jednostki, które następnie są łączone w jednorodne klasy ze względu na podobieństwa zawartego w nich słownictwa. Reinert pokazał optymalną długość i liczbę

1 Guérin-Pace F., Garnier B., „La statistique textuelle pour le traitement simultané de résponses á des questions ouvertes et fermées, sur le théme de l’environnement”, w S. Bolasco, L. Lebart, A. Salem (eds), JADT 1995, vol.

2, CISU, Rzym, 1995, str. 37-44.

63

jednostek, która pozwala na stabilną klasyfikację. Jest to około 14 jednostek, z których każda odpowiada w przybliżeniu 10 liniom tekstu.

V. Beaudouin1 przeanalizował zbiór 580 opowiadań o doświadczeniach społecznych młodych ludzi znajdujących się w trudnych sytuacjach, aby poznać okoliczności tych sytuacji (stan emocjonalny badanego, jego sytuację materialną, zachowanie się). Do analizy tej autor dokonał podziału opowiadań na klasy, odpowiadające różnym kategoriom zachowań.

Następnie klasy połączył w trzy grupy (pola): pole sytuacyjne, pole współdziałania, pole autonomii. Pole sytuacyjne dotyczyło uwarunkowań społecznych sytuacji badanych osób (niski poziom wykształcenia, niskie poczucie wartości, problemy rodzinne). Pole współdziałania ukazywało współpracę pomiędzy strukturami wsparcia (pomoc społeczna) a młodymi ludźmi i składało się z 4 stanów zdefiniowanych jako poszukiwanie pracy, przekwalifikowanie, pomoc finansowa, pomoc socjalna. Pole autonomii odpowiadało początkowi niezależności młodych ludzi i składało się ze szkolenia po którym następowało zatrudnienie.

4.2 Tekst specjalny: dziennik

Metody statystycznej analizy tekstowej stosowane są z dużym powodzeniem do badania dzienników i historii życia jednostek. Sekwencje stanów (zatrudnienie, status zawodowy, ... ) traktuje się wówczas jako serie słów tworzących zdanie. Zaletą tej metody jest możliwość porównywania dzienników i historii życia jednostek, które nie mają tej samej liczby stanów (okresów).

W zależności od celu analizy możemy zastosować jedną z dwóch metod tworzenia korpusu danych. Pierwsze podejście rozważa kolejne stany nie biorąc pod uwagę okresów trwania tych stanów. Ważny jest tutaj typologiczny opis sytuacji w jakiej się znajduje jednostka. Druga metoda bierze pod uwagę czas trwania, moment wystąpienia i liczbę wystąpień danego stanu.

L. Haeusler zauważył, że w zależności od tego, czy czas jest uwzględniony w analizie, czy nie, możemy uzyskać różne rezultaty2.

Metody te zastosowano do badania historii karier równoległych opierając się na pomiarze siły roboczej (INSEE, 1990)3. Pomiar ten uzyskano w wyniku monitorowania statusu zatrudnienia

1 Beaudouin V., „Du récit au par cours: portrait de jeunes en difficulté” w S. Bolasco, L. Lebart, A. Salem (eds), JADT 1995, vol. 2, CISU, Rzym, 1995, str. 49-57.

2 Haeusler L., „Des phrases et des itinraires”, w JADT 1993, ENST, Paryż, 1993, str. 249-256.

3 Courgeau D., Guerin-Pace F., „Lecture des parcours professionnels des couples”, w JADT 1998, Nice, 1998, str. 221-232.

64

członków gospodarstwa domowego co miesiąc przez okres trzech lat. Pozwoliło to na odtworzenie ścieżki zawodowej par. Opierając się na 6 statusach siły roboczej (umowa o pracę na czas określony (FC), umowa o pracę na czas nieokreślony (UC), bezrobocie (UN), studenci i żołnierze (SS), pracujący na rachunek własny (SE) i nieaktywny ekonomicznie (NA)), dla każdej historii karier równoległych skonstruowano zdania, w których każde słowo odpowiada zestawieniu statusów zatrudnienia dwóch partnerów (możliwych jest 36 kombinacji). Okazało się, że najczęstsza jest sytuacja, gdy mężczyzna i kobieta mają umowę o prace na czas nieokreślony (UCUC), a najrzadsza taka, kiedy mężczyzna jest nieaktywny zawodowo, a kobieta studiuje (NASS). Tablica kontyngencji rozpatruje częstotliwości przebywania badanych par w określonych statusach zawodowych. Wielowymiarowa analiza korespondencji tej tablicy umożliwia identyfikację podobieństw w historiach karier równoległych (Diagram 3). Stwierdzono, że najostrzejszy kontrast występuje pomiędzy parami, w których jedna osoba pracuje na rachunek własny (SE) druga natomiast ma dowolny status zawodowy, a wszystkimi innymi możliwymi kombinacjami statusów.

Diagram 3. Odległości między różnymi stanami i historiami karier.

Źródło: F. Guerin-Pace, Textual statistics. An exploratory tool for the social sciences, str 90.

SSSE

FCSE UNSE

NASE UCSE

SESE

SENA NANA

SEUC SEUN

SESS

SEFC NANE

NAFC

NASS SSUC FCNA

UNNA UCNA

SSNA

65

Analizę tę można uzupełnić badaniem chronologii przejść par pomiędzy stanami.

W ten sposób możliwa jest identyfikacja prawidłowości występujących w historiach karier równoległych dla par znajdujących się w określonym stanie. Analiza powtarzających się segmentów zawierających dwa słowa (dwa stany) ukazuje większą niepewność zatrudnienia kobiet. Najczęściej pojawiają się takie segmenty, w których mężczyzna jest bezrobotny (UN), a kobieta jest albo zatrudniona na umowę o pracę na czas określony (FC), albo również bezrobotna (UN). Badanie dłuższych segmentów ukazuje cykliczny charakter zmian statusu siły roboczej dla par, na przykład historia kariery równoległej, w której mężczyzna cały czas pozostaje zatrudniony na umowę o pracę na czas nieokreślony (UC), a status zawodowy kobiety zmienia się z umowy o pracę na czas określony (FC) na bezrobocie (UN) i odwrotnie (z UN na FC).

W innym podejściu do badania historii karier równoległych porządkuje się korpus według cech socjo-demograficznych par. Tablica kontyngencji zawiera wtedy w wierszach zbiór możliwych stanów, a w kolumnach socjo-demograficzne charakterystyki gospodarstw domowych. Wynikiem analizy korespondencji są te cechy socjo-demograficzne, które mają największy wpływ na charakter kariery zawodowej par, a także te, które najbardziej te kariery różnicują.

Tego typu analiza jest bardzo dobrym uzupełnieniem dla technik analizy historii zdarzeń1. Metody wywodzące się ze statystycznej analizy danych tekstowych mogą być używane do badania skomplikowanych współzależności między różnymi sytuacjami (stanami), które mają miejsce w historii zdarzeń par. Z drugiej strony metody te nie tworzą objaśniających modeli statystycznych.

5. Podsumowanie

W czasie kiedy automatyczne tłumaczenie rozpraw naukowych (wykładów) rozwija się, użycie techniki statystyki tekstowej jest nieocenioną pomocą w czytaniu i rozumieniu tekstu. Metody SAT pozwalają na interpretację tekstu w oparciu o kryteria ilościowe, a nie subiektywne. W demografii, w której opis i analiza są bardzo ważne, metody SAT są wysoce efektywne.

Rozwój metod SAT związany jest z udoskonaleniem modeli zarówno pod względem statystycznym jak i lingwistycznym. Wysiłki językoznawców są kierowane na udoskonalenie

1 Courgeau D., Meron M., „Mobilité résidentielle, activité et vie familiale des couples”, Économie et Statistique, nr 290, 1995, str. 1731.

66

słowników i zredukowanie liczby błędów podczas kodyfikacji korpusu. Automatyczne kategoryzatory wykorzystywane są do rozdzielania form graficznych występujących w korpusie według ich formy gramatycznej (czasownik, rzeczownik, przyimek) w porządku, w którym występują one w korpusie.1 Skomputeryzowana analiza składni, rozbudowywane i udoskonalane słowniki umożliwiają szczegółową lematyzację2, która obecnie jest wysoce (w ponad 95%) wiarygodna. Jednocześnie statystycy udoskonalają modele, dostarczające coraz bardziej wiarygodne wyniki. Szczególny wkład wnoszą tutaj nowoczesnych techniki statystyczne (np.: Monte Carlo, Jackknife, Bootstrap).

Statystyka tekstowa jest dziedziną analizy, która rozwija się bardzo gwałtownie. S.

Lahlou3 w swojej teorii interpretacji wyników SAT podkreślał, że należy unikać nadużywania i naciągania wyników oraz zbyt pochopnych interpretacji. Argumentował konieczność odnalezienia powiązań pomiędzy tym, co jest obserwowalne (klasy uzyskane w analizie czynnikowe) a modelami interpretacji wyników.

1 Salem A., „Les unités…”, op. cit.

2 Gross M., „On counting meaningful units in text”, w S. Bolasco, L. Lebart, A. Salem (eds), JADT 1995, vol. 1, CISU, Rzym, 1995, str. 5-18.

3 Lahlou S., „Vers une thorie de l’interprtation en analyse statistique des donnes textuelles”, w S. Bolasco, L. Lebart, A. Salem (eds), JADT 1995, vol. 1, CISU, Rzym, 1995, str. 221-229.

67

Mgr Maciej Rodzewicz Katedra Statystyki Uniwersytet Gdański

Metody mikrosymulacyjne w prognozowaniu demograficznym1