Statystyka tekstowa dla celów analizy odpowiedzi na pytania otwarte

Metody SAT mogą stanowić efektywne narzędzie badawcze dla demografa, który stoi przed trudnym zadaniem analizy danych zawartych w ankiecie, w szczególności w przypadku badania odpowiedzi na pytania otwarte. Statystyczna analiza tekstu oparta na metodach automatycznych umożliwia studia dotyczące dużej liczby danych tekstowych; nie jest to jednak technika wolna od wszelkich wad. W trakcie stosowania procedury następuje operacja kodowania danych, która może spowodować utratę części informacji.

Opisany poniżej przykład ma na celu dokładniejsze przedstawienie metod statystycznej analizy tekstu.

Klasyfikacja odpowiedzi w korpusie „Środowisko”

Wykorzystamy badanie przeprowadzone w 1992 r. na próbie 5000 osób wybranych reprezentatywnie ze społeczeństwa francuskiego. Skoncentrujemy się na odpowiedzi na jedno z pytań zawartych w badaniu: „Jakie skojarzenie wywołuje u Pani/Pana słowo środowisko?”.

Do analizy został użyty program Alceste, który bada strukturę formalną współwystępowania słów w zdaniach. Innymi słowy zakłada, że każdy używa w swoich wypowiedziach pewien zasób typowych dla siebie słów, tworzy własny słownik. Badanie statystyczne przeprowadzone przez ten program dąży do odkrycia znaczenia obrazu, który tworzy mówca poprzez swoje indywidualne słownictwo. W praktyce otrzymujemy klasyfikację odpowiedzi opartą na podobieństwach lub na braku podobieństw w słownictwie.

Pierwszym krokiem w metodologii programu Alceste jest redukcja słownika oparta o kryteria lingwistyczne. Program identyfikuje formy gramatyczne słów. Wyróżniane są wówczas przyimki, spójniki, rzeczowniki, czasowniki, itd. Wtedy też następuje lematyzacja, która sprowadza czasowniki do ich formy bezokolicznikowej, rzeczowniki do ich formy podstawowej itp. Program używa w tym celu swojego wewnętrznego słownika. Na tym etapie jest możliwe ingerowanie w działanie programu. Przykład lematyzacji pokazuje Tablica 1.

Tablica 1. Wyciąg z lematyzacji korpusu środowisko.

Kod Forma

pierwotna

Częstotliwość Typ wyrazu Forma

zlematyzowana

Źródło: F. Guerin-Pace, Textual statistics. An exploratory tool for the social sciences, str 77.

Następnie program dokonuje klasyfikacji w wejściowej tabeli leksykalnej, której wiersze odpowiadają zlematyzowanym przez program wyrazom, kolumny natomiast - odpowiedziom na dane pytanie otwarte (w omawianym przypadku - dotyczące środowiska).

W komórki tabeli wpisywane są 1 lub 0 w zależności, czy dany wyraz występuje w odpowiedzi, czy też nie. Metoda programu jest najbardziej skuteczna dla tablic zawierających dużą liczbę 0 (ok. 95%). Umożliwia to automatyczną eliminację najbardziej specyficznych odpowiedzi oraz ujrzenie odpowiedzi jako całości. Procedura programu w każdym kroku dzieli tabelę na dwie najbardziej jednorodne klasy (to znaczy takie, dla których χ² jest maksymalne), aż do momentu uzyskania pożądanej liczby klas.

Stosując tę procedurę, odpowiedzi korpusu „środowisko” podzielono na 8 klas. Dwie najbardziej zagregowane grupy odpowiadają dwóm skrajnie różnym podejściom w odbiorze środowiska. Jedno jest bardzo bezpośrednie, drugie symboliczne (Diagram 1).

Diagram 1. Światy leksykalne w korpusie środowisko

Źródło: F. Guerin-Pace, Textual statistics. An exploratory tool for the social sciences, str 78.

W każdej klasie występuje specyficzne dla niej słownictwo i charakterystyczne odpowiedzi.

Typowe słownictwo użyte dla klasy nazwanej „jakość życia” przedstawia Tablica 2.

Tabela 2. Charakterystyczne słownictwo klasy 1 w korpusie „środowisko”

Kod Forma Liczba w klasie Ogólnie Częstotliwość Chi-2

Źródło: F. Guerin-Pace, Textual statistics. An exploratory tool for the social sciences, str 80.

Podejście abstrakcyjne Jakość życia

Przyroda i zanieczyszczenia

Podejście

bezpośrednie Środowisko społeczne

Podejście konkretne Wszechświat lokalny

Przyjemne miejsce

Analiza komplementarna przeprowadzona przy użyciu tego samego programu daje interesujące wyniki. W wyniku analizy korespondencji przeprowadzonej na wielowariantowej tabeli, zawierającej słowa i klasy otrzymane w poprzednim grupowaniu, otrzymujemy prezentację graficzną, która w prosty sposób obrazuje relacje pomiędzy słowami i klasami.

Analiza ta upraszcza również samą ideę klasyfikacji. Diagram 2 ukazuje pozycje, jakie zajmuje na wykresie osiem klas otrzymanych w grupowaniu oraz należące do nich słowa.

Patrząc na oś poziomą, na jej ujemnych wartościach znajdują się klasy, które opisują środowisko w znaczeniu natury, otwartej przestrzeni, czystego powietrza…; przeciwieństwem (wartości dodatnie osi poziomej) jest pojęcie środowiska zorientowanego na człowieka oraz środowiska w kontekście jakości życia. Obserwując pozycje klas według osi pionowej można zauważyć kontrast pomiędzy wysoce abstrakcyjnym przedstawieniem środowiska, jakości życia, klimatu, czystego powietrza,… a bardziej bezpośrednim jego znaczeniem, opartym na domu i jego otoczeniu.

Diagram 2. Położenie klas leksykalnych korpusu środowisko

MIEJSCE DO ŻYCIA życie znaleźć

dom świat WSZECHŚWIAT LOKALNY

miasto społeczeństwo krąg rodzinny

PRZYRODA

I CZYSTE POWIETRZE BEZPIECZEŃSTWO I DOBROBYT zawód

warunek codziennie JAKOŚĆ ŻYCIA życie miejsce jakość

Źródło: F. Guerin-Pace, Textual statistics. An exploratory tool for the social sciences, str 81.

Struktura korpusu według cech respondentów

Odmiennym podejściem do analizy odpowiedzi na pytania otwarte jest badanie słownictwa używanego w odpowiedziach respondentów należących do danych subpopulacji.

Wymaga to uporządkowania korpusu według indywidualnych charakterystyk podmiotu badania.

Metodologia programu Spadt jest dostosowana przede wszystkim do badania odpowiedzi na pytania o charakterze otwartym, w sytuacji kiedy dysponujemy charakterystykami społeczno-demograficzymi respondenta lub jego odpowiedziami na pytania zamknięte. Główna zaleta programu polega na określeniu zależności pomiędzy charakterystykami jednostek i odpowiedziami na pytania otwarte.

Program nie przeprowadza lematyzacji, ale przy badaniu korpusu umożliwia grupowanie ręczne. Następnie przeprowadzana jest analiza korespondencji wykorzystująca tabelę, która zawiera słowa ze słownika i cechy populacji. Użycie tej analizy umożliwia obserwację pozycji słów i cech społeczno-demograficznych oraz interpretację odległości pomiędzy nimi.

Analizując zbiór odpowiedzi dotyczących środowiska, dąży się do ustalenia zestawu skojarzeń powiązanych z poszczególnymi subpopulacjami. W omawianym badaniu pod uwagę brano następujące cechy jednostek: wiek respondenta, zawód, dochód gospodarstwa domowego, wykształcenie, region i lokalizację mieszkaniową. Okazało się, że najbardziej znaczące przeciwieństwa związane są z wiekiem i z wykształceniem¹. Populacja z niewielkimi lub bez kwalifikacji i niskim dochodem gospodarstwa domowego oraz jednostki nieaktywne ekonomicznie, mają skojarzenia ze środowiskiem ograniczone do bezpośredniej bliskości domu: „około”, „otoczenie”, „dom (budynek)”, „sąsiedztwo”, i skoncentrowane są na jednostce: „mnie”, „ja”, „moje”; odmiennie jest w populacji charakteryzującej się wysokimi kwalifikacjami, wśród jednostek o wysokim dochodzie i pracujących na kierowniczych stanowiskach, które podając definicję słowa „środowisko” używają słownictwa bogatszego i o dużo bardziej abstrakcyjnym znaczeniu: „równowaga”,

„naturalny”, „ekologia”, „przyszłość”,…². Znaczny kontrast występuje również zależnie od wiejskiego lub miejskiego charakteru miejsca zamieszkania. Mieszkający w miasteczkach i miastach często pojmują środowisko w znaczeniu społecznym i opisują je poprzez:

„stosunki”, „dzielnica”, „atmosfera”, „sklepy”, „przyjemny”, „bezpieczeństwo”, „dzieci”;

1 Guérin-Pace F., Collomb Ph., „Les contours du mot environnement: enseignements de la statistique textuelle”, L’Espace Géographique, nr 1, 1998, str. 41-52.

2 Op. cit.

tymczasem populacje wiejskie mają tendencję określać środowisko w znaczeniu: „natura”,

„zewnętrze”, „wieś” a nawet „praca”.

Analiza ta może być dalej poszerzona przy pomocy innych narzędzi, np. badania

„powtarzających się segmentów”¹, to znaczy sekwencji słów, które powtarzają się w odpowiedziach. tablica 3 przedstawia wyciąg powtarzających się segmentów uzyskanych w odpowiedziach dotyczących środowiska.

Tablica 3. Wyciąg listy powtarzających się segmentów w korpusie „środowisko”.

Częstotliwość Segment Częstotliwość Segment

331 Warunki życia 92 Zielone przestrzenie

253 Jakość życia 85 Dookoła nas

190 Nasze otoczenie 66 To co jest dookoła nas

173 Moje otoczenie 60 Szacunek dla przyrody

172 Dookoła mnie 54 Czyste powietrze

168 Dobre samopoczucie 52 Wszystko dookoła

128 To co jest dookoła 50 Otwarta przestrzeń

100 Wszystko dookoła nas 40 Ochrona przyrody

Źródło: F. Guerin-Pace, Textual statistics. An exploratory tool for the social sciences, str 83.

Do grupowania charakterystycznych dla danej subpopulacji odpowiedzi bardzo przydatna jest procedura oparta na wyliczaniu prawdopodobieństw. Porównuje ona częstotliwość, z którą dany segment występuje w odpowiedziach danej subpopulacji, z jego ogólną częstotliwością. Wynikiem jest zbiór słów, które są charakterystyczne dla danej subpopulacji, ze względu na ich albo nadużywanie, albo używanie z częstością poniżej przeciętnej. Tablica 4 przedstawia nadużywane formy w odpowiedziach na pytania dotyczące środowiska według wieku respondentów. Można zauważyć, że ludzie młodzi znacznie częściej kojarzą środowisko z naturą lub planetą (wysoka wartość statystyki testowej), podczas gdy dla ludzi starszych środowisko ogranicza się do najbliższego otoczenia i do jakości stosunków międzyludzkich. W ten sam sposób można wyszczególnić zbiór odpowiedzi charakterystycznych dla każdej innej subpopulacji. Rozpatrując najbardziej charakterystyczne odpowiedzi kobiet i mężczyzn, można zauważyć, że mężczyźni przeważnie poruszają temat jakości życia, często w bezosobowej formie (takie słownictwo, jak: „styl

1 Lafon P., Salem A., „L’inventaire des segments répétés d’un texte”, Mots, nr 6, 1983, str. 161-177; Salem A., Pratique des segments répétés, Paryż, Klincksieck, INDLP, 1987, str. 333.

życia”, „miejsce, w którym się żyje”, „jakość życia”, „dobrobyt”), podczas gdy kobiety chętniej mówią o otoczeniu oraz podkreślają, że są elementem natury lub swojego społeczeństwa (np.: „ludzie wokół nas”, „nasze otoczenie”, „sąsiedzi”, „drzewa”).

Wyszczególniając subpopulacje według: miejsca zamieszkania, liczby posiadanych dzieci oraz wysokości dochodów również można zauważyć istotne różnice pomiędzy odpowiedziami respondentów.¹

Tablica 4. Charakterystyczne formy według wieku

Częstotliwość Liczba Wartość Prawdopodo-

w klasie ogółem w klasie ogółem testowa bieństwo 25-35 lat

Przyroda 10,64 7,71 311 2125 5,988 0,000

Ekologia 1,33 0,54 39 148 5,308 0,000

Miejsce 0,92 0,5 27 138 3,029 0,001

Ochrona 0,62 0,29 18 80 2,962 0,002

Planeta 0,24 0,07 7 20 2,714 0,003

Zieleń 0,58 0,29 17 79 2,710 0,003

35-45 lat

Życie 4,21 3,25 266 895 4,771 0,000

Jakość 1,43 1,06 90 291 3,115 0,001

Zapachy 0,24 0,13 15 37 2,246 0,012

Wolność 0,3 0,19 19 53 2,009 0,022

Architektura 0,1 0,04 6 11 2,004 0,023

ponad 65 lat

Sąsiedztwo 0,95 0,61 73 168 4,220 0,000

Powiązania 0,1 0,04 8 11 2,789 0,003

Dobry 0,23 0,13 18 36 2,637 0,004

Średni 0,12 0,05 9 14 2,576 0,005

Źródło: F. Guerin-Pace, Textual statistics. An exploratory tool for the social sciences, str 85.

1 Inne zastosowania metod opracowywania odpowiedzi na otwarte pytania można znaleźć na przykład w pracach V. Beaudouin, S. Lahlou, op. cit. lub L. Clerc, A. Dufour, „Deux analyses lexicales: les améliorations á apporter au fonctionnement de la société, l’image du milieu professionnel”, Cahiers de recherche Crédoc, nr 22, Paryż, 1992.

Należy również zwrócić uwagę na wartość tej metodologii w opracowywaniu odpowiedzi jednocześnie na pytania otwarte i zamknięte¹. Pierwszym krokiem jest utworzenie zbioru odpowiedzi na pytanie otwarte według indywidualnych cech respondentów, a odpowiedzi na pytanie zamknięte dotyczące tego samego tematu należy przedstawić jako charakterystykę uzupełniającą. Następnie należy zastosować podejście przeciwne: utworzyć zbiór według odpowiedzi na zamknięte pytanie i zbadać cechy respondentów. Te dwie procedury dopełniają się wzajemnie i znacznie pogłębiają analizę.

W podsumowaniu tego rozdziału należy podkreślić wkład wniesiony przez omawiane metody statystyczne w zrozumienie czynników odpowiedzialnych za różnice w odpowiedziach. Jednocześnie należy zwrócić uwagę na możliwość popełniania błędów i to zarówno przy ręcznej, jak i automatycznej klasyfikacji. Krótkie odpowiedzi dobrze się grupuje ręczne. Natomiast w przypadku rozbudowanych odpowiedzi skuteczniejsza jest klasyfikacja automatyczna, gdyż pozwala ona uniknąć subiektywnych interpretacji powodujących błędne skojarzenia. Jest to obszar, w którym nadal poszukuje się usprawnień.

W dokumencie NOWE METODOLOGICZNE PROPOZYCJE ANALIZ W NAUKACH SPOŁECZNYCH ZE SZCZEGÓLNYM UWZGLĘDNIENIEM DEMOGRAFII (Stron 55-62)