Metody analiz statystycznych - Cel, zakres i metody badań

5. Aktywność turystyczna Polaków w okresie 2004–2010

6.1. Cel, zakres i metody badań

6.1.4. Metody analiz statystycznych

Wśród metod analiz statystycznych zastosowano: analizę skupień, analizę regresji (iloraz szans) oraz test istotności różnic dla dwóch proporcji (wskaźników struktu-ry), ponadto uwzględniono statystyczną istotność wyniku – poziom istotności (p). Obliczenia wykonano przy użyciu programu STATISTICA112.

111Dane na ten temat znaleźć można w artykule: A. Zajadacz, A. Marciniak (2009).

A)Poziom istotności (p)

Statystyczną istotnością wyniku (por. Stanisz, 2006b: 197–203) nazywamy miarę stopnia, do jakiego jest on prawdziwy (w sensie jego reprezentatywności dla całej ba-danej populacji). Wartość poziomu-p stanowi malejący wskaźnik wiarygodności re-zultatu. Im wyższy poziom-p, tym mniej możemy być pewni, że relacja obserwowa-na w próbce jest wiarygodnym wskaźnikiem relacji pomiędzy mierzonymi wielkościami w całej interesującej nas populacji. Poziom-p odpowiada prawdopodo-bieństwu popełnienia błędu polegającego na tym, że przyjmujemy uzyskany rezultat jako prawdziwy, tj. reprezentatywny dla populacji. Na przykład poziom-p równy 0,05 (tzn. 1/20) oznacza, że istnieje 5% szansy, iż odkryta w próbce relacja jest dziełem przypadku. Inaczej mówiąc, przy założeniu, że w populacji relacja taka nie zachodzi, a my będziemy powtarzać doświadczenie jedno po drugim w długim ciągu, możemy oczekiwać, że w przybliżeniu w co dwudziestym eksperymencie zmierzona relacja będzie równie silna lub mocniejsza niż ta, która została zmierzona aktualnie. Należy zauważyć, że czymś innym jest stwierdzenie, iż możemy oczekiwać 5% lub 95% po-wtarzalności wyników w sytuacji, gdy jest zależność między zmiennymi. Jeśli istnieje relacja między zmiennymi w populacji, to prawdopodobieństwo powtarzalności wy-ników i prawdziwości znalezionej zależności jest związane z mocą statystyczną te-stu. W wielu dziedzinach badań poziom istotności równy 0,05 jest przyjmowany jako graniczna wartość akceptowalnego poziomu błędu.

Decyzja o tym, jaki poziom istotności skłonni jesteśmy uznać za rzeczywiście ważny, jest zawsze podejmowana w sposób arbitralny. W wielu dziedzinach badań jako typową wartość graniczną poziomu istotności przyjmuje się p=0,05. Poniżej tej wartości rezultat oceniany jest jako statystycznie istotny. Pamiętać jednak nale-ży, że wartość ta niesie w sobie dość dużą możliwość popełnienia błędu (5%). Wy-niki na poziomie p 0,01 uważa się powszechnie za statystycznie istotne, zaś wy-niki istotne na poziomie p 0,005 lub p 0,001 nazywane bywają wysoce istotnymi. Wartość istotności statystycznej (p) obliczono przy wykorzystaniu testu statystycznego chi-kwadrat Pearsona. Wyniki przedstawiono w rozdziałach 6.2 i 6.3 oraz załącznikach do tych rozdziałów (zał. 6.2.1, 6.3.1).

B) Analiza skupień

Do grupowania zmiennych (cech) użyte zostały algorytmy analizy skupień (por. Stanisz, 2007b: 113–127). Analiza skupień jest narzędziem analizy danych słu-żącym do grupowania obiektów (w naszym przypadku są to zmienne) w niepuste, rozłączne i możliwie „jednorodne” grupy – skupienia. Obiekty należące do danego skupienia powinny być „podobne” do siebie (używa się w tym celu różnych miar podobieństwa, a w zasadzie niepodobieństwa obiektów), a obiekty należące do różnych skupień powinny być z kolei możliwie mocno „niepodobne” do siebie. Głównym celem tej analizy było wykrycie w zbiorze danych tzw. „naturalnych” skupień, czyli skupień, które dają się w sensowny sposób interpretować.

W opracowaniu zastosowano metodę hierarchiczną polegającą na stopniowym łączeniu powstałych na wcześniejszym etapie analizy mniejszych skupień. Podsta-wowymi elementami tej metody są miary odległości (niepodobieństwa) obiektów oraz techniki wiązania skupień.

Jako miary odległości obiektów przyjęto niezgodność procentową określoną poprzez odsetek różniących się wartości zmiennych oraz 1–r, gdzie r oznacza współczynnik korelacji Pearsona pomiędzy zmiennymi. Jako metody wiązania skupień wybrano metodę średnich połączeń oraz metodę Warda (por. Stanisz, 2007b: 122). W pierwszej z metod odległość między dwoma skupieniami oblicza się za pomocą średniej arytmetycznej wyznaczonej ze wszystkich odległości obiektów należących do dwóch różnych skupień. W metodzie Warda do oszaco-wania odległości pomiędzy skupieniami wykorzystuje sie podejście analizy wa-riancji.

Na każdym etapie spośród wszystkich możliwych do łączenia par skupień wy-biera się te, które w rezultacie łączenia dają skupienie o minimalnym zróżnicowa-niu.

Przebieg algorytmu aglomeracyjnego jest następujący:

1. W pierwszym kroku każdy z obiektów tworzy oddzielne skupienie.

2. Łączymy (wiążemy ze sobą) dwa najbardziej podobne do siebie skupienia – w sensie wybranej miary niepodobieństwa skupień – zmniejszając w ten sposób liczbę skupień o jeden.

3. Powtarzamy krok drugi do momentu połączenia wszystkich obiektów w jedno skupienie.

Graficzną ilustracją przebiegu aglomeracji jest wykres zwany dendrogramem. Jest to (binarne) drzewo, którego węzły reprezentują skupienia, a liście pojedyncze obiekty. Liście umieszczone są na poziomie zerowym, pozostałe węzły drzewa na wysokości odpowiadającej mierze niepodobieństwa pomiędzy skupieniami repre-zentowanymi przez węzły potomki. Wyniki analizy skupień zamieszczono w roz-działach 6.2 i 6.3.

C) Test istotności różnic dla dwóch proporcji (wskaźników struktury)

W celu rozpoznania, czy wpływ wybranych cech respondentów (takich jak: wiek, wykształcenie, dochód) na wybrane cechy podróży turystycznych w obu badanych grupach jest podobny czy też różny, zastosowano test istotności różnic dla dwóch proporcji (wskaźników struktury) (por. Stanisz, 2006: 323).

Badaniu podlega cecha przyjmująca tylko dwie wartości, zazwyczaj kodowane jako 0 – „porażka” i 1 – „sukces”. W naszym przypadku 0 oznacza odpowiedź nie-wybraną, a 1 oznacza odpowiedź wybraną. Badanie prowadzimy w dwóch grupach (słyszący, niesłyszący).

Hipoteza zerowa: wskaźniki struktury badanej cechy w dwóch grupach nie róż-nią się istotnie.

W zapisie matematycznym: H0: p1= p2, gdzie pioznacza prawdopodobieństwo sukcesu (i=1, 2).

Hipoteza alternatywna: wskaźniki struktury badanej cechy w dwóch grupach różnią się istotnie.

W zapisie matematycznym: H1: p1 p2. Liczebności zestawiamy w tabeli 2×2.

Próba (grupa)

1 2

Wartości 0 ^O10 O20 O.0

1 O11 O21 O.1

O1. O2. n

Określamy liczebności oczekiwane w następujący sposób:

E_ij=O_i_.^O_n^.^j ,i=1 2, , j=0 1, . (1)

Wartość statystyki testowej obliczamy ze wzoru:

( )

∑

^Oi j_E⁻^Ei j i j i j , , , , 2 (2) Statystyka testowa ma, przy prawdziwości hipotezy zerowej, granicznie rozkład chi-kwadrat z 1 stopniem swobody.

Test chi-kwadrat Pearsona dla wielu proporcji (wskaźników struktury): Badaniu podlega cecha przyjmująca tylko dwie wartości, zazwyczaj kodowane jako 0 – „porażka” i 1 – „sukces”. W naszym przypadku 0 oznacza odpowiedź nie-wybraną, a 1 oznacza odpowiedź wybraną. Badanie prowadzimy w wielu grupach (grupy związane są z wiekiem, dochodami itp.).

Hipoteza zerowa: wskaźniki struktury badanej cechy w badanych grupach nie różnią się istotnie.

W zapisie matematycznym: H0: p1= p2= … = pk, gdzie pioznacza prawdopo-dobieństwo sukcesu (i=1, 2,…, k).

Hipoteza alternatywna: wskaźniki struktury badanej cechy w badanych grupach różnią się istotnie.

W zapisie matematycznym: H1: pi pj, dla pewnych i, j (i j, i, j = 1, 2,…, k). Liczebności zestawiamy w tabeli 2×k.

Próba (grupa)

1 2 … k

Wartości ⁰ ^O10 O20 … Ok0 O.0

1 O11 O21 … Ok1 O.1

O1. O2. … Ok. n

Określamy liczebności oczekiwane w następujący sposób:

Wartość statystyki testowej obliczamy ze wzoru:

( )

∑

^Oi j_E⁻^Ei j i j i j , , , , 2 (4) Statystyka testowa ma, przy prawdziwości hipotezy zerowej, granicznie rozkład chi-kwadrat z k–1 stopniem swobody. Test ten można również interpretować jako badanie istotności wpływu zmiennej grupującej (wykształcenie, dochód itp.) na ba-daną zmienną zależną o charakterze dychotomicznym (na częstość „sukcesów”).

W przeprowadzonej analizie uwzględniono wpływ trzech wybranych113 cech, takich jak: wiek, wykształcenie oraz dochód na cechy turystyki weekendowej i świątecznej oraz urlopowej i wakacyjnej obu badanych grup respondentów. Wyniki przedstawiono w rozdziałach 6.2 i 6.3 oraz towarzyszących im załącznikach 6.2.2, 6.3.2.

D) Analiza regresji

Do badania wpływu zmiennych niezależnych (zmiennych z metryczki) na inną zmienną użyte zostały algorytmy analizy regresji (por. Stanisz, 2007a: 217–226). Ponieważ w przeprowadzonej analizie zmienna zależna miała charakter dychoto-miczny (ewentualnie przyjmowała kilka uporządkowanych wartości), zastosowa-nie klasycznego modelu regresji liniowej było zastosowa-niemożliwe. W analizie przyjęto uogólniony model regresji liniowej z logistyczną funkcją wiążącą.

Jeżeli przez Y oznaczymy dychotomiczną zmienną zależną, a przez p prawdopo-dobieństwo, że przyjmie ona wartość jeden („sukces”), to model regresji logistycz-nej przyjmie następującą postać:

( )

P Y p ^a_a ^{a X}_{a X} ^{a X}m_{a X}m m m ( = = =) ^exp_exp ⁺ ^{+ +}^..._... + + + + 1 ₁ 0 1 1 0 1 1 (5)

( )

logit = ^ ₋   ^_= + + + ln ₁^p_p exp a₀ a X₁ ₁ ... a X_m _m . (6) W modelu logistycznym występuje zależność liniowa pomiędzy poszczególny-mi zposzczególny-miennyposzczególny-mi niezależnyposzczególny-mi a logarytmem naturalnym ilorazu prawdopodobień-stwa sukcesu i prawdopodobieńprawdopodobień-stwa porażki. Przekształcenie powyższe nazywamy przekształceniem logitowym lub, krótko, logitem. Stosując model regresji logi-stycznej, możemy badać wpływ zmiany poszczególnych zmiennych niezależnych na szanse sukcesu. Wartość parametru stojącego przy wybranej zmiennej niezależ-nej pokazuje wpływ jednostkowej zmiany na logarytm naturalny szansy, natomiast

113Wybór ten wynikał z analizy danych przedstawionych w rozdz. 5. „Aktywność turystyczna Pola-ków…” – występujących prawidłowości dotyczących istotnego wpływu wieku, wykształcenia i do-chodów na aktywność turystyczną i jej charakter.

eksponenta z wartości tego parametru pokazuje wpływ jednostkowej zmiany zmiennej niezależnej na szanse sukcesu.

Wartość eksponenty dla parametru przy określonej zmiennej niezależnej nazywa-na jest ilorazem szans, gdyż określa onazywa-na, ile razy rośnie szansa sukcesu przy wzroście wartości tej zmiennej niezależnej o jednostkę. W modelu logistycznym nie interpretuje się więc wartości oszacowań parametrów przy poszczególnych zmiennych niezależnych, a jedynie ich eksponenty. Są one jednak powiązane – do-datni (ujemny) znak parametru da w efekcie iloraz szans większy (mniejszy) od jed-ności. Można więc interpretować znaki oszacowanych współczynników jako kieru-nek wpływu zmiennej niezależnej na prawdopodobieństwo osiągnięcia sukcesu.

W niektórych sytuacjach analizowana przez nas zmienna zależna przyjmuje więcej niż dwie wartości. Przy czym wartościom tym można nadać określony porządek, to znaczy można określić, która z każdej pary wartości jest niższa lub wyższa. W sytuacji takiej stosować będziemy porządkowy model regresji logistycz-nej. Jeśli porządkowa zmienna zależna przyjmuje k wartości, a przez p1,…, pk ozna-czymy ich prawdopodobieństwa, to skumulowane logity opisane są w następujący sposób: ln ^p2 _p^... ^pk , ln ^p_p ^..._p^pk ,... 1 3 1 2 + +    _^ ^_ ^{+ +}₊  , ln^_ _p _...^pk_p . k 1+ + 1         − (7) W modelu tym szacujemy prawdopodobieństwa (szanse), że dla każdej obserwa-cji zmienna zależna przyjmie co najmniej określoną wartość. Ilorazy szans będą w tym modelu interpretowane jako wpływ zmiennej niezależnej na prawdopodobie-ństwo przyjęcia raczej wyższej niż niższej wartości zmiennej zależnej. Wyniki analizy zawarto w rozdziałach 6.2. i 6.3. oraz towarzyszących im załącznikach 6.2.3 i 6.3.3.

Wyniki analiz statystycznych ze względu na dużą liczbę tabel i wykresów za-mieszczono w aneksie. Zastosowano dla nich oddzielną numerację zaznaczoną w tekście skrótem „zał. –” przypisaną do numeru rozdziału, w którym zawarto ko-mentarz uzyskanych wyników. W przypadku wyników dotyczących turystyki week-endowej oraz świątecznej są to załączniki 6.2, natomiast urlopowej i wakacyjnej załączniki 6.3. Dla niektórych zmiennych, ze względu na incydentalną liczbę wska-zań przez respondentów, analiza statystyczna odpowiedzi była niemożliwa. Infor-macja o tych zmiennych także została uwzględniona w aneksie. Analizując zacho-wania i czynności podejmowane przez respondentów podczas wyjazdów turystycznych, stosowano zamiennie dwa określenia: „sposoby” lub „formy” wy-poczynku, uznając je za synonimy. Ze względu na częste powtórzenia w analizie porównawczej określeń: „osoby niesłyszące” i „osoby słyszące” w dalszej części pracy zastosowano skrót [N] odnoszący się do pierwszej i [S] do drugiej grupy.

W dokumencie Turystyka osób niesłyszących - ujęcie geograficzne (Stron 145-151)