• Nie Znaleziono Wyników

Model analizy wielopoziomowej uwzględniający składnik losowy

Jako podstawową formę modelu pozwalającą w pełni zrozumieć mechanizm działania tego typu analizy autorzy podali szkoleniowy przykład wyprowadzony przez Woodhouse (1996). Jest to przykład obserwacji wzdłużnej danych dotyczących kohorty uczniów od czasu rozpoczęcia klasy wstępnej w wieku 8 lat do czasu opuszczenia szkoły czyli wieku lat 11.

Uczniowie pochodzili z pięćdziesięciu szkół wybranych z 650 szkół Londynu w sposób losowy. Celem analizy było stwierdzenie czy są szkoły lepsze i gorsze w udoskonalaniu postępu edukacyjnego uczniów. W celu pomiaru tego postępu przeprowadzono test z matematyki na wstępie szkoły i na jej zakończenie. Analizę przeprowadzono na poziomie indywidualnym i na poziomie szkół.

Wyjściowym modelem był model regresji liniowej dla indywidualnego ucznia:

yij = a0j + a1j x1ij + eij (1) gdzie: yij – wyniki uzyskane w wieku 11 lat przez i-tego ucznia z j-tej szkoły,

xij – wyniki uzyskane na wstępie tj. w wieku 8 lat, a0j , a1j – parametry funkcji regresji dla j-tej szkoły,

eij – składnik losowy (reszty modelu) o wartości oczekiwanej zero i wariancji σ2ej. Estymacja parametrów dla każdej ze szkół oddzielnie nie przyniosłaby żadnej informacji, dopiero potraktowanie tych losowo wybranych 50 szkół jako próby losowej pobranej z populacji 650 szkół londyńskich pozwoli na uzyskanie informacji statystycznej, która może być podstawą do dalszego wnioskowania.

Następnym krokiem jest wyszczególnienie dwóch stopni agregacji: uczeń i szkoła.

Wprowadzenie poziomu szkół do wyjściowego równania regresji sprowadza się do potraktowania parametrów a0j i a1j jako losowych różnicujących szkoły między sobą.

30

a0j = a0 + e0j (2) a1j = a1 + e1j (3) gdzie: a0 i a1 – to średnie parametry stałe dla wszystkich szkół,

e0j i e1j – to zmienne losowe o wartości oczekiwanej zero oraz wariancjach i kowariancjach:

01 oraz element losowy, który zależy zarówno od ucznia jak i od szkoły.

Estymacja parametrów jak również wariancji i kowariancji przy użyciu metod numerycznych a w tym przypadku programu MLn dało wyniki istotne dla wszystkich rozpatrywanych efektów. (Tabela 6.)

Przede wszystkim okazało się że im wyższy wynik uczeń uzyskał wstępując do szkoły tym wyższy wynik uzyskał na jej zakończeniu niezależnie od szkoły do której uczęszczał.

Jednocześnie jednak fakt iż kowariancja pomiędzy e0j i e1j jest ujemna wskazuje iż im wyższy średni wynik dla szkoły tym mniej zależy wynik ucznia przy ukończeniu szkoły od wyniku przy podjęciu nauki w wieku 8 lat. Oznacza to iż niektórym szkołom udało się doprowadzić wszystkich uczniów do dobrego poziomu z matematyki niezależnie od wyjściowych wyników tych uczniów a innych z kolei niestety nie udało się doprowadzić uczniów których wyniki są już niskie do wyrównanego poziomu.

Różnice między szkołami są widoczne w przypadku ilustracji graficznej (Figure 2.) prognozowanych zależności pomiędzy wynikami dla 8 latków i wynikami dla 11 latków w każdej ze szkół wyestymowanej z wykorzystaniem modelu wielopoziomowego zapisanego jako:

31

Przedstawienie modelu regresji dla każdej ze szkół traktowanej oddzielnie daje wyniki zdecydowanie mniej klarowne. (Wykres 3.) Spowodowane jest to faktem iż w wielu przypadkach w szkole jest mała liczba uczniów stąd mało dokładna estymacja parametrów.

Dodatkowym uzupełnieniem modelu było wprowadzenie dodatkowej zmiennej niezależnej od pierwszej o charakterze zero-jedynkowym. Zmienna ta x2ij również wpływa na wynik końcowy ucznia. Zmienna oznaczająca pomoc ze strony rodziców: 1-oznacza istnienie silnej pomocy ze strony rodziców w nauce matematyki a 0-brak tej pomocy. Zakłada się również niezależności związku pomiędzy wynikiem końcowym oraz wynikiem początkowym i pomocą ze strony rodziców a szkołą do której uczęszcza uczeń. Pozwala to na wprowadzenie zmiennych losowych niezależnych od szkoły:

yij =a0 + e0ij + (a1 + e1ij )x1ij + (a2 +e2ij)x2ij +(a12 +e12ij)x1ij × x2ij + eij (7)

gdzie: e0ij , e1ij , e2ij , e12ij , eij – są zmiennymi losowymi o wartości oczekiwanej 0 i wariancjach: σ2e02e12e2e2122e dla których wszystkie kowariancje są równe 0 powodując iż są niezależne od regionu i od siebie nawzajem.

Wyniki uzyskane z estymacji tego modelu okazały się bardzo zbliżone do wyników uzyskanych dla poprzedniego modelu bez włączania zmiennej niezależnej: pomocy rodziców w nauce. Włączenie zmiennej niezależnej typu: średnie wyniki uzyskane na wstępie dla każdej ze szkół również nie zmienia modelu.

Istnieje jednak ryzyko doprowadzenia do błędnych wniosków przy modelowaniu wielopoziomowym w przypadku wprowadzania do stałej części modelu wielu charakterystyk, mających wpływ na omawiane zjawisko.

4.1. Zastosowanie modelu do analizy migracji.

Model służący do zilustrowania praktycznego zastosowania modelu uwzględniającego składnik losowy został wyprowadzony wcześniej jako model bez składnika losowego.

Zastosowany został model logitowy prosty i model logitowy wielopoziomowy. (Tabela 9) Przykładowe wyniki dla mężczyzn potwierdziły bez większych rozbieżności wyniki uzyskane dla modelu bez składnika losowego w przypadku modelu prostego. Znaczne rozbieżności pojawiają się w przypadku gdy efekty losowe nie są zerowe na poziomie regionalnym.

Pomimo tego większość efektów istotnych na poziomie indywidualnym jest również istotna na poziomie modelu wielopoziomowego. Wyjątek stanowią dwie charakterystyki

32

zagregowane: fakt zamieszkiwania w rejonie o niskich dochodach zwiększający szanse migracji w prostym modelu staje się na poziomie zagregowanym nieistotny, oraz w przypadku regionów o wysokim poziomie wykształcenia w modelu wielopoziomowym zmniejsza szanse na migracje o tyle w prostym modelu w ogóle nie jest istotny.

Dalszym krokiem w analizie jest uwzględnienie łącznego efektu parametrów stałych i losowych na poziomie regionalnym. Model logitowy prawdopodobieństwa emigracji z regionu j dla osób nie uwzględniający charakterystyk wcześniej opisywanych ma postać:

j wariancja międzygrupowa dla tego modelu jest opisana: σ2e0

Model uwzględniający charakterystyki jest postaci:

Wyniki po wprowadzeniu charakterystyki jaką jest fakt pracy w rolnictwie wykazały spadek wariancji międzygrupowej z 0,070 do 0,064. Kiedy procentowy udział rolników zwiększa się to prawdopodobieństwo migracji zwiększa się zarówno dla rolników jak i dla innych kategorii pomimo iż rolnicy jako jednostki charakteryzują się niską skłonnością do migracji co potwierdza niebezpieczeństwo wyciągania wniosków o charakterystykach zagregowanych na podstawie wyników na poziomie jednostek.

Wprowadzenie charakterystyki osób z przynajmniej jednym dzieckiem potwierdza fakt iż osoby te maja mniejszą skłonność do migracji niż osoby bezdzietne bez względu na fakt uwzględnienia czy też nie uwzględnienia procentowego udziału osób z przynajmniej jednym dzieckiem. W tym przypadku w modelu nie uwzględniającym procentowego udziału osób z co najmniej jednym dzieckiem wariancja międzygrupowa dla osób z co najmniej jednym dzieckiem jest trzykrotnie większa (0,174) niż dla osób bezdzietnych (0,061).

Wprowadzenie charakterystyki zagregowanej tj. procentowego udziału osób z co najmniej jednym dzieckiem powoduje spadek wariancji międzygrupowej o połowę.

Dla osób z wykształceniem więcej niż 12 lat dla których prawdopodobieństwo migracji jest wyższe niż dla pozostałych korelacja zmiennych losowych na poziomie regionalnym z osobami o wykształceniu mnie niż 12 lat jest bliska zeru.

Ostateczny model zawierający wszystkie rozpatrywane charakterystyki jako stałe czyli nielosowe oraz charakterystykę wykształcenie rozpatrywaną jako losową pomiędzy regionami dał podobne rezultaty zarówno przy wykorzystaniu prostego modelu logitowego jak i modelu wielopoziomowego. Przykładowo potwierdziła się prawidłowość dotycząca faktu bycia

33

rolnikiem, który na poziomie indywidualnym zdecydowanie zniechęca do migracji podczas gdy im większy odsetek osób pracujących w rolnictwie w rejonie tym większe szanse na migrację dla wszystkich bez względu na zawód. (Tabela 10)

W modelu o losowych charakterystykach w porównaniu do modelu gdzie losowa była tylko charakterystyka wykształcenie, wyniki były następujące: wariancja międzygrupowa została zredukowana do połowy, wzrosła zależność pomiędzy osobami o wykształceniu poniżej i powyżej 12 lat.

Podsumowując okazało się iż zastosowanie wielopoziomowego modelu ze zmiennymi losowymi nie podważa podstawowych wniosków uzyskanych przy zastosowaniu modelu logitowego z charakterystykami na różnych poziomach agregacji. Zmienne losowe dostarczają informacji o zależności pomiędzy prawdopodobieństwami migracji z różnych regionów dla osób posiadających daną charakterystykę lub jej nie posiadających.