• Nie Znaleziono Wyników

Korelacje i model linowy

N/A
N/A
Protected

Academic year: 2021

Share "Korelacje i model linowy"

Copied!
14
0
0

Pełen tekst

(1)

Korelacje i model linowy

Dotychczasowe badania dotyczyły jednej zmiennej. W tym temacie zajmiemy się statystyką dwu (w ogólności wielu) zmiennych. W tym przypadku podstawowe pytanie jest czy te zmienne są zale- żne od siebie, czy nie. Niezależność w sensie statystycznym definiuje się w kategoriach prawdopo- dobieństwa. Jeśli zmienne X i Y są niezależne, to zachodzi równość:

a , b∈ℝ : P ( X <a)⋅P(Y <b)=P( X <a∧Y <b)

Jeżeli warunek ten nie jest spełniony, to mówimy, że zmienne są zależne. Jest to oczywiście defini- cja formalna. W sensie nieformalnym utożsamiamy zależność zmiennych z jakąś relacją matematy- czną łączącą wartości zmiennych X i Y.

Spośród zależności między zmiennymi wyróżniamy zależność monotoniczną (dodatnią lub ujemną).

Formalnie definiuje się ją również w kategoriach statystycznych. Dodatnia zależność monotoniczna występuje, gdy wzrost wartości jednej zmiennej powoduje zwiększenie wartości oczekiwanej dru- giej zmiennej; ujemna zależność monotoniczna występuje gdy wzrost wartości jednej zmiennej po- woduje zmniejszenie wartości oczekiwanej drugiej zmiennej. Szczególnym przypadkiem zależności monotonicznej jest zależność liniowa, co oznacza, że wartość oczekiwana jednej zmiennej jest zale- żna liniowo od drugiej zmiennej. W sensie ogólnym każda zależność pomiędzy zmiennymi jest korelacją, jednakże w sensie szczegółowym korelacją nazywamy zależność monotoniczną (takie rozumienie korelacji wynika z konstrukcji powszechnie używanych parametrów określających siłę korelacji – współczynników korelacji).

Należy tutaj wyraźnie podkreślić, że korelacja, czy zależność w sensie statystycznym, nie oznacza zależności przyczynowej. Zależność taka, jeśli występuje, musi być wyjaśniona na gruncie danej dziedziny badań. Z drugiej strony, wykryta i potwierdzona badaniem istotności statystycznej, zależ- ność korelacyjna jest faktem i wszelka krytyka tak otrzymanego wyniku musi opierać się na wykaza- niu albo błędów na poziomie pomiarów wartości w próbkach, albo na wykazaniu pośredniego mechanizmu powodującego wystąpienie wykrytej pozornej zależności.

1. Współczynnik korelacji

Współczynnik korelacji jest miarą statystyczną zależności zmiennych. W zależności od sposobu obliczania jego wartości, wskazuje on na siłę korelacji monotonicznej lub liniowej. Tradycyjnie współczynnik ten jest normalizowany do wartości w zakresie [-1,1], gdzie wartości ujemne ozna- czają korelację ujemną. Wartości skrajne oznaczają zależność ściśle monotoniczną. Jak każdy parametr statystyczny, współczynnik korelacji podlega rozkładowi statystycznemu. Można więc na jego podstawie budować przedziały ufności dla tego współczynnika i konstruować statystyki testo- we do badania jego istotności.

Uwaga! Istnieje w literaturze wiele ocen (czy tabel) siły korelacji opartych na wartości współczynni- ka korelacji. Są to jednak oceny arbitralne, powiązane z dziedziną badań, dla których takie oceny zostały sporządzone. W sensie statystycznym, czy matematycznym, mogą mieć znaczenie jedynie orientacyjne. W sensie statystycznym istotne znaczenie ma, czy współczynnik korelacji w sposób istotny różni się od zera, co badamy za pomocą testów istotności.

1.1. Współczynnik korelacji Pearsona

Współczynnik korelacji liniowej Pearsona jest oparty na fakcie, iż jeżeli dwie zmienne są niezależne, to ich kowariancja jest równa zeru. Fakt ten nie zapewnia wynikania w drugą stronę – jest tak tylko wtedy, gdy ich łączny rozkład dwuwymiarowy jest normalny. Konsekwencją tego jest to, że współ- czynnik ten wykrywa jedynie korelację liniową i jest wrażliwy zarówno na obserwacje odstające jak i na odchylenia od rozkładu normalnego. Celem normalizacji do przedziału [-1,1] kowariancja jest dzielona przez iloczyn odchyleń standardowych obu zmiennych.

(2)

rXY=cov (X ,Y ) σXσY =

i=1 n

(xi−̄x )( yi−̄y )

i=1 n

(xi−̄x)2

i =1 n

(yi−̄y )2

W Excelu funkcja licząca ten współczynnik ma nazwę WSP.KORELACJI(). Jej argumentami są dwie tablice liczb (zmiennych) pomiędzy którymi liczony jest współczynnik korelacji. Tablice muszą być równoliczne, gdyż korelacje liczymy dla próbek sparowanych.

Jak wynika z definicji, współczynnik ten nie wymaga w ogólności założenia normalności rozkładów zmiennych badanych, jednakże, co widać z powyższego wzoru, wymaga, by wariancje (a w konsek- wencji odchylenia standardowe) i kowariancja zmiennych X i Y były określone. Często podkreślany warunek normalności bierze się stąd, że statystyka testowa dla współczynnika korelacji Pearsona jest oparta na założeniu normalności rozkładu dwuwymiarowego zmiennych X i Y. Przy takim zało- żeniu i hipotezie zerowej H0: r=0, statystyka testowa:

tn−2=r

1−rn−22

ma rozkład t o n−2 stopniach swobody. Wyznaczając na podstawie poziomu istotności α wartość krytyczną testu tα, możemy obliczyć wartość krytyczną współczynnika korelacji:

rkr= tα

n−2−tα 2

Jeśli wartość bezwzględna wartości obserwowanej |robs|>rkr, to istnieją przesłanki do odrzucenia hipotezy zerowej i możemy przyjąć hipotezę alternatywną Ha: r≠0. Dla hipotezy alternatywnej jednostronnej (Ha: r≤0 lub Ha: r≥0) wartość krytyczną obliczamy dla testu t jednostronnego.

W przypadku hipotezy zerowej H0: r=r0, rozkład r opisywany jest bardziej skomplikowanym wzorem, który dla r0=0 sprowadza się do wyżej wspomnianego rozkładu t. W praktyce jednak stosuje się w tym przypadku przekształcenie Fishera

F (r )=1

2ln1+r

1−r=artgh r

Statystyką testową jest wtedy funkcja:

zr=

n−3 F (r )

która jest zbieżna, wraz ze wzrostem n, do standardowego rozkładu normalnego N(0,1).

Przy użyciu tego przekształcenia można nie tylko badać hipotezę H0: r=r0, z hipotezami alternatyw- nymi dwustronnymi i jednostronnymi, w zależności od potrzeb, stosując test z, ale również prze- kształcenie to służy do obliczania przedziału ufności.

Dla zadanego poziomu ufności 1−α, wyznaczamy z rozkładu normalnego wartości krytyczne zα, a następnie za pomocą przekształcenia odwrotnego do przekształcenia Fishera wyznaczamy grani- ce dolną (rd) i górną (rg) przedziału ufności (przekształceniem odwrotnym do area tangensa hiper- bolicznego – artgh – jest oczywiście tangens hiperboliczny – tgh):

rd=tgh

(

F (robs)−

n−3zα

)

oraz rg=tgh

(

F (robs)+

n−3zα

)

1.2. Współczynnik korelacji rang Spearmana

Współczynnik korelacji rang Spearmana, jak sama nazwa wskazuje, jest liczony nie dla surowych danych, lecz dla rang i po prostu jest to współczynnik korelacji Pearsona dla rang, oparty jest więc na badaniu wielkości kowariancji. Rangi wyznaczane są dla obu prób oddzielnie.

(3)

ρXY=cov (RX, RY) σRXσRY =

i=1 n

(r(x)i−̄r(x))(r(y)i−̄r(y))

i =1 n

(r(x)i−̄r(x))2

i=1 n

(r(y)i−̄r(y))2

Współczynnik korelacji Spearmana pierwotnie został pomyślany jako odporna na obserwacje od- stające wersja współczynnika korelacji Pearsona, ale jego własności spowodowały, że ma on szersze zastosowanie. Przede wszystkim współczynnik korelacji rang Spearmana wykrywa korelacje mono- toniczne, a nie tylko liniowe, co niekiedy uważane jest za wadę tego współczynnika. Nie wymaga również założenia ciągłości rozkładu zmiennych, nadaje się więc do badania danych typu porządko- wego. Jest to również współczynnik nieparametryczny, gdyż wyznaczenie jego rozkładu nie wymaga znajomości parametrów dwuwymiarowego rozkładu łącznego X i Y.

Rozkład prawdopodobieństwa współczynnika korelacji Spearmana jest jednakże trudny do określe- nia i wyznacza się go za pomocą testów randomizacyjnych. Dla próbek o małej liczebności należy się posługiwać więc wyznaczonymi za pomocą testów randomizacyjnych wartościami tablicowymi rozkładu, natomiast powyżej 10 można posłużyć się już przekształceniem Fishera

F (ρ)=1

2ln1+ρ

1−ρ=artgh ρ

po którym statystyka testowa zρ jest zbieżna, wraz ze wzrostem n, do standardowego rozkładu nor- malnego N(0,1) gdy

zρ=

n−31,06 F (ρ)

W tym przypadku dla H0: ρ=0, porównujemy wartość obserwowaną, obliczoną według powyższego wzoru, z wartością krytyczną zα rozkładu normalnego. Jeśli zobs>zα, to istnieją przesłanki do odrzu- cenia hipotezy zerowej. Wartość p testu liczymy na podstawie zobs.

Analogicznie jak poprzednio, przedział ufności liczymy posługując się odwrotnością przekształcenia Fishera.

ρd=tgh

(

F (ρobs)−zα

1,06n−3

)

oraz ρg=tgh

(

F (ρobs)+zα

1,06n−3

)

1.3. Współczynnik korelacji Kendalla

Współczynnik korelacji rang Kendalla (τ Kendalla) jest miarą korelacji monotonicznych, ale, w od- różnieniu od współczynników Spearmana i Pearsona, nie jest oparty na analizie wariancji prób, lecz na mierze prawdopodobieństwa, że wartość jednej zmiennej będzie rosła wraz ze wzrostem dru- giej. W przypadku tego współczynnika nie czyni się żadnych założeń co do rozkładów zmiennych, jest więc miarą nieparametryczną.

Wartość współczynnika τ jest równa różnicy par zgodnych i niezgodnych w próbkach X i Y, podzie- lonej przez liczbę wszystkich par. Pary {(xi,yi),(xj,yj)} są zgodne, gdy jeśli xi>xj, to yi>yj lub jeśli xi<xj, to yi<yj. Pary są niezgodne, gdy jeśli xi>xj, to yi<yj lub jeśli xi<xj, to yi>yj. Pary związane, tzn. takie że xi=xj lub yi=yj nie są ani zgodne, ani niezgodne.

Istnieją trzy wersje współczynnika τ, oznaczane kolejno jako τA, τB i τC. Współczynnik τA nie uwzględ- nia par związanych i jest obliczany według zasady podanej wyżej, co matematycznie można wyrazić wzorem

τA=

i< j

sgn ( xi−xj)sgn ( yiyj)

(

n2

)

a w praktyce τA=nc−nd n0

gdzie nc to liczba par zgodnych, nd liczba par niezgodnych, a n0 to liczba wszystkich możliwych par.

Jak widać, formalnie jest to różnica prawdopodobieństw otrzymania par zgodnych i niezgodnych.

Tego współczynnika używa się, gdy nie występują pary związane, lub gdy liczba par związanych jest

(4)

mała w stosunku do liczby wszystkich par.

Współczynnik τB uwzględnia pary związane w mianowniku powyższego wzoru. Jeżeli indeksem k będziemy numerować grupy wartości związanych w zmiennej X, a tk będzie oznaczało liczbę warto- ści związanych w k grupie, i analogicznie m i tm będą indeksem i liczbą elementów związanych w zmiennej Y, to

τB=

i < j

sgn(xixj)sgn( yiyj)

( (

n2

)

k

(

t2k

) )( (

2n

)

m

(

t2m

) )

a w praktyce τB= nc−nd

(n0−nk)(n0−nm)

gdzie nk to liczba par związanych w zmiennej X, a nm to liczba par związanych w zmiennej Y. Jak widać, w przypadku braku par związanych współczynnik τB redukuje się do współczynnika τA.

Współczynnik τC ma zastosowanie do tablic krzyżowych (tablic wielodzielczych) i nie będziemy się nim tutaj zajmować.

Funkcja gęstości rozkładu tego współczynnika jest funkcją dyskretną i ściśle obliczalną, ale nawet dla małych wielkości próbek jest to bardzo czasochłonne, gdyż nawet przy braku par związanych wymaga to obliczenia n! współczynników korelacji. Na szczęście problem nie jest tak drastyczny, gdyż (uciąglona) funkcja rozkładu jest szybko zbieżna do rozkładu normalnego o wartości średniej μ=0 i wariancji dla przypadku bez par związanych στ2=2(2n+5)/(9n(n−1)). W przypadku obecności par związanych wzór na wariancję komplikuje się, dlatego w praktyce będziemy korzystać z prze- kształcenia Fishera

F ( τ)=1

2ln1+ τ

1−τ=artgh τ przy którym funkcja testowa

zτ=

0,437n−4 F (τ)

jest bardzo szybko zbieżna do standardowego rozkładu normalnego N(0,1).

Tak jak poprzednio, dla H0: τ=0, porównujemy wartość obserwowaną, obliczoną według powyższe- go wzoru, z wartością krytyczną zα rozkładu normalnego. Jeśli zobs>zα, to istnieją przesłanki do od- rzucenia hipotezy zerowej. Wartość p testu liczymy na podstawie zobs.

Analogicznie jak poprzednio, przedział ufności liczymy posługując się odwrotnością przekształcenia Fishera.

τd=tgh

(

F (τobs)−zα

0,437n−4

)

oraz τg=tgh

(

F (τobs)+zα

0,437n−4

)

Przybliżenie to można stosować już od wielkości próbek n>10, a dla liczebności 4≤n≤10 należy po- sługiwać się wartościami tablicowymi.

Tablica wartości krytycznych współczynnika korelacji τ Kendalla

n= 4 5 6 7 8 9 10

α=0,05 1 0,8000 0,7333 0,6190 0,5714 0,5000 0,4667

α=0,01 — 1 0,0000 0,8095 0,7143 0,6667 0,6000

1.4. Przykładowe obliczenia w arkuszu kalkulacyjnym Excel

Przykładowe obliczenia wykonałem dla próbek znajdujących się w pliku cisnienie.xlsx, dla kolumn A i B (ciśnienie skurczowe, ciśnienie rozkurczowe). Końcowy rezultat znajdziecie Państwo w pliku korelacje.xlsx oraz na zrzutce ekranowej w pliku korelacje.jpg.

(5)

Współczynnik korelacji Pearsona

Współczynnik korelacji Pearsona obliczyłem wprost za pomocą funkcji WSP.KORELACJI() w komórce G3.

Poniżej zbadałem za pomocą testu t hipotezę, że współczynnik korelacji jest równy zeru – H0: r=0.

W tym celu:

1) obliczyłem wielkość próbek n za pomocą funkcji ILE.LICZB() w komórce G5 (wystarczy wybrać jedną z nich, bo są sparowane);

2) poniżej wpisałem założoną wartość poziomu istotności testu (5% w komórce G6);

3) poniżej (komórka G7) obliczyłem wartość krytyczną testu rozkładu t o n−2 stopniach swobody dla zakładanego poziomu istotności testu α za pomocą funkcji ROZKŁ.T.ODWR.DS(); jeśli chciałbym przeprowadzić test jednostronny, to powinienem był bym użyć funkcji ROZKŁ.T.ODWR();

4) poniżej (komórka G8) obliczyłem wartość obserwowaną statystyki t dla tego testu według wzoru podanego wyżej; porównanie obu wartości daje przesłanki do odrzucenia hipotezy zerowej;

5) poniżej (komórka G9) obliczyłem prawdopodobieństwo otrzymania wartości obserwowanej lub bardziej skrajnej funkcji testowej za pomocą funkcji ROZKŁ.T.DS();.gdybym chciał przeprowadzić test jednostronny, to powinienem użyć funkcji ROZKŁ.T() dla testu lewostronnego lub ROZKŁ.T.PS() dla testu prawostronnego; ponieważ otrzymane prawdopodobieństwo jest mniejsze niż zakładany poziom istotności testu, więc mamy przesłanki do odrzucenia hipotezy zerowej; UWAGA! przypo- minam, że p. 4) i 5) są dwiema wersjami tego samego testu i nie ma potrzeby robić je jednocześnie;

tutaj zrobiłem to w celach dydaktycznych (po prostu jedni lubią operować prawdopodobieństwem, inni obszarami krytycznymi).

Posługując się transformacją Fishera obliczyłem przedział ufności dla współczynnika korelacji na poziomie istotności 95%, w tym celu:

1) obliczyłem (komórka G12) wartość krytyczną zα dla standardowego rozkładu normalnego i dwu- stronnego prawdopodobieństwa α równego dopełnieniu do poziomu ufności, czyli 1−0,95=0,05, posługując się funkcją ROZKŁ.NORMALNY.S.ODWR(), która liczy kwantyle rozkładu normalnego, więc jako argumentu musiałem użyć 1−α/2;

2) poniżej (komórka G13) obliczyłem transformację Fishera obserwowanej wartości współczynnika korelacji r za pomocą funkcji ATANH();

3) posługując się wartościami z komórek G12 i G13 obliczyłem według wzorów podanych wyżej granicę dolną (komórka G15) i górną (komórka G16) przedziału ufności dla współczynnika korelacji, posługując się funkcją TANH().

Współczynnik korelacji rang Spearmana

Współczynnik korelacji rang Spearmana obliczyłem wyznaczając najpierw rangi dla obu zmiennych osobno, w tym celu:

1) utworzyłem tabelę rang, gdzie w kolumnie J obliczyłem rangi dla kolumny A, a w kolumnie K ob- liczyłem rangi dla kolumny B; jak to się robi, Państwo już wiecie z poprzednich materiałów, trzeba tylko pamiętać, że tutaj liczymy rangi osobno dla kolumny A i osobno dla kolumny B;

2) współczynnik korelacji Spearmana obliczyłem w komórce N3 za pomocą funkcji WSP.KORELACJI(), pamiętając jedynie, że argumentami tej funkcji są rangi, a nie wartości obserwowane;

Poniżej zbadałem za pomocą testu z hipotezę, że współczynnik korelacji jest równy zeru – H0: ρ=0.

W tym celu:

1) obliczyłem wielkość próbek n za pomocą funkcji ILE.LICZB() w komórce N5 (wystarczy wybrać jedną z nich, bo są sparowane);

2) poniżej wpisałem założoną wartość poziomu istotności testu (5% w komórce N6);

3) poniżej (komórka N7) obliczyłem wartość krytyczną testu standardowego rozkładu normalnego z dla zakładanego poziomu istotności testu α za pomocą funkcji ROZKŁ.NORMALNY.S.ODWR(), która liczy kwantyle rozkładu normalnego, więc jako argumentu musiałem użyć 1−α/2; jeśli chciałbym przeprowadzić test jednostronny, to jako argumentu użyłbym wartości 1−α;

(6)

4) poniżej (komórka N8) obliczyłem wartość obserwowaną statystyki z dla tego testu według wzoru podanego wyżej; porównanie obu wartości daje przesłanki do odrzucenia hipotezy zerowej (w przypadku testu dwustronnego należy porównywać wartości bezwzględne);

5) poniżej (komórka N9) obliczyłem prawdopodobieństwo otrzymania wartości obserwowanej lub bardziej skrajnej funkcji testowej za pomocą funkcji ROZKŁ.NORMALNY.S(), gdzie pierwszy argument (wartość obserwowana) dla testu dwustronnego podajemy jako wartość ujemną (minus wartość bezwzględna), a drugi argument ma wartość PRAWDA lub 1, gdyż używamy tej funkcji jako dystrybuanty (jako rozkład gęstości – drugi argument 0 lub FAŁSZ – funkcja ta liczy niepoprawne wartości), po czym otrzymany wynik mnożymy przez 2; ponieważ otrzymane prawdopodobieństwo jest mniejsze niż zakładany poziom istotności testu, więc mamy przesłanki do odrzucenia hipotezy zerowej; UWAGA! Ta sama uwaga co do p. 4) i 5) jak w poprzednim przypadku.

Posługując się transformacją Fishera obliczyłem przedział ufności dla współczynnika korelacji na poziomie istotności 95%, w tym celu:

1) obliczyłem (komórka N12) wartość krytyczną zα dla standardowego rozkładu normalnego i dwu- stronnego prawdopodobieństwa α równego dopełnieniu do poziomu ufności, czyli 1−0,95=0,05, posługując się funkcją ROZKŁ.NORMALNY.S.ODWR(), która liczy kwantyle rozkładu normalnego, więc jako argumentu musiałem użyć 1− α/2;

2) poniżej (komórka N13) obliczyłem transformację Fishera obserwowanej wartości współczynnika korelacji ρ za pomocą funkcji ATANH();

3) posługując się wartościami z komórek N12 i N13 obliczyłem według wzorów podanych wyżej granicę dolną (komórka N15) i górną (komórka N16) przedziału ufności dla współczynnika korelacji, posługując się funkcją TANH().

Współczynnik korelacji rang Kendalla (τ Kendalla)

Współczynnik korelacji rang Kendalla (τ Kendalla) obliczyłem w następujący sposób:

1) skopiowałem kolumny A i B obok siebie do kolumn P i Q, po czym wysortowałem całą (!) tabelę rosnąco według kolumny pierwszej (P); robimy to w ten sposób, że zaznaczamy tylko jedną komór- kę w kolumnie, według której sortujemy (tutaj dowolna komórka w obrębie danych w kolumnie P) i w zakładce Dane, w polu Sortowanie i filtrowanie, wybieramy sortowanie rosnąco (ważne jest, żeby kolumna pierwsza była posortowana, a pary nie były rozerwane);

2) w kolumnie R liczę pary zgodne za pomocą funkcji LICZ.WARUNKI() w ten sposób, że dla każdego wiersza w tabeli liczę wszystkie pary, dla których komórki kolumny posortowanej z wierszy poniżej są większe od komórki z kolumny posortowanej z tego wiersza i tak samo komórki kolumny nie- posortowanej z wierszy poniżej są większe od komórki z kolumny nieposortowanej z tego wiersza;

realizuję to w ten sposób, że dla pierwszej komórki (R2) w kolumnie R ustawiam argumenty funkcji następująco: w rubryce Kryteria zakres1 podaję zakres kolumny posortowanej od komórki wiersza następnego (tutaj P3:$P$31) w ten sposób, że górną granicę podaję jako adres względny (bez $), a dolną jako adres bezwzględny (z $), w rubryce Kryteria1 podaję warunek aby zliczać komórki z tego zakresu większe niż komórka powyżej, czyli P2 (jako adres względny!), (robi się to sklejając znak > z adresem komórki ">"&P2), w rubryce Kryteria zakres2 podaję zakres kolumny nieposortowanej od komórki wiersza następnego (tutaj Q3:$Q$31) znowu w ten sposób, że górną granicę podaję jako adres względny (bez $), a dolną jako adres bezwzględny (z $) i w rubryce Kryteria2 podaję taki sam warunek aby zliczać komórki z tego zakresu większe niż komórka powyżej, czyli Q2 (też jako adres względny!), (">"&Q2); następnie tak ustawioną dla pierwszej komórki funkcję kopiuję wzdłuż kolu- mny, równolegle do tabeli;

(7)

3) w kolumnie S liczę pary niezgodne za pomocą funkcji LICZ.WARUNKI() w ten sposób, że dla każdego wiersza w tabeli liczę wszystkie pary, dla których komórki kolumny posortowanej z wierszy poniżej są większe od komórki z kolumny posortowanej z tego wiersza, a komórki kolumny nie- posortowanej z wierszy poniżej są mniejsze od komórki z kolumny nieposortowanej z tego wiersza;

realizuję to w ten sposób, że dla pierwszej komórki (S2) w kolumnie S ustawiam argumenty funkcji tak samo jak dla kolumny R, z tą różnicą, że w rubryce Kryteria2 podaję warunek odwrotny, aby zliczać komórki z tego zakresu mniejsze niż komórka powyżej, czyli Q2 (też jako adres względny!), ("<"&Q2); następnie tak ustawioną dla pierwszej komórki funkcję kopiuję wzdłuż kolumny, równo- legle do tabeli;

4) w kolumnie T liczę pary związane w kolumnie posortowanej za pomocą funkcji LICZ.JEŻELI() w ten sposób, że dla każdego wiersza w tabeli liczę wszystkie pary, dla których komórki kolumny posortowanej z wierszy poniżej są równe komórce z kolumny posortowanej z tego wiersza; realizu- ję to w ten sposób, że dla pierwszej komórki (T2) w kolumnie T ustawiam argumenty funkcji nastę- pująco: w rubryce Zakres podaję zakres kolumny posortowanej od komórki wiersza następnego (tutaj P3:$P$31) w ten sposób, że górną granicę podaję jako adres względny (bez $), a dolną jako adres bezwzględny (z $), w rubryce Kryteria podaję warunek aby zliczać komórki z tego zakresu większe równe komórce powyżej, czyli P2 (jako adres względny!), (robi się to sklejając znak = z adresem komórki "="&P2); następnie tak ustawioną dla pierwszej komórki funkcję kopiuję wzdłuż kolumny, równolegle do tabeli;

5) w kolumnie U liczę pary związane w kolumnie nieposortowanej za pomocą funkcji LICZ.JEŻELI() w ten sam sposób, jak poprzednio, tylko że adresy w funkcji dotyczą kolumny nieposortowanej, czyli Q;

6) poniżej wszystkich tych kolumn liczę sumy otrzymanych wartości (komórki R32:U32);

7) w komórce X7 liczę licznik wzoru na współczynnik korelacji τB Kendalla; jest to różnica par zgod- nych i niezgodnych;

8) w komórce X8 liczę mianownik wzoru na współczynnik korelacji τB Kendalla; w tym celu, za po- mocą funkcji KOMBINACJE(), najpierw liczę w komórce X6 liczbę wszystkich możliwych par, jako liczbę kombinacji n po 2, a następnie korzystam ze wzoru podanego wyżej;

9) współczynnik korelacji τB Kendalla obliczyłem w komórce X3 dzieląc oczywiście licznik przez mia- nownik.

(8)

Jak widać jest to dosyć żmudna robota i większość posługująca się arkuszem kalkulacyjnym woli używać współczynnika Spearmana jako miary nieparametrycznej, ale warto jednak używać miary Kendalla, gdyż jest to pewniejszy wskaźnik.

Poniżej zbadałem za pomocą testu z hipotezę, że współczynnik korelacji jest równy zeru – H0: τ=0.

W tym celu, jak w poprzednim przypadku:

1) obliczyłem wielkość próbek n za pomocą funkcji ILE.LICZB() w komórce X5;

2) poniżej wpisałem założoną wartość poziomu istotności testu (5% w komórce X10);

3) poniżej (komórka X11) obliczyłem wartość krytyczną testu standardowego rozkładu normalnego z dla zakładanego poziomu istotności testu α za pomocą funkcji ROZKŁ.NORMALNY.S.ODWR(), która liczy kwantyle rozkładu normalnego, więc jako argumentu musiałem użyć 1−α/2; jeśli chciałbym przeprowadzić test jednostronny, to jako argumentu użyłbym wartości 1−α;

4) poniżej (komórka X12) obliczyłem wartość obserwowaną statystyki z dla tego testu według wzoru podanego wyżej; porównanie obu wartości daje przesłanki do odrzucenia hipotezy zerowej (w przypadku testu dwustronnego należy porównywać wartości bezwzględne);

5) poniżej (komórka X13) obliczyłem prawdopodobieństwo otrzymania wartości obserwowanej lub bardziej skrajnej funkcji testowej za pomocą funkcji ROZKŁ.NORMALNY.S(), gdzie pierwszy argument (wartość obserwowana) dla testu dwustronnego podajemy jako wartość ujemną (minus wartość bezwzględna), a drugi argument ma wartość PRAWDA lub 1, gdyż używamy tej funkcji jako dystrybuanty (jako rozkład gęstości – drugi argument 0 lub FAŁSZ – funkcja ta liczy niepoprawne wartości), po czym otrzymany wynik mnożymy przez 2; ponieważ otrzymane prawdopodobieństwo jest mniejsze niż zakładany poziom istotności testu, więc mamy przesłanki do odrzucenia hipotezy zerowej; UWAGA! Ta sama uwaga co do p. 4) i 5) jak w poprzednim przypadku.

Posługując się transformacją Fishera obliczyłem przedział ufności dla współczynnika korelacji na poziomie istotności 95%, w tym celu:

1) obliczyłem (komórka X16) wartość krytyczną zα dla standardowego rozkładu normalnego i dwu- stronnego prawdopodobieństwa α równego dopełnieniu do poziomu ufności, czyli 1−0,95=0,05, posługując się funkcją ROZKŁ.NORMALNY.S.ODWR(), która liczy kwantyle rozkładu normalnego, więc jako argumentu musiałem użyć 1−α/2;

2) poniżej (komórka X17) obliczyłem transformację Fishera obserwowanej wartości współczynnika korelacji τ za pomocą funkcji ATANH();

3) posługując się wartościami z komórek X16 i X17 obliczyłem według wzorów podanych wyżej granicę dolną (komórka X19) i górną (komórka X20) przedziału ufności dla współczynnika korelacji, posługując się funkcją TANH().

2. Model liniowy

Konsekwencją istniejących korelacji jest poszukiwanie modelu opisującego zależność pomiędzy zmiennymi. Modele takie poszukujemy najczęściej w postaci regresji. Regresja jest funkcją opisują- cą wartość oczekiwaną zmiennej zależnej, w zależności od wartości przyjmowanych przez zmienną niezależną, co, jeśli zmienną niezależną oznaczymy przez X, a zmienną zależną przez Y, można zapisać następująco:

f (x )=E (YX = x) lub E (Y )= f ( X )

W modelach parametrycznych funkcja ta będzie określona z góry i zależna od pewnego zestawu parametrów b={b1 , b2 , … , bk} który nazywamy wektorem współczynników regresji, więc powyższe równanie powinno przyjąć postać

f (x , b)=E (YX = x) lub E (Y )= f ( X , b)

Zmienną zależną nazywamy też zmienną objaśnianą, a zmienną niezależną zmienną objaśniającą.

W ogólności model regresyjny może być określony dla więcej niż jedna zmiennych objaśniających i z pewnych przyczyn dalsze rozważania będę prowadził dla takiego modelu.

(9)

Jeśli w modelu dwuwymiarowym każda obserwacja o indeksie i składa się z pary {xi , yi}, to w mo- delu wielowymiarowym, w którym mamy m zmiennych objaśniających, taka obserwacja będzie wektorem m+1 liczb {xi1 , xi2 , … , xim , yi}. Oznaczmy {xi1 , xi2 , … , xim} jako wektor xi, wtedy pojedyn- cza obserwacja to para wektora wartości zmiennych objaśniających i wartości zmiennej objaśnianej {xi , yi}. Przyjmując takie oznaczenia możemy napisać, że

yi=f ( xi, b)+ϵi

gdzie εi jest błędem losowym obserwacji i. Określa to własności rozkładu reszt (błędów losowych).

Wartość oczekiwana tego rozkładu powinna być równa zeru, a rozkład ten, przy założeniu niezależ- ności błędów losowych, powinien być rozkładem normalnym.

Jeśli otrzymane w wyniku regresji reszty nie spełniają tych założeń, to model jest źle dobrany i nale- ży wybrać inny, nawet jeśli inne wskaźniki lub testy pozwalają na akceptację tego modelu. Analiza rozkładu reszt jest bardzo ważnym elementem oceny jakości modelu regresji i powinna być prze- prowadzona już na wstępnym etapie oceny modelu.

Jeśli model jest liniowy, to możemy powyższe wzory zapisać:

E (Y )= f ( X , b)=b0+b1 X1+b2X2+…+bmXm albo

yi=f ( xi, b)+ϵi=b0+b1x1+b2x2+…+bmxmi

Liczba parametrów k w takim modelu jest o jeden większa od liczby zmiennych niezależnych (objaś- niających) m, czyli k=m+1.

2.1. Analiza reszt modelu regresji

Pierwsza ocena modelu regresji powinna polegać na analizie reszt. Założenia modelu regresji można sformułować na dwa sposoby:

1. rozkład reszt jest rozkładem normalnym, a ich wartość nie zależy od wartości zmiennych nie- zależnych – jest to sformułowanie klasyczne;

2. rozkłady estymatorów parametrów modelu są zbieżne do rozkładu normalnego wraz ze wzros- tem liczby obserwacji – jest to sformułowanie oparte na centralnym twierdzeniu granicznym.

Analiza reszt w pierwszym rzędzie polega na zbadaniu niezależności rozkładu reszt. W najprostszej postaci należy posłużyć się wykresem rozkładu reszt w zależności od przewidywanych wartości lub też wykresami zależności reszt od każdej zmiennej niezależnej. Jeżeli któryś z wykresów wskazuje na jakąś systematyczną zależność reszt, to oznacza to, że model został źle dobrany. Należy wtedy albo zwiększyć liczbę zmiennych niezależnych (ewentualnie zmienić ich zestaw) albo zmienić sam model (na np. logistyczny, eksponencjalny, wielomianowy, itp.). Wykresy te mogą również służyć do sprawdzenia, czy wariancja reszt jest stała, tzn. czy nie zmienia się razem z którąś zmienną. Trzecim elementem, który należałoby sprawdzić, to autokorelacja reszt, tzn. czy odchylenia nie powtarzają się okresowo. Wszystkie te elementy można badać za pomocą odpowiednich testów statystycz- nych, ale nawet wstępna analiza wizualna pozwala na ocenę jakości modelu.

Kolejnym elementem jest zbadanie normalności rozkładu reszt za pomocą któregoś z testów podanych w temacie o badaniu normalności rozkładu. Jeśli rozkład reszt nie jest normalny, to założenia konieczne do analizy istotności parametrów rozkładu i konstrukcji ich przedziałów ufności nie są spełnione, więc ich analiza, zwłaszcza w przypadku małej liczby obserwacji, jest bezwartoś- ciowa.

2.2. Analiza wariancji dla modelu regresji

Analiza wariancji dla liniowego modelu regresyjnego oparta jest na dekompozycji wariancji zmien- nej zależnej na część objaśnianą przez model regresyjny i część nieobjaśnianą przez ten model.

Docelowo dążymy do takiego doboru modelu, by jak największa część zmienności zmiennej zależ- nej była objaśniana przez model regresyjny.

Część objaśnianą definiujemy jako średnią regresyjną (lub modelową) sumę kwadratów odchyleń

(10)

i oznaczamy w skrócie przez MSreg lub MSM. Część nieobjaśnianą definiujemy natomiast jako śred- nią resztkową sumę kwadratów odchyleń i oznaczamy przez MSresid lub MSE. Całkowitą wariancja to zgodnie z definicją średnia całkowita suma kwadratów odchyleń, którą oznaczamy przez MStot lub MST. Średnie sumy kwadratów odchyleń wyznacza się dzieląc całkowite sumy kwadratów odchyleń przez odpowiednie liczby stopni swobody.

Sumy kwadratów

odchyleń Liczba

stopni swobody Średnia suma kwadratów odchyleń

Całkowita SStot lub SST n−1 MStot lub MST

Regresyjna (modelowa) SSreg lub SSM k−1 MSreg lub MSM

Resztkowa SSresid lub SSE n−k MSresid lub MSE

MST = SST n−1 MSM =SSM

k −1 MSE = SSE n−k

gdzie

SST =

i

(yi−̄y)2 SSM =

i

( ̂yi−̄y)2 SSE=

i

(yi− ̂yi)2

oraz ̄y=1 n

i

yi ŷi=f ( xi, ̂b)

Można pokazać, że w przypadku estymacji wektora współczynników regresji liniowej za pomocą metody najmniejszych kwadratów SST=SSM+SSE.

Proporcja SSM do SST jest określana jako współczynnik determinacji i oznaczana przez R2, a jego dopełnienie ϕ2=1−R2 nazywamy współczynnikiem zbieżności. W modelu liniowym, w którym wy- stępuje wyraz wolny, współczynnik ten można interpretować jako miarę dopasowania do danych, jeśli estymacja wektora współczynników była otrzymana metodą najmniejszych kwadratów. Przyj- muje on wtedy wartości od 0 do 1.

Współczynnik R2 ma tendencję do automatycznego wzrostu, gdy zwiększamy liczbę zmiennych ob- jaśniających, dlatego też nie nadaje się do porównania dwóch modeli różniących się liczbą zmien- nych objaśniających. Celem redukcji tej niepożądanej tendencji wprowadza się skorygowany współ- czynnik determinacji, który definiuje się jako

R̄2=1−MSE MST

Skorygowany współczynnik determinacji może służyć do oceny celowości zwiększenia liczby zmien- nych objaśniających. Jeśli po dodaniu do modelu kolejnej zmiennej wartość R2 zmaleje, to należy zrezygnować z dalszego rozszerzania modelu.

Analiza wariancji modelu, w postaci testu F, służy również jako test całościowy do oceny czy wszyst- kie zmienne objaśniające są istotne do wyjaśnienia zmienności zmiennej objaśnianej, czyli czy zmienna zależna (objaśniana) zależy od wszystkich zmiennych niezależnych (objaśniających). W tym celu stawiamy hipotezę zerową, że wszystkie parametry, za wyjątkiem wyrazu wolnego, jeśli taki w modelu występuje, są równe zeru. Dla modelu liniowego oznacza to, że H0: b1=b2= … =bm=0.

Hipotezą alternatywną jest oczywiście hipoteza, że przynajmniej jeden z tych parametrów jest różny od zera Ha: ꓱ1 ≤ j ≤m bj≠0.

Zwracam uwagę na to, że test ten nie sprawdza istotności parametru, który jest wyrazem wolnym.

Ogólnie rzecz biorąc, jeśli żadna ze zmiennych niezależnych nie wpływa istotnie statystycznie na zmienność zmiennej zależnej, to całościowy test F również nie powinien być statystycznie istotny.

Czasami test ten może jednak dawać sprzeczny wynik z późniejszymi testami istotności poszczegól- nych parametrów. Ta niezgodność może wystąpić, ponieważ całościowy test F ocenia wspólnie wszystkie współczynniki, podczas gdy testy istotności poszczególnych parametrów badają je indy- widualnie. Na przykład całościowy test F może wykazać, że współczynniki są łącznie istotne, pod- czas gdy testy indywidualne mogą nie znaleźć istotnego współczynnika.

(11)

Te sprzeczne wyniki testów można rozumieć w ten sposób, że test F sumuje moc predykcyjną wszy- stkich zmiennych niezależnych i stwierdza, że jest mało prawdopodobne, aby wszystkie współczyn- niki były równe zero. Możliwe jest jednak, że każda zmienna niezależna osobno sama w sobie nie ma wystarczającego wpływu na zmienną zależną, aby było to statystycznie istotne. Innymi słowy, próbka dostarcza wystarczających dowodów na to, aby stwierdzić, że model jest istotny statystycz- nie, ale niewystarczających, aby stwierdzić, że którakolwiek zmienna niezależna jest znacząca.

Statystyką testową jest w tym teście iloraz wariancji objaśnianej przez model i wariancji nieobjaś- nianej, czyli średniej regresyjnej sumy kwadratów odchyleń i średniej resztkowej sumy kwadratów odchyleń:

F =MSM MSE

Przy założeniu podanej wcześniej hipotezy zerowej, statystyka ta ma rozkład F o k−1 stopniach swobody w liczniku i n−k stopniach swobody w mianowniku. Obszar krytyczny leży na prawo od wartości krytycznej, więc jeśli wartość obserwowana Fobs>Fα to hipotezę zerową można odrzucić.

Prawdopodobieństwo p tego testu, to prawdopodobieństwo otrzymania wartości obserwowanej lub większej.

Testem post hoc dla współczynników jest test t dwustronny, gdzie hipotezą zerową jest H0: bi=0.

Statystyką testową dla każdego współczynnika jest iloraz jego wartości i odchylenia standardowego tego współczynnika. Ma ona rozkład t o n−2 stopniach swobody. Jeżeli wartość bezwzględna war- tości obserwowanej |tobs|>tα to hipotezę zerową można odrzucić.

2.3. Model liniowy względem parametrów

Model regresji liniowej ma zastosowanie również w przypadku, gdy funkcja regresji jest liniowa względem parametrów, tzn. gdy ma postać

Y = f ( X , b)=b1f1(X )+b2 f2(X )+…+bk fk(X )

Funkcje f1 … fk mogą być dowolnej postaci, nawet nieliniowe. Mogą być też funkcjami różnych zmiennych. W takim przypadku wartości funkcji f1 … fk obliczone na zmiennej X traktujemy jako kolejne zmienne niezależne X1=f1(X) … Xk=fk(X) i problem sprowadza się do modelu liniowego z wie- loma zmiennymi niezależnymi. W szczególności w ten sposób można przeprowadzić regresję wielo- mianową, bo wielomian jest funkcją liniową względem współczynników.

2.4. Przykładowe obliczenia w arkuszu kalkulacyjnym Excel

Przykładowe obliczenia wykonałem dla próbek znajdujących się w pliku cisnienie.xlsx, dla kolumn A i B (ciśnienie skurczowe, ciśnienie rozkurczowe), gdzie jako zmienną niezależną wybrałem ciśnienie rozkurczowe (kolumna B), a jako zmienną zależną ciśnienie skurczowe (kolumna A). Koń- cowy rezultat znajdziecie Państwo w pliku korelacje.xlsx (arkusz Regresja) oraz na zrzutce ekranowej w pliku regresja.jpg.

Same obliczenia nie wymagają większej pracy, bo wykonuje je narzędzie o nazwie Regresja urucha- miane w podobny sposób, jak inne narzędzia analizy statystycznej. Należy w zakładce Dane przejść do pola Analiza i wybrać opcję Analiza danych, po czym wybrać narzędzie Regresja.

Po otwarciu okna, należy podać dane wejściowe. W rubryce Zakres wejściowy Y: należy podać tablicę zmiennej zależnej (u mnie A2:A31), a w rubryce Zakres wejściowy X: należy podać tablicę zmiennej niezależnej (u mnie B2:B31). (Gdyby było więcej zmiennych niezależnych – regresja wieloli-

(12)

niowa – to należałoby je umieścić w kolumnach obok i zaznaczyć całą taką tablicę zmiennych nieza- leżnych. Gdyby to była regresja funkcji liniowej ze względu na parametry, to w kolejnych kolumnach umieszczamy wartości kolejnych funkcji liczonych na zmiennej niezależnej X1=f1(X) … Xk=fk(X) i traktu- jemy je jako osobne zmienne niezależne X1 , … , Xk). Poniżej (opcją Tytuły) można zaznaczyć, że w po- danym zakresie danych mieszczą się nazwy zmiennych jako nagłówki kolumn (ja tego tym razem nie zrobiłem, bo nie mam w tym pliku nagłówków, ale jeśli to możliwe, to warto to robić, bo potem opis wyników jest jaśniejszy). Poniżej (w opcji Poziom ufności) możemy zmienić domyślny (95%) poziom ufności dla przedziałów ufności parametrów. Poniżej, w panelu Opcje wyjścia, podajemy miejsce, gdzie mają pojawić się wyniki (ja wybrałem nowy arkusz). Na koniec, w panelach Składniki resztkowe i Rozkład normalny, zaznaczamy, dodatkowe elementy, związane z analizą reszt – tutaj należy przy- najmniej zaznaczyć Składniki resztkowe i Rozkład reszt. (ja zaznaczyłem wszystko w celach dydakty- cznych).

Pierwszą rzeczą, jaką należy w tym miejscu omówić, to opis tego, co dostajemy, bo niestety opisy wyników są radosną twórczością tłumacza, który, jak podejrzewam, nie bardzo wiedział co tłumaczy.

Idąc od góry, w pierwszej tabeli, o nazwie Statystyki regresji, Wielokrotność R to korelacja wielo- krotna zmiennej zależnej ze zmiennymi niezależnymi (w przypadku gdy zmienne niezależne nie są ze sobą skorelowane, to jest to suma kwadratów korelacji zmiennej zależnej ze zmiennymi niezależ- nymi), poniżej R kwadrat to współczynnik determinacji, Dopasowany R kwadrat to skorygowany współczynnik determinacji, Błąd standardowy to odchylenie standardowe składnika resztkowego, czyli pierwiastek ze średniej sumy kwadratów odchyleń resztkowych z tabeli poniżej, i ostatecznie Obserwacje to liczba obserwacji.

Kolejna tabela (pierwsza w części ANALIZA WARIANCJI) to tabela składników sum kwadratów od- chyleń i testu F z nimi związanego. Pierwszy wiersz Regresja dotyczy sum regresyjnych (wyjaśnia- nych przez model), drugi Resztkowy sum resztkowych (niewyjaśnianych przez model), a trzeci Razem sum całkowitych. Liczby w pierwszej kolumnie df to stopnie swobody modelu (n−1), reszt (n−k) i całości (n−1). W drugiej kolumnie SS umieszczone są sumy kwadratów odchyleń regresyjna (SSreg albo SSM) w pierwszym wierszu, resztkowa w drugim (SSresid albo SSE) i całkowita w trzecim (SStot albo SST). W trzeciej kolumnie MS umieszczone są średnie sumy kwadratów odchyleń albo wariancje (liczone jako odpowiednie SS dzielone przez odpowiednie df), w pierwszym wierszu wa- riancja regresyjna (MSM), a w drugim wariancja resztkowa (MSE). W trzecim wierszu powinna być wariancja całkowita, ale jak widać jej tam nie ma – nic nie stoi na przeszkodzie, żeby ją sobie w ra- zie potrzeby policzyć, dzieląc SST przez n−1. W czwartej kolumnie F w pierwszym wierszu znajduje się wartość obserwowana statystyki F, która jest ilorazem MSM i MSE. Liczba stopni swobody tej statystyki jest taka jak sum średnich (wariancji), z których dzielenia powstaje, czyli n−1 w liczniku i n−k w mianowniku. I wreszcie, w ostatniej kolumnie jest prawdopodobieństwo otrzymania takiej

(13)

wartości obserwowanej lub bardziej skrajnej, jeśli prawdziwa jest hipoteza zerowa H0: b=0.

Jak widać, prawdopodobieństwo to jest dostatecznie małe, aby mieć przesłanki do odrzucenia hipotezy zerowej, na rzecz hipotezy alternatywnej Ha: b≠0, czyli przynajmniej jeden składnik wek- tora parametrów jest różny od zera. Przypominam, że był to test całościowy parametrów modelu.

Poniżej znajduje się tabela testu t dla każdego parametru osobno. W pierwszym wierszu Przecięcie znajdują się składniki testu dla wyrazu wolnego funkcji liniowej, w drugim wierszu Zmienna X 1 składniki testu dla współczynnika kierunkowego przy zmiennej niezależnej (objaśniającej) X1. Gdyby tych zmiennych niezależnych (objaśniających) było więcej, to poniżej byłyby kolejne wiersze, dla ko- lejnych współczynników kierunkowych.

W pierwszej kolumnie Współczynniki są wartości (a właściwie estymatory) tych współczynników, w drugiej Błąd standardowy są ich odchylenia standardowe, w trzeciej t Stat są wartości obserwo- wane statystyki testowej t, liczone jako wartość bezwzględna estymatora dzielona przez jego od- chylenie standardowe, w czwartej Wartość-p podane jest prawdopodobieństwo otrzymania takiej wartości obserwowanej statystyki testowej lub bardziej skrajnej, przy założeniu hipotezy zerowej dla parametru o indeksie i, że H0: bi=0.

Jak widać, obie wartości są dostatecznie małe, aby móc dla każdego odrzucić hipotezę zerową, na rzecz hipotezy alternatywnej, czyli oba współczynniki istotnie różnią się od zera.

W kolejnych kolumnach Dolne 95% i Górne 95% podane są granica dolna i górna przedziału ufności dla danego współczynnika (tutaj na poziomie ufności 95%). Nie wiem za bardzo, po co są następne dwie kolumny, bo powielają wartości z poprzednich. Sądząc z nagłówków, możliwe że służą do po- dania przedziału ufności bardziej precyzyjnie, dla wartości ułamkowych procentów, ale nigdy tego nie sprawdzałem, bo nie miałem takiej potrzeby.

Poniżej znajduje się tabela reszt SKŁADNIKI RESZTOWE - WYJŚCIE, od której należałoby zacząć wła- ściwą analizę. W pierwszej kolumnie Obserwacje znajdują się kolejne numery obserwacji; w drugiej Przewidywane Y znajdują się wartości oczekiwane y dla każdej obserwacji, czyli wartości y obliczo- ne na podstawie modelu (yi z części teoretycznej); w czwartej Składniki resztowe znajdują się reszty każdej obserwacji, czyli εi=yi−yi i wreszcie w piątej Std. składniki resztowe standaryzowane składniki resztowe, tzn. odchylenie od średniej podzielone przez wariancję.

Dla składników resztowych należy przeprowadzić test normalności rozkładu. Nie zamieściłem go na arkuszu, bo Państwo już znacie procedurę, ale wykonałem test Shapiro-Wilka, który pozwolił na po- zostanie przy hipotezie, że rozkład reszt jest normalny.

Na podstawie tej tabeli został wygenerowany przez narzędzie wykres rozkładu reszt w zależności od zmiennej niezależnej (trochę go poprawiłem, zmieniając zakresy osi, aby był wyraźniejszy).

Wprawdzie najczęściej bada się zależność reszt od wartości przewidywanych, ale w wypadku mo- delu liniowego nie ma to znaczenia. Widać, że reszty nie wykazują jakichś zmian systematycznych, jedynie wariancja lekko się zmienia.

Właściwy wykres umieściłem w zakładce Regresja dodatki, ale nie różni się od wygenerowanego przez narzędzie, jak to w modelu liniowym. Nie umieszczam go na zakładce Regresja, żeby nie zaburzać obrazu tego, co daje narzędzie Regresja.

Do orientacji, czy należy głębiej przyjrzeć się problemowi wariancji reszt służy wykres zależności pierwiastka z wartości bezwzględnej reszt standaryzowanych (które też mamy w tej tabeli) w zależ- ności od wartości przewidywanych. Jest dobrze, gdy punkty układają się równomiernie wokół linii równoległej do osi poziomej. Wykres taki Skala rozproszenia również umieściłem w zakładce Regresja dodatki i widać, że w tym wypadku jest już gorzej. W tym wypadku nie świadczy to jed- nak o problemie z modelem, a raczej z danymi, na co większego wpływu już nie mamy.

Tabela obok PRAWDOPODOBIEŃSTWO - WYJŚCIE jest stablicowaną dystrybuantą obserwowanych wartości zmiennej zależnej, ale fatalnie opisaną, gdyż kolumna z nagłówkiem Percentyl nie zawiera wartości percentyli, ale wartości procentowe dystrybuanty dla kwantyli, które są w kolumnie obok z nagłówkiem Y. Obrazem tej tabeli jest wykres Rozkład prawdopodobieństwa normalnego, ale nie

(14)

bardzo wiadomo, po co on jest, bo osie są zamienione (gdyby zamienić wartości na osiach, to byłby to wykres dystrybuanty empirycznej zmiennej zależnej), poza tym znów jest źle opisany, bo na osi poziomej są wartości procentowe, a nie percentyle. Najlepiej było by go go usunąć. Nie zrobiłem tego, żebyście mieli Państwo obraz taki, jaki generuje narzędzie Regresja.

W to miejsce należałoby raczej stworzyć wykres kwantylowo-normalny dla rozkładu reszt, jak to robiliśmy w przypadku badania normalności rozkładu.

Trzeci wykres, to wykres wartości obserwowanych Y i wartości przewidywanych. Dla serii wartości przewidywanych zmieniłem grafikę na linię bez znaczników, żeby wykres był wyraźniejszy, dopaso- wałem też osie.

Cytaty

Powiązane dokumenty

Drugi rodzaj tablic podaje dla różnych wartości parametru k takie liczby rzeczywiste χ 2 k,α , że prawdopodobieństwo przybrania przez zmienną losową wartości

Poniżej podaję link do „testu” z tematów o tłuszczach (za wyjątkiem dzisiejszego), proszę go wypełnić i przesłać klikając na ikonę wyślij na końcu testu.. Na testy

Udwodnij

10 Wartości krytyczne

Wyznacz 95% przedziały ufności dla drugiej i trzeciej wartości własnej i sprawdź czy można przyjąć hipotezę, że te wartości są równe

JeŜeli uczeń wykonuje obliczenia w cm, a wcześniej źle zamienił metry na centymetry, wówczas otrzymuje punkt za realizację tego kryterium, jeŜeli poprawnie obliczył 0,7

Uwaga: Przyznajemy punkt za II kryterium takŜe wtedy, gdy uczeń poprawnie wykonał diagram, a nie otrzymał punktu w kryterium I ( niewłaściwe uporządkowanie).. (południowo-wschodnim

if one carefully examines them in comparison with the former (i.e. condemnation of the Jews) one can see that both stem from the same basis 46. the above explanations are