Analiza regresji

(1)

Analiza regresji

Wykład dla stypendystów

Krajowego Funduszu na Rzecz Dzieci

dr Joanna Karłowska-Pik

Katedra Teorii Prawdopodobie ´nstwa i Analizy Stochastycznej Wydział Matematyki i Informatyki

Uniwersytet Mikołaja Kopernika w Toruniu

(2)

„Motto”

There are three kinds of lies:

lies, damned lies, and statistics.

Istniej ˛a trzy rodzaje kłamstwa:

kłamstwa, wierutne kłamstwa i statystyka.

/Benjamin Disraeli/

(3)

Statystyka

Definicja: Statystyka (ang. statistics) to nauka zajmuj ˛aca si ˛e zbieraniem, prezentowaniem

i analizowaniem danych w celu odkrycia prawidłowo´sci wyst ˛epuj ˛acych w zjawiskach masowych oraz

wspomagania i podniesienia jako´sci procesu podejmowania decyzji.

Definicja: Dane (ang. data) to informacje, zazwyczaj numeryczne lub w postaci kategorii.

G. Upton, I. Cook: Oxford Dictionary of Statistics (2006).

J. Górniak, J. Wachnicki: Pierwsze kroki w analizie danych (2004).

(4)

Populacja

Definicja: Zbiór elementów podlegaj ˛acych badaniu ze wzgl ˛edu na jedn ˛a lub wiele cech nazywamy populacj ˛a (ang. population). Elementami populacji mog ˛a by´c

osoby, przedmioty albo same warto´sci liczbowe pewnej cechy.

Badanie całej populacji nazywamy badaniem

kompletnym. Przykład: spis powszechny. Badanie kompletne bywa niewykonalne, kosztowne lub

czasochłonne.

(5)

Próba

Definicja: Prób ˛a (ang. sample) nazywamy sko ´nczony podzbiór populacji, który poddajemy badaniu ze

wzgl ˛edu na interesuj ˛ac ˛a nas cech ˛e.

Przykłady:

populacja: przedsi ˛ebiorstwa zarejestrowane

w Polsce, próba: przedsi ˛ebiorstwa województwa kujawsko-pomorskiego,

populacja: przedsi ˛ebiorstwa województwa kujawsko-pomorskiego, próba: wybrane 20 przedsi ˛ebiorstw.

(6)

Własno ´sci próby

Próba powinna reprezentowa´c populacj ˛e w tym sensie,

˙ze cz ˛esto´s´c wyst ˛epowania ka˙zdej z badanych cech w próbie nie powinna si ˛e ró˙zni´c od cz ˛esto´sci

wyst ˛epowania tej cechy w całej populacji.

Próby obci ˛a˙zone — uzyskiwane np. przez wywiad telefoniczny, czy ankietowe badania internetowe.

(7)

Metody wyboru próby

Próba losowa prosta — ka˙zdy element populacji ma jednakow ˛a szans ˛e znalezienia si ˛e w próbie (umiemy okre´sli´c liczbowo jaka to szansa), wybierana

najcz ˛e´sciej z u˙zyciem liczb losowych.

Próba systematyczna — ze spisu elementów populacji wybieramy co n-ty.

Próba kwotowa — cz ˛esta w badaniach rynku, ankieter wybiera dowolne osoby posiadaj ˛ace

okre´slone cechy np. 5 m ˛e˙zczyzn powy˙zej 60. roku

˙zycia (dowolnych), 2 gospodynie domowe (dowolne), 3 studentki (dowolne) itp.

(8)

Metody wyboru próby c.d.

Próba najłatwiej dost ˛epna.

Losowanie warstwowe — w przypadku, gdy

populacja ma naturalnie wyró˙znione warstwy (np.

mikroprzedsi ˛ebiorstwa, przedsi ˛ebiorstwa małe,

´srednie, du˙ze) wybieramy losow ˛a prób ˛e z ka˙zdej z warstw o wielko´sci proporcjonalnej do liczebno´sci warstwy.

Losowanie zespołowe — w przypadku, gdy próba podzielona jest na zespoły, losujemy zespoły i do próby wchodz ˛a wszystkie elementy wylosowanego zespołu, np. wszyscy mieszka ´ncy wylosowanej ulicy.

(9)

Statystyka opisowa

a statystyka matematyczna

Statystyka opisowa (ang. descriptive statistics) zajmuje si ˛e prezentacj ˛a danych w postaci tabel, diagramów i charakterystyk liczbowych.

Statystyka matematyczna (ang. mathematical lub inductive statistics) zajmuje si ˛e wnioskowaniem o własno´sciach populacji na podstawie własno´sci próbki przy dopuszczeniu pewnego poziomu bł ˛edu, w oparciu o twierdzenia rachunku

prawdopodobie ´nstwa.

(10)

Miary tendencji centralnej

Oznaczenia:

N — liczebno´s´c próbki,

x₁, x₂, . . . , x_N — obserwacje,

x₍₁₎, x₍₂₎, . . . , x_{(N )} — obserwacje ustawione niemalej ˛aco.

Miary tendencji centralnej:

´srednia (ang. mean),

mediana (ang. median),

moda, inaczej dominanta (ang. mode).

(11)

Srednia ´

¯

x = x₁ + x₂ + . . . + x_N

N .

Sredni ˛´ a podajemy z dokładno´sci ˛a o 1 wi ˛eksz ˛a ni˙z dane.

Suma odchyle ´n wszystkich warto´sci zmiennej od

´sredniej jest równa 0.

Suma kwadratów odchyle ´n warto´sci zmiennej od pewnej liczby a jest najmniejsza dla a b ˛ed ˛acego

´sredni ˛a.

G. A. Ferguson, Y. Takane: Analiza statystyczna w psychologii i pedagogice, PWN, Warszawa (1997).

(12)

Zalety i wady ´sredniej

Zalety:

Mo˙ze by´c wykorzystywana w dalszych obliczeniach statystycznych.

Jest najmniej podatna na bł ˛ad jako przybli˙zenie

´sredniej dla całej populacji.

Wady:

Wra˙zliwa na nienormalnie du˙ze lub nienormalnie małe warto´sci skrajne.

W przypadku rozkładów dwu- i wielomodalnych bywa myl ˛aca.

(13)

Przykłady

Przykład 1.

12, 36, 18, 25, 24, 11, 39, 11, 29, 35.

Srednia podanych liczb to´ 24, 0.

W dowcipie rysunkowym robotnik mówi do

dziennikarki: ´Srednio rocznie w naszej firmie zarabia si ˛e 100 000 zł. Prezes zarabia milion, a nasza

dziesi ˛atka po 10 000.

1 000 000 + 10 · 10 000

11 = 1 100 000

11 = 100 000.

(14)

Mediana

Warto´s´c ´srodkowa. Je´sli N jest nieparzyste, to median ˛a jest x_{((N +1)/2)}, a je´sli parzyste, to

x_(N/2)+x_((N/2)+1)

2 .

Suma odchyle ´n bezwzgl ˛ednych od mediany jest

mniejsza ni˙z suma takich odchyle ´n od jakiejkolwiek innej liczby.

W celu obliczenia mediany dane z przykładu 1.

porz ˛adkujemy:

11, 11, 12, 18, 24, 25, 29, 35, 36, 39.

Mediana to ²⁴⁺²⁵ = 24, 5.

(15)

Zalety i wady mediany

Zalety:

Łatwa do zrozumienia.

Nie ulega deformacji ze wzgl ˛edu na nienormalnie du˙ze lub nienormalnie małe warto´sci skrajne.

Wady:

Nie mo˙ze by´c wykorzystywana w dalszych obliczeniach statystycznych.

Dla małych zbiorów danych, o pewnej szczególnej postaci, nie jest dobr ˛a charakterystyk ˛a tendencji centralnej (np. median ˛a dla 5, 5, 5, 9, 10 jest 5).

(16)

Miary rozproszenia

Rozst ˛ep (ang. range) R = x_max − x^min. Kwantyle(ang. quantiles):

kwartyle (ang. quartiles),

decyle (ang. deciles) — Sir Francis Galton (1882), percentyle (ang. percentiles) — Sir Francis

Galton (1885).

Odchylenie standardowe (ang. standard deviation)

— Karl Pearson (1893).

(17)

Kwartyle

Kwartyl dolny Q₁ — mediana grupy danych „na lewo od mediany”,

Kwartyl ´srodkowy Q₂ to mediana.

Kwartyl górny Q₃ — mediana grupy danych „na prawo od mediany”.

Dla danych z przykładu 1. mamy:

Q₁ = 12, Q₂ = 24, 5, Q₃ = 35.

(18)

Kwantyle

Kwantyle rz ˛edu m to punkty podziału próbki na m

„równych” cz ˛e´sci. Kwantyli rz ˛edu m jest m − 1.

Kwantyle rz ˛edu 4 to kwartyle. Kwantyle rz ˛edu 10 to decyle, a rz ˛edu 100 to percentyle.

W programach statystycznych l-ty kwartyl rz ˛edu m (dla l = 1, 2, . . . m − 1) jest liczony według wzoru

Q ^l

m = k + 1 − (N + 1) l m

!

x_(k) + (N + 1) l

m − k

!

x_(k+1),

gdzie k = ^h(N + 1)_m^l ⁱ. Dla kwartyli mo˙ze to da ´c

troch ˛e inny wynik ni˙z przy poprzedniej definicji!

(19)

Kwartyle dla przykładu 1.

Licz ˛ac wzorem na kwantyle otrzymamy, ˙ze k = [11/4] = 2,

Q₁ = Q¹

4 = 1

4x₍₂₎ + 3

4x₍₃₎ = 113 4, Q₃ = Q¹

4 = 3

4x₍₈₎ + 1

4x₍₉₎ = 351 4.

(20)

Wykresy skrzynkowe

Wykres skrzynkowy, inaczej skrzynka z w ˛asami (ang.

boxplot lub box-and-whisker diagram) został

wprowadzony przez Tukeya. Rysujemy go wzdłu˙z jednej osi ze skal ˛a. Składa si ˛e on z pudełka rozci ˛agaj ˛acego

si ˛e od 1. do 3. kwartyla, z przedziałk ˛a na wysoko´sci mediany. Do pudełka doczepione s ˛a w ˛asy si ˛egaj ˛ace z jednej strony do najmniejszej warto´sci zmiennej, a z drugiej do najwi ˛ekszej warto´sci zmiennej.

(21)

Wykres skrzynkowy dla przykładu 1.

10 15 20 25 30 35 40

(22)

Udoskonalone wykresy skrzynkowe

Dla udoskonalonych wykresów skrzynkowych (ang.

refined boxplots) w ˛asy maj ˛a długo´s´c nieprzekraczaj ˛ac ˛a 1, 5×rozst ˛ep mi ˛edzykwartylowy (tzn. ró˙znica Q₃ − Q¹).

Ka˙zda warto´s´c, która znajduje si ˛e poza w ˛asami, jest

specjalnie oznaczana i nazywa si ˛e warto´sci ˛a odstaj ˛ac ˛a (outsiderem, dewiantem). Warto´sci odstaj ˛ace o od 1,5 do 3 razy odst ˛ep mi ˛edzykwartylowy oznacza si ˛e

kółeczkiem i nazywa warto´sci ˛a nietypow ˛a, a o ponad 3 odst ˛epy mi ˛edzykwartylowe oznacza si ˛e gwiazdk ˛a

i nazywa warto´sci ˛a skrajn ˛a.

(23)

Odchylenie standardowe

ˆ s =

v u u

t(x₁ − ¯x)² + . . . + (x_N − ¯x)²

N =

v u u

tx²₁ + . . . + x²_N

N − ¯x². W przypadku, gdy zgromadzone dane traktujemy jako dane całej populacji, odchylenie standardowe

obliczamy, dziel ˛ac powy˙zsze sumy przez N. Je´sli

natomiast analizujemy próbk ˛e i otrzymane odchylenie standardowe ma by´c przybli˙zeniem odchylenia

standardowego w całej populacji, nale˙zy dzieli´c przez N − 1 (tak licz ˛a programy statystyczne). Zapobiega to obci ˛a˙zeniu tego przybli˙zenia (estymatora).

(24)

Własno ´sci odchylenia standardowego

Je˙zeli do wszystkich warto´sci zmiennej dodamy

pewn ˛a warto´s´c stał ˛a, to odchylenie standardowe nie zmienia si ˛e.

Je˙zeli wszystkie warto´sci zmiennej pomno˙zymy przez pewn ˛a liczb ˛e, to odchylenie standardowe równie˙z zostanie pomno˙zone przez t ˛a liczb ˛e.

Odchylenie standardowe mo˙ze nie by´c dobr ˛a miar ˛a rozproszenia, gdy zmienna przyjmuje kilka warto´sci bardzo oddalonych od reszty lub gdy rozkład jest mocno sko´sny.

(25)

Odchylenie standardowe dla przykładu 1.

xi xi − ¯x (xⁱ − ¯x)² xi xi − ¯x (xⁱ − ¯x)²

11 −13 169 25 1 1

11 −13 169 29 5 25

12 −12 144 35 11 121

18 −6 36 36 12 144

24 0 0 39 15 225

Sumujemy liczby z 3. i 6. kolumny, otrzymuj ˛ac 1034.

St ˛ad

ˆ s =

v u

u1034

≈ 10, 17, s =

v u

u1034

≈ 10, 79.

(26)

Regresja

Definicja: Regresj ˛a nazywamy wyra˙zenie zale˙zno´sci warto´sci jednej zmiennej od drugiej w postaci pewnej prostej funkcji z dopuszczeniem ewentualnych

odst ˛epstw. Pierwsze wyniki: Sir Francis Galton

Regression towards Mediocrity in Hereditary Stature (Regresja w badaniach nad dziedziczeniem niskiego wzrostu), 1885 r. Teoria została pó´zniej rozwini ˛eta przez Karla Pearsona.

(27)

Przykład 2.

WZROST I WAGA 11-^LATKÓW

Imi ˛e Wzrost w cm Waga w kg

Adam 120 38

Bartek 135 40

Kamil 125 42

Wojtek 150 44

Tomek 145 46

(28)

Wykresy rozrzutu

Wykresy rozrzutu (ang. scatter diagrams) słu˙z ˛a jednoczesnemu przedstawieniu warto´sci dwóch zmiennych. Dla danej obserwacji o numerze i w układzie współrz ˛ednych zaznaczamy punkt

o współrz ˛ednych (x_i, y_i), gdzie x_i to warto´s´c jednej

zmiennej, a y_i drugiej, i = 1, . . . , N. Wykres ten pozwala oceni´c, czy istnieje zale˙zno´s´c mi ˛edzy tymi zmiennymi, tzn. czy punkty układaj ˛a si ˛e wzdłu˙z jakiej´s prostej lub krzywej.

(29)

Wykresy rozrzutu dla danych z przykładu 2.

30 35 40 45 waga w kg

120 130 140 150 wzrost

b b

b

(30)

Regresja liniowa

Ang. linear regression. W przypadku, gdy po wykonaniu wykresu rozrzutu obserwujemy, ˙ze „chmura” punktów

(x_i, y_i) układa si ˛e wzdłu˙z prostej, mo˙zemy spróbowa´c wyznaczy´c jej równanie. Precyzyjniej: rozwa˙zamy tzw.

model regresji dla próbki i staramy si ˛e tak wyznaczy´c współczynniki b₁ i b₀ w układzie równo´sci

y_i = b₁x_i + b₀ + ε_i, i = 1, . . . N,

by suma warto´sci bezwzgl ˛ednych bł ˛edów ε_i była jak najmniejsza.

Uwaga: Je´sli rozwa˙zamy funkcj ˛e liniow ˛a f (x) = b x + b , to e = y − f(x ).

(31)

Regresja liniowa — wykres

30 35 40 45 waga w kg

120 130 140 150 wzrost

b b

b

ε₁

ε₂ ε₃

ε₄ ε₅

(32)

Metoda najmniejszych kwadratów

Szukamy współczynników b₁ i b₀ równania prostej y = b₁x + b₀.

Mamy warto´sci y₁, . . . , y_N zmiennej Y oraz warto´sci hipotetyczne y˜_i = f (x_i) = b₁x_i + b₀, i = 1, . . . N.

Wówczas bł ˛edy ε_i = y_i − ˜yⁱ. Warto´sci b₁ i b₀ wyznaczamy w ten sposób, aby suma

ε²₁ + ε²₂ + . . . + ε²_N była najmniejsza.

(33)

Metoda najmniejszych kwadratów — wykres

30 35 40 45 waga w kg

120 130 140 150 wzrost

b b

b

(34)

Wzory na współczynniki

b₁ = (x₁y₁ + x₂y₂ + . . . + x_Ny_N) − N ¯x¯y (x²₁ + x²₂ + . . . + x²_N) − N ¯x² , b₀ = ¯y − b¹x.¯

Otrzymana prosta y = b₁x + b₀ przechodzi przez punkt (¯x, ¯y).

(35)

Współczynniki dla danych z przykładu 2.

Imi ˛e x_i y_i x_iy_i x²_i y_i² Adam 120 38 4 560 14 400 1 444 Bartek 135 40 5 400 18 225 1 600 Kamil 125 42 5 250 15 625 1 764 Wojtek 150 44 6 600 22 500 1 936 Tomek 145 46 6 670 21 025 2 116 suma 675 210 28 480 91 775 8 860

N = 5, x = 675/5 = 135¯ , y = 210/5 = 42¯ , b₁ = 28 480−5·135·42

91 775−5·135² = ¹³⁰₆₅₀ = 0, 2; b₀ = 42 − 0, 2 · 135 = 15.

(36)

Prosta regresji dla danych z przykładu 2.

30 35 40 45 waga w kg

120 130 140 150 wzrost

w cm

b b

b

y = 0, 2x + 15

(37)

Współczynnik korelacji liniowej Pearsona

Ang. Pearson’s (sample) correlation coefficient. Idea — Galton (1869), oznaczenie — Galton (1888), wzór — Karl Pearson (1896).

r_xy = x · y − ¯x · ¯y ˆ

s_x · ˆs^y .

Przyjmuje warto´sci z przedziału [−1, 1]. Dodatnia warto´s´c tego współczynnika oznacza, ˙ze wzrost

warto´sci jednej zmiennej generalnie poci ˛aga za sob ˛a wzrost warto´sci drugiej zmiennej; ujemna — spadek.

r = 0, gdy nie ma zwi ˛azku mi ˛edzy zmiennymi, |r| ≈ 1,

(38)

Korelacja a przyczynowo ´s ´c

Skorelowanie zmiennych nie oznacza zwi ˛azku

przyczynowo-skutkowego pomi ˛edzy nimi. Czasem zmienne mog ˛a by´c skorelowane, gdy pozostaj ˛a

w zwi ˛azku przyczynowym z jak ˛a´s trzeci ˛a zmienn ˛a. Po wyeliminowaniu wpływu tej zmiennej korelacja mo˙ze znikn ˛a´c. Czasem wyst ˛epuje korelacja, której nie

potrafimy sensownie wytłumaczy´c, gdy˙z jest powodowana gł ˛ebszymi zmianami

ekonomiczno-społecznymi.

(39)

Zwi ˛ azek regresji

i współczynnika Pearsona

Współczynnik korelacji jest miar ˛a dobroci dopasowania prostej regresji do danych. Im bli˙zszy 1, tym

dopasowanie lepsze.

Interpretacja r² (tzw. współczynnik determinacji):

jest to cz ˛e´s´c zmienno´sci zmiennej y, która daje si ˛e

wyja´sni´c regresj ˛a, czyli liniow ˛a zale˙zno´sci ˛a zmiennej y od zmiennej x.

Daniel T. Larose: Metody i modele eksploracji danych (2008).

(40)

Współczynnik determinacji dla danych z przykładu 2.

¯

x = 135, y = 42,¯ xy = 28 480/5 = 5 696,

s_x =

v u u

tx²₁ + . . . + x²₅

5 − ¯x² =

s91 775

5 − 135² = √

130, s_y =

v u u

ty₁² + . . . + y₅²

5 − ¯y² =

s8 860

5 − 42² = √ 8, r = 5 696 − 135 · 42

√130 · 8 = 26

√1 040 ≈ 0, 806,

r² = 26²

1 040 = 0, 65.

(41)

Wniosek dla danych z przykładu 2.

W 65% ró˙znice wagi chłopców daj ˛a si ˛e wyja´sni´c

ró˙znicami ich wzrostu. Pozostałe 35% to inne czynniki.

(42)

Zale˙zno ´s ´c x od y

Wzory analogiczne do podanych pozwalaj ˛a równie˙z wyznaczy´c współczynniki ˜b₁ i ˜b₀ równania

x = ˜b₁y + ˜b₀.

Otrzymana prosta nie musi si ˛e pokrywa´c z y = b₁x + b₀. Proste pokrywaj ˛a si ˛e wtedy, gdy zale˙zno´s´c y od x jest w pełni liniowa. Wówczas ˜b₁ = 1/b₁. Ogólnie okazuje si ˛e, ˙ze

b˜₁ · b¹ = r².

(43)

Zale˙zno ´s ´c x od y dla danych z przykładu 2.

30 35 40 45 waga w kg

120 130 140 150 wzrost

b b

b

x = 3, 25y − 1, 5

(44)

Przypadki odstaj ˛ ace

Pojedyncze nietypowe obserwacje mog ˛a wpływa´c

znacz ˛aco na przebieg linii regresji, nazywa si ˛e je wtedy obserwacjami wpływowymi.

Punkt oddalony to taki, dla którego warto´s´c bł ˛edu ε_i jest znacznie wi ˛eksza od warto´sci tych bł ˛edów dla

pozostałych obserwacji. W przykładzie 2. b ˛edzie to np.

dodanie osoby o wzro´scie 140 cm i wadze 35 kg.

Punkt wysokiej d´zwigni to punkt o ró˙zni ˛acej si ˛e znacznie od pozostałych warto´sci zmiennej x. W przykładzie 2. b ˛edzie to np. dodanie osoby o wzro´scie 200 cm i wadze 55 kg (obserwacja

niewpływowa) lub wzro´scie 200 cm i wadze 40 kg

(45)

Punkt oddalony

30 35 40 45 waga w kg

120 130 140 150 wzrost

b b

b

y = 0, 15x + 20 R² = 0, 188

(46)

Punkt wysokiej d´zwigni (niewpływowy)

30 35 40 45 50 55 wagaw kg

120 130 140 150 160 170 180 190 200 wzrost w cm

b b

y = 0, 2x + 15 R² = 0, 923

(47)

Punkt wysokiej d´zwigni (wpływowy)

30 35 40 45 50 55 wagaw kg

120 130 140 150 160 170 180 190 200 wzrost w cm

b b

y = 0, 005x + 41 R² = 0, 003

(48)

Post ˛epowanie z przypadkami odstaj ˛ acymi

W celu wykluczenia z analizy przypadków odstaj ˛acych, które mog ˛a na ni ˛a niekorzystnie wpłyn ˛a´c, nale˙zy zrobi´c wykresy skrzynkowe analizowanych zmiennych. Na

wykresach tych kółkiem i gwiazdk ˛a zaznaczone s ˛a

przypadki odstaj ˛ace, odpowiednio nietypowe i skrajne.

Przypadki te sugeruje si ˛e usuwa´c, a w przypadku du˙zej ich liczby analizowa´c osobno. Dobrze jest, je´sli wiemy, co spowodowało odstawanie obserwacji.

Mog ˛a zdarzy´c si ˛e przypadki odstaj ˛ace, których wykresy skrzynkowe nie wychwyc ˛a (bo x i y zachowuj ˛a si ˛e

typowo, a zestawienie warto´sci x i y jest dopiero

nietypowe). S ˛a one widoczne na wykresach rozrzutu.

(49)

Wa˙zny przykład

John Francis Anscombe (1918-2001), statystyk

angielski, podał przykład 4 par zmiennych x i y, dla których otrzymujemy takie same wzory na prost ˛a

regresji i taki sam współczynnik dopasowania r², a tylko dla jednej z tych par model jest wła´sciwy. Trzeba

zawsze pami ˛eta´c o wykonaniu wykresów rozrzutu!

(50)

Dane Anscombe’a

x1 y1 x2 y2 x3 y3 x4 y4

10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58

8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76

13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71

9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84

11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47

14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04

6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25

4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50

12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56

7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91

5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89

(51)

Model regresji dla całej populacji

Pytanie: czy wyznaczona prosta prezentuje zale˙zno´s´c y od x w całej populacji?

Tak, je´sli spełnione s ˛a pewne warunki. Podstawowy:

bł ˛edy ε_i powinny mie´c rozkład normalny o ´sredniej 0.

Drugi warunek: test badaj ˛acy istnienie zwi ˛azku

liniowego pomi ˛edzy zmiennymi powinien dawa´c mał ˛a istotno´s´c, tzn. mniejsz ˛a ni˙z 0,05 czy 0,1. Test ten ma

hipotez ˛e zerow ˛a mówi ˛ac ˛a o braku takiego zwi ˛azku. Dla małych warto´sci istotno´sci hipotez ˛e tak ˛a mo˙zemy

odrzuci´c.

(52)

Literatura

George A. Ferguson, Yoshio Takane: Analiza statystyczna w psychologii i pedagogice, PWN, Warszawa (1997).

Jarosław Górniak, Janusz Wachnicki: Pierwsze kroki w analizie danych.

Daniel T. Larose: Metody i modele eksploracji danych. PWN, Warszawa, 2008.

Graham Upton, Ian Cook: A Dictionary of Statistics, Oxford University Press, New York (2006).