Analiza regresji
Wykład dla stypendystów
Krajowego Funduszu na Rzecz Dzieci
dr Joanna Karłowska-Pik
Katedra Teorii Prawdopodobie ´nstwa i Analizy Stochastycznej Wydział Matematyki i Informatyki
Uniwersytet Mikołaja Kopernika w Toruniu
„Motto”
There are three kinds of lies:
lies, damned lies, and statistics.
Istniej ˛a trzy rodzaje kłamstwa:
kłamstwa, wierutne kłamstwa i statystyka.
/Benjamin Disraeli/
Statystyka
Definicja: Statystyka (ang. statistics) to nauka zajmuj ˛aca si ˛e zbieraniem, prezentowaniem
i analizowaniem danych w celu odkrycia prawidłowo´sci wyst ˛epuj ˛acych w zjawiskach masowych oraz
wspomagania i podniesienia jako´sci procesu podejmowania decyzji.
Definicja: Dane (ang. data) to informacje, zazwyczaj numeryczne lub w postaci kategorii.
G. Upton, I. Cook: Oxford Dictionary of Statistics (2006).
J. Górniak, J. Wachnicki: Pierwsze kroki w analizie danych (2004).
Populacja
Definicja: Zbiór elementów podlegaj ˛acych badaniu ze wzgl ˛edu na jedn ˛a lub wiele cech nazywamy populacj ˛a (ang. population). Elementami populacji mog ˛a by´c
osoby, przedmioty albo same warto´sci liczbowe pewnej cechy.
Badanie całej populacji nazywamy badaniem
kompletnym. Przykład: spis powszechny. Badanie kompletne bywa niewykonalne, kosztowne lub
czasochłonne.
Próba
Definicja: Prób ˛a (ang. sample) nazywamy sko ´nczony podzbiór populacji, który poddajemy badaniu ze
wzgl ˛edu na interesuj ˛ac ˛a nas cech ˛e.
Przykłady:
populacja: przedsi ˛ebiorstwa zarejestrowane
w Polsce, próba: przedsi ˛ebiorstwa województwa kujawsko-pomorskiego,
populacja: przedsi ˛ebiorstwa województwa kujawsko-pomorskiego, próba: wybrane 20 przedsi ˛ebiorstw.
Własno ´sci próby
Próba powinna reprezentowa´c populacj ˛e w tym sensie,
˙ze cz ˛esto´s´c wyst ˛epowania ka˙zdej z badanych cech w próbie nie powinna si ˛e ró˙zni´c od cz ˛esto´sci
wyst ˛epowania tej cechy w całej populacji.
Próby obci ˛a˙zone — uzyskiwane np. przez wywiad telefoniczny, czy ankietowe badania internetowe.
Metody wyboru próby
Próba losowa prosta — ka˙zdy element populacji ma jednakow ˛a szans ˛e znalezienia si ˛e w próbie (umiemy okre´sli´c liczbowo jaka to szansa), wybierana
najcz ˛e´sciej z u˙zyciem liczb losowych.
Próba systematyczna — ze spisu elementów populacji wybieramy co n-ty.
Próba kwotowa — cz ˛esta w badaniach rynku, ankieter wybiera dowolne osoby posiadaj ˛ace
okre´slone cechy np. 5 m ˛e˙zczyzn powy˙zej 60. roku
˙zycia (dowolnych), 2 gospodynie domowe (dowolne), 3 studentki (dowolne) itp.
Metody wyboru próby c.d.
Próba najłatwiej dost ˛epna.
Losowanie warstwowe — w przypadku, gdy
populacja ma naturalnie wyró˙znione warstwy (np.
mikroprzedsi ˛ebiorstwa, przedsi ˛ebiorstwa małe,
´srednie, du˙ze) wybieramy losow ˛a prób ˛e z ka˙zdej z warstw o wielko´sci proporcjonalnej do liczebno´sci warstwy.
Losowanie zespołowe — w przypadku, gdy próba podzielona jest na zespoły, losujemy zespoły i do próby wchodz ˛a wszystkie elementy wylosowanego zespołu, np. wszyscy mieszka ´ncy wylosowanej ulicy.
Statystyka opisowa
a statystyka matematyczna
Statystyka opisowa (ang. descriptive statistics) zajmuje si ˛e prezentacj ˛a danych w postaci tabel, diagramów i charakterystyk liczbowych.
Statystyka matematyczna (ang. mathematical lub inductive statistics) zajmuje si ˛e wnioskowaniem o własno´sciach populacji na podstawie własno´sci próbki przy dopuszczeniu pewnego poziomu bł ˛edu, w oparciu o twierdzenia rachunku
prawdopodobie ´nstwa.
Miary tendencji centralnej
Oznaczenia:
N — liczebno´s´c próbki,
x1, x2, . . . , xN — obserwacje,
x(1), x(2), . . . , x(N ) — obserwacje ustawione niemalej ˛aco.
Miary tendencji centralnej:
´srednia (ang. mean),
mediana (ang. median),
moda, inaczej dominanta (ang. mode).
Srednia ´
¯
x = x1 + x2 + . . . + xN
N .
Sredni ˛´ a podajemy z dokładno´sci ˛a o 1 wi ˛eksz ˛a ni˙z dane.
Suma odchyle ´n wszystkich warto´sci zmiennej od
´sredniej jest równa 0.
Suma kwadratów odchyle ´n warto´sci zmiennej od pewnej liczby a jest najmniejsza dla a b ˛ed ˛acego
´sredni ˛a.
G. A. Ferguson, Y. Takane: Analiza statystyczna w psychologii i pedagogice, PWN, Warszawa (1997).
Zalety i wady ´sredniej
Zalety:
Mo˙ze by´c wykorzystywana w dalszych obliczeniach statystycznych.
Jest najmniej podatna na bł ˛ad jako przybli˙zenie
´sredniej dla całej populacji.
Wady:
Wra˙zliwa na nienormalnie du˙ze lub nienormalnie małe warto´sci skrajne.
W przypadku rozkładów dwu- i wielomodalnych bywa myl ˛aca.
Przykłady
Przykład 1.
12, 36, 18, 25, 24, 11, 39, 11, 29, 35.
Srednia podanych liczb to´ 24, 0.
W dowcipie rysunkowym robotnik mówi do
dziennikarki: ´Srednio rocznie w naszej firmie zarabia si ˛e 100 000 zł. Prezes zarabia milion, a nasza
dziesi ˛atka po 10 000.
1 000 000 + 10 · 10 000
11 = 1 100 000
11 = 100 000.
Mediana
Warto´s´c ´srodkowa. Je´sli N jest nieparzyste, to median ˛a jest x((N +1)/2), a je´sli parzyste, to
x(N/2)+x((N/2)+1)
2 .
Suma odchyle ´n bezwzgl ˛ednych od mediany jest
mniejsza ni˙z suma takich odchyle ´n od jakiejkolwiek innej liczby.
W celu obliczenia mediany dane z przykładu 1.
porz ˛adkujemy:
11, 11, 12, 18, 24, 25, 29, 35, 36, 39.
Mediana to 24+25 = 24, 5.
Zalety i wady mediany
Zalety:
Łatwa do zrozumienia.
Nie ulega deformacji ze wzgl ˛edu na nienormalnie du˙ze lub nienormalnie małe warto´sci skrajne.
Wady:
Nie mo˙ze by´c wykorzystywana w dalszych obliczeniach statystycznych.
Dla małych zbiorów danych, o pewnej szczególnej postaci, nie jest dobr ˛a charakterystyk ˛a tendencji centralnej (np. median ˛a dla 5, 5, 5, 9, 10 jest 5).
Miary rozproszenia
Rozst ˛ep (ang. range) R = xmax − xmin. Kwantyle(ang. quantiles):
kwartyle (ang. quartiles),
decyle (ang. deciles) — Sir Francis Galton (1882), percentyle (ang. percentiles) — Sir Francis
Galton (1885).
Odchylenie standardowe (ang. standard deviation)
— Karl Pearson (1893).
Kwartyle
Kwartyl dolny Q1 — mediana grupy danych „na lewo od mediany”,
Kwartyl ´srodkowy Q2 to mediana.
Kwartyl górny Q3 — mediana grupy danych „na prawo od mediany”.
Dla danych z przykładu 1. mamy:
Q1 = 12, Q2 = 24, 5, Q3 = 35.
Kwantyle
Kwantyle rz ˛edu m to punkty podziału próbki na m
„równych” cz ˛e´sci. Kwantyli rz ˛edu m jest m − 1.
Kwantyle rz ˛edu 4 to kwartyle. Kwantyle rz ˛edu 10 to decyle, a rz ˛edu 100 to percentyle.
W programach statystycznych l-ty kwartyl rz ˛edu m (dla l = 1, 2, . . . m − 1) jest liczony według wzoru
Q l
m = k + 1 − (N + 1) l m
!
x(k) + (N + 1) l
m − k
!
x(k+1),
gdzie k = h(N + 1)ml i. Dla kwartyli mo˙ze to da ´c
troch ˛e inny wynik ni˙z przy poprzedniej definicji!
Kwartyle dla przykładu 1.
Licz ˛ac wzorem na kwantyle otrzymamy, ˙ze k = [11/4] = 2,
Q1 = Q1
4 = 1
4x(2) + 3
4x(3) = 113 4, Q3 = Q1
4 = 3
4x(8) + 1
4x(9) = 351 4.
Wykresy skrzynkowe
Wykres skrzynkowy, inaczej skrzynka z w ˛asami (ang.
boxplot lub box-and-whisker diagram) został
wprowadzony przez Tukeya. Rysujemy go wzdłu˙z jednej osi ze skal ˛a. Składa si ˛e on z pudełka rozci ˛agaj ˛acego
si ˛e od 1. do 3. kwartyla, z przedziałk ˛a na wysoko´sci mediany. Do pudełka doczepione s ˛a w ˛asy si ˛egaj ˛ace z jednej strony do najmniejszej warto´sci zmiennej, a z drugiej do najwi ˛ekszej warto´sci zmiennej.
Wykres skrzynkowy dla przykładu 1.
10 15 20 25 30 35 40
Udoskonalone wykresy skrzynkowe
Dla udoskonalonych wykresów skrzynkowych (ang.
refined boxplots) w ˛asy maj ˛a długo´s´c nieprzekraczaj ˛ac ˛a 1, 5×rozst ˛ep mi ˛edzykwartylowy (tzn. ró˙znica Q3 − Q1).
Ka˙zda warto´s´c, która znajduje si ˛e poza w ˛asami, jest
specjalnie oznaczana i nazywa si ˛e warto´sci ˛a odstaj ˛ac ˛a (outsiderem, dewiantem). Warto´sci odstaj ˛ace o od 1,5 do 3 razy odst ˛ep mi ˛edzykwartylowy oznacza si ˛e
kółeczkiem i nazywa warto´sci ˛a nietypow ˛a, a o ponad 3 odst ˛epy mi ˛edzykwartylowe oznacza si ˛e gwiazdk ˛a
i nazywa warto´sci ˛a skrajn ˛a.
Odchylenie standardowe
ˆ s =
v u u
t(x1 − ¯x)2 + . . . + (xN − ¯x)2
N =
v u u
tx21 + . . . + x2N
N − ¯x2. W przypadku, gdy zgromadzone dane traktujemy jako dane całej populacji, odchylenie standardowe
obliczamy, dziel ˛ac powy˙zsze sumy przez N. Je´sli
natomiast analizujemy próbk ˛e i otrzymane odchylenie standardowe ma by´c przybli˙zeniem odchylenia
standardowego w całej populacji, nale˙zy dzieli´c przez N − 1 (tak licz ˛a programy statystyczne). Zapobiega to obci ˛a˙zeniu tego przybli˙zenia (estymatora).
Własno ´sci odchylenia standardowego
Je˙zeli do wszystkich warto´sci zmiennej dodamy
pewn ˛a warto´s´c stał ˛a, to odchylenie standardowe nie zmienia si ˛e.
Je˙zeli wszystkie warto´sci zmiennej pomno˙zymy przez pewn ˛a liczb ˛e, to odchylenie standardowe równie˙z zostanie pomno˙zone przez t ˛a liczb ˛e.
Odchylenie standardowe mo˙ze nie by´c dobr ˛a miar ˛a rozproszenia, gdy zmienna przyjmuje kilka warto´sci bardzo oddalonych od reszty lub gdy rozkład jest mocno sko´sny.
Odchylenie standardowe dla przykładu 1.
xi xi − ¯x (xi − ¯x)2 xi xi − ¯x (xi − ¯x)2
11 −13 169 25 1 1
11 −13 169 29 5 25
12 −12 144 35 11 121
18 −6 36 36 12 144
24 0 0 39 15 225
Sumujemy liczby z 3. i 6. kolumny, otrzymuj ˛ac 1034.
St ˛ad
ˆ s =
v u
u1034
≈ 10, 17, s =
v u
u1034
≈ 10, 79.
Regresja
Definicja: Regresj ˛a nazywamy wyra˙zenie zale˙zno´sci warto´sci jednej zmiennej od drugiej w postaci pewnej prostej funkcji z dopuszczeniem ewentualnych
odst ˛epstw. Pierwsze wyniki: Sir Francis Galton
Regression towards Mediocrity in Hereditary Stature (Regresja w badaniach nad dziedziczeniem niskiego wzrostu), 1885 r. Teoria została pó´zniej rozwini ˛eta przez Karla Pearsona.
Przykład 2.
WZROST I WAGA 11-LATKÓW
Imi ˛e Wzrost w cm Waga w kg
Adam 120 38
Bartek 135 40
Kamil 125 42
Wojtek 150 44
Tomek 145 46
Wykresy rozrzutu
Wykresy rozrzutu (ang. scatter diagrams) słu˙z ˛a jednoczesnemu przedstawieniu warto´sci dwóch zmiennych. Dla danej obserwacji o numerze i w układzie współrz ˛ednych zaznaczamy punkt
o współrz ˛ednych (xi, yi), gdzie xi to warto´s´c jednej
zmiennej, a yi drugiej, i = 1, . . . , N. Wykres ten pozwala oceni´c, czy istnieje zale˙zno´s´c mi ˛edzy tymi zmiennymi, tzn. czy punkty układaj ˛a si ˛e wzdłu˙z jakiej´s prostej lub krzywej.
Wykresy rozrzutu dla danych z przykładu 2.
30 35 40 45 waga w kg
120 130 140 150 wzrost
b b
b b
b
Regresja liniowa
Ang. linear regression. W przypadku, gdy po wykonaniu wykresu rozrzutu obserwujemy, ˙ze „chmura” punktów
(xi, yi) układa si ˛e wzdłu˙z prostej, mo˙zemy spróbowa´c wyznaczy´c jej równanie. Precyzyjniej: rozwa˙zamy tzw.
model regresji dla próbki i staramy si ˛e tak wyznaczy´c współczynniki b1 i b0 w układzie równo´sci
yi = b1xi + b0 + εi, i = 1, . . . N,
by suma warto´sci bezwzgl ˛ednych bł ˛edów εi była jak najmniejsza.
Uwaga: Je´sli rozwa˙zamy funkcj ˛e liniow ˛a f (x) = b x + b , to e = y − f(x ).
Regresja liniowa — wykres
30 35 40 45 waga w kg
120 130 140 150 wzrost
b b
b b
b
ε1
ε2 ε3
ε4 ε5
Metoda najmniejszych kwadratów
Szukamy współczynników b1 i b0 równania prostej y = b1x + b0.
Mamy warto´sci y1, . . . , yN zmiennej Y oraz warto´sci hipotetyczne y˜i = f (xi) = b1xi + b0, i = 1, . . . N.
Wówczas bł ˛edy εi = yi − ˜yi. Warto´sci b1 i b0 wyznaczamy w ten sposób, aby suma
ε21 + ε22 + . . . + ε2N była najmniejsza.
Metoda najmniejszych kwadratów — wykres
30 35 40 45 waga w kg
120 130 140 150 wzrost
b b
b b
b
Wzory na współczynniki
b1 = (x1y1 + x2y2 + . . . + xNyN) − N ¯x¯y (x21 + x22 + . . . + x2N) − N ¯x2 , b0 = ¯y − b1x.¯
Otrzymana prosta y = b1x + b0 przechodzi przez punkt (¯x, ¯y).
Współczynniki dla danych z przykładu 2.
Imi ˛e xi yi xiyi x2i yi2 Adam 120 38 4 560 14 400 1 444 Bartek 135 40 5 400 18 225 1 600 Kamil 125 42 5 250 15 625 1 764 Wojtek 150 44 6 600 22 500 1 936 Tomek 145 46 6 670 21 025 2 116 suma 675 210 28 480 91 775 8 860
N = 5, x = 675/5 = 135¯ , y = 210/5 = 42¯ , b1 = 28 480−5·135·42
91 775−5·1352 = 130650 = 0, 2; b0 = 42 − 0, 2 · 135 = 15.
Prosta regresji dla danych z przykładu 2.
30 35 40 45 waga w kg
120 130 140 150 wzrost
w cm
b b
b b
b
y = 0, 2x + 15
Współczynnik korelacji liniowej Pearsona
Ang. Pearson’s (sample) correlation coefficient. Idea — Galton (1869), oznaczenie — Galton (1888), wzór — Karl Pearson (1896).
rxy = x · y − ¯x · ¯y ˆ
sx · ˆsy .
Przyjmuje warto´sci z przedziału [−1, 1]. Dodatnia warto´s´c tego współczynnika oznacza, ˙ze wzrost
warto´sci jednej zmiennej generalnie poci ˛aga za sob ˛a wzrost warto´sci drugiej zmiennej; ujemna — spadek.
r = 0, gdy nie ma zwi ˛azku mi ˛edzy zmiennymi, |r| ≈ 1,
Korelacja a przyczynowo ´s ´c
Skorelowanie zmiennych nie oznacza zwi ˛azku
przyczynowo-skutkowego pomi ˛edzy nimi. Czasem zmienne mog ˛a by´c skorelowane, gdy pozostaj ˛a
w zwi ˛azku przyczynowym z jak ˛a´s trzeci ˛a zmienn ˛a. Po wyeliminowaniu wpływu tej zmiennej korelacja mo˙ze znikn ˛a´c. Czasem wyst ˛epuje korelacja, której nie
potrafimy sensownie wytłumaczy´c, gdy˙z jest powodowana gł ˛ebszymi zmianami
ekonomiczno-społecznymi.
Zwi ˛ azek regresji
i współczynnika Pearsona
Współczynnik korelacji jest miar ˛a dobroci dopasowania prostej regresji do danych. Im bli˙zszy 1, tym
dopasowanie lepsze.
Interpretacja r2 (tzw. współczynnik determinacji):
jest to cz ˛e´s´c zmienno´sci zmiennej y, która daje si ˛e
wyja´sni´c regresj ˛a, czyli liniow ˛a zale˙zno´sci ˛a zmiennej y od zmiennej x.
Daniel T. Larose: Metody i modele eksploracji danych (2008).
Współczynnik determinacji dla danych z przykładu 2.
¯
x = 135, y = 42,¯ xy = 28 480/5 = 5 696,
sx =
v u u
tx21 + . . . + x25
5 − ¯x2 =
s91 775
5 − 1352 = √
130, sy =
v u u
ty12 + . . . + y52
5 − ¯y2 =
s8 860
5 − 422 = √ 8, r = 5 696 − 135 · 42
√130 · 8 = 26
√1 040 ≈ 0, 806,
r2 = 262
1 040 = 0, 65.
Wniosek dla danych z przykładu 2.
W 65% ró˙znice wagi chłopców daj ˛a si ˛e wyja´sni´c
ró˙znicami ich wzrostu. Pozostałe 35% to inne czynniki.
Zale˙zno ´s ´c x od y
Wzory analogiczne do podanych pozwalaj ˛a równie˙z wyznaczy´c współczynniki ˜b1 i ˜b0 równania
x = ˜b1y + ˜b0.
Otrzymana prosta nie musi si ˛e pokrywa´c z y = b1x + b0. Proste pokrywaj ˛a si ˛e wtedy, gdy zale˙zno´s´c y od x jest w pełni liniowa. Wówczas ˜b1 = 1/b1. Ogólnie okazuje si ˛e, ˙ze
b˜1 · b1 = r2.
Zale˙zno ´s ´c x od y dla danych z przykładu 2.
30 35 40 45 waga w kg
120 130 140 150 wzrost
b b
b b
b
x = 3, 25y − 1, 5
Przypadki odstaj ˛ ace
Pojedyncze nietypowe obserwacje mog ˛a wpływa´c
znacz ˛aco na przebieg linii regresji, nazywa si ˛e je wtedy obserwacjami wpływowymi.
Punkt oddalony to taki, dla którego warto´s´c bł ˛edu εi jest znacznie wi ˛eksza od warto´sci tych bł ˛edów dla
pozostałych obserwacji. W przykładzie 2. b ˛edzie to np.
dodanie osoby o wzro´scie 140 cm i wadze 35 kg.
Punkt wysokiej d´zwigni to punkt o ró˙zni ˛acej si ˛e znacznie od pozostałych warto´sci zmiennej x. W przykładzie 2. b ˛edzie to np. dodanie osoby o wzro´scie 200 cm i wadze 55 kg (obserwacja
niewpływowa) lub wzro´scie 200 cm i wadze 40 kg
Punkt oddalony
30 35 40 45 waga w kg
120 130 140 150 wzrost
b b
b b
b
b
y = 0, 15x + 20 R2 = 0, 188
Punkt wysokiej d´zwigni (niewpływowy)
30 35 40 45 50 55 wagaw kg
120 130 140 150 160 170 180 190 200 wzrost w cm
b b
b b
b b
y = 0, 2x + 15 R2 = 0, 923
Punkt wysokiej d´zwigni (wpływowy)
30 35 40 45 50 55 wagaw kg
120 130 140 150 160 170 180 190 200 wzrost w cm
b b
b b
b b
y = 0, 005x + 41 R2 = 0, 003
Post ˛epowanie z przypadkami odstaj ˛ acymi
W celu wykluczenia z analizy przypadków odstaj ˛acych, które mog ˛a na ni ˛a niekorzystnie wpłyn ˛a´c, nale˙zy zrobi´c wykresy skrzynkowe analizowanych zmiennych. Na
wykresach tych kółkiem i gwiazdk ˛a zaznaczone s ˛a
przypadki odstaj ˛ace, odpowiednio nietypowe i skrajne.
Przypadki te sugeruje si ˛e usuwa´c, a w przypadku du˙zej ich liczby analizowa´c osobno. Dobrze jest, je´sli wiemy, co spowodowało odstawanie obserwacji.
Mog ˛a zdarzy´c si ˛e przypadki odstaj ˛ace, których wykresy skrzynkowe nie wychwyc ˛a (bo x i y zachowuj ˛a si ˛e
typowo, a zestawienie warto´sci x i y jest dopiero
nietypowe). S ˛a one widoczne na wykresach rozrzutu.
Wa˙zny przykład
John Francis Anscombe (1918-2001), statystyk
angielski, podał przykład 4 par zmiennych x i y, dla których otrzymujemy takie same wzory na prost ˛a
regresji i taki sam współczynnik dopasowania r2, a tylko dla jednej z tych par model jest wła´sciwy. Trzeba
zawsze pami ˛eta´c o wykonaniu wykresów rozrzutu!
Dane Anscombe’a
x1 y1 x2 y2 x3 y3 x4 y4
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56
7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91
5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89
Model regresji dla całej populacji
Pytanie: czy wyznaczona prosta prezentuje zale˙zno´s´c y od x w całej populacji?
Tak, je´sli spełnione s ˛a pewne warunki. Podstawowy:
bł ˛edy εi powinny mie´c rozkład normalny o ´sredniej 0.
Drugi warunek: test badaj ˛acy istnienie zwi ˛azku
liniowego pomi ˛edzy zmiennymi powinien dawa´c mał ˛a istotno´s´c, tzn. mniejsz ˛a ni˙z 0,05 czy 0,1. Test ten ma
hipotez ˛e zerow ˛a mówi ˛ac ˛a o braku takiego zwi ˛azku. Dla małych warto´sci istotno´sci hipotez ˛e tak ˛a mo˙zemy
odrzuci´c.
Literatura
George A. Ferguson, Yoshio Takane: Analiza statystyczna w psychologii i pedagogice, PWN, Warszawa (1997).
Jarosław Górniak, Janusz Wachnicki: Pierwsze kroki w analizie danych.
Daniel T. Larose: Metody i modele eksploracji danych. PWN, Warszawa, 2008.
Graham Upton, Ian Cook: A Dictionary of Statistics, Oxford University Press, New York (2006).