• Nie Znaleziono Wyników

Regresja liniowa oraz regresja

N/A
N/A
Protected

Academic year: 2021

Share "Regresja liniowa oraz regresja"

Copied!
101
0
0

Pełen tekst

(1)

Regresja liniowa oraz regresja

wielokrotna w zastosowaniu zadania predykcji danych.

Agnieszka Nowak – Brzezińska

Wykład III-VI

(2)
(3)

Analiza regresji

•Analiza regresji jest bardzo popularną i chętnie stosowaną techniką statystyczną pozwalającą opisywać związki zachodzące pomiędzy zmiennymi wejściowymi (objaśniającymi) a wyjściowymi (objaśnianymi).

•Innymi słowy dokonujemy estymacji jednych danych korzystając z innych.

•Istnieje wiele różnych technik regresji.

(4)

Linia regresji zapisana w postaci:

nazywana jest równaniem regresji lub oszacowanym równaniem regresji, gdzie:

– Szacowana wartość zmiennej objaśnianej – Punkt przecięcia linii regresji z osią y

– Nachylenie linii regresji – Współczynniki regresji

x b b

y

0

1

y

b0

b1 1 0, b b

(5)

Regresja liniowa

•Metoda zakłada, że pomiędzy zmiennymi objaśniającymi i objaśnianymi istnieje mniej lub bardziej wyrazista zależność liniowa.

•Mając zatem zbiór danych do analizy, informacje opisujące te dane możemy podzielić na objaśniane i objaśniające. Wtedy też wartości tych pierwszych będziemy mogli zgadywać znając wartości tych drugich.

• Oczywiście tak się dzieje tylko w sytuacji, gdy faktycznie między tymi zmiennymi istnieje zależność liniowa.

•Przewidywanie wartości zmiennych objaśnianych (y) na podstawie wartości zmiennych objaśniających (x) jest możliwe dzięki znalezieniu tzw. modelu regresji.

•W praktyce polega to na podaniu równania prostej, zwanej prostą regresji o postaci:

y = b0 + b1 x

gdzie: y - jest zmienną objaśnianą, zaś x - objaśniającą. W równaniu tym bardzo istotną rolę odgrywają współczynniki b0 i b1, gdzie b1 jest nachyleniem linii regresji, zaś b0 punktem przecięcia linii regresji z osią x (wyrazem wolnym) a więc przewidywaną wartością zmiennej objaśnianej gdy zmienna objaśniająca jest równa 0.

(6)

http://zsi.tech.us.edu.pl/~nowak/smad/platki.txt

(7)

http://zsi.tech.us.edu.pl/~nowak/smad/platki.txt

(8)

Cereals.data

Name – nazwa płatków

Manuf – wytwórca płatków

Type – typ płatków ( na ciepło (hot), na zimno (cold))

Calories – kalorie w porcji

Protein 0 białko (w gramach)

Fat – tłuszcz (w gramach)

Sodium – sód

Fiber – błonnik

Carbo – węglowodany

Sugars – cukry

Potass – potas ( w miligramach)

Vitamins – procent zalecanego dziennego spożycia witamin (0%, 25 %, 100%)

Shelf – położenie półki (1=dolna, 2=środkowa, 3 = górna)

Weight – waga porcji

Cups – liczba łyżek na porcję

Rating – wartość odżywcza, obliczona przez Customer Reports

(9)
(10)

Wartość odżywcza

Kalorie Białko tłuszcz Sód Błonnik Węglowodany Cukry Potas

Kalorie -0.689

Białko 0.471 0.019

Tłuszcz -0.409 0.499 0.208

Sód -0.401 0.301 -0.055 -0.005

Błonnik 0.577 -0.291 0.506 0.026

Węglowodany 0.050 0.255 -0.125 -0.315 0.357 -0.357

Cukry -0.762 0.564 -0.324 0.257 0.096 -0.137 -0.351

Potas 0.380 -0.067 0.549 0.193 -0.033 0.905 -0.354 0.22

Witaminy -0.241 0.265 0.007 -0.031 0.361 -0.036 0.257 0.122 0.021

Szukamy zmiennej o największej korelacji ze zmienną „wartość odżywcza” płatków.

Największą korelację znajdujemy dla zmiennej „cukry”

(11)

Wartość odżywcza

Kalorie Białko tłuszcz Sód Błonnik Węglowodany Cukry Potas

Kalorie -0.689

Białko 0.471 0.019

Tłuszcz -0.409 0.499 0.208

Sód -0.401 0.301 -0.055 -0.005

Błonnik 0.577 -0.291 0.506 0.026

Węglowodany 0.050 0.255 -0.125 -0.315 0.357 -0.357

Cukry -0.762 0.564 -0.324 0.257 0.096 -0.137 -0.351

Potas 0.380 -0.067 0.549 0.193 -0.033 0.905 -0.354 0.22

Witaminy -0.241 0.265 0.007 -0.031 0.361 -0.036 0.257 0.122 0.021

•Szukamy zmiennej o największej korelacji ze zmienną „wartość odżywcza” płatków.

•Największą korelację znajdujemy dla zmiennej „cukry”

•Jest to korelacja ujemna, wynosi -0.762. Oznacza, że w miarę wzrostu wartości cukrów w płatkach, wartość odżywcza takich płatków maleje.

(12)
(13)
(14)
(15)

• A więc najpierw zajmiemy się zależnościami między dwiema zmiennymi: objaśnianą (wartość odżywcza płatków, rating) oraz objaśniającą (cukry, sugars).

• Analiza regresji pozwoli nam oszacować

wartości odżywcze (rating) różnych typów

płatków śniadaniowych, mając dane

zawartości cukrów (sugars).

(16)

0 10 20 30 40 50 60 70 80 90 100

-2 0 2 4 6 8 10 12 14 16

rating

sugars

sugars

(17)

0 10 20 30 40 50 60 70 80 90 100

-2 0 2 4 6 8 10 12 14 16

rating

sugars

sugars

Liniowy (sugars)

(18)

To wykres rozrzutu wartości odżywczych względem zawartości cukrów dla 77 rodzajów płatków śniadaniowych, razem z linią regresji najmniejszych kwadratów. Jest to linia regresji otrzymana za pomocą metody najmniejszych kwadratów. Linia regresji jest zapisana w postaci równania , które nazywa się równaniem regresji lub oszacowanym równaniem regresji, przy czym:

x b b

y

0

1

Szacowana wartość zmiennej objaśnianej Punkt przecięcia linii regresji z osią y

Nachylenie linii regresji Współczynniki regresji

y

b0

b1 1 0, b b

(19)
(20)
(21)
(22)
(23)
(24)
(25)

Regresja liniowa w Rattle dla R’a

(26)

Regresja liniowa w środowisku R…

W środowisku R procedura znajdowania równania

regresji dla podanego zbioru danych możliwa jest

dzięki wykorzystaniu funkcji lm. Komenda R postaci

lm(y ~ x) mówi, że chcemy znaleźć model

regresji liniowej dla zmiennej y w zależności od

zmiennej x.

(27)

Wariant z 1 zmienną objaśniającą…

rating = -2.4 * sugars+ 59.3

(28)

więc

• Estymowane równanie regresji może być interpretowane jako „oszacowana wartość płatków jest równa 59,4 – 2,42 * masa cukru w gramach”

• Linia regresji i (oszacowane równanie regresji) są używane jako liniowe przybliżenie relacji pomiędzy zmiennymi x (wartością objaśniającą) a y (objaśnianą), tj. między zawartości cukru a wartością odżywczą.

sugars

rating  59.42.42* b0  59.4 b1  2.42

y

(29)

x b b

y

0

1

Jak to czytać ?

sugars rating

 59 . 4  2 . 42 *

A więc:

b

0

 59 . 4 b

1

  2 . 42

„Oszacowana wartość odżywcza płatków (rating) jest równa 59.4 i 2.42 razy waga cukrów (sugars) w gramach”

Czyli linia regresji jest liniowym przybliżeniem relacji między zmiennymi x (objaśniającymi, niezależnymi) a y (objaśnianą, zależną) – w tym przypadku między zawartością cukrów a wartością odżywczą.

Możemy zatem dzięki regresji: SZACOWAĆ, PRZEWIDYWAĆ…

(30)

• Gdy np. chcemy oszacować wartości odżywcze nowego rodzaju płatków (nieuwzględnionych dotąd w tej próbie 77 różnym badanych płatków śniadaniowych), które zawierają x=1 gram cukrów.

• Wówczas za pomocą oszacowanego równania regresji możemy wyestymować wartość odżywczą płatków śniadaniowych zawierającym 1 gram cukrów:

Po co przewidywać ?

98 . 56 1

* 42 . 2 4

.

59  

y

(31)

• Gdy np. chcemy oszacować wartości odżywcze nowego rodzaju płatków (nieuwzględnionych dotąd w tej próbie 77 różnym badanych płatków śniadaniowych), które zawierają x=5 gram cukrów.

• Wówczas za pomocą oszacowanego równania regresji możemy wyestymować wartość odżywczą płatków śniadaniowych zawierającym 5 gram cukrów:

Po co przewidywać ?

3 . 47 5

* 42 . 2 4

.

59  

y

(32)

Jak widać, niestety oszacowanie zgodne z równaniem regresji jest nie do końca zgodne z rzeczywistą wartością odżywczą płatków.

(33)

• Wyraz wolny b0 jest miejscem na osi y gdzie linia regresji przecina tę oś, czyli jest to przewidywana wartość zmiennej objaśnianej, gdy zmienna objaśniająca jest równa 0. W wielu przypadkach zerowa wartość nie ma tu sensu. Przypuśćmy np. że chcielibyśmy przewidzieć wagę ucznia szkoły podstawowej (y) na podstawie jego wzrostu (x). Wartość zerowa wzrostu jest niejasna, a więcej interpretacji znaczenia wyrazu wolnego nie ma sensu w tym przypadku.

• Jednak dla naszego zbioru danych zerowa wartość cukrów w płatkach jak najbardziej ma sens, ponieważ istnieją płatki niezawierające cukrów. Zatem w naszym zbiorze danych wyraz wolny b0=59.4 reprezentuje przewidywaną wartość odżywczą płatków z zerową zawartością cukrów.

• Ale w naszym zbiorze nie mamy płatków o zerowej zawartości cukru które mają oszacowaną wartość odżywczą równą dokładnie 59.4.

Właściwe wartości odżywcze razem z błędami oszacowania

przedstawiono poniżej.

(34)

• Wszystkie przewidywane wartości są takie same.

Bo wszystkie wymienione płatki mają identyczną wartość zmiennej objaśniającej (x=0).

• Współczynnik kierunkowy prostej regresji oznacza oszacowaną zmianę wartości y dla jednostkowego wzrostu x.

• Wartość b1 = 2.42 interpretujemy jako: „Jeżeli

zawartość cukrów wzrośnie o 1 gram, to wartość

odżywcza zmniejszy się o 2.42 punktu”.

(35)

Płatki o zerowej wartości SUGARS

Proszę sprawdzić ile z tych płatków które faktycznie miały 0 wartość cukrów (sugars) miały wartość odżywczą (rating) równą 59.4?

Odp: żadne…

Co sugeruje, że nasz model regresji nie do końca dobrze

przewiduje w tym przypadku wartość odżywczą płatków.

(36)

• Załóżmy np. że jesteśmy zainteresowani szacowaniem wartości odżywczych nowych płatków (nie zawartych w początkowych danych), które zawierają x=1 gram cukru.

• Za pomocą oszacowanego równania regresji możemy znaleźć oszacowaną wartość płatków zawierających 1 gram cukru jako 59.4 – 2.42 * 1 = 56.98

• Zauważmy, że ta oszacowana wartość dla wartości odżywczej leży bezpośrednio na linii regresji, w punkcie (x=1, y = 56.98). W rzeczywistości dla każdej danej wartości x (sugars) oszacowana wartość y (rating) będzie znajdować się dokładnie na linii regresji.

• W naszych zbiorze są płatki Cheerios, w których zawartość cukru jest równa 1 gram. Jednak ich wartość odżywcza to 50.765 a nie 56.98 jak oszacowaliśmy powyżej dla nowych płatków zawierających 1 gram cukru.

• Na wykresie rozrzutu punkt płatków Cheerios jest umiejscowiony w (x=1, y = 50.765) wewnątrz owalu. Górna strzałka wskazuje na położenie na linii regresji dokładnie powyżej punktu dla płatków Cheerios. Jest to punkt który przewidziała linia regresji dla wartości odżywczych, jeżeli zawartość cukru wynosi 1 gram.

• Wartość szacowana była zbyt duża o 56.98 – 50.765 = 6.215 – co jest odległością w pionie punktu reprezentującego płatki Cheerios od linii regresji.

Ta pionowa odległość równa 6.215 w ogólności jest nazywana np.

błędem predykcji, błędem szacowania lub resztą.

(y y)

(37)

•Czyli każde płatki mające 1 gram cukru powinny mieć wartość odżywczą równą 56,98 ale jak widać tak nie jest.

•Płatki Cheerios mają wartość odżywczą równą 50,765.

•Czyli nastąpiło PRZESACOWANIE wartości odżywczej płatków o 6,215.

•Graficznie tę odległość widzimy jako odległość punktu reprezentującego

te płatki od jego rzutu pionowego na linię regresji.

(38)
(39)

Co wówczas ?

•Odległość tą mierzoną jako:

•Nazywać będziemy błędem predykcji (błędem oszacowania, wartością resztową, rezyduum).

•Oczywiście powinno się dążyć do minimalizacji błędu oszacowania.

•Służy do tego metoda zwana metodą najmniejszych kwadratów. Metoda polega na tym, że wybieramy linię regresji która będzie minimalizować sumę kwadratów reszt dla wszystkich punktów danych.

)

( y

y

(40)

Które residua (suma kwadratów) są najmniejsza?

Proste sumowanie: I -5+2+3=0; II -1+2-1=0; III -2+2+0

• MNK: I 25+4+9=38; II: 1+4+1=6; III 4+4=8

(41)

Metoda MNK

• Metoda MNK pozwala nam jednoznacznie wybrać linię regresji, która minimalizuje sumę kwadratów reszt dla wszystkich punktów danych.

• Jeśli mamy n obserwacji z modelu danego równaniem powyżej, wówczas

• Linia NK jest linią, która minimalizuje sumę kwadratów błędów dla populacji ()

  

x

y 0 1

i i

i x

y   0   1  

n i  1 , 2 ,...,

 

n

i

i i

n

i

i

p

y x

SSE

1

2 1

0 1

)

(  

(42)

• Odpowiedź: pewnie NIE.

• Prawdziwą liniową zależność między wartością odżywczą a zawartością cukrów dla WSZYSTKICH rodzajów płatków reprezentuje równanie:

Czy to równanie będzie spełnione dla innych płatków niż te z badanego zbioru ?

x

y 0 1

- Losowy błąd

(43)

• Linia najmniejszych kwadratów minimalizuje sumę kwadratów błędów SSE (population sum of squared errors):

Dla n obserwacji

i i

i x

y   0   1  

i=1,…,n

 

 

n

i

n

i

i i i

R

p y x

SSE

1 1

2 1

0 )

(  

(44)

1. Różniczkujemy to równanie by oszacować

Co dalej ?

1 0 

i

) (

*

2

0 1

0 1

i n

i

i

p

y x

SSE  

 

) (

*

2

0 1

1 1

i n

i

i i

p

x y x

SSE  

 

2. Przyrównujemy wynik do zera:

0 )

(

0 1

1

 

i

n

i

i

b b x

y

0 )

(

0 1

1

 

i

n

i

i

i

y b b x

x

(45)

3. Rozbijamy sumę:

Co dalej ?

4. Powstaje

0

1 1 0

1

 

n

i

i n

i

i

n b b x

y

0

1 2 1

1 0 1

  

n

i

i n

i

i n

i

i

i

y b x b x

x

n

i

i n

i

i

y

x b

nb

1 1

1 0

n

i

i i n

i

i n

i

i

b x x y

x b

1 1

2 1

1 0

(46)

5. Rozwiązując te równania otrzymujemy:

Co dalej ?

 

  

 

n x

x

n y

x y

b x

i i

i i

i i

/ ) (

/ ) )(

(

2 2 1

x b y

b

0

 

1

x

n – liczba obserwacji

- Średnia wartość zmiennej objaśniającej

y

- Średnia wartość zmiennej objaśnianej A sumy są od i=1 do n.

b

0 i

b

1 -estymatory najmniejszych kwadratów dla

Czyli wartości które minimalizują sumę kwadratów błędów.

1 0

i

(47)

1. Obliczamy wartości x i ,y i ,x i y i ,x i 2

Jak znaleźć w Excelu wartości b 0 =59.4 i b 1 =-2.42

z tych równań?

(48)

xi=534

yi=3285.26

xiyi=19186.76

xi2=5190

1. Obliczamy wartości:

2. Podstawiamy do wzorów:

42 . 67 2

. 1486

79 . 3596 77

/ 534 5190

77 / 26 . 3285

* 534 76

. 19186

1 2

   

  b

4 . 59 935

. 6

* 42 . 2 6657 .

1

42

0

yb x   

b

(49)

Wnioski…

• Wyraz wolny b0 jest miejscem na osi y gdzie linia regresji przecina tę oś czyli jest to przewidywana wartość zmiennej objaśnianej gdy objaśniająca równa się zeru.

• Współczynnik kierunkowy prostej regresji oznacza szacowaną zmianę wartość y dla jednostkowego wzrostu x wartość b

1

=-2.42 mówi, że jeśli zawartość cukrów wzrośnie o 1 gram to wartość odżywcza płatków zmniejszy się o 2.42 punktu.

• Czyli płatki A których zawartość cukrów jest o 5 większa niż w płatkach B powinny

mieć oszacowaną wartość odżywczą o 5 razy 2.42 = 12.1 punktów mniejszą niż

płatki typu B.

(50)

Interpretacja

Widać z nich, że między zmienną objaśniającą sugars a zmienną objaśnianą rating istnieje pewna zależność (w miarę wzrostu wartości sugars spada wartość rating). Z kolei analizując rozrzut obserwacji ze względu na wartości zmiennej objaśniającej fiber oraz objaśnianej rating już tak silnej zależności nie dostrzegamy.

Sprawdźmy jak będzie się zachowywać rozrzut wartości zmiennych objaśnianych w oparciu o te dwie zmienne objaśniające razem.

(51)

Regresja wielokrotna

Omawiając regresję liniową (prostą) rozpatrywaliśmy dotąd jedynie takie przypadki zależności między zmiennymi objaśniającymi a objaśnianymi gdzie zmienna objaśniana była zależna tylko od jednej konkretnej zmiennej objaśniającej.

Jednak w praktyce niezwykle często zmienna objaśniana zależna jest nie od jednej ale od kilku (wielu) zmiennych objaśniających.

Będziemy zatem rozważać ogólne równanie regresji postaci:

m m x b

x b x

b b

y     

2 ...

2 1

1 0

gdzie m oznacza liczbę (najczęściej kilku) zmiennych objaśniających.

(52)

Wykres rozrzutu dla zmiennej sugars

(53)

Wykres rozrzutu dla zmiennej fiber

(54)

Wariant z 2 zmiennymi objaśniającymi

rating = -2.18 * sugars+ 2.86 * fiber + 51.6

(55)

Uogólniając będziemy mówić, że dla m zmiennych objaśniających zachodzi reguła, zgodnie z którą: oszacowana zmiana wartości zmiennej odpowiedzi to b

i

, jeśli wartość zmiennej x

i

rośnie o jednostkę i zakładając, że wszystkie pozostałe wartości zmiennych są stałe.

Rating = - 2.18 * sugars+ 2.86 * fiber+ 51.6 Aby zinterpretować współczynnik nachylenia prostej regresji:

b1 = -2.18 wartość odżywcza maleje o 2.18 punktu, jeśli zawartość cukru rośnie o jedną jednostkę. Zakładamy przy tym, że

zawartość błonnika (fiber) jest stała.

b2 = 2.86 wartość odżywcza rośnie o 2.86 punktu, jeśli zawartość błonnika rośnie o jedną jednostkę a zawartość cukru

(sugars) jest stała.

(56)

Teraz możemy przewidywać, że gdy poziom cukrów wynosi np 1 to wartość odżywcza płatków będzie wynosić 56.9 zaś gdy poziom cukrów będzie wynosił 10 wówczas wartość odżywcza zmaleje do wartości 35.3 (patrz poniżej).

> predict(model,data.frame(sugars=10), level = 0.9, interval = "confidence") fit lwr upr

1 35.27617 33.14878 37.40356

> predict(model,data.frame(sugars=1), level = 0.9, interval = "confidence")

fit lwr upr

1 56.88355 53.96394 59.80316

(57)

Błędy predykcji są mierzone przy użyciu reszt

Uwaga: w prostej regresji liniowej reszty reprezentują odległość (mierzoną wzdłuż osi pionowej) pomiędzy właściwym punktem danych a linią regresji, zaś w regresji

wielokrotnej, reszta jest reprezentowana jako odległość między właściwym punktem danych a płaszczyzną lub hiperpłaszczyzną regresji.

Przykładowo płatki Spoon Size Shredded Wheat zawierają x1=0 gramów cukru i x2 = 3 gramy błonnika, a ich wartość odżywcza jest równa 72.80 podczas gdy wartość

oszacowana, podana za pomocą równania regresji:

Zatem dla tych konkretnych płatków reszta jest równa 60.21 - 72.80 = 12.59.

> predict(model, data.frame(sugars=0,fiber=3),level=0.95, interval="confidence")

fit lwr upr 1 60.21342 57.5805 62.84635

Zwróćmy uwagę na to, że wyniki, które tutaj zwraca funkcja R: predict są bardzo istotne. Mianowicie, oprócz podanej (oszacowanej, przewidywanej) wartości zmiennej objaśniającej, otrzymujemy również przedział ufności na zadanym poziomie ufności równym 0.95, który to przedział mieści się między wartością 57.5805 (lwr) a 62.84635 (upr).

y

y

(58)

Wariant z wieloma zmiennymi objaśniającymi…

Rating = - 0.22*calories +2.9*protein+1.03*carbo-

0.84*sugars-2.00*fat- 0.05*vitamins+2.54*fiber-

0.05*sodium+ 56.19

(59)

• Załóżmy np., że jest dostępny nowy rodzaj płatków śniadaniowych, których porcja ma 80 kalorii, 2 gramy białka, nie ma tłuszczu i sodu, ma 3 gramy błonnika, 16 gramów węglowodanów, nie ma cukrów i pokrywa 0% dziennego zapotrzebowania na witaminy (podobnie jak Shredded Wheat).

• Wtedy przewidywana wartości odżywcza to 56.19 – 0.22 * 80 +2.9 *2 -2.00 *0-0.05*0+2.54*3 +1.03*16-0.84*0-0.05*0 = 68.49

Rating = - 0.22*calories +2.9*protein+1.03*carbo-0.84*sugars- 2.00*fat-0.05*vitamins+2.54*fiber-0.05*sodium+ 56.19

(60)

• To przewidywanie jest niezwykle bliskie właściwej wartości odżywczej płatków Shredded Wheat równej

68.2358. zatem błąd szacowania = 68.2359-68.49 = -0.2541

• Oczywiście szacowanie punktu ma wady analogiczne do tych w przypadku prostej regresji liniowej, zatem również możemy znaleźć przedziały ufności dla średniej wartości odżywczej wszystkich takich płatków (o właściwościach podobnych do

Shredded Wheat: 80 kalorii, 2 gramy białka) na poziomie

ufności 95 % to (66.475,70.764). Jak poprzednio, przedział ufności dla losowo wybranego rodzaju płatków jest większy niż dla średniej wartości.

• Następnie omówimy dalsze wyniki regresji wielokrotnej. Wartość R2 równa 99.5 % jest niezwykle duża, prawie równa maksymalnej wartości równej 100%. To pokazuje, że nasz model regresji wielokrotnej przedstawia prawie całą zmienność wartości odżywczej. Błąd standardowy szacowania s jest równo około 1, co oznacza, ze typowy błąd przewidywania wynosi około jednego punktu w skali wartości odżywczej, a blisko 95% (na podstawie rozkładu normalnego błędów) przewidywań będzie w obrębie dwóch punktów od aktualnej wartości. Porównajmy to z wartością s równą około 9 dla modelu prostej regresji liniowej.

• Użycie większej liczby atrybutów w naszym modelu regresji pozwoliło nam

na zredukowanie błędu przewidywania o czynnik równy 9.

(61)

Czy wybrana metoda regresji jest przydatna ?

• Można znaleźć taką linię regresji MNK, która modeluje zależność pomiędzy dwoma dowolnymi ciągłymi zmiennymi. Jednak nie ma nigdy gwarancji, że taka regresja będzie przydatna.

• W jaki sposób można stwierdzić, czy oszacowane równanie regresji jest przydatne do przewidywania?

• Jedną z miar jest współczynnik determinacji R 2 ,

będący miarą dopasowania regresji. Określa on

stopień, w jakim linia regresji NK wyjaśnia

zmienność obserwowanych danych.

(62)

SSE

Nr Czas, x Odległość, y Oszacowana wielkość y

Błąd

oszacowania

(Błąd

oszacowania)2

1 2 10 10 0 0

2 2 11 10 1 1

3 3 12 12 0 0

4 4 13 14 -1 1

5 4 14 14 0 0

6 5 15 16 -1 1

7 6 20 18 2 4

8 7 18 20 -2 4

9 8 22 22 0 0

10 9 25 24 1 1

12

x y 62

y

y ( )2

y y

(63)

• Pokazano odległość przebytą przez 10 zawodników biegu na orientację oraz czas trwania biegu każdego zawodnika. Pierwszy zawodnik przebył 10 km w 2 godziny.

• Na podstawie danych z tej tabeli oszacowane równanie regresji przyjmuje postać: .A więc estymowana odległość jest równa 6 km plus 2 razy liczba godzin.

• Oszacowane równanie regresji może być użyte do przewidywania przebytej odległości przez zawodnika, o ile znamy czas trwania biegu tego zawodnika.

• Estymowane wartości y znajdują się w kolumnie 3 tabeli można zatem obliczyć błąd oszacowania oraz jego kwadrat. Suma kwadratów błędu oszacowania lub suma kwadratów błędów reprezentuje całkowitą wartość błędu oszacowania w przypadku użycia równania regresji.

• Tutaj mamy wartość SSE = 12. Nie jesteśmy jeszcze teraz w stanie stwierdzić czy to wartość duża, bo w tym miejscu nie mamy żadnej innej miary.

x y 62

(64)

• Jeśli teraz chcemy oszacować przebytą odległość bez znajomości liczby godzin, a nie mamy dostępu do informacji o wartości zmiennej x, którą moglibyśmy wykorzystać do oszacowania wartości zmiennej y, nasze oszacowania przebytej odległości będą oczywiście mało wartościowe, gdyż mniejsza ilość dostępnym informacji zwykle skutkuje mniejszą dokładnością szacowań.

• Skoro nie mamy dostępu do informacji o zmiennych objaśniających, to najlepszym oszacowaniem dla y będzie po prostu średnia przebyta odległość. W takim przypadku, oszacowaniem przebytej odległości dla każdego zawodnika, niezależnie od jego czasu, byłaby wartość średnia = 16.

Szacowania przebytej odległości, gdy ignorowana jest

informacja o czasie, pokazuje pozioma linia średniej = 16.

(65)

• Rysunek, strona 43.

(66)

• Przewidywana przebyta odległość średnia y = 16, niezależnie od tego czy wędrowali tylko 2 czy 3 godziny, czy też nie było ich cały dzień. Czyli nie uwzględniając czasu. Jest to rzecz jasna rozwiązanie nieoptymalne.

• Punkty danych na rysunku jak widzimy skupiają się wokół oszacowanej linii regresji, a nie wokół tej linii y=16.To sugeruje, że błędy przewidywania są mniejsze, kiedy uwzględniamy informację o zmiennej x, aniżeli wtedy, gdy tej informacji nie wykorzystujemy.

• Weźmy przykład zawodnika nr 10. Przebył odległość y=25 km w ciągu x=9 godzin.

Jeżeli zignorowalibyśmy informację o wartości zmiennej objaśniającej x, błąd szacowania byłby równy = 25 – 16 = 9 km. Ten błąd przewidywania jest reprezentowany przez pionową linię pomiędzy punktem danych dla tego zawodnika, a poziomą linią, co oznacza odległość pomiędzy obserwowaną wartością y i jej rzutem pionowych na prostą o równaniu na średnią y = 16, która przecież określa wartość estymowaną.

• Chcemy teraz znaleźć dla każdego rekordu w zbiorze danych, a następnie sumę kwadratów tych miar, tak jak zrobiliśmy to dla ,kiedy obliczaliśmy sumę kwadratów błędów.

• Otrzymujemy w ten sposób całkowitą sumę kwadratów SST.

y y

y y

y y

(67)

• Pozwala stwierdzić czy oszacowane równanie regresji jest przydatne do przewidywania.

• Określa stopień w jakim linia regresji najmniejszych kwadratów wyjaśnia zmienność obserwowanych danych.

Współczynnik determinacji r 2

y yy ( yy )

2

x y

(68)

Na ile dobra jest regresja?

Współczynnik determinacji jest opisową miarą siły liniowego związku

między zmiennymi, czyli miarą dopasowania linii regresji do danych współczynnik determinacji ---przyjmuje wartości z przedziału [0,1] i wskazuje jaka część zmienności zmiennej y jest

wyjaśniana przez znaleziony model.

Na przykład dla R2=0.619 znaleziony model wyjaśnia około 62% zmienności y.

(69)

Współczynnik determinacji

• Oczywiście zawsze można znaleźć taką linię regresji metodą najmniejszych kwadratów, która modeluje zależność pomiędzy dwoma dowolnymi ciągłymi zmiennymi. Jednak nie ma gwarancji, że taka regresja będzie przydatna. Zatem powstaje pytanie, w jaki sposób możemy stwierdzić, czy oszacowane równanie regresji jest przydatne do przewidywania. Jedną z miar dopasowania regresji jest współczynnik determinacji R

2

.

• Określa on stopień, w jakim linia regresji najmniejszych kwadratów wyjaśnia zmienność obserwowanych danych.

Przypomnijmy, że oznacza estymowaną wartość zmiennej objaśnianej, a jest błędem oszacowania lub resztą.

y y

y

(70)

• Suma kwadratów błędu oszacowania lub suma kwadratów błędów reprezentuje całkowitą wartość błędu oszacowania w przypadku użycia równania regresji.

• Jeśli nie znamy wartości zmiennej objaśniającej do oszacowania wartości zmiennej objaśnianej- nasze oszacowania będą oczywiście mało wartościowe.

• Lepszym oszacowaniem dla y będzie po prostu średnia(y). To zazwyczaj prezentuje pozioma linia na wykresie. Punkty danych jednak koncentrują się bardziej wokół oszacowanej linii regresji a nie wokół tej linii poziomej, co sugeruje, że błędy przewidywania są mniejsze, kiedy uwzględniamy informację o zmiennej x, aniżeli wtedy, gdy tej informacji nie wykorzystujemy.

• Jeśli liczymy różnice x – średnia(x) dla każdego rekordu, a następnie sumę kwadratów tych miar, tak jak przy oszacowanej wartości y ( ), kiedy obliczaliśmy sumę kwadratów błędów otrzymujemy całkowitą sumę kwadratów SST (sum of squares total):

• Stanowi ona miarę całkowitej zmienności wartości samej zmiennej objaśnianej bez odniesienia do zmiennej objaśniającej. Zauważmy, że SST jest funkcją wariancji zmiennej y, gdzie wariancja jest kwadratem odchylenia standardowego .

2 1

2 ( 1) ( ) ( 1)

)

( y

n

i

i y n Var y n

y

SST

n

i

i y

y SST

1

)2

(

y

y

(71)

• Wszystkie trzy miary: SST, wariancja oraz odchylenie standardowe są jednowymiarowymi miarami zmienności tylko dla y. Czy powinniśmy oczekiwać, że SST jest większe czy też mniejsze od SSE ?

• Wykorzystując obliczenia mamy SST dużo większe niż SSE. Mamy więc teraz z czym porównać SSE. Wartość SSE jest dużo mniejsza od SST, co wskazuje, że uwzględnienie informacji ze zmiennej objaśniającej w regresji skutkuje dużo dokładniejszą estymacją niż gdybyśmy zignorowali tę informację. Sumy kwadratów są błędami przewidywań, zatem im ich wartość jest mniejsza tym lepiej. Innymi słowy, zastosowanie regresji poprawia nasze szacowania zmiennej objaśnianej.

• Jeśli chcemy określić, jak bardzo oszacowane równanie regresji poprawia estymację, obliczymy teraz sumę kwadratów

Otrzymamy w ten sposób regresyjną sumę kwadratów (SSR, sum of squares regression) – miarę całkowitej poprawy dokładności przewidywań w przypadku stosowania regresji w porównaniu do przypadku, gdy informacja zmiennej objaśniającej jest ignorowana:

n

i

y y

SSR

1

)

2

(

y y

(72)

• Odległość dzielimy na dwie części:

y y

y y

y y

) (

)

(y y y y y

y

(y y)2 (y y)2 (y y)2

SSE SSR

SST  

(73)

• SST mierzy całkowitą zmienność zmiennej objaśnianej, zatem o SSR możemy myśleć jak o części zmienności zmiennej objaśniającej, która jest wyjaśniona przez regresję (SSR).

• Innymi słowy, SSR mierzy tę część zmienności zmiennej objaśniającej, która jest wyjaśniana przez liniową zależność między zmienną objaśniającą a objaśnianą.

• Ponieważ nie wszystkie punkty danych leżą dokładnie na linii regresji, więc pozostaje jeszcze pewna część zmienności zmiennej y, która nie została wyjaśniona przez regresję (tej części odpowiada wartość SSE).

• Możemy tu SSE traktować jako miarę całej zmienności y ze

wszystkich źródeł, łącznie z błędem, po wyjaśnieniu liniowej

zależności między x a y za pomocą regresji. Tutaj SSE jest

nazywane zmiennością niewyjaśnioną.

(74)

• Ponieważ współczynnik determinacji

przyjmuje postać ilorazu SSR i SST – możemy

go interpretować jako tę część zmienności

zmiennej y, która została wyjaśniona przez

regresję, czyli przez liniowy związek pomiędzy

zmienną celu a zmienną objaśniającą.

(75)

Jaka jest maksymalna wartość R 2 ?

• Maksymalna wartość może być osiągnięta wtedy, gdy regresja idealnie pasuje do danych, co ma miejsce wówczas, gdy każdy z punktów danych leży dokładnie na oszacowanej linii regresji.

• W tej optymalnej sytuacji nie ma błędów oszacowania podczas stosowania regresji, a zatem każda wartość resztowa jest równa 0, co z kolei oznacza, że SSE jest =0.

• Jeżeli SSE = 0 to SST = SSR zatem współczynnik R 2

jest równy SSR/SST = 1. Taka sytuacja ma miejsce

gdy regresja idealnie modeluje dostępne dane.

(76)

Jaka jest minimalna wartość R 2 ?

• Jeśli regresja nie wykazała żadnej poprawy, czyli nie wyjaśniła żadnej części zmienności zmiennej y.

• Wówczas wartość SSR jest równa zero, a więc również wartość R 2 = 0. Zatem wartość współczynnika R 2 jest z zakresu od 0 do 1.

• Im wyższa wartość R 2 , tym lepsze dopasowanie

regresji do danych. Wartości R 2 bliskie 1 oznaczają

niezwykle dobre dopasowanie regresji do danych,

wartości bliskie 0, oznaczają bardzo słabe

dopasowanie.

(77)

SST r

2

SSR

Współczynnik determinacji r2:

Współczynnik determinacji r 2

Mierzy stopień dopasowania regresji jako przybliżenia liniowej zależności pomiędzy zmienną celu a zmienną objaśniającą.

Jaka jest wartość maksymalna współczynnika determinacji r2 ?

Jest ona osiągana wtedy, gdy regresja idealnie pasuje do danych, co ma miejsce wtedy gdy każdy z punktów danych leży dokładnie na oszacowanej linii regresji. Wówczas nie ma błędów oszacowania, a więc wartości resztowe (rezydua) wynoszą 0, a więc SSE=0 a wtedy SST = SSR a r2=1.

Jaka jest wartość minimalna współczynnika determinacji r2 ?

Jest ona osiągana wtedy, gdy regresja nie wyjaśnia zmienności, wtedy SSR = 0, a więc r2=0.

Im większa wartość r

2

tym lepsze dopasowanie regresji do zbioru

danych.

(78)

y yy

(

yy

)

2

x

y

n

i

y y

SST

1

)

2

Całkowita suma kwadratów…

(

n

i

y y SSR

1

)

2

Regresyjna suma kwadratów …

(

n

i

y y

SSE

1

)

2

(

Suma kwadratów błędów oszacowania:

SST r

2

SSR

Wówczas współczynnik determinacji r2:

(79)

Przykład analizy współczynnika R 2 dla wielu zmiennych objaśniających

Jak już wspomnieliśmy na początku, często w świecie rzeczywistym mamy do czynienia z zależnościami zmiennej objaśnianej nie od jednej ale raczej od wielu zmiennych objaśniających.

Wykonanie tego typu analiz w pakiecie R nie jest rzeczą trudną. Wręcz przeciwnie.

Nim przeprowadzimy analizę zależności zmiennej rating od wielu zmiennych objaśniających np. sugars oraz fiber przyjrzyjmy się wykresom rozrzutu dla tych zmiennych osobno. Wykres rozrzutu bowiem doskonale odzwierciedla zależności między pojedynczymi zmiennymi.

(80)

Współczynnik determinacji

gdzie SSR to regresyjna suma kwadratów zaś SST to całkowita suma kwadratów

Będziemy go interpretować jako część zmienności zmiennej objaśnianej, która jest wyjaśniana przez liniową zależność ze zbiorem zmiennych objaśniających.

Im większa będzie liczba zmiennych objaśniających tym nie mniejsza będzie wartość współczynnika determinacji R2.

Możemy wnioskować, że gdy dodajemy nową zmienną objaśniającą do modelu, wartość R2 będzie nie mniejsza niż przy modelu o mniejszej liczbie zmiennych. Oczywiście skala (wielkość) tej różnicy jest bardzo istotna w zależności od tego czy dodamy tę zmienną do modelu czy też nie. Jeśli wzrost jest duży to uznamy tę zmienną za znaczącą (przydatną).

Niezwykle istotna jest miara nazwana już wcześniej współczynnikiem determinacji R2 określana za pomocą wzoru:

SST

R

2

SSR

^ 2

1

) ( y y SST

n

i

 

^ 2ˆ 1

) ( y y SSR

n

i

 

(81)

Jeśli takie reszty obliczymy dla każdej obserwacji to możliwe będzie wyznaczenie wartości współczynnika determinacji R2. W naszym przypadku jest on równy 0.8092 czyli 80.92 %. Oznacza to w naszej analizie, że 80.92 % zmienności wartości odżywczej jest wyjaśniane przez liniową zależność pomiędzy zmienną wartość odżywcza a zbiorem zmiennych objaśniających - zawartością cukrów i zawartością błonnika.

Jeśli popatrzymy jaka była wartość tego współczynnika, gdy badaliśmy na początku zależność zmiennej objaśnianej tylko od jednej zmiennej objaśniającej (cukry) to wartość ta wynosiła R2 = 57.71% . Dla dwóch zmiennych objaśniających ta wartości wyniosła 80.92 %. Czyli powiemy, że dodając nową zmienną objaśniającą (w tym przypadku błonnik) możemy wyjaśnić dodatkowe 80.92 - 57.71 = 22.19% zmienności wartości odżywczej (rating) płatków.

Typowy błąd oszacowania jest tu obliczany jako standardowy błąd oszacowania s i wynosi 6.22 punktu. Oznacza to, że estymacja wartości odżywczej płatków na podstawie zawartości cukrów i błonnika zwykle różni się od właściwej wartości o 6.22 punktu. Jeśli nowa zmienna jest przydatna, to błąd ten powinien się zmniejszać po dodaniu nowej zmiennej.

(82)

Ile zmiennych objaśniających w modelu regresji ?

gdzie p oznacza liczbę parametrów modelu (i jest to zazwyczaj liczba zmiennych objaśniających + 1) zaś n oznacza wielkość próby. Zwykle wartość R2adj będzie po prostu nieco mniejsza niż wartość R2.

W środowisku R współczynnik determinacji R2 wyznaczymy stosując bezpośrednio komendę:

summary(model.liniowy)\$r.square

Z kolei współczynnik determinacji ale ten tzw. skorygowany (ang. Adjusted) za pomocą komendy:

summary(model.liniowy)\$adj.r.squared

Najprostszym sposobem na wybór optymalnej liczby zmiennych objaśniających jest współczynnik R2adj zwany skorygowanym. Wiedząc, że R2 = 1 – SSE/SST wartość R2adj obliczymy jako:

1

2

1

 

n SST

p n

SSE

R

adj

(83)

> dane<- read.table("C:\\Cereals.data", header = TRUE, row.names = 1)

> model<-lm(rating~sugars+fiber, data=dane)

> summary(model)$r.square [1] 0.8091568

> summary(model)$adj.r.squared [1] 0.8039988

Chcąc wyznaczyć wartości tych współczynników dla naszego testowego modelu z dwiema zmiennymi objaśniającymi sugars oraz fiber w środowisku R użyjemy odpowiednich komend, jak to pokazuje poniższy kod R wraz z wynikami:

Jak widzimy współczynnik R2 wynosi 0.809 zaś R2adj odpowiednio 0.804.

(84)
(85)

Funkcja r.square

(86)

Funkcja r.square.adjusted

(87)

Funkcja coeff

(88)

Przykład analizy współczynnika R2 dla jednej zmiennej objaśniającej

• Procedura analizy współczynnika determinacji R2 dla jednej zmiennej objaśniającej może wyglądać następująco. Jeśli założymy, że zmienną objaśnianą ma być wartość odżywcza płatków (rating) zaś zmienną objaśniającą poziom cukrów (sugars) to komenda R wywołującą badanie zależności między tymi zmiennymi będzie nastepująca:

• lm(rating~sugars, data=dane)

• Wówczas pełny zapis okna dialogu z R-em będzie następujący:

• > dane<- read.table("C:\\Cereals.data", header = TRUE, row.names = 1)

• > model<-lm(rating~sugars, data=dane)

• > summary(model)

(89)

Call:

lm(formula = rating ~ sugars, data = dane)

Residuals:

Min 1Q Median 3Q Max -17.853 -5.677 -1.439 5.160 34.421

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 59.2844 1.9485 30.43 < 2e-16 ***

sugars -2.4008 0.2373 -10.12 1.15e-15 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 9.196 on 75 degrees of freedom

Multiple R-squared: 0.5771, Adjusted R-squared: 0.5715 F-statistic: 102.3 on 1 and 75 DF, p-value: 1.153e-15

>

Widzimy zatem, że równanie regresji, gdy zmienną objaśnianą będzie zmienna rating (wartość odżywcza płatków) zaś objaśniającą sugars (poziom cukrów), będzie następującej postaci:

rating = -2.4 * sugars+ 59.3

(90)

• Teraz możemy przewidywać, że gdy poziom cukrów wynosi np.

1 to wartość odżywcza płatków będzie wynosić 56.9 zaś gdy poziom cukrów będzie wynosił np. 10 wówczas wartość odżywcza zmaleje do wartości 35.3 (patrz poniżej).

> predict(model,data.frame(sugars=10), level = 0.9, interval

= "confidence")

fit lwr upr 1 35.27617 33.14878 37.40356

> predict(model,data.frame(sugars=1), level = 0.9, interval =

"confidence")

fit lwr upr 1 56.88355 53.96394 59.80316

(91)

Przykład analizy współczynnika R2 dla wielu zmiennych objaśniających

Często w świecie rzeczywistym mamy do czynienia z zależnościami zmiennej objaśniającą nie od jednej zmiennej objaśnianej ale raczej od wielu zmiennych objaśniających.

Wykonanie tego typu analiz w pakiecie R nie jest rzeczą trudną. Wręcz przeciwnie.

Nim przeprowadzimy analizę zależności zmiennej rating

od wielu zmiennych objaśniających np. sugars oraz

fiber przyjrzyjmy się wykresom rozrzutu dla tych

zmiennych osobno. Wykres rozrzutu bowiem

doskonale odzwierciedla zależności między

pojedynczymi zmiennymi.

(92)
(93)

> model<-lm(rating~sugars+fiber, data=dane)

> summary(model)

Call:

lm(formula = rating ~ sugars + fiber, data = dane)

Residuals:

Min 1Q Median 3Q Max -12.133 -4.247 -1.031 2.620 16.398

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 51.6097 1.5463 33.376 < 2e-16 ***

sugars -2.1837 0.1621 -13.470 < 2e-16 ***

fiber 2.8679 0.3023 9.486 2.02e-14 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.219 on 74 degrees of freedom Multiple R-squared: 0.8092, Adjusted R-squared: 0.804 F-statistic: 156.9 on 2 and 74 DF, p-value: < 2.2e-16

Przykład analizy zmiennej objaśnianej (a więc wartości odżywczej płatków ze zbioru Cereals od kilku zmiennych, np. sugars oraz fiber (a więc odpowiednio: poziom cukrów oraz błonnik)

przedstawiamy poniżej.

(94)

• wtedy powiemy, że równanie regresji będzie wyglądać następująco:

• rating = - 2.1837 * sugars+2.8679 * fiber+ 51.6097

• Czyli, aby zinterpretować współczynnik nachylenia prostej regresji b

1

= -2.1837 powiemy, że wartość odżywcza maleje o 2.1837 punktu, jeśli zawartość cukru rośnie o jedną jednostkę. Zakładamy przy tym, że zawartość błonnika (fiber) jest stała.

• Z kolei interpretacja współczynnika b

2

= 2.8679

jest taka, że wartość odżywcza rośnie o 2.8679 punktu,

jeśli zawartość błonnika rośnie o jedną jednostkę a

zawartość cukru (sugars) jest stała.

(95)

Uogólniając będziemy mówić, że dla m zmiennych objaśniających zachodzi reguła, zgodnie z którą oszacowana zmiana wartości zmiennej odpowiedzi to bi, jeśli wartość zmiennej xi rośnie o jednostkę i zakładając, że wszystkie pozostałe wartości zmiennych są stałe.

Błędy predykcji są mierzone przy użyciu reszt

Co ważne:

w prostej regresji liniowej reszty reprezentują odległość (mierzoną wzdłuż osi pionowej) pomiędzy właściwym punktem danych a linią regresji. Zaś w regresji wielokrotnej, reszta jest reprezentowana jako odległość między właściwym punktem danych a płaszczyzną lub hiperpłaszczyzną regresji.

Przykładowo płatki Spoon Size Shredded Wheat zawierają x1=0 gramów cukru i x2 = 3 gramy błonnika, a ich wartość odżywcza jest równa 72.80

podczas gdy wartość oszacowana, podana za pomocą równania regresji:

> predict(model, data.frame(sugars=0,fiber=3),level=0.95, interval="confidence")

fit lwr upr 1 60.21342 57.5805 62.84635

>

y y

(96)

• Zatem dla tych konkretnych płatków reszta jest równa 60.21 - 72.80 = 12.59

• Zwróćmy uwagę na to, że wyniki które tutaj zwraca funkcja R: predict są bardzo istotne. Mianowicie, oprócz podanej (oszacowanej, przewidywanej) wartości zmiennej objaśniającej, otrzymujemy również przedział ufności na zadanym poziomie ufności równym 0.95, który to przedział mieści się między wartością 57.5805 (lwr) a 62.84635 (upr).

• Pamiętamy, że z pojęciem regresji wiąże się pojęcie współczynnika determinacji:

• gdzie SSR to regresyjna suma kwadratów:

• zaś SST to całkowita suma kwadratów:

• Będziemy R2interpretować jako część zmienności zmiennej objaśnianej, która jest wyjaśniana przez liniową zależność ze zbiorem zmiennych objaśniających.

SST R

2

SSR

n

i

y y SSR

1

)2

(

n

i

y y SST

1

)2

(

Cytaty

Powiązane dokumenty

Współczynnik korelacji liniowej Pearsona Aby ocenić korelację pomiędzy zmiennymi należy znać:.  poziom istotności p współczynnika r (określa, czy korelacje jest/nie

• zakłada się, że rozważane zmienne zostały zmierzone co najmniej na skali porządkowej (rangowej), tzn. że indywidualne obserwacje mogą być zestawione

Kiedy już wiemy co, pod względem czysto technicznym, zawierają dane, możemy przejść do analizy eksplo- racyjnej.. Można liczyć więcej statystyk opisowych, ale dobrą praktyką

Znaleźć kąt przecięcia się krzywych: a). Wyznaczyć przedziały monotoniczności i ekstrema funkcji określonych wzorami:..

W klasycznym modelu zakłada się, że zmienne objaśnia- jące są kontrolowane, czyli deterministyczne, a zmienna y jest obserwowana z pewnym błędem, czyli jej obserwacja jest

1 Dane Hubble’a o prędkości ucieczki gromad znajdujących się poza Drogą Mleczną.. Źródło: Hubble, E., A Relatiom Between Distance and Radial Velocity Among

1 Dane Hubble’a o prędkości ucieczki gromad znajdujących się poza Drogą Mleczną.. Źródło: Hubble, E., A Relatiom Between Distance and Radial Velocity Among

Badacz na podstawie zebranych danych skonstruował za pomocą analizy regresji model regresyjny, w którym wykazał zależność liniową pomiędzy poziomem inteligencji uczniów a