Liczba urodzonych dzieci

(1)

Statystyka i opracowanie danych W 5:

Odkrywanie i analiza zależności pomiędzy

zmiennymi losowymi (danymi empirycznymi)

Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

(2)

Odkrywanie i analiza zależności pomiędzy zmiennymi ilościowymi (liczbowymi)

Przedmiotem kolejnych dwóch wykładów będą zależności dla – Zmiennych jednowymiarowych

• Korelacja liniowa

– Korelacja liniowa

– – test istotności współczynnika korelacji liniowej

• regresja prosta

– Współczynniki regresji, wyznaczanie ich MNK

– Ocena dopasowania modelu Współczynnik determinacji – Standardowy błąd estymacji

– Współczynnik zmienności losowej

– Zmiennych wielowymiarowych

• Macierz korelacji

• Korelacje cząstkowe

• regresja wieloraka

(3)

Metody statystyczne stosuje się do badania struktury zbiorowości

i zależności pomiędzy jej cechami

• Metody statystyczne dotyczące analizy struktury zbiorowości opierały się na obserwacjach tylko jednej cechy, a jeśli brano pod uwagę kilka cech, to każdą analizowano oddzielnie.

• W wielu przypadkach, do poznania całokształtu zagadnienia potrzebna jest analiza zbiorowości z punktu widzenia kilku cech, pomiędzy którymi występują pewne zależności

• Odkrywanie postaci i siły zależności występujących pomiędzy cechami zbiorowości są przedmiotem analizy korelacji i regresji.

• Uwzględniając liczbę zmiennych (analizowanych cech zbiorowości) rozróżnia się następujące odmiany zależności

wiele zmiennych wielowymiarowa

jedna zmienna wielowymiarowa

wiele zmiennych jednowymiarowa

jedna zmienna jednowymiarowa

niezależna (objaśniająca) zależna (objaśniana)

Rodzaj zmiennej

(4)

Wprowadzenie do analizy zależności pomiędzy danymi statystycznymi

• Celem analizy jest stwierdzenie, czy między badanymi zmiennymi zachodzą jakieś zależności, jaka jest ich:

– siła (współczynnik determinacji , współczynnik korelacji)

– postać ( dopasowanie funkcji reprezentujących zależność - aproksymacja)

– kierunek (monotoniczność)

• Współzależność między zmiennymi może być dwojakiego rodzaju:

– funkcyjna

– stochastyczna (probabilistyczna).

(5)

Przykłady związków funkcyjnych

i statystycznych

(6)

Rodzaje zależności pomiędzy danymi - zależność funkcyjna

• Istota zależności funkcyjnej polega na tym, że zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości drugiej

zmiennej.

• W przypadku zależności funkcyjnej: y = f (x), każdej wartości zmiennej (X) odpowiada jedna i tylko jedna wartość zmiennej (Y).

• Symbolem X oznaczamy zmienną objaśniającą

(niezależną), natomiast symbolem Y - zmienną

objaśnianą (zależną ).

(7)

Rodzaje zależności pomiędzy danymi Zależność korelacyjna

• Zależność stochastyczna występuje wtedy, gdy wraz ze zmianą wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej

• Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna (statystyczna).

• Zależność korelacyjna polega na tym, że określonym

wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej.

• Związki typu statystycznego są możliwe do wykrycia oraz ilościowego opisu w przypadku, kiedy mamy do czynienia z wieloma obserwacjami, opisującymi badane obiekty,

zjawiska czy też procesy

(8)

(9)

Badanie zależności statystycznych pomiędzy danymi empirycznymi

• W badaniach statystycznych zależności pomiędzy

cechami najczęściej sprowadza się do funkcji liniowych.

• Nieliniowe związki pomiędzy zmiennymi mogą być

opisywane przez wielomiany drugiego i wyższych stopni albo przez inne funkcje (wykładnicze, logarytmiczne, trygonometryczne itp.) .

• Przy podejmowaniu decyzji o wyborze funkcji

aproksymacyjnej, opisującej w przybliżeniu związek pomiędzy analizowanymi cechami, pomocne jest

sporządzenie wykresu rozrzutu wartości badanych zmiennych.

• Jeśli okaże się, że pomiędzy zmiennymi widoczna jest

zależność i nie jest ona liniowa, wówczas trzeba znaleźć

odpowiednie rozwiązanie nieliniowe

(10)

Przykłady układów punktów przy różnych

wartościach współczynnika korelacji liniowej

(11)

Miarą siły i kierunku zależności liniowej jest współczynnik korelacji liniowej

• Statystyką, która opisuje siłę liniowego związku pomiędzy dwiema zmiennymi jest współczynnik korelacji z próby

(

ρ∼r).

• Przyjmuje on wartości z przedziału domkniętego <-1; 1>.

• Wartość -1 oznacza występowanie doskonałej korelacji ujemnej (to znaczy sytuację, w której punkty leżą

dokładnie na prostej, skierowanej w dół), a wartość 1 oznacza doskonałą korelację dodatnią (punkty leżą

dokładnie na prostej, skierowanej w górę).

• Wartość 0 oznacza brak korelacji liniowej

) ( ) (

) , cov(

Y D X D

Y

= X

ρ

(12)

Wzór do obliczania empirycznego współczynnika korelacji ma postać

gdzie:

• x_ioraz y_i oznaczają empiryczne wartości zmiennych, odpowiednio, X i Y, natomiast

• x oraz y oznaczają średnie wartości tych zmiennych.

Współczynnik korelacji daje też informację o kierunku zależności, bo jeśli małym wartościom X odpowiadają przeważnie małe

wartości zmiennej Y, a dużym wartościom X duże wartości Y, to licznik wyrażenia dla r będzie dodatni, mianownik jest zawsze dodatni, zatem r>0 oznacza zależność rosnącą, r<0 –malejącą.

(13)

Test istotności współczynnika korelacji liniowej (Pearsona)

Badane zmienne (X, Y) mają dwuwymiarowy rozkład normalny, o nieznanym współczynniku korelacji ρ.

Z populacji wylosowano n – elementową próbę i wyliczono r Zweryfikować hipotezę H₀: ρ = 0

wobec jednej z hipotez alternatywnych

H₁: ρ ≠ 0 lub H₁: ρ < 0 albo H₁: ρ > 0

Funkcja testowa ma postać:

a gdy n>100 to

zmienna t ma rozkład Studenta z n-2 stopniami swobody;

u ma rozkład normalny. Hipotezę H ₀ odrzucamy ilekroć wartość obliczona funkcji testowej znajdzie się w obszarze krytycznym (zdefiniowanym przez hipotezę H₁)

2

1

²

−

= − n

r

t r ⁿ

r u r

1 −

2

=

(14)

Niejednoznaczność informacji przekazywanej przez współczynnik korelacji - przykład

Zależność pom iędzy liczą bocianow i liczbą urodzin dzie ci

y = 0,182x + 1,3015 R² = 0,9654

0 2 4 6 8 10 12 14 16 18 20

0 20 40 60 80 100

Liczba bocianow

Liczba urodzonych dzieci

Interpretacja: przez analogię do filmu Seksmisja:

jeśli bociany to miejsce wybrały musi to być „zdrowy” region –

pomyśleli młodzi i postanowili się tu osiedlić

R=0.9825

(15)

Regresja prosta (regresja liniowa)

Analiza regresji stanowi w stosunku do analizy korelacji dalszy krok w zakresie ilościowego opisu powiązań zachodzących między zmiennymi.

• Model regresji liniowej prostej przyjmuje postać:

Y = β ₀+ β₁x + ε gdzie

β ₀ oznacza wyraz wolny, β₁ współczynnik kierunkowy, a ε błąd.

• Zazwyczaj nie wszystkie punkty układają się dokładnie na prostej regresji. Źródłem błędu są wpływy innych nie uwzględnionych

w modelu zmiennych, takich jak np. błędy pomiarowe.

• Zakłada się przy tym, że błędy mają średnią wartość równą zero i nieznaną wariancję oraz, że błędy nie są nawzajem skorelowane.

• Współczynniki regresji β ₀ β₁można wyznaczyć korzystając z metody najmniejszych kwadratów.

(16)

Istota metody najmniejszych kwadratów - MNK

• Wprowadzona przez Legendre'a i Gaussa, jest najczęściej stosowaną w praktyce metodą statystyczną

• Jej istota jest następująca:

– Wynik kolejnego pomiaru y_i można przedstawić jako sumę (nieznanej) wielkości mierzonej y oraz błędu pomiarowego ε_i ,

• Od wielkości oczekujemy, aby suma kwadratów była jak najmniejsza:

( ^ˆ )

²

^min

2

= ∑ − =

∑

i

i i

i

y y

ε

(17)

Dopasowanie modelu matematycznego do danych rzeczywistych

• Zasadniczy cel analizy regresji polega na ocenie nieznanych parametrów modelu regresji. Ocena ta jest dokonywana za pomocą metody najmniejszych kwadratów (MNK).

• MNK sprowadza się do minimalizacji sum kwadratów odchyleń wartości teoretycznych od wartości rzeczywistych (czyli tzw.

reszt modelu).

• Dopasowany model regresji prostej, który daje punktową ocenę średniej wartości y dla określonej wartości x przyjmuje postać:

(r r l)

• gdzie f(x) oznacza teoretyczną wartość zmiennej zależnej,

• b ₀ i b₁ odpowiednio oceny wyrazu wolnego i współczynnika kierunkowego, uzyskane na podstawie wyników z próby.

x b b

x f

y ˆ = ( ) =

₀

+

₁

(18)

Metoda Najmniejszych Kwadratów

( )

∑ ⁻ ⁺ ⁼

−

∂ =

∂

i

b b x

b y

y 2 (

₀ ₁

) 0

0

( ^ˆ ) ( ⁽

0 1

⁾ )

²

^min

2

= − + →

− ∑

∑

i

i i

i

y y b b x

y

Wyrażenie

Osiągnie min wtedy i tylko wtedy gdy

( )

∑ ⁻ ⁺ ⁼

−

∂ =

∂

i

i i

i

y b b x

b x

y 2 (

₀ ₁

) 0

1

(19)

Współczynniki równania regresji liniowej

2 1

1 1

0

) (

) )(

( 1

∑

=

−

=

−

=

 

 



 −

=

n

i

i n

i

i i

n

i

i n

i

x x

y y

x x

b

x b y

x b

n y

b

(20)

Wykres ilustrujący zależność pomiędzy

średnią temperaturą a zużyciem gazu

(21)

Interpretacja równania regresji (r r l)

• b₀jest punktem przecięcia prostej regresji z osia wartości y (rzędnych)

• b₁ oznacza przyrost wartości prostej przy jednakowym przyroście argumentu

• Łatwo wyliczyć związek współczynnika b₁ z wartością współczynnika korelacji próbkowej

x x

x b b x

b b b

− +

+

− +

= +

) 1 (

) (

)) 1 (

( ₀ ₁ ₀ ₁

1

x y x

y y

x n

i

i i

x n

i

i i

n

i

i n

i

i i

s r s s

s s

s n

y y

x x

s n

y y

x x

y y

x x

b =

−

− =

−

=

−

=

∑ ∑

∑

= =

=

) 1 (

) )(

( )

1 (

) )(

( )

(

) )(

(

1 2

1 1 1

(22)

Interpretacja równania regresji (r r l)

• Prosta regresji przechodzi przez punkt o współrzędnych odpowiadającym średnim wartościom zmiennych X i Y

• Z faktu, że MNK minimalizuje sumę kwadratów różnic e_i

• wynika, że

• Stąd wynika, że reszty nie mogą być dowolne, w szczególności nie mogą być jednakowego znaku

y x

b x

b y

x b b

x

y ˆ ( ) =

₀

+

₁

= ( −

₁

) +

₁

=

i i

i

y y

e = − ˆ

0 )

( (

ˆ )

(

₀ ₁

1 1

1

= +

−

=

−

= ∑ ∑

∑

=

x b b

y y

y

e

_i

n

i i

i n

i

(23)

Analiza modelu regresji liniowej

Model regresji liniowej prostej przyjmuje postać:

Y = E(Y/X=x) = β

₀

+ β

₁

x + ε

gdzie:

• E(Y/X=x) oznacza wartość zmiennej Y oczekiwana przy warunku, że zmienna X przyjmie wartość x

• β ₀, β₁są współczynnikami regresji liniowej,

• ε –oznacza składnik losowy (błąd).

(24)

Założenia modelu liniowego

• Estymatory b₀ i b₁ współczynników regresji β ₀ β₁ wyznaczone metodą najmniejszych kwadratów mają pożądane własności (efektywność, nieobciążoność) jeśli spełnione są warunki:

– Model jest liniowy względem parametrów, tzn. ∀ i: y_i= β ₀+ β₁x_i

– Liczba obserwacji n musi większa lub równa liczbie szacowanych parametrów (współczynników regresji) – Składnik losowy e_i ma wartość oczekiwaną równą zero

dla wszystkich i=1,..,n , tzn. E(e_i) =0

– Wariancja składnika losowego e_i (wariancja reszt) jest taka sama dla wszystkich obserwacji War (e_i) =2σ dla wszystkich i=1,…,n

– Składniki losowe są nieskorelowane, czyli e_i oraz e_jsą od siebie niezależne ∀ i ≠j i każdy ze składników

losowych ma rozkład normalny

(25)

Interpretacja wyników obliczeń dla

regresji liniowej

(26)

Weryfikacja modelu

• Najważniejsze etapy weryfikacji modelu to:

– weryfikacja merytoryczna – weryfikacja statystyczna

• W trakcie weryfikacji merytorycznej sprawdzamy zgodność wyników uzyskanych z modelu z wiedzą teoretyczną.

• Jeśli weryfikacja statystyczna wskazuje na

niedopasowanie modelu, zwykle potwierdza się to podczas weryfikacji mertorycznej

(27)

Analiza reszt

• Wariancja resztowa będąca oceną wariancji składnika losowego wyraża się wzorem

Pierwiastek z wariancji resztowej, czyli odchylenie standardowe reszt S

_e

, zwane standardowym błędem estymacji jest najczęściej stosowaną miarą zgodności modelu z danymi empirycznymi.

i i

i

y y

e = − ˆ

2

1 2 2

−

= − ∑

=

m n

e S

n

i

i e

(28)

Weryfikacja statystyczna modelu

64385 ,

2 0

1 2

2 ⇒ =

=

∑

−

=

e n

i i

e s

n e S

Średnie zużycie paliwa obliczane

z równania regresji różnią się od wartości empirycznych średnio biorąc o 0,64385 l

Obliczone estymatory współczynników regresji odchylają się od parametru b₀= 3,830 421 o wartość S_b0= 0,450851, tj.o około 12 %

b₁=0,002386 o wartość S_b1= 0,000311, tj. o około 13%

Można zweryfikować dopasowanie modelu na podstawie funkcji testowej t t= b_i/S_bi , t_b0= 8,495987 t_b1= 7,668 242

Najbardziej popularną i miarodajną oceną dopasowania modelu do danych empirycznych jest współczynnik determinacji R²

0,450851 3,830421 0,117703 0,000311 0,002386 0,130344

(29)

Współczynnik zmienności losowej

• Wielkość S_e²wskazuje na przeciętną różnicę między zaobserwowanymi wartościami zmiennej objaśnianej i wartościami teoretycznymi obliczonymi z prostej regresji.

• Współczynnik W , obliczany według wzoru

informuje o tym jaką część średniej wartości zmiennej objaśnianej stanowi błąd standardowy estymacji.

• Po wyznaczeniu równania regresji ( modelu) należy sprawdzić hipotezę o istotności otrzymanych współczynników regresji,

• W tym celu przeprowadzamy testy istotności t .

% 9 0902

. 138 0

. 7

64385 .

0 = ≈

=

= y

W S

^e

(30)

Interpretacja współczynnika determinacji R

²

∑

= = =

+

−

=

−

ⁿ

i

i i

n

i i

n

i

e y

y y

y

1 2 2

1 2

1

ˆ ) ( )

(

Można pokazać, że

Całkowita suma kwadratów - CSK

Wyjaśniona przez model suma kwadratów - WSK

Resztkowa suma kwadratów RSK

Zmienność niewyjaśniona przez model

y_i

CSK

RSK WSK

y=b₁x +b₀ x_i

yˆ

i

y

(31)

Interpretacja współczynnika determinacji R

²

R²=0,7277 oznacza, że 72,77% ogólnej zmienności zmiennej zależnej, zużycia paliwa, jest objaśniona przez równanie regresji,

w którym zmienną objaśniającą jest pojemność silnika.

Uwagi: wspólczynnik determinacji w pewnych okolicznościach może dawać błędne wyjaśnieni zmienności Y, np:

– gdy n=2 wtedy zawsze R²=1

– gdy n jest niewiele większe od 2 lepiej stosować tzw poprawiony R² poprawione R², mówi jak dobrze byłoby dopasowane nasze równanie

do innej próby z tej samej populacji, zawsze jest mniejsze od R² z próby.

– gdy w modelu nie uwzględniliśmy wyrazu wolnego tzn y=b₁x – gdy model jest nieliniowy

– gdy zastosowano inną metodę niż MNK CSK WSK y

y

y y

R _n

i

i n

i

i =

−

=

∑

=

1

2 1

2 2

) (

ˆ ) (

(32)

Inne wskaźniki dopasowania modelu

• Współczynnik zmiennej zależnej względem zmiennej niezależnej beta

• Wyliczonych wartości współczynników regresji nie można

porównywać ze względu na inne jednostki miary. Normalizujemy równanie regresji i otrzymujemy

• Jeśli β = 0,853 oznacza to, że zmiana zmiennej niezależnej o jedno odchylenie standardowe powoduje zmianę wartości zależnej

zmiennej o 0,853 jej odchylenia standardowego.

• Zaletą tej interpretacji jest niezależność od jednostek miary

• Zauważmy, że β = 0,853070 = r (współczynnikowi korelacji liniowej.

i x

i y

i

e

s

x x

s

y

y − = β − +

(33)

Inne wskaźniki dopasowania modelu

• Obliczanie elastyczności Y względem X według wzoru

• Pokazuje o ile procent zmienia się wartość Y gdy wartość X zmieni się o 1%

• 0,002386 * 1385,917/7,138 = 0,463

• oznacza to, że w otoczeniu średnich zmiana pojemności silnika o 1% powoduje zmianę zużycia paliwa o około 0,5%

Y

b

₁

X

(34)

Weryfikacja hipotez

Należy zbadać

• istotność współczynnika kierunkowego; Nieodrzucenie hipotezy o braku wpływu x na y świadczy o wadliwości modelu

• istotność współczynnika determinacji

• istotność liniowego związku pomiędzy analizowanymi zmiennymi

(35)

Regresja wieloraka

(36)

Regresja wieloraka

W celu wykonania wykresu należy

prawym przyciskiem myszy kliknąć w obrębie zmiennej x -

średnia temperatura dobowa

(37)

Wykres rozrzutu z dopasowaną linią regresji

(38)

(39)

Postać związków – przykłady dla

jednowymiarowej zmiennej objaśnianej (y), gdy jedna jest zmienna objaśniająca (x)

y=2x+1

0 1 2 3 4 5 6

0 0,5 1 1,5 2 2,5

y=1+xcos(x)

-3,00 -2,00 -1,00 0,00 1,00 2,00

0 1 2 3 4

x

y= EXP(x)

0 ,0 0 1 ,0 0 2 ,0 0 3 ,0 0 4 ,0 0 5 ,0 0 6 ,0 0 7 ,0 0 8 ,0 0

0 0,5 1 1 ,5 2 2,5

x

a b

c d

y=log x

-1,50 -1,00 -0,50 0,00 0,50 1,00

0 0,5 1 1,5 2 2,5 3 3,5 4

(40)

Linearyzacja funkcji nieliniowych

b x

a y

ab

y =

^x

log = log + log

bx a

y ae

y =

^bx

ln = ln +

x b

a y

ax

y =

^b

ln = ln + ln

2 2

1 2

1

2

y a bx cx gdzie x x x x

cx bx

a

y = + + = + + = =

(41)

Regresja wielomianowa dla n=2

( ⁻ ^ˆ )

²

⁼ ^∑ ( ⁻

⁰

⁻

¹

⁻

² ²

)

²

^→ ^min

∑

i

i i

i

y y b b x b x

y

2 2 1

)

0

ˆ f ( x b b x b x

y = = + +

Współczynniki b₀, b₁ i b₂ wyznaczymy z układu trzech równań utworzonych z trzech pochodnych obliczonych

względem zmiennych b₀ , b₁ i b₂ i przyrównanych do zera

(42)

Regresja wielomianowa

(43)

Typowanie postaci zależności-

Statistica/wykresy/ wykresy rozrzutu 2W

(44)

(45)

Analiza zbioru danych

(46)

Odkrywanie i analiza zależności

(47)

Odkrywanie i analiza zależności

(48)

Interpretacja wykresów powierzchniowych

(49)

Macierz korelacji

(50)

Korelacje cząstkowe

) 1

)(

1 (

₁₃² ₂₃²

23 13

12 3

.

12

r r

r r r r

−

= −

Związek korelacyjny pomiędzy zmiennymi X

₁

i X

₂

, z wyłączeniem działania zmiennej X

₃

Gdy interesuje nas związek pomiędzy dwiema wybranymi

zmiennymi przy wyłączeniu wpływu pozostałych zmiennych

– liczymy współczynnik korelacji cząstkowej

(51)

Analiza wpływu wybranych zmiennych

na zużycie paliwa

Liczba urodzonych dzieci

Statystyka i opracowanie danych W 5:

Odkrywanie i analiza zależności pomiędzy

zmiennymi losowymi (danymi empirycznymi)

Odkrywanie i analiza zależności pomiędzy zmiennymi ilościowymi (liczbowymi)

Metody statystyczne stosuje się do badania struktury zbiorowości

i zależności pomiędzy jej cechami

Wprowadzenie do analizy zależności pomiędzy danymi statystycznymi

Przykłady związków funkcyjnych

i statystycznych

Rodzaje zależności pomiędzy danymi - zależność funkcyjna

• Istota zależności funkcyjnej polega na tym, że zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości drugiej

zmiennej.

• W przypadku zależności funkcyjnej: y = f (x), każdej wartości zmiennej (X) odpowiada jedna i tylko jedna wartość zmiennej (Y).

• Symbolem X oznaczamy zmienną objaśniającą

(niezależną), natomiast symbolem Y - zmienną

objaśnianą (zależną ).

Rodzaje zależności pomiędzy danymi Zależność korelacyjna

• Zależność stochastyczna występuje wtedy, gdy wraz ze zmianą wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej

• Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna (statystyczna).

• Zależność korelacyjna polega na tym, że określonym

wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej.

• Związki typu statystycznego są możliwe do wykrycia oraz ilościowego opisu w przypadku, kiedy mamy do czynienia z wieloma obserwacjami, opisującymi badane obiekty,

zjawiska czy też procesy

Badanie zależności statystycznych pomiędzy danymi empirycznymi

• W badaniach statystycznych zależności pomiędzy

cechami najczęściej sprowadza się do funkcji liniowych.

• Nieliniowe związki pomiędzy zmiennymi mogą być

opisywane przez wielomiany drugiego i wyższych stopni albo przez inne funkcje (wykładnicze, logarytmiczne, trygonometryczne itp.) .

• Przy podejmowaniu decyzji o wyborze funkcji

aproksymacyjnej, opisującej w przybliżeniu związek pomiędzy analizowanymi cechami, pomocne jest

sporządzenie wykresu rozrzutu wartości badanych zmiennych.

• Jeśli okaże się, że pomiędzy zmiennymi widoczna jest

zależność i nie jest ona liniowa, wówczas trzeba znaleźć

odpowiednie rozwiązanie nieliniowe

Przykłady układów punktów przy różnych

wartościach współczynnika korelacji liniowej

Miarą siły i kierunku zależności liniowej jest współczynnik korelacji liniowej

• Statystyką, która opisuje siłę liniowego związku pomiędzy dwiema zmiennymi jest współczynnik korelacji z próby

(

• Przyjmuje on wartości z przedziału domkniętego <-1; 1>.

• Wartość -1 oznacza występowanie doskonałej korelacji ujemnej (to znaczy sytuację, w której punkty leżą

dokładnie na prostej, skierowanej w dół), a wartość 1 oznacza doskonałą korelację dodatnią (punkty leżą

dokładnie na prostej, skierowanej w górę).

• Wartość 0 oznacza brak korelacji liniowej

) ( ) (

) , cov(

Y D X D

Y

= X

ρ

Wzór do obliczania empirycznego współczynnika korelacji ma postać

Test istotności współczynnika korelacji liniowej (Pearsona)

2

1

−

= − n

r

t r n

r u r

1 −

=

Niejednoznaczność informacji przekazywanej przez współczynnik korelacji - przykład

R=0.9825

Regresja prosta (regresja liniowa)

Istota metody najmniejszych kwadratów - MNK

( ˆ )

min

= ∑ − =

∑

y y

ε

Dopasowanie modelu matematycznego do danych rzeczywistych

x b b

x f

y ˆ = ( ) =

+

Metoda Najmniejszych Kwadratów

( )

∑ − + =

t r ⁿ

( ^ˆ )

^min

∑ ⁻ ⁺ ⁼

( ^ˆ ) ( ⁽

⁾ )

^min

∑ ⁻ ⁺ ⁼