• Nie Znaleziono Wyników

Testowanie jakoci dopasowania.

N/A
N/A
Protected

Academic year: 2021

Share "Testowanie jakoci dopasowania."

Copied!
10
0
0

Pełen tekst

(1)

Testowanie jakości dopasowania.

Test

χ

2 jakości dopasowania

Metoda najmniejszych kwadratów opiera się na założeniu, że najlepszą funkcją opisującą zależność między wielkościami jest taka, która

minimalizuje ważoną sumę kwadratów odchyleń wartości

y

i od dopasowywanej funkcji

y

(

x

i

)

. Tę sumę można scharakteryzować wielkością wariancji dopasowania

s

2, która jest estymatorem wariancji danych

σ

2. Dla funkcji

y

(

x

i

)

, liniowo zależnej od

m

parametrów i dopasowanej do

n

punktów, mamy:

( )

[

]

{

}

( )

( )

[

]

= = =

=

=

n i i i i n i i n i i i i

x

y

y

w

n

x

y

y

m

n

s

1 2 1 2 1 2 2 2

1

(

)

1

1

)

(

1

1

ν

σ

σ

gdzie czynnik

ν

=

n

m

jest liczbą stopni swobody dopasowania funkcji o

m

parametrach do

n

punktów, a czynniki wagowe dla każdego punktu wynoszą

( )

=

=

n i i i i

n

w

1 2 2

1

1

1

σ

σ

i są równe odwrotnościom wariancji

1

σ

i2 opisującym niepewności pomiarowe dla tego punktu unormowanych do średniej z wszystkich czynników wagowych

(

w

i

=

n

)

.

Wariancja dopasowania jest również scharakteryzowana przez samą wartość

χ

2:

[

]

=

n i i i i

x

y

y

1 2 2 2

1

(

)

σ

χ

gdzie

)

(

)

(

1

=

=

m j i j j i

a

f

x

x

y

Związek między

s

2 a

χ

2 najwyraźniej widać, jeżeli porównać

s

2 ze zredukowana

χ

ν2:

(2)

2 2 2 2 ν i

s

σ

ν

χ

χ

=

=

albo 2 2 2 i

s

σ

ν

χ

=

gdzie

σ

i2 jest ważoną średnią indywidualnych wariancji:

1 2 2 2 2 2

1

1

1

1

1

1

=













=

i i i i i

n

n

n

σ

σ

σ

σ

σ

i jest równe

σ

2 w przypadku gdy wszystkie niepewności są jednakowe

σ

σ

i

=

.

Wariancja

σ

2 charakteryzuje rozkład jakiemu podlegają wartości wielkości mierzonej – jest miarą rozrzutu wartości mierzonych – i nie może być miarą jakości dopasowania. Z drugiej strony estymator wariancji dopasowania

s

2 względem dopasowanej funkcji jest miarą rozrzutu zarówno samych danych jak i jakości dopasowania. Zatem określenie

χ

2 jako stosunku wariancji dopasowania

s

2 do wariancji samych danych

σ

2 pomnożonego przez liczbę stopni swobody robi z niej wygodną miarę jakości dopasowania.

Jeżeli dopasowana funkcja jest dobrym przybliżeniem rzeczywistej zależności, to wartość

s

2 powinna zgadzać się z wartością

σ

2, a

wartość zredukowana

χ

ν2 powinna być około jedności, 2

1

ν

χ

. Jeżeli dopasowana funkcja nie jest właściwa dla danych punktów, to różnice

)

(

i

i

y

x

y

będą większe i większa będzie wariancja dopasowania dając wartość

χ

ν2 większa od jedności. Wartość

χ

ν2 mniejsza od 1 nie

oznacza koniecznie lepszego dopasowania – jest prostym

odzwierciedleniem faktu, że wartości

s

2 i

χ

ν2 są też zmiennymi losowymi i fluktuują od jednej serii pomiarowej do drugiej. Bardzo mała wartość

2 ν

χ

może oznaczać pomyłkę przy ustalaniu niepewności wartości wielkości mierzonej.

(3)

W tablicach statystycznych można znaleźć wartości dystrybuanty rozkładu

χ

2 i obliczyć prawdopodobieństwo:

2 2 2

;

)

(

;

)

(

2

dx

x

p

P

=

χ χ χ

χ

ν

ν

,

że przypadkowy zestaw danych wylosowanych z rozkładu wyjściowego da wartość

χ

2 równą lub większą od danej.

W przypadku właściwego doboru funkcji i dobrego dopasowania doświadczalna wartość

χ

ν2 powinna być bliska oczekiwanej

i prawdopodobieństwo

(

χ

2

;

ν

)

χ

P

powinno wynosić około 0,5. Gorsze dopasowanie da powiększoną wartość

χ

ν2, a odpowiednie

prawdopodobieństwo będzie mniejsze.

Trzeba pamiętać o pewnej dwuznaczności

χ

ν2, która jest zależna zarówno od danych pomiarowych i od wybranej funkcji, a zatem nawet właściwie dobrana funkcja może dać czasami dużą wartość

χ

ν2.

(4)

Współczynnik korelacji liniowej

Dane pomiarowe składają się z par zmierzonych wartości wielkości fizycznych

{

x ,

i

y

i

}

. Zanim dopasujemy do nich funkcje liniową (lub jakąkolwiek inną), powinniśmy zapytać, czy między mierzonymi wielkościami w ogóle występuje jakaś zależność fizyczna.

Jeżeli założymy, że wielkość

Y

jest wielkością zależną, to chcielibyśmy wiedzieć, czy dane dają się przedstawić przy pomocy funkcji liniowej

b

x

a

y

=

+

Poprzednio otrzymaliśmy analityczne rozwiązanie dla najlepszej (w sensie metody minimalizacji

χ

2) parametru

a

, który jest

współczynnikiem kierunkowym dopasowanej funkcji

( )

2 2

=

i i i i i i

x

x

n

y

x

y

x

n

a

(czynniki wagowe zostały opuszczone dla lepszej przejrzystości wzoru). Jeżeli wielkości

X

i

Y

są niezależne od siebie, to również niezależne i nieskorelowane są wyniki pomiarów. Nie powinniśmy obserwować żadnej tendencji wzrostu (lub zmniejszania się) wartości

y

wraz ze wzrostem

x

, a współczynnik kierunkowy

a

wyniesie 0.

Ponieważ interesuje nas wzajemna relacja między wielkościami

X

i

Y

, to równie dobrze możemy zapytać o zależność

'

'

y

b

a

x

=

+

.

W tym wypadku parametry

a

'

i

b

'

będą miały inne wartości (i wymiary), ale jeżeli dane są skorelowane, to powinien między nimi zachodzić jakiś związek. Dla parametru

a

'

można otrzymać rozwiązanie w postaci

(

)

2 2

'

=

i i i i i i

y

y

n

y

x

y

x

n

a

i jeśli dane nie są skorelowane, to znowu współczynnik kierunkowy odwróconej zależności powinien wynosić

a

'

=

0

.

Jeżeli dane są zależne w sposób całkowicie jednoznaczny (całkowicie skorelowane), to powinien zachodzić związek

b

x

a

a

b

x

a

y

=

=

+

'

'

'

1

(5)

oraz równość współczynników

a

a

'

=

1

b

a

b

=

'

'

.

W przypadku całkowitej korelacji

a

a

'

=

1

. Jeżeli nie ma żadnej korelacji, to oba współczynniki są zerami i związek powyżej w ogóle nie zachodzi. Jeżeli zdefiniujemy, jako miarę korelacji liniowej, wielkość

r

'

2

a

a

r

albo

( )

2 2

(

)

2 2

i i i i i i i i

y

y

n

x

x

n

y

x

y

x

n

r

.

Współczynnik korelacji

r

przyjmuje wartości od 0, w przypadku braku korelacji, do ±1 przy całkowitej korelacji. Znak nie jest istotny dla istnienia korelacji, ważna jest natomiast wartość bezwzględna współczynnika.

Najczęściej istnienie korelacji testujemy porównując otrzymaną wartość

r

z rozkładem prawdopodobieństwa dla populacji, która jest całkowicie nieskorelowana. Porównanie daje nam informację, czy jest

prawdopodobne, że analizowane dane mogły zostać wylosowane z populacji nieskorelowanej. Jeżeli prawdopodobieństwo przypadkowego otrzymania wartości równej lub większej od

r

(lub równej lub mniejszej od

r

) jest niewielkie, to mamy prawo sądzić, że nasze dane są

skorelowane.

Współczynnik korelacji liniowej (w przypadku braku korelacji między zmiennymi) ma następujący symetryczny rozkład prawdopodobieństwa:

(

)

[

]

( )

2

(

1

2

)

( 2) 2

2

1

1

)

;

(

Γ

+

Γ

=

ν

ν

ν

π

ν

x

x

p

r

Tablice statystyczne podają wartości prawdopodobieństwa dla

n

nieskorelowanych par wartości

(

) (

)

[

>

<

]

=

=

2

1

(

;

2

)

)

;

(

r r c

r

n

P

x

r

x

r

p

x

n

dx

P

(6)

Przykład

1.

Dla danych liczbowych z przykładu pomiarów spadku napięcia wzdłuż drutu oporowego otrzymujemy

( )

2 2

(

)

2 2

=

i i i i i i i i

y

y

n

x

x

n

y

x

y

x

n

r

(

)

2

(

)

2

44

,

12

32

,

21

9

0

,

450

28500

9

44

,

12

0

,

450

3

,

779

9

×

×

×

×

=

=

0

,

9994

W tablicach znajdujemy dla

n

=

9

wartość

P

c

(0,898; 9) = 0,001

.

Oznacza to, że.

P

c

(0,9994; 9) < 0,001

2.

Dla danych liczbowych z pomiarów liczby impulsów licznika G-M w funkcji odległości preparatu otrzymujemy:

(

)

2 2

(

)

2 2

×

=

i i i i i i i i i i i i i i i i i i

y

w

y

w

w

x

w

x

w

w

y

w

x

w

y

x

w

w

r

( )

(

2

)

(

( )

2

)

y yy w x xx w y x xy w

S

S

S

S

S

S

S

S

S

S

×

=

(

)

(

2

)

(

( )

2

)

0

,

10

0

,

3693

03570

,

0

1868

,

0

912

,

1

03570

,

0

0

,

10

1868

,

0

02

,

81

03570

,

0

×

×

×

×

×

=

=

0

,

9938

Dla

n

=

10

w tablicach znajdujemy

001

,

0

)

10

;

872

,

0

(

)

10

;

9938

,

0

(

<

c

=

c

P

P

.

W obu przykładach odpowiednie prawdopodobieństwa są na tyle małe, że z dużą pewnością możemy uznać istnienie korelacji między

(7)

Współczynniki korelacji liniowej między wieloma zmiennymi

Jeżeli zmienna zależna jest liniową funkcją więcej niż jednej zmiennej niezależnej,

!

+

+

+

+

=

0 1 i1 2 i2 3 i3 i

a

a

x

a

x

a

x

y

to możemy sprawdzać korelacje między

{ }

y

i a każdą ze zmiennych niezależnych

{ }

x

ij (pierwszy indeks oznacza numer pomiaru, a drugi zmiennej niezależnej). Nie ma znaczenia, czy

x

ij są oddzielnymi zmiennymi, potęgami

x

i, czy dowolnymi funkcjami

f

j

( )

x

i .

Wprowadzimy pojęcie kowariancji z próby

s

jk:

(

)

(

)

[

]

=

n i k ik j ij jk

x

x

x

x

n

s

1

1

1

gdzie odpowiednie średnie wynoszą oczywiście:

=

=

n i ij j

x

n

x

1

1

=

=

n i ik k

x

n

x

1

1

(wagi są pominięte, żeby nie komplikować formy wzorów).

Przy takim podejściu estymatorem wariancji z próby

j

-tej zmiennej jest

(

)

=

=

n i j ij jj j

x

x

n

s

s

1 2 2

1

1

Trzeba zwrócić uwagę, że wariancje z prób są miarą szerokości przedziałów zmienności odpowiednich zmiennych i nie maja nic wspólnego z niepewnościami, z jakimi mierzymy ich wartości.

(8)

Zauważmy, że

(

)

(

)

[

]

=

n i k ik j ij jk

x

x

x

x

n

s

1

1

1

(

)

=

+

=

n i k j k ij ik j ik ij

x

x

x

x

x

x

x

x

n

1

1

1

(

)

=

+

=

n i k j k ij ik j ik ij

x

x

x

x

x

x

x

x

n

1

1

1





+

=

= = = = n i k j n i k ij n i ik j n i ik ij

x

x

x

x

x

x

x

x

n

1

1 1 1 1

1





+

=

= = = = n i k j n i ij k n i ik j n i ik ij

x

x

x

x

x

x

x

x

n

1 1 1 1

1

1

1





+

=

=

n

x

x

x

n

x

x

n

x

x

x

n

j k k j j k n i ik ij

1

1

1





=





=

∑ ∑

= = = = n i n i ik ij n i ik ij k j n i ik ij

x

x

n

x

x

n

x

x

n

x

x

n

1 1 1 1

1

1

1

1

1

Porównując to z wzorem definiującym współczynnik korelacji

( )

(

2 2

)

(

2

(

)

2

)

=

i i i i i i i i

y

y

n

x

x

n

y

x

y

x

n

r

,

który po podzieleniu licznika i mianownika przez

n

przyjmuje postać

( )

(

2 1 2

)

(

2 1

(

)

2

)

1

=

i n i i n i i i n i i

y

y

x

x

y

x

y

x

r

możemy przez analogię zapisać

k j jk jk

s

s

s

r

=

. jk

r

jest współczynnikiem korelacji liniowej z próby między dwoma dowolnymi zmiennymi

x

j i

x

k. Podobnie współczynnikiem korelacji między

j

-tą zmienną

x

j a zmienną zależną

y

jest

y j jy jy

s

s

s

r

=

.

(9)

W szczególnym przypadku dopasowania wielomianu

=

=

m k k k

x

a

x

y

0

)

(

,

kolejne zmienne

x

j są potęgami zmiennej niezależnej

x

j

i ij

x

x

=

i współczynnik korelacji między zmienną zależną i

j

-tym składnikiem wielomianu wynosi y j jy jy

s

s

s

r

=

gdzie

=

= = 2 1 1 2 2

1

1

1

n i j i n i j i j

x

n

x

n

s

=

= = 2 1 1 2 2

1

1

1

n i i n i i y

y

n

y

n

s





=

∑ ∑

= = = n i n i i j i n i i j i jy

x

y

n

y

x

n

s

1 1 1

1

1

1

Jeżeli niepewności punktów pomiarowych nie są wszystkie jednakowe, to musimy uwzględnić odpowiednie wagi statystyczne w definicjach wariancji, kowariancji i współczynnika korelacji z próby. Wzory na wartości współczynników korelacji w formie

k j jk jk

s

s

s

r

=

pozostają niezmienione. Wzory na wariancje i kowariancje z próby muszą 9natomiast być zmodyfikowane:

(

)

(

)

= =

n i i n i k ik j ij i jk

n

x

x

x

x

n

s

1 2 1 2

1

1

1

1

1

σ

σ

(10)

(

)

= =

n i i n i j ij i jj j

n

x

x

n

s

s

1 2 1 2 2 2

1

1

1

1

1

σ

σ

.

Średnie

x

j i

x

k są też ważone

= = =

=

=

n i i n i i ij n i i ij j

x

w

x

n

x

1 2 1 2 1

1

1

σ

σ

unormowanymi czynnikami wagowymi równymi

( )

=

=

n i i i i

n

w

1 2 2

1

1

1

σ

σ

Cytaty

Powiązane dokumenty

W wyniku odpowiedniego przekształcenia współczynnika korelacji Pearsona dla przypadku pary szeregów szczegółowych, o obserwacjach w postaci ciągów liczb naturalnych, uzyskuje

Z kolei analizując rozrzut obserwacji ze względu na wartości zmiennej objaśniającej fiber oraz objaśnianej rating już tak silnej zależności nie dostrzegamy.. Sprawdźmy jak

Oblicz współczynnik korelacji liniowej Pearsona R i R 2 pomiędzy ilością zużytego oleju a liczbą przejechanych kilometrów.. W komórce odpowiadającej wartości

• zakłada się, że rozważane zmienne zostały zmierzone co najmniej na skali porządkowej (rangowej), tzn. że indywidualne obserwacje mogą być zestawione

W celu sprawdzenia tego przypuszczenia wylosowano 10 gospodarstw domowych, dla których określono roczny dochód na głowę członka gospodarstwa domowego (zmienna X) oraz roczne

Jednocześnie stwierdzono dobrą dokładność wyznaczenia zmiany długości odcinków pomiarowych, co umożliwia precyzyjne wnioskowanie o zmianach szerokości rozwarcia

Na podstawie anali- zy dopuszczalnych stężeń dla kadmu ujętych w rozporządzeniu KE [2011] oraz rozporządzeniu Ministra Środowiska [2003] można stwierdzić, że stężenie tego

Przykładowe rozwiązania zadań