Problem doboru zmiennych w modelu liniowym

(1)

Problem doboru zmiennych w modelu liniowym

W poniższej tabeli zebrano dane dotyczące wartości miesięcznej sprzedaży (Volume) w 20 aptekach.

Zebrano także informacje dotyczące powierzchni apteki (Floor space), procent całkowitej powierzchni zajmowanej przez dział sprzedaży leków na receptę (PrescRX), liczby miejsc parkingowych, czy apteka jest w centrum handlowym, dochód na osobę okolicznej ludności

Dobrać odpowiedni model wyjaśniający wielkość sprzedaży apteki Ott 461

1 Volume

2 Floor space

3 Presc RX

4 Parking

5 ShopCntr

6 Income 1

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

22 4900 9 40tak 18

19 5800 10 50tak 20

24 5000 11 55tak 17

28 4400 12 30nie 19

18 3850 13 42nie 10

21 5300 15 20tak 22

29 4100 20 25nie 8

15 4700 22 60tak 15

12 5600 24 45tak 16

14 4900 27 82tak 14

18 3700 28 56nie 12

19 3800 31 38nie 8

15 2400 36 35nie 6

22 1800 37 28nie 4

13 3100 40 43nie 6

16 2300 41 20nie 5

8 4400 42 46tak 7

6 3300 42 15nie 4

7 2900 45 30tak 9

17 2400 46 16nie 3

Nieparametryczna ANOVA Friedmana.

Sześciu sędziów poproszono o ocenę ośmiu rodzajów czerwonego wina o porównywalnych cenach.

Poniższa tabela przedstawia ranking win u poszczególnych sędziów. (1-oznacza wino najlepsze a 8 najgorsze.

Czy poszczególne rodzaje wina istotnie różnią się między sobą?

W jakim stopniu sędziowie są zgodnimiędzy sobą w ocenach rodzajów wina?

Wino

A B C D E F G H

S ę d z i a

1 1 4 2 3 5 8 7 6

2 2 3 1 4 6 7 8 5

3 3 1 2 4 5 8 6 7

4 1 2 3 4 5 6 8 7

5 1 2 3 4 7 8 6 5

6 2 3 1 5 4 6 7 8

(2)

Model

 ^X^ij ^^m^^ⁱ ^^^j ^^^ij, i=1,...,n, j=1,...,k (n=6, k=8)

 0

1





 n i

i , ⁰

1





 k j

j

 ij iid o pewnej ciągłej dystrybuancie F i E⁽ij⁾^⁰ , V⁽^ij⁾^^²

Wiersze traktujemy jako jednorodne bloki a kolumny jako zabiegi Testujemy hipotezę, że wina nie różnią się między sobą

H0: 1=...=k przeciwko alternatywie H1: H0

Procedura testowania powinna być niezmiennicza ze względu na transformacje zachowujące porządek ( w jednorodnych blokach) Jednorodność bloku zapewniamy poprzez zastosowanie dla każdego bloku (sędziego) porządkowej skali o k kategoriach.

Rangujemy więc obserwacje w każdym z bloków z osobna i oznaczamy Rij =R(Xij) - ranga j -tej obserwacji w i-tym bloku ( stąd 1  Rij  k )

Oznaczmy (dla j=1,...,k )





  ⁿ

i ij

j R

R

1

-suma rang dla j (j-tego zabiegu, u nas dla j-tego wina)

Oczywiście 2

) 1 ( 



^k  ^k ^k

j

Rij . Jeżeli prawdziwa jest hipoteza H0 , to E(R__j) ¹_k ^nk⁽₂^k^¹⁾  ⁿ⁽^k₂^¹⁾

Statystyka

  





 

 ^k

j

j E R

R S

1

) 2

( mierzy różnicę pomiędzy kolumnami (zabiegami, tu winami)

Statystyka F Friedmana oparta na S ma postać

) 1 ( ) 3

1 (

12 )

1 ( 12

1

2  

 





 n k

k R nk k

nk

F S ^k

j

j i ma asymptotyczny (n) rozkład _k²_₁ Dla k<6 są tablice rozkładu F dla małych n . Zobacz ( Zieliński R., Zieliński W. Tablice statystyczne str. 406 -Uwaga u Zielińskich obserwacje są rangowane w kolumnach -macierz obserwacji jest wiec transpozycją macierzy tu rozważanej))

Jeżeli wina (zabiegi) istotnie różnią się między sobą , to dlatego że sędziowie byli zgodni między sobą w swoich ocenach. Miarą tej zgodności jest Kendalla współczynnik zgodności

) 1 ( 

n k

W F , który przyjmuje wartości z przedziału [0, 1] ( sprawdzić )

ANOVA Friedmana i współczynnik zgodności Kendalla Chi kwad. ANOVA(N = 6, df = 7) = 35,94444 p < ,00001 Współczynnik zgodności= ,85582 r śred. rang = ,82698

Średnia Suma

(3)

Ranga Rang Średnia Odch.std

WINO_A 1,666667 10,00000 1,666667 ,816497

WINO_B 2,500000 15,00000 2,500000 1,048809

WINO_C 2,000000 12,00000 2,000000 ,894427

WINO_D 4,000000 24,00000 4,000000 ,632456

WINO_E 5,333333 32,00000 5,333333 1,032796

WINO_F 7,166667 43,00000 7,166667 ,983192

WINO_G 7,000000 42,00000 7,000000 ,894427

WINO_H 6,333333 38,00000 6,333333 1,21106

Nieparametryczna ANOVA Kruskalla-Wallisa

Sześć różnych modeli samochodów zachwala się jako modele o takim samym zużyciu paliwa W celu sprawdzenia tej informacji wybrano losowo po kilka samochodów każdego modelu Każdy z tych samochodów zatankował 5 galonów tego samego paliwa i wyruszył w trasę . Mierzono ilość przejechanych mil do wyczerpania paliwa .Warunki drogowe i pogodowe były takie same dla wszystkich samochodów. Wyniki przedstawia poniższa tabela

Model Ilość przejechanych mil

A 66 68 67 70 69 68 71 72

B 71 75 78 79 76 78 76

C 89 90 95 90 92 96 94

D 107 105 98 106 104 95

E 115 118 122 116 118 117

F 130 132 121 129 130 126

Przetestować hipotezę, że rozkłady przejechanych mil dla poszczególnych modeli są takie same

1 Mile

2 Model

3 Zmn3 1

2 3 4 5 6 7 8 9

66 1

68 1

67 1

70 1

69 1

68 1

71 1

72 1

71 2