Problem doboru zmiennych w modelu liniowym
W poniższej tabeli zebrano dane dotyczące wartości miesięcznej sprzedaży (Volume) w 20 aptekach.
Zebrano także informacje dotyczące powierzchni apteki (Floor space), procent całkowitej powierzchni zajmowanej przez dział sprzedaży leków na receptę (PrescRX), liczby miejsc parkingowych, czy apteka jest w centrum handlowym, dochód na osobę okolicznej ludności
Dobrać odpowiedni model wyjaśniający wielkość sprzedaży apteki Ott 461
1 Volume
2 Floor space
3 Presc RX
4 Parking
5 ShopCntr
6 Income 1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
22 4900 9 40tak 18
19 5800 10 50tak 20
24 5000 11 55tak 17
28 4400 12 30nie 19
18 3850 13 42nie 10
21 5300 15 20tak 22
29 4100 20 25nie 8
15 4700 22 60tak 15
12 5600 24 45tak 16
14 4900 27 82tak 14
18 3700 28 56nie 12
19 3800 31 38nie 8
15 2400 36 35nie 6
22 1800 37 28nie 4
13 3100 40 43nie 6
16 2300 41 20nie 5
8 4400 42 46tak 7
6 3300 42 15nie 4
7 2900 45 30tak 9
17 2400 46 16nie 3
Nieparametryczna ANOVA Friedmana.
Sześciu sędziów poproszono o ocenę ośmiu rodzajów czerwonego wina o porównywalnych cenach.
Poniższa tabela przedstawia ranking win u poszczególnych sędziów. (1-oznacza wino najlepsze a 8 najgorsze.
Czy poszczególne rodzaje wina istotnie różnią się między sobą?
W jakim stopniu sędziowie są zgodnimiędzy sobą w ocenach rodzajów wina?
Wino
A B C D E F G H
S ę d z i a
1 1 4 2 3 5 8 7 6
2 2 3 1 4 6 7 8 5
3 3 1 2 4 5 8 6 7
4 1 2 3 4 5 6 8 7
5 1 2 3 4 7 8 6 5
6 2 3 1 5 4 6 7 8
Model
Xij mi j ij, i=1,...,n, j=1,...,k (n=6, k=8)
0
1
n i
i , 0
1
k j
j
ij iid o pewnej ciągłej dystrybuancie F i E(ij)0 , V(ij)2
Wiersze traktujemy jako jednorodne bloki a kolumny jako zabiegi Testujemy hipotezę, że wina nie różnią się między sobą
H0: 1=...=k przeciwko alternatywie H1: H0
Procedura testowania powinna być niezmiennicza ze względu na transformacje zachowujące porządek ( w jednorodnych blokach) Jednorodność bloku zapewniamy poprzez zastosowanie dla każdego bloku (sędziego) porządkowej skali o k kategoriach.
Rangujemy więc obserwacje w każdym z bloków z osobna i oznaczamy Rij =R(Xij) - ranga j -tej obserwacji w i-tym bloku ( stąd 1 Rij k )
Oznaczmy (dla j=1,...,k )
n
i ij
j R
R
1
-suma rang dla j (j-tego zabiegu, u nas dla j-tego wina)
Oczywiście 2
) 1 (
k k kj
Rij . Jeżeli prawdziwa jest hipoteza H0 , to E(Rj) 1k nk(2k1) n(k21)
Statystyka
k
j
j
j E R
R S
1
) 2
( mierzy różnicę pomiędzy kolumnami (zabiegami, tu winami)
Statystyka F Friedmana oparta na S ma postać
) 1 ( ) 3
1 (
12 )
1 ( 12
1
2
n k
k R nk k
nk
F S k
j
j i ma asymptotyczny (n) rozkład k21 Dla k<6 są tablice rozkładu F dla małych n . Zobacz ( Zieliński R., Zieliński W. Tablice statystyczne str. 406 -Uwaga u Zielińskich obserwacje są rangowane w kolumnach -macierz obserwacji jest wiec transpozycją macierzy tu rozważanej))
Jeżeli wina (zabiegi) istotnie różnią się między sobą , to dlatego że sędziowie byli zgodni między sobą w swoich ocenach. Miarą tej zgodności jest Kendalla współczynnik zgodności
) 1 (
n k
W F , który przyjmuje wartości z przedziału [0, 1] ( sprawdzić )
ANOVA Friedmana i współczynnik zgodności Kendalla Chi kwad. ANOVA(N = 6, df = 7) = 35,94444 p < ,00001 Współczynnik zgodności= ,85582 r śred. rang = ,82698
Średnia Suma
Ranga Rang Średnia Odch.std
WINO_A 1,666667 10,00000 1,666667 ,816497
WINO_B 2,500000 15,00000 2,500000 1,048809
WINO_C 2,000000 12,00000 2,000000 ,894427
WINO_D 4,000000 24,00000 4,000000 ,632456
WINO_E 5,333333 32,00000 5,333333 1,032796
WINO_F 7,166667 43,00000 7,166667 ,983192
WINO_G 7,000000 42,00000 7,000000 ,894427
WINO_H 6,333333 38,00000 6,333333 1,21106
Nieparametryczna ANOVA Kruskalla-Wallisa
Sześć różnych modeli samochodów zachwala się jako modele o takim samym zużyciu paliwa W celu sprawdzenia tej informacji wybrano losowo po kilka samochodów każdego modelu Każdy z tych samochodów zatankował 5 galonów tego samego paliwa i wyruszył w trasę . Mierzono ilość przejechanych mil do wyczerpania paliwa .Warunki drogowe i pogodowe były takie same dla wszystkich samochodów. Wyniki przedstawia poniższa tabela
Model Ilość przejechanych mil
A 66 68 67 70 69 68 71 72
B 71 75 78 79 76 78 76
C 89 90 95 90 92 96 94
D 107 105 98 106 104 95
E 115 118 122 116 118 117
F 130 132 121 129 130 126
Przetestować hipotezę, że rozkłady przejechanych mil dla poszczególnych modeli są takie same
1 Mile
2 Model
3 Zmn3 1
2 3 4 5 6 7 8 9
66 1
68 1
67 1
70 1
69 1
68 1
71 1
72 1
71 2