• Nie Znaleziono Wyników

Szybkie wprowadzenie do R

N/A
N/A
Protected

Academic year: 2021

Share "Szybkie wprowadzenie do R"

Copied!
5
0
0

Pełen tekst

(1)

Metody probabilistyczne i statystyka

Estymacja i testowanie hipotez statystycznych dla jednej populacji w Ra

Szybkie wprowadzenie do statystyki

b

— Jeżeli populacja generalna ma rozkład normalny i znane jest odchylenie standardowe σ, to prze- dział ufności dla średniej otrzymuje się ze wzoru:

P



x − uα· σ

√n < µ < x + uα· σ

√n



= 1 − α, (1)

gdziex oznacza średnią arytmetyczną z próby, 1 − α jest prawdopodobieństwem przyjętym z góry i nazywanym współczynnikiem ufności, a uα jest wartością zmiennej losowej U mającej rozkład normalny standaryzowany. Wartość uα dla danego współczynnika ufności 1 − α wyznacza się w taki sposób, by spełniona była relacja

P (−uα < U < uα) ≡ P (|U | < uα) = 1 − α. (2) Na przykład dla najczęściej przyjmowanego przedziału ufności 1 − α = 0,95 mamy uα≈ 1,96.

−3 −2 −1 0 1 2 3

0.00.10.20.30.4

u

Φ(u)

1−α

−uα

α 2

uα

α 2

Rysunek 1. Rozkład normalny standaryzowany.

a Dla wszystkich testów podać hipotezy, wartości statystyk, poziom p i wnioski.

b Tekst pochodzi w dużej mierze z książki statystyka matematyczna modele i zadania autorstwa Jerzego Grenia.

(2)

— Jeżeli populacja generalna ma rozkład normalny z nieznanym odchyleniem standardowym, to przedział ufności dla średniej otrzymuje się ze wzoru:

P



x − tα· s

√n − 1 < µ < x + tα· s

√n − 1



= 1 − α, (3)

gdzie x oznacza średnią arytmetyczną z próby, a s oznacza odchylenie standardowe z próby.

Wartość tα oznacza wartość zmiennej t Studenta z n − 1 stopniami swobody, która dla danego z góry prawdopodobieństwa 1 − α spełnia relację

P (−tα < t < tα) ≡ P (|t| < tα) = 1 − α. (4)

— Jeżeli populacja generalna ma rozkład normalny o nieznanych parametrach µ i σ i wylosowana próba jest nieduża (n < 30), to przedział ufności dla wariancji σ2 populacji generalnej określa wzór

P  ns2

c2 < σ2 < ns2 c1



= 1 − α, (5)

gdzie c1 i c2 są wartościami zmiennej χ2 z n − 1 stopniami swobody wyznaczonymi w taki sposób, by spełnione były relacje P (χ2 < c1) = α2 oraz P (χ2 > c2) = α2.

0 5 10 15 20

0.000.020.040.060.080.10

χ2

f(χ2 )

1−α c1

α 2

c2

α 2

Rysunek 2. Rozkład χ2.

W przypadku dużej próby przybliżony przedział ufności dla odchylenia standardowego σ populacji generalnej jest określony wzorem (uα wyznacza się tak samo jak w (2))

P

 s 1 + uα

√2n

< σ < s 1 − uα

√2n

≈ 1 − α. (6)

(3)

— Ścisła interpretacja otrzymanego przedziału liczbowego jest następująca: przedział liczbowy np. o końcach 203 i 210 jest jednym z tych przedziałów otrzymywanych z różnych prób, które to przedziały mają tę własność, że z dużym, wynoszącym np. 95% prawdopodobieństwem pokrywają prawdziwą wartość średniej m populacji generalnej (tzn. częstość tych przedziałów otrzymywanych odpowiednim wzorem na przedział ufności, które nie pokrywają wartości średniej m, wynosi tylko 5 na 100).

Czy otrzymany z jednej, konkretnej próby przedział liczbowy, np. o końcach 203 i 210 pokrywa wartość średniej m czy też nie, tego z zupełną pewnością nie wiemy.

Jednakże ze względu na duże prawdopodobieństwo pokrywania średniej m, jakie ma klasa tych przedziałów, do których należy nasz konkretny przedział, mamy prawo mieć ufność, że pokrywa on wartość średnią m populacji. W praktyce, formułując ostateczną odpowiedź po obliczeniu konkretnego przedziału ufności, można pominąć słowa ”jest jednym z tych przedziałów...” i można powiedzieć wprost: ”przedział liczbowy o końcach 203 i 210 z ufnością 95-procentową pokrywa prawdziwą wartość średnią m w populacji generalnej (lub że jest ona objęta tym przedziałem)”. Nie należy natomiast używać sformułowania: ”z prawdopodobieństwem 0,95 średnia m znajdzie się w przedziale o końcach 203 i 210”, gdyż sugerowałoby to zmienność para- metru m, podczas gdy w rzeczywistości zmienny jest przedział ufności (tj. położenie jego konców na osi wartości badanej cechy).

— Do weryfikacji hipotezy statystycznej służy test statystyczny — ograniczymy się jedynie do testu istotności. Na jego potrzeby formułuję się hipotezę zerową H0 (bezpośrednio sprawdzaną, np.

„wartość przeciętna wynosi 100 cm”, „wariancje w obu populacjach są równe”) oraz hipotezę alternatywną H1. Jednym z parametrów testu istotności jest poziom istotności α, która oznacza prawdopodobieństwo popełnienia błędu pierwszego rodzaju (błąd polega na odrzuceniu prawdziwej hipotezy H0).

— Jeśli poziom p < α (wartość statystyki znajduje się w obszarze krytycznym), to hipotezę zerową się odrzuca; w przeciwnym wypadku nie ma podstaw do odrzucenia H0.

Szybkie wprowadzenie do R

— Do zweryfikowania, czy próba pochodzi z rozkładu normalnego, posłużą się Państwo testem Shapiro-Wilka — w R służy do tego funkcja shapiro.test, do której należy przekazać wektor liczb. Funkcja zwraca obiekt klasy htest, która zawiera pola: statistic (wartość statystyki oznaczoną literą W w podsumowaniu), p.value (poziom p — najniższy poziom istotności, przy którym odrzuca się hipotezę zerową), method (zawiera napis „Shapiro-Wilk normality test”) oraz data.name (nazwa parametru).

— Do przeprowadzenia testu dla wartości przeciętnej w jednej populacji posłużą się Państwo funkcją t.test, która przyjmuje następujące parametry:

? x — wektor wartości (jest to pierwszy parametr funkcji),

(4)

? alternative — określa obszar krytyczny: dopuszczalne wartości to "two.sided" (test z obu- stronnym obszarem krytycznym — hipoteza alternatywna ma postać m 6= mu), "less" (test z lewostronnym obszarem krytycznym — hipoteza alternatywna ma postać m < mu), "greater"

(test z prawostronnym obszarem krytycznym — hipoteza alternatywna ma postać m > mu),

? mu — testowana wartość średniej,

? conf.level — poziom ufności.

Funkcja zwraca obiekt klasy htest, zawierający m.in. te same pola, co w przypadku funkcji shapiro.test.

— Dla przypomnienia: blok decyzyjny ma postać:

if (warunek) {

# gdy ’warunek == TRUE’

} else {

# gdy ’warunek == FALSE’

}

— histogram dla zmiennej mierzalnej z gęstością teoretyczną

ggplot(zbiór danych, aes(x = zmienna)) + geom histogram (aes(y = ..density..), fill

= ’kolor’, col = ’kolor’, binwidth = szerokość klasy) + stat function(fun = funkcja gę- stości, args = list(parametry rozkładu), col = ’kolor’) + ylab (’opis’)

Zadania do samodzielnego rozwiązania

1. Na podstawie danych z ankiety dla zmiennej Wzrost w grupie mężczyzn:

a) dokonać wstępnej oceny zgodności z rozkładem normalnym w populacji generalnej na podsta- wie histogramu z gęstością teoretyczną,

b) na poziomie istotności α = 0,01 sprawdzić założenie o normalności rozkładu za pomocą testu Shapiro-Wilka (użyć shapiro.test, sformułować hipotezy, podać statystykę testową, poziom p i wniosek),

c) wyznaczyć przedziały ufności dla średniego wzrostu w populacji wszystkich mężczyzn studiu- jących na I roku WI w tym roku akademickim (poziom ufności 0,95; 0,98, użyć t.test); jak poziom ufności wpływa na szerokość przedziału?

d) napisać funkcję dwóch zmiennych przedział.odchylenie, która dla dowolnej cechy i ustalo- nego współczynnika ufności wyznaczy końce przedziału ufności (ocena.dolna, ocena.górna) dla odchylenia standardowego populacji zgodnie ze wzorem (5) (użyć length do wyznaczenia długości wektora),

e) wyznaczyć przedział ufności dla odchylenia standardowego wzrostu w populacji studentów I roku WI (poziom ufności 0,97)c,

f) na poziomie istotności 0,05 zweryfikować hipotezę, że średni wzrost w populacji studentów I roku WI jest większy niż 180 cm (użyć t.test, sformułować hipotezy, podać statystykę testową, poziom p i wniosek).

c Odp: [4,665138; 8,735021]

(5)

2. Dla zmiennej Waga w grupie kobiet:

a) na poziomie istotności α = 0,01 sprawdzić założenie o normalności rozkładu za pomocą testu Shapiro-Wilka (użyć shapiro.test, sformułować hipotezy, podać statystykę testową, poziom p i wniosek),

b) wyznaczyć przedziały ufności dla średniej wagi w populacji wszystkich studentek I roku WI w tym roku akademickim (poziom ufności 0,98),

c) wyznaczyć przedział ufności dla odchylenia standardowego wagi w populacji studentek I roku WI (poziom ufności 0,95)

d) na poziomie istotności 0,05 zweryfikować hipotezę, że średnia waga w populacji studentek I roku WI jest mniejsza niż 70 kg (użyć t.test).

Cytaty

Powiązane dokumenty

Szerokość przedziału ufności zmniejsza się wraz ze wzrostem rozmiaru próby:.. • Większa próba-&gt; zwykle

Porównanie obliczonych wartości granic wykrywalności (LOD) i oznaczalności (LOQ) miedzi w metodzie FAAS dla procedury metody standardowej SA i metod wykorzystujących

Historia trójkąta Pascala pokazuje, że matematyka rozwijała się i była niezależnie odkrywana w różnym czasie, na różnych kontynentach, w różnych kulturach,

Na przeciwrozwartokątnej trójkąta rozwartokątnego znajdź punkt, którego odległość od wierzchołka kąta rozwartego jest średnią geometryczną długości odcinków, na jakie

Z twierdzenia 1.1 wynika, że q jest dzielnikiem liczby −1, więc jest równe ±1, a to oznacza, że liczba x jest całkowita. Zaznaczyć wypada, że to czy jakaś liczba jest

Osoby, które się jeszcze nie zalogowały na platformie proszę o kontakt przez komunikator w.. Opracowała:

d) program szpiegujący (ang. spyware) – oprogramowanie, które zbiera informacje na temat działania użytkownika np. śledzi historię przeglądanych stron czy zbiera informację

• Wiele osób skupiło się na wolnych zasobach internetu oraz specjalistycznych stronach dla nauczycieli, kilka pań z klas młodszych oraz przyrodniczki korzystają z e-booków..