• Nie Znaleziono Wyników

Analiza danych

N/A
N/A
Protected

Academic year: 2021

Share "Analiza danych"

Copied!
8
0
0

Pełen tekst

(1)

Analiza danych

Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/

Estymacja przedziałowa.

Hipotezy statystyczne.

ESTYMACJA PRZEDZIAŁOWA

Problem estymacji dotyczył znajdowania przybliżonej wartości pewnej statystyki (np. przybliżanie wartości oczekiwanej średnią z próbki).

Estymacja przedziałowa polega na określeniu przedziału ufności, do którego należy, jak oczekujemy, dana statystyka.

Konkretnie, wyznaczamy przedział, do którego szukana statystyka należy zgodnie z założonym poziomem ufności.

Przez poziom ufności możemy rozumieć prawdopodobieństwo, że nieznana wartość statystyki rzeczywiście należy do

znalezionego przedziału. Innymi słowy, określamy dopuszczalne ryzyko popełnienia błędu.

(2)

PRZYKŁAD 1

Rozważmy problem estymacji wartości oczekiwanej dla rozkładu normalnego o znanej wariancji.

Przykład: Tworzymy system obsługujący dostawy parasoli naszym 1000 identycznym hurtowniom. Każdego dnia (w zależności od pogody) hurtownie zamawiają u nas konkretną liczbę sztuk, przy czym zamówienia wahają się zgodnie z rozkładem normalnym o znanym odch. standardowym równym 20. Nie znamy wartości oczekiwanej, która zmienia się z dnia na dzień.

Każdego dnia musimy zadeklarować u producenta

zapotrzebowanie na parasole w postaci przedziału [z1,z2]. Jeśli rzeczywiste zapotrzebowanie nie trafi w ten przedział, płacimy kary. Zapotrzebowanie możemy zgłosić po kilku pierwszych zamówieniach (po których szacujemy wartość oczekiwaną), ale im wcześniej, tym lepiej.

PRZYKŁAD 1 - c.d.

( µ , σ )

~ N

X X ~ N ( µ ,

σn

)

Wiemy, że jeśli to

( ) 0 , 1

/

~ N

n X σ

µ

czyli

Przypuśćmy, że interesuje nas poziom ufności 0,99 = 1 - α

czyli dopuszczamy pomyłkę z prawdopodobieństwem najwyżej 1%.

Jak dobrać przedział [z1,z2], żeby estymowana wartość oczekiwana 2

α 2

α

α

− 1

(3)

PRZYKŁAD 1 - c.d.

( ) 0 , 1

~ N Z

Odczytujemy z tablic, że jeśli

n n

n

X

X

σ

X

σ

σ

µ 2,58

µ

2,58

/

2 , 58

58 ,

2 ≤ ≤ ⇒ − ≤ ≤ +

to:

Przedział [z1,z2] dany jest powyższymi nierównościami.

Ile musi być równe n, żeby z prawdop. 99% pomylić się o najwyżej 5 parasoli?

α

=

=

−2,58 2,58) 0,99 1

( Z

P

czyli:

PRZYKŁAD 2

Problem estymacji przedziałowej wartości oczekiwanej dla rozkładu normalnego o nieznanej wariancji (n - wielkość próbki).

Jeżeli n>30, możemy przyjąć, że odchylenie standardowe σ jest dobrze przybliżone odch. standardowym próbki S, a więc można skorzystać z poprzedniego przykładu.

Jeśli nie, musimy skorzystać z tablic dla rozkładu t-Studenta z n-1 stopniami swobody.

/

~

n1 n

S

X µ

t

(4)

WNIOSKI Z CENTRALNEGO TW. GRANICZNEGO

Wiemy, że dla dużych próbek (n>30) o skończonej wariancji, wartość średnia próbki ma rozkład w przybliżeniu normalny.

Jeśli więc nawet nie znamy rozkładu, możemy konstruować przedziały ufności dla wartości oczekiwanej podobnie jak w przykładzie 1 i 2.

Wyjątkiem są sytuacje prób z wieloma wartościami

odstającymi, gdyż wtedy odch. standardowe z próby nie jest dobrym przybliżeniem odch. standardowego rozkładu.

PRZEDZIAŁY UFNOŚCI DLA PROPORCJI

Mamy system bazodanowy z 20 równolegle pracującymi

użytkownikami. Chcemy oszacować, jak często w naszym systemie przetwarzane zapytanie pochodzi od użytkownika X. W tym celu zbieramy próbkę n zapytań i liczymy jak często trafiło się zapytanie od X. Oznaczmy przez zaobserwowaną częstość.pˆ

Jak skonstruować przedział ufności dla nieznanej proporcji p, gdy mamy daną częstość na próbce?

Zauważmy, że:

( ) ~ ( 0 , 1 )

1 ˆ ˆ

ˆ N

n p p

p p

(5)

HIPOTEZY STATYSTYCZNE

Problem estymacji był problemem ilościowym: jaka jest (przybliżona) wartość nieznanego parametru modelu?

Testowanie hipotez statystycznych to odpowiedź na pytanie jakościowe:

- czy prawdziwa wartość oczekiwana jest mniejsza, niż x?

- czy program A działa średnio krócej, niż program B?

- czy zmienne są niezależne?

Odpowiedzi na te pytania zawsze obarczone są ryzykiem, że analizowane przez nas dane były „złośliwe” i np. przypadkowo wskazały na niezależność zmiennych, które naprawdę są

zależne.

PODSTAWOWE POJĘCIA

Hipoteza zerowa H0– hipoteza na temat wartości wybranej statystyki, kształtu rozkładu itp., którą przyjmujemy jako domyślną (wyjściową). Testowanie hipotezy polega na próbie jej odrzucenia na rzecz hipotezy alternatywnej H1. Aby przyjąć H1zamiast H0, musimy mieć wystarczająco mocne dowody oparte na danych (próbie).

Jeśli nie uda nam się odrzucić H0na rzecz H1, to nie znaczy, że H0jest na pewno prawdziwa.

Przykład: czy średnia liczba orłów wyrzucanych konkretną monetą jest mniejsza, niż 0,5?

H0: µ= 0,5 H1: µ< 0,5

(6)

PODSTAWOWE POJĘCIA

Testowanie hipotezy polega na wyliczeniu własności pewnej statystyki testowej (np. średniej z próbki) i sprawdzeniu, czy wartość ta należy do zbioru krytycznego C (wówczas

odrzucamy H0na rzecz H1), czy zbioru przyjęć (wówczas pozostajemy przy hipotezie H0).

Jeśli odrzucimy H0mimo że jest prawdziwa, to popełnimy błąd pierwszego rodzaju. Prawdopodobieństwo tego błędu to poziom istotności testu.

Poziom istotności możemy ustalić z góry, np. na 1%. Im mniejszy, tym trudniej nam będzie odrzucić H0.

PRZYKŁAD 1

) 1 , 0 ( / ~ N

n Z X

σ µ

= −

Wykonaliśmy 100 rzutów monetą, wypadło nam 45 orłów. Czy możemy odrzucić hipotezę, że µ= 0,5?

Statystyka testowa: średnia z próby.

Gdyby H0 było prawdziwe, to µ= 0,5, σ= 0,5.

Przyjmijmy poziom istotności 1%. Zbiór krytyczny C ma w tym przypadku postać:

{ : ≤ − 2 , 33 }

= z z

C

(7)

PRZYKŁAD 1 - c.d.

W naszym przypadku n=100:

1

10 / 5 , 0

5 , 0 45 , 0

/ − = −

− =

= n

z X σ

µ

Wartość z nie należy do zbioru krytycznego C. Musimy pozostać przy hipotezie H0- uznajemy, że wyrzucenie 45 orłów na 100 rzutów nie jest wystarczającym dowodem (na poziomie istotności 1%) na niesymetryczność monety.

0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45

-4,00 -3,75

-3,50 -3,25

-3,00 -2,75

-2,50 -2,25

-2,00 -1,75

-1,50 -1,25

-1,00 -0,75

-0,50 -0,25

0,000,250,500,751,001,251,501,752,002,252,502,753,003,253,503,754,00

-2,33

Zbiór C:

te wartości uznaliśmy za mało prawdopodobne

-1

Wynik rzutów odpowiada p-wartości0,16

P-wartość przeprowadzonego testu: najmniejszy poziom istotności, przy którym otrzymany wynik testu wykluczałby hipotezę zerową.

PRZYKŁAD 2

) 1 , 0 (

~

2 2 2 1

2 1

2

1

N

n n

X Z X

σ σ +

= −

Testujemy na n=100 losowych danych wejściowych dwa algorytmy A1i A2. Notujemy ich czas działania (zakładając, że ma on rozkład normalny). Widzimy, że dla naszych danych A1 działa średnio trochę szybciej. Kiedy możemy wiarygodnie stwierdzić, że A1jest szybszy, niż A2?

Statystyki testowe: średnie z próby.

2 1 1

2 1 0

: :

µ µ

µ µ

<

= H H

Możemy stosować metodę analogiczną jak w poprzednim przykładzie, gdyż przyjmując hipotezę H0:

(8)

INNE TESTY

0 1

0 0

: :

µ µ

µ µ

= H H

• Testowanie, czy wartość oczekiwana jest równa danej:

Zbiór krytyczny konstruujemy po obu stronach wykresu, analogicznie jak w przypadku estymacji przedziałowej.

• Testowanie, czy odch. standardowe w rozkładzie normalnym jest równe, czy mniejsze od danego (wykorzystujemy wariancję S2z próby):

0 1

0 0

: :

σ σ

σ σ

<

= H H

Korzystamy z faktu, że:

( )

2 2 1

0 2

1 ~

= n S n

Z χ

σ

Rozkład chi-kwadrat z n-1 stopniami swobody

TESTY ZGODNOŚCI

( ) ( )

( )

⋅ ≠

( )

=

0 1

0 0

: :

F F H

F F H

Testowanie, czy zmienna losowa pochodzi z pewnego rozkładu prawdopodobieństwa o dystrybuancie F0.

Możemy przybliżyć nieznaną dystrybuantę F, a następnie testować hipotezę:

0,2 0,4 0,6 0,8 1 1,2

Rozkład normalny

Rozkład jednostajny [-1,5 ; 1,5] (próbka)

( ) { }

n x x x x

Fn i i

= :

Dystrybuanta empiryczna:

Test Kołmogorowa:

( )

x F

( )

x

F

D n

x

n =sup 0

Cytaty

Powiązane dokumenty

Obliczyć prawdopodobieństwa dla konkretnych

[r]

tanecznego online z warsztatami tanecznymi online i będzie funkcjonować pod nazwą Lubuska Gala Taneczna 2022- pozakonkursowe wydarzenie online. Operatorze Programu –

Po wypełnieniu wszystkich dokumentów, (wniosek z załącznikiem oraz oświadczenia) rodzice przesyłają skan lub zdjęcie z poziomu konta w systemie nabór lub

I. Niniejszy Regulamin został opracowany i przyjęty przez GZN na podstawie przepisów Ustawy z dnia 18 lipca 2002 roku o świadczeniu usług drogą elektroniczną oraz na

Prawdopodobieństwo, że organizm pacjenta, który przeżył operację transplantacji, odrzuci przeszczepiony narząd w ciągu miesiąca jest równe 0.20..

Klientowi przysługuje prawo odwołania Zasiłku gotówkowego, wynikającego z przyjętego do realizacji Zamówienia zasilenia gotówkowego lub harmonogramu Zasiłków,

2) zobowiązanie się osoby planującej odbycie Szkolenia w Szpitalu Wojewódzkim w Białymstoku do podporządkowania się w związku z odbywaniem Szkolenia jak i w