ść liczebno

(1)

Statystyka i opracowanie danych W3:

Wprowadzenie do statystycznej analizy danych Podstawy wnioskowania statystycznego.

Estymacja i estymatory

Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

(2)

Wprowadzenie

Podstawowe cele analizy zbiorów danych

• Opis ich struktury

• Odkrywanie i badanie zależności występujących pomiędzy danymi

Narzędzia: metody statystyki matematycznej

pakiety statystyczne Statgraph, Statistica moduły statystyczne w arkuszach

kalkulacyjnych, bazach danych

(3)

Temat: Wstępna analiza danych

(4)

Na czym polega

Wstępna analiza danych:

– Ile danych:

• ile zmiennych (cech: Płeć, wykształcenie, staż, zarobki)

• ile przypadków (1255) – Jakie typy

• dane jakościowe (płeć, wykształcenie)

• dane ilościowe (staż pracy, płaca) – Ile braków, jakie, jak je zastąpić

(5)

Ocena struktury wykształcenie pracowników

(6)

Jaka jest struktura wykształcenia kobiet i mężczyzn

(7)

Rozkład empiryczny zmiennej ilościowej

(8)

Wykresy skategoryzowane; ramkowe

(9)

Wykresy skategoryzowane; ramkowe

(10)

Wykresy skategoryzowane; interakcji

(11)

Statystyki opisowe

(12)

Badania statystyczne - rodzaje

Badania pełne

obejmują wszystkie elementy populacji, np. na przeglądzie uzębienia danego pacjenta można określić dokładną liczbę zębów i ich stan

Badania częściowe – badania elementów próbki statystycznej, mają szerokie zastosowania i są:

• konieczne w przypadku populacji nieskończonej,

• stosowane w populacjach skończonych bardzo licznych

• stosowane w przypadkach badań niszczących

(13)

Populacja i próba statystyczna

Populacja jest to zbiór wszystkich elementów

reprezentujących analizowany problem (zjawisko) Może być zbiorem skończonym, przeliczalnym lub

nieprzeliczalnym.

Próba statystyczna – to podzbiór właściwy elementów z badanej populacji

(14)

Losowy dobór próby polega na tym, że o fakcie

znalezienia się poszczególnych elementów populacji w próbie decyduje przypadek.

Jest to taki sposób wyboru przy którym spełnione są następujące dwa warunki;

• każda jednostka populacji ma dodatnie, znane prawdopodobieństwo znalezienia się w próbie

• istnieje możliwość ustalenia prawdopodobieństwa znalezienia się w próbie dla każdego zespołu

elementów populacji

Badania statystyczne – próby losowe

(15)

Wybór próby reprezentatywnej

Od próby wymaga się reprezentatywności, czyli aby z przyjętą dokładnością opisywała strukturę badanej populacji.

O reprezentatywności decydują dwa czynniki:

• Liczebność (n)

• Sposób doboru grupy

– Wybór celowy, o przynależności do grupy decyduje

badacz, stopień reprezentatywności zależy wyłącznie od jakości selekcji

– Wybór losowy- każdy element populacji ma jednakową szansę znalezienia się w próbie z takim samym

prawdopodobieństwem, stopień reprezentatywności rośnie wraz ze wzrostem liczebności grupy.

– Stosowane są dwie techniki losowania:

• Losowanie niezależne (zwrotne)

• Losowanie zależne (bezzwrotne

(16)

O błędach w badaniach statystycznych

Badania , zarówno pełne jak i częściowe, zawsze obciążone są błędami, związanymi z:

• organizacją eksperymentu,

• niedokładnością pomiarową,

• przetwarzaniem wyników,

• w badaniach częściowych z niedokładnością

odwzorowania struktury populacji w strukturę próbki

(17)

Cechy statystyczne i ich rodzaje

• Cechy, którymi wyróżniają się jednostki wchodzące

w skład zbiorowości, nazywa się cechami statystycznymi.

• Każda zbiorowość statystyczna ma dużo cech, wyboru cech dokonuje się na podstawie zakładanego celu badań. Należy wybierać takie

cechy, które stanowią istotną własność badanego zjawiska

• Typy cech

– cechy jakościowe – niemierzalne (np. kolor, sprawny-

niesprawny, ale jakościowymi mogą być też liczby np. nr piętra, )

– cechy ilościowe – mierzalne to takie, które dadzą się

wyrazić za pomocą jednostek miary w pewnej skali ( np.

wzrost [cm], waga [kg], udział[%]). Cecha mierzalna jest^:

• ciągła, może przyjmować każdą wartość z określonego, skończonego przedziału liczbowego (np.odległość, ciężar, temperatura)

• dyskretna, skokowa przyjmuje wartości ze zbioru skończonego lub przeliczalnego (ilość wyrobów wadliwych, liczba

zatrudnionych w zawodzie).

(18)

Co to jest pomiar

• Pomiar jest procedurą przyporządkowywania liczb różnym wartościom zmiennej według ustalonej zasady.

• W naukach empirycznych analizowanie różnych cech staje się użyteczne wtedy gdy można mierzyć ich nasilenie

w różnych obiektach.

• Typowym pomiarem jest pomiar długości ( odległości dwóch punktów), polega on na policzeniu ile odcinków o znanej

długości (1 cm, 1m, 1 cal) mieści się wzdłuż mierzonego przedmiotu (odcinka)

• Jak mierzyć zmienne nieobserwowalne np. talent, agresję (liczba wulgaryzmów wypowiedzianych w jednostce

czasu?),– konstruujemy wskaźniki

(19)

Skale pomiaru

– Najprostszym przykładem pomiaru jest klasyfikacja,

czyli nazywanie, dotyczy tylko zmiennych jakościowych, gdy brane pod uwagę kategorie są rozłączne, ponadto, gdy bierze się pod uwagę wszystkie możliwe kategorie danej zmiennej, to podział jest wyczerpujący

– Pomiar w skali porządkowej (rangowej) oznacza uporządkowanie ze względu na nasilenie cechy. Tę

skalę cechuje spójność ( jeśli x jest różny od y yo x<y lub x>y) i przechodniość (x<y i y<z to x<z)

– Przypisanie jakiemuś pomiarowi rangę oznacza

określenie jego miejsca w ustalonym porządku. Rangi oznaczają porządek a nie różnice pomiędzy kolejnymi pomiarami

(20)

Skale pomiaru

według Stanley Smith Stevens

• Skala nominalna –dotyczy cech jakościowych, operacją pomiarową jest identyfikacja kategorii do której należy zaliczyć wynik, prowadzi do podziału zbioru na zbiory rozłączne ( np. samochody wg kolorów).

• Skala porządkowa – stosowana jest do badania cech których natężenie jest określane przez przymiotniki, pociąga za sobą porządkowanie lub uszeregowanie badanej zmiennej ( np. poniżej normy, w normie,

powyżej normy, albo za mały, mały, średni, duży, za duży)

• Skala równomierna (przedziałowa)-stosowania do pomiaru cech ilościowych, zakłada że zbiór wartości cechy składa się z liczb

rzeczywistych określona przez wskazanie stałej jednostki miary i relacji przyporządkowującej liczbę każdemu wynikowi obserwacji (czas

kalendarzowy, temperatura ^oC)

• Skala ilorazowa- posiada wszystkie właściwości skali przedziałowej ale pomiary wg tej skali charakteryzują się stałymi stosunkami i

bezwzględnym zerem, ma zastosowanie w fizyce, technice np.. czas jaki upłynął od chwili t₁do t₂

(21)

Opracowanie materiału statystycznego Szeregi statystyczne

• Celem tych działań jest przejście od danych indywidualnych do danych zbiorowych.

• Materiał źródłowy należy odpowiednio posegregować

i policzyć, w wyniku otrzymuje się tzw. tablice robocze.

• Klasyfikacja danych musi być przeprowadzona:

– w sposób rozłączny, jednostki o określonych cechach muszą być jednoznacznie przydzielone do

poszczególnych klas

– W sposób zupełny, tzn. klasy muszą objąć wszystkie występujące cechy danej zbiorowość

• Technika zestawiania zależy od rodzaju skali pomiarowej

(22)

Szeregi statystyczne

szczegółowe rozdzielcze czasowe

Z cechą ilościową

skumulowane punktowe

przedziałowe

Z cechą jakościową

proste skumulowane proste

(23)

Szereg rozdzielczy

Przy budowie szeregu rozdzielczego wyróżnia się trzy etapy:

• Ustalenie liczby klas oraz wielkości przedziałów klasowych

• Przyporządkowanie danych przyjętym przedziałom klasowym

• Zliczanie liczby jednostek w każdej klasie

Liczba klas k zależy przede wszystkim od liczby obserwacji n

Stosowane bywają następujące wzory pomocne do

szacowania liczby przedziałów budowanego szeregu rozdzielczego:

k=1+3,322 log n lub

n

k =

(24)

Szereg rozdzielczy prosty – analiza struktury wiekowej pacjentów

dolna górna

LP a b x_i n_i ni/n

1 3 9 6 3 0,03

2 9 15 12 12 0,11

3 15 21 18 16 0,15

4 21 27 24 18 0,17

5 27 33 30 26 0,25

6 33 39 36 17 0,16

7 39 45 42 8 0,08

8 45 51 48 4 0,04

9 51 57 54 1 0,01

Suma 105 1

Częstość Numer

klasy

Granice przedziałów

klasowych Środek przedziału

Liczność klasy

(25)

Wykresy

histogram

0 5 10 15 20 25 30

6 12 18 24 35 36 42 48 54

w iek

liczebność

(26)

Statystyka Opisowa

Parametrami statystycznymi ( statystykami) nazywamy liczby umożliwiające sumaryczny opis zbiorowości.

Parametry te tak dokładnie charakteryzują zbiorowość, że mogą być wykorzystane do porównywania różnych zbiorowości.

Wyróżnia się następujące grupy parametrów statystycznych:

• Miary położenia (klasyczne i pozycyjne)

• Miary zmienności

• Miary asymetrii i koncentracji

(27)

Miary położenia

Średnie

– arytmetyczna, ważona – harmoniczna

– geometryczna Moda- dominanta

Kwantyle

– kwartyl pierwszy

– mediana (kwartyl drugi) – kwartyl trzeci

– decyl

– percentyl

(28)

Estymatory punktowe podstawowych statystyk Estymatory wartości średnich

∑

=

ⁿ

i

x

i

x n

1

1 ∑

∑

=

= = _n

i

i n

i

i i

w w x

x

1 1

Średnia

arytmetyczna

Średnia ważona, gdzie wagi w_i>0

n n

g

x x x

x =

₁ ₂

...

Średnia

geometryczna

∑

=

_n

i i

h

x x n

1

Średnia harmoniczna

(29)

Moda (dominanta)

m m

m

m m

o

h

n n

n x n

M (

₁

) (

₁

)

1

+

−

− +

− + −

=

W rozkładach empirycznych określa się dominantę (modę), tj. najczęściej występującą wartość cechy

gdzie

x₀ - dolna granicą przedziału w którym występuje moda, h_m - rozpiętość przedziału klasowego,

n_m, n_m-1, n_m+1- liczebności odpowiednio przedziału z modą, poprzedniego i następnego

(30)

Graficzne wyznaczanie mody

histogram

0 5 10 15 20 25 30

6 12 18 24 35 36 42 48 54

w ie k

liczebność

Mo

(31)

Mediana –wzór interpolacyjny dla zmiennej ciągłej

 

 



 −

+

= ∑

⁻

= 1

2

1

m

i

i m

m

n n

n x h

Me

gdzie

x_m- dolna granica przedziału zawierającego medianę

h_m,n_m- odpowiednio rozpiętość i liczebność przedziału mediany Medianą rozkładu empirycznego Me nazywamy taką wartość cechy, że co najmniej połowa jednostek zbiorowości ma

wartość cechy nie większą niż Me i jednocześnie połowa jednostek ma wartość cechy nie mniejszą niż Me.

Czyli dystrybuanta empiryczna F_n(Me)≥1/2

Dla zmiennej losowej ciągłej medianę oblicza się wg wzoru:

(32)

Mediana

25% wartości 25% wartości 25% wartości 25% wartości Mediana

Q1 Q3

Rozstęp

Rozstęp kwartylowy

min max

Wzór Pearsona na relacje pomiędzy Mo, Me, oraz

dla rozkładów symetrycznych i umiarkowanie asymetrycznych

) (

3 x Me

Mo

x − = −

(33)

Kwantyle

• Kwantylem rzędu p, gdzie 0<p<1, w rozkładzie empirycznym nazywamy taką wartość zmiennej x_p, dla której, jako

pierwszej , dystrybuanta empiryczna spełnia relację F(x_p) ≥ p,

• tzn., że prawdopodobieństwo przyjęcia przez zmienną wartości nie większych od x_p wynosi co najmniej p, a wartości nie mniejszych x_p wynosi co najmniej 1-p

• Mediana - Kwantyl rzędu 1/2

• Kwartyl - Kwantyl rzędu k/4, gdzie k=1,..,3

• Decyl – Kwantyl rzędu k/10, gdzie k=1,...,9

• Percentyl – Kwantyl rzędu k/100, gdzie k=1,...,99;.

Percentyl jest wielkością określającą jaki procent obserwacji (wyników) znajduje się poniżej zadanej wartości x_p

(34)

Miary zmienności

• Miary zmienności dzielą się na miary klasyczne i pozycyjne.

• miary pozycyjne : rozstęp, odchylenie ćwiartkowe, współczynnik zmienności

• miary klasyczne: wariancja, odchylenie

standardowe, odchylenie przeciętne, współczynnik

zmienności

(35)

Odchylenie ćwiartkowe

• Kwartyle są wykorzystywane do określenia pozycyjnej miary zróżnicowania, nazywanej odchyleniem ćwiartkowym, którym jest

wielkość Q, określona wzorem

2

1

3

Q

Q = Q −

(36)

Miary zmienności

Rozstęp- najprostsza miara zmienności

R=x_max – x_min

Odchylenie ćwiartkowe

Odchylenie przeciętne

Współczynnik zmienności

2

1

3 Q

Q = Q −

n x x

n

x x

x d x

n

i

i n

∑

=

−

− = +

+

= ¹ − L ¹

x V _d = d

(37)

Klasyczne miary zmienności

2 1

2

1 ( )

x n x

s

n

i

−

= ∑

=

Wariancja

Odchylenie standardowe

2 1

) 1 ∑ (

=

−

=

ⁿ

i

x

n x s

x V

_s

= s

Współczynnik zmienności - klasyczny

(38)

Miary skośności / asymetrii

Miarą stopnia i kierunku asymetrii jest klasyczny współczynnik asymetrii g, obliczany według wzoru:

gdzie

s jest odchyleniem standardowym

A₃ jest trzecim momentem centralnym rozkładu empirycznego

3 3

s g = A

i r

i

x n

n x

A

³

1

3

1 ( )

∑

=

−

=

(39)

Stwierdzono, że jedynie w przypadku bardzo

silnej asymetrii współczynnik A przekracza wartość 1

Niemianowany współczynnik asymetrii (skośności) A stosowany do porównań asymetrii wielu rozkładów

s

Mo A = x −

gdy:

A=0 rozkład symetryczny

asymetria lewostronna- wydłużone lewe ramie rozkładu asymetria prawostronna wydłużone prawe ramie rozkładu

(40)

Pozycyjny współczynnik asymetrii w

Q

Q Me

Me w Q

2

) (

)

( ₃ − − − ₁

=

gdzie Q jest odchyleniem ćwiartkowym, Me jest medianą

Q₁i Q₃ odpowiednio pierwszym i trzecim kwartylem,

Stwierdzono następujące związki dla

asymetrii lewostronnej x_sr<Me<Mo asymetrii prawostronnej Mo<Me<x_sr

(41)

Podstawy wnioskowania statystycznego

Jeśli S jest przestrzenią zdarzeń elementarnych (w statystyce nazywana populacją), to

Prostą próbą losową (próbką statystyczną) o liczności n nazywamy ciąg niezależnych zmiennych losowych X₁, X₂ ,….., X_n _, określonych na przestrzeni S i takich, że każda z nich ma ten sam rozkład.

Ciąg wartości x₁, x₂ ,….., x_n próby losowej X₁, X₂ ,….., X_n nazywamy realizacją próby losowej .

Wybór n elementów populacji powinien być dokonany

w taki sposób, żeby każdy podzbiór populacji, składający się z n elementów miał taką samą szansę wybrania

(42)

Zadanie:

ocenić średni wzrost dorosłych Polaków.

– Jeśli wybieramy próbę spośród studentów – nie jest to jednak próba wszystkich dorosłych Polaków

– Utożsamiamy populację z badaną cechą

– Szacujemy szukaną wartość ( średni wzrost) obliczając pewną wartość z próby

– Niech T(X

₁

, X

₂

,….., X

_n

) , w naszym rozumieniu, dobrze przybliża wartość nieznanego wskaźnika.

– Taką funkcję T nazywamy statystyką.

– Każda tak rozumiana statystyka jest zmienną losową, a zatem posiada określony rozkład i ten rozkład

odgrywa bardzo ważną rolę w analizie statystycznej

.

(43)

Rozkład średniej w prostej próbie losowej

Średnią, w prostej próbie losowej X₁, X₂ ,….., X_n o liczności n, nazywamy statystykę

Podana definicja jest szczególnym przypadkiem statystyki T(X₁, X₂ ,….., X_n)

Średnia X jest zmienną losową, a x jest konkretną wartością z jednej konkretnej próby. Możemy

wylosować kilka prób 100 elementowych i z każdej otrzymać inną wartość np. x=`176,5; x =177,8 ...

n

X X

X X + + +

ⁿ

=

₁ ₂

...

(44)

Prawo Wielkich Liczb (PWL)

Prawo Wielkich Liczb:

Niech X będzie zmienną losową o wartości oczekiwanej µ_X

i skończonej wariancji σ²_X<∞ i niech X₁, X₂ ,….., X_n będzie prostą próbą losową z rozkładu zmiennej X.

Wówczas dla dowolnie małej dodatniej liczby ε i n→∞

]) ,

[

( ^X ^∈ µ

_X

⁻ ε µ

_X

⁺ ε

P _→ ₁

(45)

Charakterystyki rozkładu wartości średniej

Zakładając, że prosta próba losowa X₁, X₂ ,….., X_n

pochodzi z rozkładu o wartości średniej µ i wariancji σ², Otrzymamy

( )

n n

Xn

X X X

Xn X

X X

2 2

2

2 1 ....

.

) ...

1 ( )

...

1 (

2 1

σ σ σ

σ σ

µ µ

= +

+ +



 



= 

= +

+ +

= +

+ +

=

X n

X

σ σ

µ µ

= zatem =

(46)

Centralne twierdzenie graniczne

Jeśli X₁, X₂ ,….., X_n jest prostą próbą losową z rozkładu o wartości średniej µ i skończonej wariancji σ^{2 .}

Wówczas dla prób losowych o dużej liczebności rozkład

standaryzowanej średniej jest bliski standardowemu rozkładowi normalnemu N(0,1), tzn rozkład średniej X jest w przybliżeniu równy rozkładowi

Zatem dla dowolnych a i b (a ≤ b) i zmiennej losowej Z o standardowym rozkładzie normalnym

) ( )

( )

/ b P(a Z b b a

n a X

P  → ≤ ≤ = Φ − Φ









 ≤ − ≤

σ

µ

) /

,

( n

N µ σ

(47)

Zastosowanie - przykład

Rozkład naszego codziennego dojazdu do pracy jest

w przybliżeniu jednostajny na odcinku ( 0,5h,1h) a jednocześnie czasy dojazdów w różne dni są niezależne. Jakie ( w przybliżeniu) jest prawdopodobieństwo zdarzenia, że średni dzienny dojazd

w ciągu 30 dni przekroczy 0,8h (48 min) Rozwiązanie:

niech X_ioznacza czas dojazdu w i-tym dniu, i=1,…,30 X_ima rozkład jednostajny na odcinku [0,5 , 1], zatem

stąd

( )

48 1 12

5 , 0 1

4 3 2

1 5

,

0 ₂ ²

− =

= + =

= _i

i X

X oraz σ

µ

03 , 0 )

89 , 1 ( 1

) 89 , 1 (

30

* 48

1 4 8 3

, 0

30

* 48

1 4 3

= Φ

−

=

>

≈











 −

− >

Z P X

P

(48)

Rozkład częstości

Zakładamy, że zmienna X z rozkładu, z którego pochodzi próba, może przyjmować tylko dwie wartości:

• 1, gdy badany obiekt posiada określoną cechę

• 0, gdy obiekt tej cechy nie posiada oznaczmy

• p=P(X=1)

• q=1-p=P(X=0)

Liczba p, zwana proporcją jest równa prawdopodobieństwu posiadania wybranej cechy (własności) przez losowo wybraną jednostkę.

Zauważmy, że µ_X=1*p+0*(1-p)=p, stąd też wynika że rozpatrywany wcześniej problem szacowania wartości średniej jest w tym konkretnym przypadku jednoznaczny z szacowaniem proporcji.

Przykłady zastosowań: szacowanie proporcji produktów wadliwych wyprodukowanych w ciągu miesiąca, albo leworęcznych uczniów przychodzących do I klasy

(49)

Rozkład częstości

Częstością występowania w prostej próbie losowej nazywamy statystykę

gdzie

X₁, X₂ ,….., X_n jest prostą próbą losową z rozkładu dwupunktowego o wartościach 0 i 1.

Statystykę p obliczoną dla konkretnych wartości w próbie nazywamy wartością częstości

n p X

n

i i

∑

₌

=

¹

ˆ

(50)

Twierdzenia o częstości występowania

1. Częstość występowania pomnożona przez liczność próby ma rozkład dwumianowy (Bernouliego) B (n, p). Ponadto

2. Dla dowolnych rzeczywistych a i b, gdy n→∞

n p p

p

p p

) 1

2 (

ˆ ˆ

= −

= σ

µ

) ( )

) ( 1

(

ˆ b b a

n p p

p a p

P → Φ − Φ













− ≤

≤ −

(51)

Przykład zastosowań

• W populacji dorosłych Polaków 39% ma kłopoty ze snem. Jakie jest prawdopodobieństwo, że w próbie 100 elementowej ,

częstość osób mających kłopoty ze snem nie przekroczy 0,33.

• Interesuje nas

• Dane: a=-∞, b=33, n=100

) 33 , ˆ 0

( p ≤ P

( )

⁽ ¹^.¹³⁾ ⁰^.¹²⁹²

61 . 0

* 39 . 0

* 100

39 5

. 0 5 33

. 0

ˆ 33  = Φ − =



 



 + −

Φ

→ +

≤ p P

(52)

Estymacja i estymatory.

(53)

Techniki wnioskowania statystycznego

W statystyce matematycznej stosowane są dwie techniki wnioskowania:

• Estymacja polegająca na oszacowaniu z pewną dokładnością

określonych wartości charakteryzujących rozkład badanej cechy np. częstości, wartości oczekiwanej, wariancji.

• Weryfikacja hipotez statystycznych polegająca na sprawdzeniu słuszności przypuszczeń dotyczących postaci rozkładu cechy

(testy zgodności) bądź wartości jego parametrów (parametryczne testy istotności)

Obie wymienione techniki uzupełniają się wzajemnie.

(54)

Co to jest estymator

• Zakładamy, że rozkład badanej cechy w populacji generalnej jest opisany za pomocą dystrybuanty

F (x;Θ), gdzie Θ oznacza parametr od którego zależy ta dystrybuanta (taki jak np. λ w rozkładzie Poissona).

• Nieznana wartość parametru Θ będzie szacowana

(obliczona) na podstawie próby n-elementowej (X

₁

,. ,X

_n

)

(55)

Definicja estymatora

• Estymatorem T

_n

parametru Θ rozkładu populacji

generalnej nazywa się statystykę (dowolną) z próby T

_n

= t (X

₁

,.... ,X

_n

), która służy do oszacowania wartości

liczbowej tego parametru.

• Skoro szacunku parametru dokonuje się w oparciu o dane z próby, zatem istnieje możliwość popełnienia błędu (

niech go oznacza litera d), który nazywany jest błędem szacunku (estymacji) parametru Θ

d = T

_n

- Θ

(56)

Błąd estymacji

Błąd d jest też zmienną losową ( zależną od próby losowej), a za miarę tego błędu przyjmuje się

∆ = E (T

_n

– Θ)

²

Zauważmy, że jeśli E (T

_n

) = Θ wtedy wyrażenie określające ∆ , jest wariancją D

²

(T

_n

) estymatora T

_n,

, a odchylenie standardowe D(T

_n

) jest średnim

(standardowym) błędem szacunku parametru Θ,

błędem względnym oszacowania jest iloraz D(T

_n

) / Θ

(57)

Estymacja i estymatory

Rozpatrywane dotychczas statystyki: średnia i częstość należą do najczęściej stosowanych w praktyce.

W przypadku gdy statystyki używane są do szacowania (przybliżania) nieznanych parametrów rozkładu zmienne losowej noszą specjalną nazwę:

• Statystykę T(X₁, X₂ ,….., X_n ), służącą do oszacowania nieznanego parametru populacji nazywamy estymatorem.

• Dla konkretnych wartości próby X₁=x₁, X₂=x₂ , ….., X_n= x_n liczbę T(X₁, X₂ ,….., X_n ) nazywamy wartością estymatora

(58)

Estymacja i estymatory

W zależności od tego co chcemy oszacować rozróżnia się

• estymację parametryczną, gdy szacowane są parametry rozkładu zmiennej X (np. E(X), D²(X))

• Estymację nieparametryczną, gdy próbujemy wnioskować o postaci rozkładu cechy X w populacji.

Podstawy teorii estymacji sformułował Karl Pearson na przełomie XIX i XX wieku.

1. Pierwszym krokiem w estymacji jest wylosowanie z populacji n - elementowej próby, po czym

2. na podstawie badań próby - obliczeń wykonanych na danych zawartych w próbce

3. wyciągamy wnioski dotyczące badanej cechy w całej populacji.

(59)

Rodzaje estymacji wg kryterium wyniku

• Estymacja punktowa – ma zastosowanie gdy, na podstawie danych z próby, chcemy ustalić liczbową wartość określonego parametru rozkładu cechy w całej populacji

• Estymacja przedziałowa polega na wyznaczeniu granic przedziału liczbowego, w którym, z określonym prawdopodobieństwem,

zawiera się wartość szacowanego parametru

Podstawowym narzędziem szacowania nieznanego parametru jest estymator obliczony na podstawie próby. np. dla wartości

oczekiwanej jest to średnia arytmetyczna, albo średnia ważona.

Liczba możliwych estymatorów konkretnego parametru rozkładu może być duża ale, bierze się pod uwagę tylko te, które posiadają określone właściwości (cechy).

(60)

Cechy dobrego estymatora

• Zgodny

• Nieobciążony

• Najefektywniejszy Estymator jest

zgodny jeśli jest stochastycznie zbieżny z szacowanym parametrem.

W praktyce oznacza to, że im większa próba (liczność próbki) tym większe prawdopodobieństwo, że

estymator przyjmie wartości bliższe szacowanemu parametrowi. Przykład im więcej ćwiczymy tym

bardziej prawdopodobny sukces.

(61)

Zbieżność stochastyczna

Ciąg zmiennych losowych (X₁, X₂ ,….., X_n )={X_n} jest stochastycznie zbieżny do stałej c, jeśli dla dowolnego ε>0, jest spełniona zależność

Oznacza to, że prawdopodobieństwo zdarzenia

wzrasta do 1, co nie oznacza zbieżności w sensie analizy matematycznej

( ) ¹

lim ⁻ ^< ⁼

∞

→

^P ^X

_n

^c ε

n

( ^X

ⁿ

⁻ ^c ^< ^ε )

(62)

Estymator zgodny

Estymator T_n jest zgodny jeśli dla dowolnego ε>0.

1 }

lim { ⁻ ^Θ ^< ⁼

∞

→ _n

ε

n

T P

Jeśli wybrany estymator nie jest zgodny to zwiększenie

liczebności próby może go oddalić od wartości szacowanej.

Przykład estymatorem średnich wyników grupy jest średnia ocena najlepszego studenta, tak skrajnie zdefiniowany

estymator nie jest zgodny, bo zwiększenie liczności grupy zwiększa prawdopodobieństwo oddalania go od średniej oceny w całej grupie.

Jeśli estymator jest zgodny to jest asymptotycznie

nieobciążony

(63)

Podstawowe własności estymatorów

• Tw.2: Jeśli estymator jest nieobciążony lub

asymptotycznie nieobciążony oraz jego wariancja spełnia relację

to jest on estymatorem zgodnym

• Estymator T_n parametru Θ jest nieobciążony jeśli spełniona jest relacja

E (T_n) = Θ

Jeśli ta relacja nie zachodzi, to estymator nazywamy obciążonym , a wielkość

b (T_n) = E (T_n) - Θ nazywamy obciążeniem estymatora

0 )

2(

lim

⁼

∞

→ n

n

T D

(64)

Cechy dobrego estymatora - Nieobciążoność

• Nieobciążoność estymatora oznacza, że wartość oczekiwana estymatora nieobciążonego jest

dokładnie równa wartości szacowanego parametru.

•

Obciążoność oznacza, że wartości dostarczane przez taki estymator obciążone są błędem

systematycznym

•

(65)

Obciążoność i nieobciążoność estymatora

Odchylenie standardowe dane wzorem

jest estymatorem obciążonym odchylenia

standardowego w całej populacji, a nieobciążonym jest odchylenie obliczone z wzoru

2 1

) 1

∑

(

=

−

= ⁿ

i

i x

n x s

2 1

) 1 (

1

∑

=

− −

= ⁿ

i

i x

n x s

(66)

Cechy dobrego estymatora - Efektywność

• Efektywność – estymator jest tym efektywniejszy im mniejsza jest jego wariancja.

• Spośród wszystkich estymatorów, które są zgodne i nieobciążone wybieramy ten, który ma

najmniejszą wariancję, jest najefektywniejszy.

(67)

Przykłady estymatorów punktowych

Estymatorem zgodnym, nieobciążonym

i najefektywniejszym dla wartości oczekiwanej w populacji jest średnia arytmetyczna

Mediana wyznaczona z próby jest nieobciążonym ale mniej efektywnym od średniej arytmetycznej estymatorem wartości oczekiwanej

∑

=

ⁿ

i

X

i

X n

1

(68)

Przykłady estymatorów punktowych

Niech m oznacza liczbę wyróżnionych elementów w próbie n elementowej ( np. liczbę wyrobów

wadliwych), wtedy statystyka będąca częstością w próbie

jest estymatorem zgodnym, nieobciążonym i najefektywniejszym frakcji P w populacji

n

P = m

(69)

Przykłady estymatorów punktowych

• S ² jest estymatorem zgodnym ale obciążonym wariancji w całej populacji.

• Wskazówka: tego wzoru używamy obliczając

wariancję z całej populacji, natomiast do estymacji na podstawie próbki należy wynik z próby

pomnożyć przez współczynnik n/(n-1)

2 1

2

1 ( )

X n X

S

n

i

−

= ∑

=

(70)

Własności estymatora - podsumowanie Jeśli dany jest zbiór estymatorów T_n¹,... T_n^r

nieobciążonych, to ten estymator, który ma w tym zbiorze najmniejsza wariancję, jest estymatorem najefektywniejszym.

Tw. Estymator parametru statystycznego powinien być:

• nieobciążony

• zgodny

• najefektywniejszy

Metody wyznaczania estymatorów:

metoda momentów,

metoda największej wiarygodności

(71)

Estymacja parametryczna

Ze względu na formę wyniku estymacji wyróżnimy:

•Estymacja punktowa –gdy szacujemy liczbową wartość określonego parametru rozkładu cechy w całej populacji

•Estymacja przedziałowa –gdy wyznaczamy granice przedziału liczbowego, w których, z określonym

prawdopodobieństwem, mieści się prawdziwa wartość

szacowanego parametru

.

(72)

Estymacja przedziałowa polega na wyznaczeniu granic przedziału liczbowego, w którym,

z określonym prawdopodobieństwem, równym (1- αααα ), zawiera się wartość szacowanego parametru

Przedziały ufności

dla klasycznych parametrów statystycznych

(73)

Estymacja przedziałowa

P ( Θ Θ Θ Θ

_d

(X

₁

,.... ,X

_n

)< Θ Θ Θ Θ < Θ Θ Θ Θ

_g

(X

₁

,.... ,X

_n

)) = 1- αααα

• Losowy przedział (Θd ,Θg ) nazywa się przedziałem ufności parametru Θ

• Granice przedziału ufności są funkcjami zmiennych losowych X₁,.... ,X_n

• 1-α nazywamy poziomem ufności (lub współczynnikiem ufności)

Zwykle przyjmuje się 1-α = 0,99 lub 0,95 lub 0,90 w zależności od rozpatrywanego zagadnienia

(74)

Przedział ufności dla wartości oczekiwanej, gdy znane jest odchylenie standardowe

Cecha X ma w populacji rozkład normalny N( µµµµ, σ), odchylenie standardowe σ jest znane.

Estymatorem wartości oczekiwanej µµµµ, uzyskanym MNW jest średnia arytmetyczna, która jest zmienną losową o rozkładzie N(µµµµ, σ/√n )

Po standaryzacji otrzymuję zmienną U o rozkładzie N(0,1)

gdzie:

n jest liczbą elementów z próby losowej

oznacza średnią arytmetyczną obliczoną z próby losowej σ odchylenie standardowe populacji

X n

U σ

µ

= −

X

(75)

Przedział ufności dla wartości oczekiwanej

gdy znane jest odchylenie standardowe σσσσ

0

1- αααα

u _1-_αααα_/2

αααα/2 αααα/2

σ α σ µ

α

< < + = −

−

₋ ₋

) 1

(

1 2 1 2

u n n X

u X

P

Poziom ufności

u _αααα_/2= - u _1-_αααα_/2

Φ (u

_1-_α_/2

) = 1- α /2

u

(76)

Praktyczna realizacja przedziałów ufności dla µµµµ^{, dla}

prostych prób losowych o licznościach n=25, z rozkładu N (0,1) dla poziomu ufności 1-αααα ^{= 0.9}

(77)

Problem minimalnej liczności próby

σ α σ µ

α

< − < +

α

= −

−

₋ ₋

) 1

(

2

2 1

1

X u n

u n P

Długość przedziału ufności wynosi

u σn

α 1 2

2 −

Żądamy by maksymalny błąd oszacowania nie przekraczał zadanej z góry wartości d

n d

u ≤

− α σ

1 2

Z tej relacji wynika, że

2

2 1 2

2

d u

n

σ

− α

≥

(78)

Zadanie

• Wykonujemy pomiary grubości płytki metalowej.

Jak dużą liczbę pomiarów (n) należy

przeprowadzić, aby prawdopodobieństwem

(ufnością) wynoszącym 0,95 maksymalny błąd oceny nie przekraczał 0,02 mm. Zakładamy, że odchylenie standardowe błędów pomiarów σ=0.1

(79)

Estymatorem µ, uzyskanym MNW jest średnia arytmetyczna, nie znamy σ, musimy zatem wybrać statystykę, która od σ nie zależy

Przedział ufności dla wartości oczekiwanej, gdy odchylenie standardowe jest nieznane

− 1

= − n

S

m t X

Statystyka t ma rozkład Studenta z n-1 stopniami swobody, nie zależy od parametru σ ale od parametru S,

S jest odchyleniem standardowym obliczonym z próby.

(80)

Przedział ufności dla wartości oczekiwanej, gdy odchylenie standardowe jest nieznane

Przedział ufności dla wartości oczekiwanej ma wtedy postać

• gdzie wartość tα,n-1, jest kwantylem rzędu α, z n-1 stopniami swobody

• Długość przedziału wynosi 2 tα,n-1S/√n-1

α

= −

+ −

<

− <

−

₋ ₋

) 1

1 (

_, ₁

1

_, ₁

n t S

X n m

t S X

P

_n _n

(81)

Kwantyle t_1-α(n), rzędu 1-αααα,rozkładu Studenta o n stopniach swobody

n

1-αααα

0.6 0.75 0.9 0.95 0.975 0.99 0.995 0.997

5 0.999 0.999 5

1 0.325 1.000 3.078 6.314 12.706 31.821 63.657 127.321 318.31 636.62

2 0.289 0.816 1.886 2.920 4.303 6.965 9.925 14.089 22.327 31.598

3 0.277 0.765 1.638 2.353 3.182 4.541 5.841 7.453 10.214 12.924

4 0.271 0.741 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610

5 0.267 0.727 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869

6 0.265 0.718 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959

7 0.263 0.711 1.415 1.895 2.365 2.998 3.499 4.029 4.785 5.408

8 0.262 0.706 1.397 1.860 2.306 2.896 3.355 3.833 4.501 5.041

9 0.261 0.703 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781

10 0.260 0.700 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587

11 0.260 0.697 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437

12 0.259 0.695 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318

13 0.259 0.694 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221

14 0.258 0.692 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140

15 0.258 0.691 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073

16 0.258 0.690 1.337 1.746 2.120 2.583 2.921 3.252 3.686 4.015

17 0.257 0.689 1.333 1.740 2.110 2.567 2.898 3.222 3.646 3.965

(82)

Przedział ufności dla wartości oczekiwanej, gdy nieznany jest rozkład w populacji

• W praktyce często nie znany jest rozkład cechy w populacji i brak jest podstaw do przyjęcia, że jest on normalny.

• Wiadomo, że średnia arytmetyczna wyznaczona z próby o dowolnym rozkładzie jest zmienną losową o rozkładzie N(m, σ/√n ) , dlatego

• Nieznane σ można przybliżyć obliczonym z dużej próby odchyleniem standardowym S

σ α σ µ

α

< < + = −

−

₋ ₋

) 1

(

2 1 2

1

X u n

u n X

P

α

µ

^α

α

< < + = −

−

₋ ₋

) 1

(

1 2 1 2

n u s

n X u s

X

P

(83)

Zadanie

• Dokonano 10 pomiarów ciśnienia wody na ostatnim piętrze bloku 15 piętrowego i

okazało się, że średnie ciśnienie wynosiło 2,21 podczas gdy wariancja wyniosła

4,41. Znaleźć liczbowe wartości krańców przedziałów ufności dla wartości

oczekiwanej przyjmując poziom ufności

• 1-α = 0,95

• 1-α = 0,90

• 1-α = 0,98

(84)

Przedział ufności dla wariancji w populacji normalnej

• Przedział jest zbudowany w oparciu o statystykę χ²=ns²/ σ² , która

ma rozkład χ² o n-1 stopniach swobody.

• W rozkładzie χ² określa się dwie wartości , spełniające odpowiednio równości

) 2

(

²

1 2,

2

χ α

χ ≥

_α

=

− n

P

1 2 )

( ²

1 2 ,

2 χ α

χ ≥ _α = −

−

P n

(85)

(86)

Przedział ufności dla wariancji w populacji normalnej

• Z podanych wzorów wynika, że

;

• Po przekształceniu których otrzymujemy przedział ufności dla wariancji

α χ

χ

_α

< <

_α

= −

−

) 1

(

²

1 2, 2

2

1 2,

1 n n

P ^χ

α

< _σ < ^χ

α

= − ^α

−

) 1

(

²

1 2, 2

2 2

1 2,

1 n n

P nS

χ α

χ

_α

^< σ ^<

_α

⁼ ⁻

−

1 )

(

₂

1 2 ,

1

2 2

2

1 2 ,

2

n n

nS

P nS

(87)

Zadanie

• Odchylenie standardowe σ błędu przyrządu pomiarowego jest nieznane. Zakładamy, że rozkład błędów pomiarów jest rozkładem normalnym.

• Przeprowadzono n= 10 pomiarów i otrzymano następujące wyniki

{7; 7,5; 8,5; 8; 6; 7,5; 6,5; 5;5 7,5; 6 }

• Wyznaczyć liczbowe wartości krańców przedziałów ufności dla

– Wartości oczekiwanej

– Dla odchylenia standardowego

• Na poziomie ufności 1-α = 0,95