• Nie Znaleziono Wyników

Elementy statystyki opisowej.

N/A
N/A
Protected

Academic year: 2021

Share "Elementy statystyki opisowej."

Copied!
8
0
0

Pełen tekst

(1)

//wmii.uwm.edu.pl/~germaniuk

adres strony internetowej Literatura.

W. Krysicki J. Bartos Rachunek prawdopodobieństwa i statystyka matematyczna w Zadaniach.

Część I Rachunek prawdopodobieństwa Część II Statystyka matematyczna

Wojciech Kordecki Rachunek prawdopodobieństwa i statystyka matematyczna Definicje, twierdzenia, wzory.

Elementy statystyki opisowej.

Statystyka matematyczna zajmuje się analizą i opisem dużych zbiorowości i zjawisk masowych przy pomocy metod rachunku prawdopodobieństwa. Badaniu podlega pewien zbiór elementów ze względu na jedną lub więcej cech, który oznaczać będziemy przez Ζ . Zbiór Ζ posiadający przynajmniej jedną cechę wspólną dla wszystkich jego elementów i własność ze względu na którą elementy tego zbioru różnią się między sobą nazywamy

populacją generalną

.

Badaniu mogą podlegać wszystkie elementy zbioru Ζ / badanie kompletne / lub jego część / badanie częściowe /. Badanie kompletnie w większości nie jest możliwe / zbiór jest nieskończony, badanie jest pracochłonne, niszczy badane elementy / dlatego statystyka matematyczna zajmuje się głównie wnioskowaniem o całej zbiorowości na podstawie informacji uzyskanych z pewnego skończonego podzbioru ß zboru Ζ . Ten skończony zbiór będziemy nazywać próbą. Aby próba wiernie reprezentowała populację generalną Ζ to każdy element tej populacji powinien mieć jednakowe prawdopodobieństwo trafienia do próby. Taką próbę nazywamy próbą losową prosta.

Badaniu może podlegać jedna cecha lub więcej cech elementów populacji generalnej.

Na początek zajmiemy się badaniem jednej cechy. Badane cechy mogą być mierzalne wyrażane za pomocą liczby i niemierzalne / odcień barwy, kolor włosów, płeć, zawód …. /.

W praktyce cechą niemierzalnym przyporządkowuje się liczby. Cechy mierzalne mogą być typu ciągłego / wartości cechy mogą przyjąć wszystkie liczby z określonego przedziału / i typu skokowego / wszystkich wartości cechy jest skończona lub przeliczalną ilość /.

Statystyka opisowa zajmuje się wstępnym opisem próby bez posługiwania się rachunku prawdopodobieństwa.

Szereg rozdzielczy.

Niech x1,x2,x3,......,xn będą wartościami cechy n – elementowej próby.

Przy większej liczebności próby (n > 30 ) w celu ułatwienia analizy próbę grupuje się w klasy tj. przedziały najczęściej jednakowej długości przyjmując uproszczenie, że wszystkie wartości należące do klasy mają wartość równą wartości środka przedziału. Następnie oblicza się liczebności przedziałów tzn. liczby - ilość elementów próby które maję wartości cechy z określonego przedziału. Ustalenie tych elementów tworzy szereg rozdzielczy danych próby.

Próba nie przedstawiona za pomocą szeregu rozdzielczego nazywamy próbą nieuporządkowaną /danymi nieuporządkowanymi /.

(2)

Liczba klas nie może być za mała / traci się szczegóły danych / i nie za duża / traci się przejrzystość danych /.

Oblicza się tzw. rozstęp danych R xmax xmin gdzie xmax x, min jest odpowiednio największą i najmniejszą wartością cechy w próbie.

Liczba klas k n lub można odczytać z tabeli Liczba pomiarów n Liczba klas k

30 - 60 6 - 8

60 - 100 7 - 10

100 - 200 9 - 12

200 - 500 11 - 17

500 - 1500 16 - 25

Długość przedziału przyjmuje się k h R

z nadmiarem tak aby hk R Punkty stanowiące granice poszczególnych klas ustala się z dokładnością 

2 1

gdzie

 jest dokładnością pomiaru wartości cechy w próbie.

Po ustaleniu tych elementów tworzy się szereg rozdzielczy próby.

Przedziały Liczebność Środki Częstość Łamana rozkładu

Klasowe cechy klasy klas cechy w klasie empirycznego

i

i b

a - ni xi (ai bi) 2 gi ni n wi gi h

1 1 - b

a n1 x1 g1 w1

2 2 - b

a n2 x2 g2 w2

.. . . . .

.. . . . .

k

k b

a - nk xk gk wk

nk

n n

n 1 2... liczebność próby

i

i a

b

h długość przedziału klasowego k liczba przedziałów klasowych

i

i b

a , końce i – tego przedziału klasowego 1 1

1 1

1 1

  

k j

i k

j k j

j k j

j

j n

n n n h

hg hw

1 1

1 1

1

 

k j

i k

j k j

j

j n

n n g n

Stąd pole zawarte między łamaną łączącą punkty o współrzędnych )

0 , 2 -

(x1 h ,(x1,w1), ……….. ,(xk ,wk), (xk h 2,0) a osią OX jest równe 1 . Analogicznie wartości i k

n

gini 1,2,...., określają empiryczne wartości prawdopodobieństwa zdarzenia - wartość cechy elementu wylosowanego z populacji generalnej będzie należała do i – tego przedziału klasowego. Wartości te wraz ze wzrostem liczby n do nieskończoności dążą do wartości teoretycznych całej populacji generalnej.

Parametry opisowe próby obliczane za pomocą szeregu rozdzielczego.

(3)

Średnia arytmetyczna

i k i k i

k xn

n n

n x n

x n

x x

 

 

1 2

2 1

1 .... 1

Wartości xi i = 1,2,….,k to środki przedziałów klasowych. Wartość x w

przybliżeniu równa się średniej arytmetycznej z wartości cechy próby nieuporządkowanej.

Ponadto xmun x xmax i 0

1

x

k x

i

i . Ostania własność jest prawdziwa wtedy i tyko wtedy gdy od wartości xi odejmujemy wartość x .

Wariancja

 

  k

i

i i

k

k x x n

n n

n x x n

x x n x s x

1 2 2

2 2 2 1 2

2 ( 1 ) ( ) ... ( ) 1 ( )

2 1

2 2 2

2 2 2 1 2

2 1 ... (1 x n) x

x n n

n x n

x n

s x k

i i i k

k   

 

Jest to średni rozrzut w kwadracie wartości cechy w próbie względem średniej arytmetycznej x .

Odchylenie standardowe

s2

s

Jest to średni rozrzut wartości cechy w próbie względem średniej arytmetycznej x Mniejsza wariancja i odchylenie standardowe - rozrzut wartości cechy mniejsze a skupienie większe i odwrotnie większa wariancja i odchylenie standardowe - rozrzut wartości cechy większy a skupienie mniejsze. Wariancja i odchylenie jest miarą rozrzutu wartości cechy w próbie względem średniej arytmetycznej x .

Mediana czyli wartość środkowa.

Z szeregu rozdzielczego wartość środkową cechy oblicza się za pomocą wzoru:

2 ) (

1

1

l

i i l

l

e n n

n a h

m gdzie indeks l to numer klasy zawierająca wartość środkową próby nieuporządkowanej.

Moda czyli dominanta

Modę czyli wartość dominującą w próbie z szeregu rozdzielczego oblicza się wzorem:

n h n n

n

n a n

m

l l l

l

l l l

o ( 1) ( 1)

1

 

 gdzie indeks l to numer klasy najliczniejszej.

Moment centralny ltego rzędu

 

  k

i

i l i k

l k l

l

l x x n

n n

n x x n

x x n x x

1 2

2 1

1 ) ( ) ... ( ) 1 ( )

 ( Współczynnik asymetrii /

skośności /

(4)

3 3

3 s

G

Jest miarą odstępstwa od symetrii wartości cechy w próbie. Dla G3 0 dane są symetryczne względem wartości x . Gdy G3 0 to antysymetria występuje w lewą stronę. Gdy G3 0 to antysymetria jest w prawą stronę.

Współczynnik spłaszczenia / eksces /

4 3

4

4  

Gs

Jest miarą odstępstwa wartości cechy w próbie od rozkładu normalnego w pionie. / rozkład ten będzie zdefiniowany w dalszej wykładu /. W rozkładzie normalnym G4 0 i G3 0.

Przykład

W badaniu rzeczywistego czasu przebywania cząstek reagentów w reaktorze przepływowym doświadczalnie stosując metodę typu sygnał /odpowiednio dobrana substancja, zwana traserem / -- odpowiedz, uzyskano następujące wyniki / w d /

4,6 5,

5 5 4,9 3,

9 4,3 4, 3 3,

7 4, 5 4,

6 4, 2 5,

3 5,3 3,8 4 4 3,9 2,

7 3,

3 6,2 5,

4 4,5 5, 9 8,

3 3,

3 6 3,

8 6,

1 3,2 3,9 6, 1 4,5 6,2 5,

3 5,

7 5,1 5,

4 6,3 4, 7 5,

2 4, 8 4,

4 4,

3 6 3,7 3,7 5, 1 4,7 5,3 5,

7 5,

4 6,6 5,

5 4,6 5, 2 4,

6 5, 9 4,

3 5, 3 4,

6 4,7 5,3 6, 5 3,7 a) Określić populację generalną i rodzaj cechy oraz utworzyć szereg rozdzielczy.

b). Podać interpretację danych /utworzyć histogram danych/

c). Obliczyć podstawowe parametry próby / średnią arytmetyczną ,wariancją,…./

Ad a),b)….

Elementem populacji generalnej jest doświadczenie badające rzeczywisty czas przebywania cząstek reagentów w reaktorze przepływowym. Doświadczeń można przeprowadzić

nieskończenie wiele a więc populacja jest nieskończona. Cecha – czas przebywania

reagentów wyrażona w dniach jest typu ciągłego ponieważ można uzyskać każdą wartość z przedziału np. 2 do 10. Dokładność pomiaru  = 0,1 dnia.

min max x x

R = 8,3 - 2,7 = 5,6 . Dla liczby klas k = 7, 8 ,9.

Długość przedziału k

h R  0,8 ; 0,7 ; 0,62 Dla k = 6

k

h R  0,9333 a więc decydując się na k = 6 i h1 mamy najlepsze przybliżenie z nadmiarem długości przedziału klasowego i przyzwoitą długość.

Skrajny lewy koniec przedziału klasowego a1 przyjmujemy 2,5.

czas

przebywania liczba środki Częstość funkcja reagentów /w d

/

pomiaró

w przedziałów

przedzia

łu gęstości

ai bi ni xi (ai bi) 2 gi ni n wi gi h

2,5 3,5 4 3 0,063 0,06

(5)

3,5 4,5 17 4 0,266 0,27

4,5 5,5 27 5 0,422 0,42

5,5 6,5 13 6 0,203 0,20

6,5 7,5 2 7 0,031 0,03

7,5 8,5 1 8 0,016 0,02

n

= 64

i

i a

b

h długość przedziału klasowego

(6)

czas przebywania

regentów / w d / Liczba

pomiarów środki

przedziałów składniki składniki składniki składniki składniki

i

i x n

x )3

(  (xix)4ni

2,5 3,5 4 3 12 14,77 36 -28,39 54,57

3,5 4,5 17 4 68 14,45 272 -13,32 12,28

4,5 5,5 27 5 135 0,16 675 0,01 0

5,5 6,5 13 6 78 15,11 468 16,29 17,56

6,5 7,5 2 7 14 8,64 98 17,95 37,3

7,5 8,5 1 8 8 9,47 64 29,16 89,77

n = 64 315 62,61 1613 21,7 211,49

Średnia arytmetyczna x = 64

315 = 4,92 / z próby nieuporządkowanej x = 4,89 /

Wariancja sp. I s2 = 64

61 ,

62 = 0,98 / z próby nieuporządkowanej s2 = 0,98 /

Wariancja sp. II s2 = 4,922

1613 64 = 0,98 Odchylenie standardowe

s

= 0,98 = 0,99

Wartość środkowa należy do 3 – go przedziału stąd indeks w wzorze na medianę l = 3 Mediana me = (4 7))

2 (64 27 5 1 ,

4 = 4,91 Najliczniejszy przedział ma indeks l = 3 stąd

Moda (dominanta) m0 = 4,5(27127)(172713)1 = 4,83 Moment centralny 3 – go rzędu 3 =

64 7 ,

21 = 0,34

Współczynnik asymetrii / skośności / 3 3 3

3 0,99

34 ,

 0

s

G

= 0,35 Moment centralny 4 – go rzędu 4 = 21164,49 = 3,3045 Współczynnik spłaszczenia / eksces / 4 3 30,3045,994 3

4

4    

Gs

= 0,4

Parametry opisowe z próby nieuporządkowanej

i

i x n

x )2 ( 

ai bi i n

2

i i i

b x a

i in

x i i

n x2

(7)

Niech x1,x2,x3,......,xn będą wartościami cechy n – elementowej próby nieuporządkowanej.

Średnia arytmetyczna

 

  n

i

n xi

n n

x x

x x

1 2

1 .... 1

xmax

x

xmun i 0

1

x

k x

i

i . Ostania własność jest prawdziwa wtedy i tyko wtedy gdy od wartości xi odejmujemy wartość x .

Wariancja

 

  n

i i

n x x

n n

x x x

x x s x

1 2 2

2 2 2

2 ( 1 ) ( ) ... ( ) 1 ( )

2 1

2 2 2 2

2 2

2 1 ... (1 )

x n x

n x x x

s x n

i i

n   

 

Jest to średni rozrzut w kwadracie wartości cechy w próbie względem średniej arytmetycznej x .

Odchylenie standardowe

s2

s

Jest to średni rozrzut wartości cechy w próbie względem średniej arytmetycznej x Mniejsza wariancja i odchylenie standardowe - rozrzut wartości cechy mniejsze a skupienie większe i odwrotnie większa wariancja i odchylenie standardowe - rozrzut wartości cechy większy a skupienie mniejsze. Wariancja i odchylenie jest miarą rozrzutu wartości cech w próbie względem średniej arytmetycznej x .

Mediana czyli wartość środkowa.

Z szeregu rozdzielczego wartość środkową cechy oblicza się za pomocą wzoru:

 

 

 

parzystego n

dla x

x

ego nieparzyst n

dla x

m

n n

n

e

2

* 2 )1 (

* 2) (

* 2 ) ( 1

Gdzie *2 *

*

1 x ... xn

x dane próby nieuporządkowanej ustawione w kolejności rosnącej.

Moda czyli dominanta

Modę czyli wartość dominującą w próbie jest to wartość najczęściej występująca w próbie Moment centralny ltego rzędu

 

  n

i

l i l

n l

l

l x x

n n

x x x

x x x

1 2

1 ) ( ) ... ( ) 1 ( )

 (

Współczynnik asymetrii / skośności /

3 3

3 s

G

(8)

Jest miarą odstępstwa od symetrii wartości cechy w próbie. Dla G3 0 dane są symetryczne względem wartości x . Gdy G3 0 to antysymetria występuje w lewą stronę. Gdy G3 0 to antysymetria jest w prawą stronę.

Współczynnik spłaszczenia / eksces /

4 3

4

4  

Gs

Jest miarą odstępstwa wartości cechy w próbie od rozkładu normalnego w pionie. / rozkład ten będzie zdefiniowany w dalszej wykładu /. W rozkładzie normalnym G4 0 i G3 0. Przykład

Badano wpływ preparatu jodowego na nieśność kur. Z populacji kur wybrano grupę doświadczalną której podano ten preparat. Liczba jaj zniesionych w okresie zimowym była następująca: 78 , 123 , 70 ,84 ,80.

a). Określić typ danych, elementy populacji generalnej i typ cechy.

b). Obliczyć podstawowe parametry próby.

Ad. a).

Dane próby są nieuporządkowane ponieważ nie możemy utworzyć szeregu rozdzielczego (n=5<30). Elementem badanej populacji generalnej jest kura której podaje się preparat jodowy których może w czasie być nieskończenie wiele a więc zbiór badanej populacji

generalnej jest nieskończony. Cecha – liczba jaj zniesionych w okresie zimowym przez kurę z tej populacji jest typu skokowego (dyskretnego) i wartości jest przeliczalna ilość / nie

możemy wykluczyć 1000 jaj ale z prawdopodobieństwem prawie zerowym lub zerowym /.

Ad. b).

Średnia arytmetyczna

5 87

80 84 70 123 78

2 ....

1        

n

x x

x x n

Wariancja

8 , 5 344

) 87 80 ( ) 87 84 ( ) 87 70 ( ) 87 123 ( ) 87 78 ( ) ( ....

) ( )

( 1 2 2 2 2 2 2 2 2 2

2                  

n

x x x

x x

s x n

Sposób II.

8 , 344 5 87

80 84 70 123 78

... 2 2 2 2 2 2

2 2 2

2 2

21    x       

n x x

s x n

Odchylenie standardowe

57 , 18 8 ,

2 344

s

s

Mediana czyli wartość środkowa.

80 me

Pozostałe podane parametry dla tak małej próby nie mają większego znaczeni.

Cytaty

Powiązane dokumenty

Obliczyć prawdopodobieństwo tego, że jeśli losowo wybrane zadanie jest trudne, to jest zadaniem z

14.1 W celu oszacowania wartości przeciętnego czasu bezawaryjnej pracy maszyny z partii tych maszyn wybrano losowo 7 maszyn i mierzono czas ich pracy do pierwszej awarii.. Wiedząc,

16.5 Z populacji pobrano 1000

Ile jest różnych liczb czterocyfrowych utworzonych z cyfr 1, 2, 3, 4, 5, w których cyfry nie mogą się

b) Oblicz prawdopodobieństwo zdarzenia, że wśród wybranych zawodników jest kapitan drużyny?. (4 pkt) Rzucono dwa razy symetryczną, sześcienną kostką

Liczba możliwości przy- znania medali za trzy pierwsze miejsca (zakładamy, że wszyscy zawodnicy ukończą kon- kurencję i wykluczamy przypadek dzielenia miejsc ex aequo), jest

Oblicz prawdopodobieństwo zda- rzenia, że co najwyżej jeden z tych uczniów ma rodzinę składającą się z liczby osób więk- szej niż średnia liczby osób przypadająca na

Zmienna losowa ciągła jest to zmienna przyjmu- jąca wszystkie wartości z pewnego przedziału (naj- częściej zbioru liczb rzeczywistych). Jeżeli x 1 oraz x 2 są dwiema