Przedmiot i rola statystyki

(1)

Statystyka

(2)

Przedmiot i rola statystyki

Statystyka jest dziedziną nauki zajmującą się metodami ilościowymi opisu zjawisk lub procesów masowych.

Zjawisko jest masowe, gdy dotyczy wystarczająco dużej

liczby jednostek. Wówczas to daje się zaobserwować pewne prawidłowości.

Na każde zjawisko oddziaływują dwie grupy przyczyn:

•

przyczyny główne, które wpływają na powstanie prawidłowości,

•

przyczyny uboczne, które powodują odchylenia od niej.

(3)

Przyjęcie

studenta na wyższą uczelnię

Dla studenta jest zjawiskiem

jednostkowym

(4)

Przyjęcie

studenta na wyższą uczelnię

Dla administracji uczelni jest zjawiskiem

masowym

(5)

Przyczyna główna - dobrze zdany egzamin maturalny.

Przyczyna uboczna - zwycięstwo w olimpiadzie wiedzy o gospodarce i przedsiębiorczości.

(6)

Badania statystyczne a podejmowanie decyzji

Posiadanie rzetelnych, dokładnych i wyczerpujących

informacji, których dostarczają badania statystyczne jest jednym z warunków ułatwiających podejmowanie decyzji.

PROCES DECYZYJNY

DECYZJA

POLECENIE

DZIAŁANIE KONTROLA

INFORMACJA

(7)

Podstawowe pojęcia

statystyczne

(8)

Zbiorowość statystyczna

To zbiór dowolnych jednostek (np. ludzi, przedmiotów, przedsiębiorstw,

obszarów geograﬁcznych), które mają przynajmniej jedną wspólną właściwość, a różnią się z innych punktów widzenia. Wśród zbiorowości wyróżniamy:

•

Zbiorowość pełną (populację generalną) — zbiór wszystkich jednostek, co do których chcemy wnioskować o charakterystykach ich właściwości. Może ona być skończona (populacja podmiotów gospodarczych zarejestrowanych w systemie REGON) lub nieskończona (populacja owadów w pewnej okolicy).

•

Zbiorowość częściową (próbę) — pewien podzbiór populacji generalnej, którego elementy zostały dobrane w sposób losowy lub nielosowy.

Symbolem n oznacza się liczebność próby, natomiast przez N — liczebność populacji generalnej.

(9)

Jednostka statystyczna

Poszczególne elementy składowe badanej zbiorowości (lub próby) noszą nazwę jednostek statystycznych (jednostek badania,

obserwacji). W celu jednoznacznego określenia, jakie jednostki będą stanowiły zbiorowość statystyczną, niezbędne jest określenie jednostki statystycznej pod względem:

•

rzeczowym (przedmiotowym) — co badamy,

•

czasowym — z jakiego okresu pochodzą obserwacje,

•

terytorialnym (przestrzennym, geograﬁcznym) — z jakiego obszaru,

•

zakresowym — jakie informacje o jednostkach będą gromadzone.

(10)

Cechy Statystyczne

(11)

Cechy Statystyczne

Jednostki wchodzące w skład zbiorowości (pełnej czy częściowej) odznaczają się pewnymi własnościami. Własności te nazywamy cechami statystycznymi.

Cechy statystyczne można podzielić na:

•

stałe, czyli wspólne dla wszystkich jednostek badanej zbiorowości — wykorzystywane wyłącznie do precyzyjnego zdeﬁniowania badanej zbiorowości statystycznej,

•

zmienne, czyli te, dzięki którym poszczególne jednostki różnią się między sobą — wykorzystywane w analizie statystycznej.

Jeśli cechę oznaczymy przez X, to jej warianty (wartości, odmiany) oznaczamy przez xi, gdzie i oznacza numer wariantu.

(12)

Podział Cech Statystycznych

Cechy Statystyczne

Mierzalne Niemierzalne

Ciągłe Skokowe Porządkowe Nominalne

5 kg

❤ _Podstawowe 🇮🇩🇨🇿🇧🇬🇨🇿

Średnie

Wyższe Dostateczny

(13)

Cechy mierzalne

Cechy mierzalne (inaczej ilościowe) to takie, które mogą przyjmować określone wartości wyrażone przy pomocy liczb (w postaci jednostek ﬁzycznych - w sztukach, kilogramach, złotych itp.). Są to na przykład wiek (w latach), wzrost (w cm), wynagrodzenie (w zł). Cechy

mierzalne dzieli się na ciągłe i skokowe (dyskretne).

Cechy skokowe (o zmienności skokowej) mogą przyjmować określone wartości ze skończonych lub przeliczalnych zbiorów liczbowych, bez wartości pośrednich (np. liczba osób w gospodarstwie domowym, liczba przebytych chorób zakaźnych).

Cechy ciągłe (o zmienności ciągłej) mogą przyjmować każdą wartość z określonego przedziału liczbowego (np. wiek, wzrost, koszt, prędkość).

(14)

Cechy niemierzalne

Cechy niemierzalne (inaczej jakościowe) charakteryzują się tym, że ich wariantów nie można zmierzyć przy pomocy liczb, można je wyrazić tylko słownie. Są to na przykład płeć (kobieta, mężczyzna), kolor

(biały, czarny, niebieski itp.), wykształcenie (podstawowe, zasadnicze zawodowe, średnie, wyższe). Cechy niemierzalne dzieli się na

porządkowe i nominalne.

Cechy porządkowe to takie, których warianty można ustawić w pewnej kolejności (uporządkować), np. wykształcenie, ocena ze sprawowania, stan rynku (bessa, hossa).

Cechy nominalne to cechy niemierzalne, dla których nie ma hierarchii ich wariantów, np. kolor, płeć, marka samochodu.

(15)

Przykład

W pewnej niewielkiej ﬁrmie produkcyjnej zbadano pracujących tam sześciu pracowników. Zarejestrowano ich wiek, płeć, liczbę osób na utrzymaniu.

Badano zatem pracowników pod względem następujących cech statystycznych:

•

wiek (w latach) — cecha ilościowa (mierzalna), ciągła (gdyż mamy do czynienia z procesem ciągłym, który trwa); zarejestrowano następujące warianty tej cechy: 18, 23, 51, 44, 39 i 51,

•

płeć — cecha jakościowa (niemierzalna), nominalna; cecha ta ma dwa warianty: kobieta (jeden pracownik), mężczyzna (pięciu pracowników),

•

Liczba osób na utrzymaniu — cecha ilościowa (mierzalna), skokowa;

zarejestrowane; warianty tej cechy: 1, 2, 3, 4, gdyż dwóch pracowników ma na utrzymaniu po 1 i 2 osoby.

(16)

Skale pomiarowe

• Skala nominalna (możliwe relacje: równe, różne).

• np. rodzaje studiów: politechniczne, ekonomiczne, medyczne.

• Skala porządkowa (możliwe relacje: równe, różne, większe, mniejsze).

• np. wszelkie rangowanie, czyli przypisywanie liczb charakteryzujących stopnie natężenia cechy.

• Skala przedziałowa (możliwe relacje: równe, różne, większe, mniejsze, większe o…, mniejsze o…).

• np. skale Celsjusza, Fahrenheita.

• Skala ilorazowa, stosunkowa (możliwe relacje: równe, różne, większe, mniejsze, większe o…, mniejsze o…, tyle razy większe, tyle razy mniejsze).

• np. waga, wzrost, wynagrodzenie, cena, wiek.

(17)

Podział metod statystycznych

Metody Statystyczne

• Metody opisu statystycznego

• Metody wnioskowania statystycznego

• ^Estymacja

• Weryfikacja hipotez

• Metody analizy struktury

• Metody analizy współzależności

• Metody analizy dynamiki

• Metody analizy

szeregów czasowych Kryterium formalno-

statystyczne

Kryterium zakresowo- przedmiotowe

(18)

Działy Statystyki

Kierując się kryterium formalno-statystycznym wyróżnia się dwa działy statystyki:

•

Statystykę opisową, która zajmuje się opracowaniem danych o obserwowanej zbiorowości, dokonując jej uporządkowanego opisu z

różnych punktów widzenia; proponuje szereg miar w sposób syntetyczny charakteryzujących badaną zbiorowość; pozwala na opis tylko jednostek objętych badaniem, bez uogólniania wyników na populację,

•

Wnioskowanie statystyczne, które pozwala ustalić prawidłowości i charakteryzować populację generalną na podstawie zredukowanej liczby danych (z próby), przy zastosowaniu praw rachunku

prawdopodobieństwa. Dzięki niemu możliwe jest określenie błędu jaki popełniamy, uogólniając wyniki z próby na całą zbiorowość.

(19)

Badanie statystyczne

Badaniem statystycznym nazywamy ogół prac, których

celem jest poznanie prawidłowości charakteryzujących określoną zbiorowość. Sprowadza się ono do zebrania, odpowiedniego

przetworzenia i analizy informacji na temat badanej zbiorowości statystycznej z punktu widzenia wybranych cech statystycznych, charakteryzujących jednostki należące do tej populacji.

Przed przystąpieniem do badania statystycznego (!) należy wyraźnie sprecyzować jego cel. Od tego zależy bowiem, jakie

jednostki statystyczne poddane będą badaniu, jakiej zbiorowości będą stanowić elementy i pod względem jakich cech będą

badane.

(20)

Organizacja badania statystycznego

Badanie Statystyczne

Pełne (całkowite, generalne) obejmuje wszystkie jednostki określonej zbiorowości

• Spisy statystyczne

• Rejestracje statystyczne

• Sprawozdawczość statystyczna

Częściowe (niepełne) obejmuje tylko wybraną część populacji generalnej — próbę

Dobór próby

Losowy Celowy

• ^Warstwowy

• Prosty za pomocą:

• ^Losowania

• ^{Za pomocą}

tablicy liczb losowych

• Systematyczny

• Wielostopniowy

• Dobór jednostek typowych

• ^Dobór

proporcjonalny

• Dobór przez eliminację

(21)

Przykład

Losowanie statystyczne. W ﬁrmie produkującej rowery przeprowadzono badanie jakości. Partia rowerów liczyła 250 sztuk, a do badania postanowiono wybrać 12. Pierwszy rower zostaje wybrany losowo (np. za pomocą tablicy liczb

losowych lub oprogramowania komputerowego). Przyjmijmy, że wybrano rower numer 3. Następne numery rowerów

wyznaczono dodając do 3 kolejne wielokrotności liczby 20. W próbie znalazły się żartem rowery o numerach: 3, 23, 43, 63, 83, 103, 123, 143, 163, 183, 203, 223.

(22)

Tablica liczb losowych

(23)

Oprogramowanie

(24)

Przykład

Metoda warstwowa. Właściciel Toyoty postanowił zaprosić 100 najlepszych pracowników do odwiedzenia centrali ﬁrmy.

Aby nikt z pracowników sześciu państw, w których koncern ma oddziały nie poczuł się pokrzywdzony, wybrano losowo pracowników każdego z oddziałów proporcjonalnie do łącznej liczby zatrudnionych w Toyocie.

Oddziały I II III IV V VI Razem

Liczba pracowników

ogółem 600 250 670 125 1400 935 3980

Proporcjonalna liczba wybranych losowo

pracowników 15 7 17 3 35 23 100

(25)

Przykład

Dobór celowy. Instytut Ekonomiki Rolnictwa i Gospodarki Żywnościowej polecił przeprowadzenie badania

statystycznego gospodarstw rolnych zorientowanych rynkowo.

W świadomy i subiektywny sposób wybranych zostało 1300 indywidualnych gospodarstw rolnych, które prowadzą

rachunkowość rolną. Badania prowadzone na próbie dobranej w sposób celowy, w przeciwieństwie do losowego, nie

pozwalają (!) na dokonanie uogólnień na całą populację (np.

na wszystkie gospodarstwa rolne w Polsce). Można je co najwyżej uogólnić na określoną część tej populacji (np. na gospodarstwa rolne produkujące głównie na sprzedaż).

(26)

Rodzaje badań częściowych

Badania częściowe zalecane są, gdy:

•

proces obserwacji wiąże się ze zniszczeniem lub uszkodzeniem badanego produktu,

•

badana zbiorowość jest bardzo liczna, w związku z tym objęcie obserwacją statystyczną wszystkich jej elementów (jednostek) byłoby bardzo kosztowne, czasochłonne i

wymagałoby zaangażowania wielu osób.

Najpopularniejsze typy badań częściowych to: badania

reprezentacyjne, badania monograﬁczne, badania ankietowe.

(27)

Przykład

Coroczne badanie aktywności zawodowej

Podwójnie ślepa próba w badaniu efektywności szczepionki

Crash-test

Badania liczby płytek krwi

(28)

Szacunek statystyczny

•

Postępowanie, w którym na podstawie pewnych znanych cech

zbiorowości ustalamy wartości innych, nieznanych cech tej zbiorowości (np. znając zarobki przewidujemy kwotę wydawaną na zakupy).

•

Proces, w którym na podstawie cech znanej zbiorowości ustalamy

poziom tych samych (lub podobnych) cech nieznanej zbiorowości (np.

znając liczbę zakażonych w Niemczech możemy przewidywać liczbę zakażonych w Polsce).

•

Przewidywanie na podstawie wielkości zjawiska w okresach

poprzednich wielkość tego zjawiska w przyszłości (na podstawie stóp zwrotu akcji z poprzednich miesięcy przewidywanie kierunku zmian rynku papierów wartościowych za miesiąc).

(29)

Etapy badania statystycznego

•

Projektowanie badania.

•

Obserwacja statystyczna.

•

Opracowanie i prezentacja materiału statystycznego.

•

Analiza statystyczna zebranych danych w tym opis i wnioskowanie statystyczne.

(30)

Opracowanie i Prezentacja

Danych Statystycznych

(31)

Grupowanie danych statystycznych

Grupowanie statystyczne ma na celu podział zbiorowości na grupy jednostek podobnych względem siebie. Dobrze zbudowane szeregi

statystyczne zapewniają właściwy obraz struktury zbiorowości, większą precyzję miar statystycznych charakteryzujących badaną zbiorowość, a także pozwalają łatwiej i szybciej uchwycić relacje zachodzące między badanymi zjawiskami.

Rozróżniamy dwa rodzaje grupowania:

•

Grupowanie proste, polegające na podziale zbiorowości ze względu na jedną cechę,

•

Grupowanie złożone, przeprowadzane ze względu na kilka cech równocześnie.

(32)

Szeregi Statystyczne

Grupowanie proste prowadzone jest w postaci szeregów statystycznych inaczej zwanych rozkładami empirycznymi.

Szeregi Statystyczne

Szeregi

szczegółowe

Szeregi rozdzielcze (strukturalne)

• Cech mierzalnych

• Szeregi rozdzielcze punktowe

• Szeregi rozdzielcze przedziałowe

• o przedziałach zamkniętych

• o przedziałach otwartych

• Cech niemierzalnych

Szeregi

przestrzenne (geograficzne)

Szeregi czasowe

• ^Momentów

• ^Okresów

(33)

Szereg Szczegółowy

To uporządkowany niemalejąco lub nierosnąco ciąg wartości badanej cechy statystycznej. Uporządkowanie to następuje

tylko według wartości badanej cechy. Jeśli przez xi oznaczymy warianty cechy, to szereg szczegółowy można zapisać

następująco:

x₁, x₂, x₃, …, x_N .

(34)

Przykład

Dwudziestu uczniów zapytano, ile godzin spędzają dziennie przed komputerem. Udzielili oni następujących odpowiedzi:

2,5 3 0,5 1 6 7 3,5 3 3 2 4 4,5 5 5 5 1,5 5 2,5 0,5 5

W badaniu mamy do czynienia z cechą statystyczną: liczba godzin spędzonych dziennie przed komputerem. Jest to cecha mierzalna ciągła. Zbiorowość (populację) statystyczną tworzą poszczególne jednostki badania, czyli poszczególni uczniowie. Informacje

statystyczne o wartości cechy dla każdej z jednostek tworzą

indywidualny szereg wartości cech (surowy materiał statystyczny).

Po uporządkowaniu otrzymujemy szereg szczegółowy:

0,5 0,5 1 1,5 2 2,5 2,5 3 3 3 3,5 4 4,5 5 5 5 5 5 6 7

(35)

Szereg Rozdzielczy

Inaczej zwany szeregiem strukturalnym, jest to zbiór wartości liczbowych uporządkowanych (rosnąco w przypadku cechy

mierzalnej lub porządkowej) według wariantów badanej cechy

mierzalnej lub niemierzalnej, przy czym poszczególnym wariantom cechy przyporządkowane są odpowiadające im liczebności.

Zbiorowość statystyczną dzieli się w ten sposób na klasy według określonej cechy z podaniem liczebności każdej z wyodrębnionych klas.

Zliczanie jednostek posiadających ten sam wariant cechy

wykonujemy poprzez zliczanie bezpośrednie, sposobem kreskowym albo korzystając z odpowiedniego oprogramowania.

(36)

Ćwiczenie. 32

W grupie 24 osób rejestrowano ich wynagrodzenia, staż pracy oraz płeć. Wyniki tej rejestracji przedstawiono poniżej. Na podstawie tych informacji dokonaj zliczenia materiału statystycznego sposobem kreskowym. W tym celu sporządź w zeszycie tablicę pozwalającą na dokonanie zliczania z jednoczesnym uwzględnieniem trzech cech.

Kobiety: Mężczyźni:

2200 zł - 32 miesiące 2250 zł - 23 miesiące 2300 zł - 31 miesięcy 2350 zł - 21 miesięcy 2400 zł - 36 miesięcy 2450 zł - 22 miesiące 2480 zł - 40 miesięcy 2510 zł - 25 miesięcy 2520 zł - 40 miesiące 2600 zł - 28 miesięcy 2620 zł - 44 miesiące 2700 zł - 30 miesięcy 2780 zł - 39 miesięcy 2840 zł - 32 miesiące 2910 zł - 40 miesiące 3020 zł - 27 miesięcy 3120 zł - 44 miesiące 3260 zł - 30 miesięcy 3340 zł - 28 miesięcy 3510 zł - 32 miesiące 3700 zł - 23 miesiące 3700 zł - 23 miesiące 4100 zł - 21 miesięcy 4100 zł - 21 miesięcy Ćwiczenie. 33

Dzienna wielkość produkcji i liczba zatrudnionych pracowników w badanej grupie 42 zakładów zostały ujęte w poniższej tablicy.

1) Opracuj wykaz klasyfikacyjny dla dwóch cech (dane o wielkości produkcji należy ująć w siedmiu przedziałach o rozpiętości 500 zł). W tym celu sporządź w zeszycie tablicę pozwalającą na dokonanie zliczania z jednoczesnym uwzględnieniem obu cech.

2) Dokonaj zliczania materiału statystycznego metodą kreskową.

Produkcja w zł

Liczba pracow

ników

2 110 4 5 190 8 4 130 6 4 540 5

3 330 4 2 700 4 4 830 6 5 230 6

4 300 5 2 850 4 4 360 5 2 930 4

4 980 4 3 800 4 5 010 7 3 990 5

3 350 5 4 520 5 5 170 7 2 970 4

4 320 6 2 270 4 4 370 6 3 010 5

4 990 6 4 610 5 3 520 5 4 190 6

3 380 4 2 940 4 2 420 4 4 140 7

2 230 4 4 020 5 5 210 5 4 890 8

3 610 5 4 730 6 3 970 4 4 940 8

4 430 6 2 960 4

Ćwiczenie. 34

Na podstawie informacji dotyczących miesięcznych wydatków na zakup prasy dokonaj w zeszycie czterokrotnie grupowania statystycznego tworząc przedziały o różnej rozpiętości. W pierwszym grupowaniu przedziały powinny mieć rozpiętość 40 zł, w drugim 80 zł, w trzecim 120 zł i w czwartym 160 zł.

120 50 40 42 52 60 56 52 60 44 56 50 46 42 40 52 40 130 134 138 142 190 192 140 196 200 204 206 208 210 212 214 216 218 220 40 42 52 60 42 42 40 58 56 238 240 242 244 250 250 254 256 256 260 260 264 264 272 278 284 286 290 292 294 298 300 300 300 302 324 326 326 328 330 332 150 152 154 368 368 200 250 340 288 165 158 162 166 166 132 336 338 338 354 354 364 288 40 42 60 40 46 50 38 56 40 48 36 56 42 52 368 368 200 250 340 288 50 46 42 52 410 56 50 42 52 40 38 58 40 44 46 36 38 62 46 56 50 38 42 52 368 368 200 250 340 288 52 40 222 224 226 228 230 232 234 238 50 52 40 42 52 42 40 42 36 40 44 42 52 38 62 50 52 52 42 52 40 42 40 42 580 42 52 60 42 42 40 58 56 470 62 200 200 340 288 470 200 602 340 602 250 250 222 224 226 228 230 232 234 238 470 250 250 200 288 602 288 288 340 288 288 288 360

Rozwiązanie:

Przedział Zliczanie Liczba

0 ≤ x < 50 ||||| ||||| ||||| ||||| ||||| ||||| |||||

||||| ||||| ||||| |||

/ / / / / / /

/ / / / /

/ / / / / / /

/ / / /

/ / / / / / / / / /

/ / /

/ / / / / / / / / / / /

/ / / / /

53

50 ≤ x < 100

(37)

(38)

Liczebności absolutne

Liczebności poszczególnych k klas, wyróżnione na etapie zliczania to absolutne liczebności cząstkowe albo inaczej częstości (niektórzy mówią krótko — liczebności). Przez

liczebności absolutne (zwane też bezwzględnymi), oznaczane symbolem ni, rozumiemy liczbę rzeczywistych obserwacji

odpowiadających danemu wariantowi cechy. Suma

poszczególnych liczebności cząstkowych daje liczebność całej zbiorowości, czyli N:

N = n₁ + n₂ + … + n_k = ∑^k

i=1

n_i .

Szereg rozdzielczy zbudowany z wykorzystaniem liczebności absolutnych nosi nazwę szeregu prostego.

(39)

Liczebności względne

Liczebności względne (tak zwane wskaźniki struktury)

oznaczamy symbolem wi. Określają one, jaki udział w całej zbiorowości mają jednostki statystyczne posiadające dany wariant cechy. Obliczamy je wzorem:

w_i = n_i

N , i = 1,2,…, k . Mają one następujące własności:

∙ 0 ⩽ w_i ⩽ 1,

∙ w₁ + w₂ + … + w_k = ∑^k

i=1

w_i = 1.

(40)

Liczebności skumulowane

Niekiedy badacza interesuje, jaka liczebność odpowiada wszystkim klasom od pierwszej do danej włącznie, a więc jaka jest liczebność jednostek statystycznych posiadających dany wariant cechy lub

niższy. Informacji takich dostarczają liczebności skumulowane.

Liczebności absolutne skumulowane, oznaczane przez nisk,

wskazują ile jednostek statystycznych ma dany wariant cechy lub niższy (słabszy).

Liczebności względne skumulowane, oznaczane przez wisk,

wskazują, jaka część (odsetek) jednostek statystycznych ma dany wariant cechy lub niższy (słabszy).

(41)

Liczebności skumulowane

Szereg rozdzielczy o tak przedstawionych liczebnościach

określa się mianem szeregu rozdzielczego skumulowanego lub nazwą dystrybuanty empirycznej.

w_isk = w₁ + w₂ + … + w_i = ∑ⁱ

l=1

w_l, n_isk = n₁ + n₂ + … + n_i = ∑ⁱ

l=1

n_l,

gdzie i = 1,2,…, k .

(42)

Przykład - szereg rozdzielczy dla cechy niemierzalnej nominalnej

Uczniów pewnej klasy zapytano, jaki jest ich ulubiony kolor.

Trzech uczniów lubi kolor zielony, pięciu — niebieski, ośmiu — czerwony, trzech — różowy, siedmiu — biały, dwóch — czarny.

Numer

klasy, i Ulubiony kolor, xi

Liczba uczniów, ni

Udział uczniów, wi

Procent

uczniów, wi (w %)

1 Zielony 3 0,11 11

2 Niebieski 5 0,18 18

3 Czerwony 8 0,29 29

4 Różowy 3 0,11 11

5 Biały 7 0,25 25

6 Czarny 2 0,07 7

Razem 28 1,00 100

(43)

Przykład - szereg rozdzielczy dla cechy niemierzalnej porządkowej

Badając strukturę 40 pracowników pewnego przedsiębiorstwa pod względem wykształcenia stwierdzono, że: ośmiu z nich

ma wykształcenie wyższe, dwudziestu - średnie, dziesięciu - zawodowe, a dwóch pozostałych - podstawowe.

Numer klasy,

i

Wykształcenie, xi

Liczba

pracowników, ni

Częstości skumulowane,

nisk

Udział pracowników,

wi

Częstości względne skumulowane,

wisk

1 Podstawowe 2 2 0,05 0,05

2 Zawodowe 10 12 0,25 0,30

3 Średnie 20 32 0,50 0,80

4 Wyższe 8 40 0,20 1,00

Razem 40 x 1,00 x

(44)

Szeregi rozdzielcze dla cech mierzalnych

Wśród szeregów rozdzielczych budowanych dla cech mierzalnych wyróżnia się:

•

Szeregi rozdzielcze punktowe (o przedziałach jednostkowych),

•

Szeregi rozdzielcze przedziałowe (z przedziałami klasowymi)

(45)

Szeregi rozdzielcze punktowe

Informacje statystyczne grupuje się w szeregi rozdzielcze punktowe wówczas, gdy badamy cechę skokową i ma ona niewiele wariantów. Wówczas ten typ szeregu czyni

prezentację bardziej przejrzystą i czytelną.

xi ni

x1 n1

x2 n2

x3 n3

… …

xk nk

Razem N

(46)

Przykład

60 uczniów zapytano o liczbę rodzeństwa. Uzyskano

następujące informacje: 0, 2, 3, 0, 1, 1, 0, 1, 5, 1, 1, 0, 0, 0, 0, 2, 2, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 3, 2, 7, 2, 1, 1, 0, 0, 3, 2, 5, 4, 4. 2, 1, 3, 6, 2, 1, 0, 0, 0, 0, 2, 3, 1, 2, 1, 1, 1, 0, 0, 0.

Numer klasy,

i

Liczba rodzeństwa,

xi

Liczba uczniów,

ni

Częstości skumulowane,

nisk

Udział uczniów,

wi

Częstości względne skumulowane,

wisk

1 0 21 21 0,35 0,35

2 1 18 39 0,30 0,65

3 2 10 49 0,17 0,82

4 3 5 54 0,08 0,90

5 4 2 56 0,03 0,93

6 5 2 58 0,03 0,96

7 6 1 59 0,02 0.98

8 7 1 60 0,02 1,00

Razem 60 x 1,00 x

(47)

Szeregi rozdzielcze przedziałowe (z przedziałami klasowymi)

Zaleca się je budować w sytuacji, gdy badana cecha jest

ciągła albo jest cechą skokową o wielu wariantach. Wówczas na wstępie warianty cechy grupuje się w przedziały klasowe, a zadaniem badacza jest zakwaliﬁkowanie każdej jednostki statystycznej do odpowiedniego przedziału. Ostatecznie, otrzymujemy liczebności cząstkowe poszczególnych

przedziałów klasowych, wskazujące na to, ile bądź jaki

odsetek jednostek badania przyjmuje wartości cechy z danego przedziału.

(48)

Szeregi rozdzielcze przedziałowe (z przedziałami klasowymi)

Każdy przedział ma dwie granice: dolną x0i oraz górną x1i. Różnicę między górną i dolną granicą i-tego przedziału

klasowego nazywamy rozpiętością przedziału klasowego i oznaczamy przez hi

h_i = x_1i − x_0i .

Przykładowo, dla przedziału klasowego „40 — 50” mamy:

x_0i = 40, x_1i = 50, h_i = 50 − 40 = 10.

(49)

Szeregi rozdzielcze przedziałowe (z przedziałami klasowymi)

W szczególnych przypadkach, granice początkowych i/lub końcowych przedziałów w szeregu mogą być otwarte (nie

mieć dolnej lub górnej granicy), np. poniżej 10, powyżej 80.

Tak skonstruowane przedziały określamy jako otwarte lub niedomknięte.

Numer

klasy Przedział klasowy

1 Poniżej 5

2 5 — 10

3 10 — 15

4 15 — 20

5 20 lub więcej

(50)

Szeregi rozdzielcze przedziałowe (z przedziałami klasowymi)

Budując szeregi rozdzielcze przedziałowe należy najpierw zdecydować o liczbie przedziałów, ich rozpiętości i sposobie określenia granic przedziałów. Teoria statystyki nie podaje jednoznacznych wzorców budowy szeregów rozdzielczych przedziałowych. Podstawowym warunkiem, jaki trzeba spełnić budując taki szereg, jest dbałość o rozłączność

klasyﬁkacji zbiorowości (poszczególne przedziały nie mogą

zachodzić na siebie) oraz o to, aby była ona przeprowadzona w sposób wyczerpujący (wyróżnione klasy powinny

obejmować wszystkie jednostki badanej zbiorowości).

(51)

Schemat postępowania przy budowaniu przedziałowego

szeregu rozdzielczego

(52)

I. Ustalenie liczby klas

Liczba przedziałów klasowych zależy od obszaru zmienności cechy, tj. różnicy między najmniejszą a największą wartością cechy, od liczebności zbiorowości oraz od stopnia szczegółowości informacji jaki chcemy uzyskać w wyniku badania statystycznego. Zaleca się, aby liczbę przedziałów zwiększać w miarę zwiększania liczebności zbiorowości oraz rozszerzania obszaru zmienności cechy. Należy jednak robić to z ogromnym wyczuciem:

•

zbyt mało przedziałów — utrudniona identyﬁkacja prawidłowości w zbiorowości,

•

zbyt dużo przedziałów — mniejsza przejrzystość.

(53)

I. Ustalenie liczby klas

Liczbę klas k można oszacować korzystając z następującego wzoru:

k ≈ N,

gdzie N oznacza liczbę obserwacji w całej zbiorowości statystycznej.

Zalecana liczba klas w zależności od N

N k

Do 15 3 — 4

16 — 31 4 — 5

32 — 63 5 — 6

64 — 127 6 — 7

128 — 255 7 — 8

256 — 511 8 — 9

Powyżej 512 10

(54)

II. Ustalenie początku pierwszego przedziału klasowego x 01

Za początek pierwszego przedziału klasowego zwykle

przyjmuje się najniższą wartość cechy w badanej zbiorowości.

Można też przyjąć liczbę nieco niższą, np. gdy najniższa wartość jest ułamkiem, można przyjąć za x01 najbliższą mniejszą od xmin liczbę całkowitą, gdzie xmin oznacza

najmniejszą wartość w zbiorowości.

x_min = 1,7

0 1 2 3

x₀₁ = 1

(55)

III. Ustalenie rozpiętości przedziałów klasowych

Rozpiętość przedziałów klasowych można wyznaczyć ze wzoru:

x₀₁ x₁₁ = x₀₂ x₁₂ = x₀₃ x₁₃

h = x_max − x_min

k .

Najlepiej, jeśli jest ona jednakowa dla wszystkich przedziałów klasowych.

h h h

(56)

IV. Budowanie przedziałów klasowych

Budujemy przedziały klasowe domykając je zgodnie z rozpiętością przedziałów klasowych. Należy uważać, aby

żadna jednostka statystyczna nie znalazła się poza szeregiem statystycznym. Zaleca się, aby przedziały klasowe dla cech ciągłych zazębiały się: górna granica danego przedziału była taka sama jak dolna granica przedziału następnego, przy

czym obserwację równą tej granicy zalicza się zwykle do

przedziału następnego. W przypadku cech skokowych zaleca się, aby granice te się nie pokrywały.

⟨x⁰ⁱ, x_1i) ⟨x⁰ⁱ⁺¹, x_1i+1)

(57)

V. Przyporządkowanie poszczególnych jednostek do przedziałów klasowych

Zliczamy poszczególne jednostki statystyczne o wartościach cechy z danego przedziału, obliczając w ten sposób

liczebności cząstkowe.

x_0i − x_1i 0 − 5 = ⟨0,5) 5 − 10 = ⟨5,10) 10 − 15 = ⟨10,15)

15 − 20 = ⟨15,20) 20 − 25 = ⟨20,25)

n_i 9 15

22 11

3

Razem 60

x_0i − x_1i

0 − 4 = {0,1,2,3,4}

5 − 9 = {5,6,7,8,9}

10 − 14 = {10,11,12,13,14}

15 − 19 = {15,16,17,18,19}

20 − 24 = {20,21,22,23,24}

n_i 9 15

22 11

3

Razem 60

Cecha ciągła Cecha skokowa

(58)

Przykład

Poniższe dane o podregionach Polski z roku 2007

wykorzystamy do pogrupowania podregionów ze względu na liczbę miast i produkcji sprzedanej przemysłu.

Źródło: Bank Danych regionalnych, www.stat.gov.pl

L.p. Województwo Podregion Liczba miast

Produkcja sprzedana

przemysłu (w mln

1 łódzkie łódzki 11 5806,4

2 m. Łódź 1 10497,3

3 piotrkowski 10 12043,0

… … … … …

64 warmińsko-mazurskie elbląski 19 7520,9

65 ełcki 10 3079,6

66 olsztyński 20 8221,2

(59)

Przykład

W badaniu tym jednostki statystyczne stanowią poszczególne podregiony Polski. Badamy je pod względem dwóch cech:

liczby miast (cecha mierzalna skokowa) oraz produkcji sprzedanej przemysłu (cecha mierzalna ciągła).

2 m. Łódź 1 10497,3

… … … … …

64 warmińsko-mazurskie elbląski 19 7520,9

65 ełcki 10 3079,6

66 olsztyński 20 8221,2

(60)

Przykład

Część 1. Grupowanie podregionów według liczby miast.

Liczba miast jest cechą skokową. W przypadku badanych podregionów ma ona zbyt wiele wariantów, aby grupowanie w szereg rozdzielczy punktowy było właściwe. Zbudujemy więc szereg rozdzielczy przedziałowy.

Ponieważ badamy 66 podregionów, to szacujemy liczbę klas k ≈ 66 = 8,12 ≈ 8.

(61)

Przykład

Niektóre miasta mają status podregionu, stąd najmniejsza wartość badanej cechy będzie równa 1. Taki będzie zatem początek pierwszego przedziału klasowego. Stałą rozpiętość przedziałów klasowych szacujemy na

2 m. Łódź 1 10497,3

… … … … …

59 kujawsko-pomorskie włocławski 31 11589,9

… … … … …

h = 31 − 1

8,12 = 3,69 ≈ 4.

(62)

Przykład

Przystępujemy do budowy szeregu rozdzielczego.

Numer klasy i

Liczba miast xi

Liczba

podregionów ni

1 1 — 4 7

2 5 — 8 8

3 9 — 12 16

4 13 — 16 14

5 17 — 20 11

6 21 — 24 5

7 25 — 28 3

8 29 — 32 2

Razem 66

(63)

Przykład

Część 2. Grupowanie podregionów według produkcji sprzedanej przemysłu.

Przystępując do grupowania podregionów względem tej cechy warto zmienić jej jednostkę tak, aby posługiwać się

mniejszymi liczbami. W tym celu wyraziliśmy wartość produkcji w miliardach złotych.

przemysłu (w mld

2 m. Łódź 1 10,4973

… … … … …

(64)

Przykład

Liczba klas w tym przypadku nie zmieni się, gdyż w dalszym ciągu badamy te same podregiony, a zatem k = 8.

Najmniejszą produkcję odnotowano w podregionie bielskim

— 1367,3 mln zł, a największą w Warszawie — 88399,9 mln zł. Stałą rozpiętość przedziałów ustalimy na poziomie:

h = 88399,9 − 1367,3

8,12 = 10718,3 mln zł ≈ 11 mld zł . Za początek pierwszego przedziału klasowego, czyli x01

przyjmujemy 1 mld zł.

(65)

Przykład

Numer klasy i

Produkcja sprzedana przemysłu (w mld zł)

xi

Liczba

podregionów ni

1 1 — 12 41

2 12 — 23 19

3 23 — 34 3

4 34 — 45 2

5 45 — 56 0

6 56 — 67 0

7 67 — 78 0

8 78 — 89 1

Razem 66

Zbudowany szereg nie najlepiej reprezentuje dane produkcji w poszczególnych regionach: produkcja Warszawy wyraźnie przewyższa inne regiony pod względem produkcji.

(66)

Przykład

W takiej sytuacji nie warto trzymać się sztywno reguł

statystycznych. Przedziały, w których odnotowano największe skupienie podregionów lepiej jest podzielić na mniejsze, zaś

podregion nietypowy (m. Warszawa) zaliczyć do ostatniego, otwartego przedziału:

Numer klasy i

Produkcja sprzedana przemysłu (w mld zł)

xi

Liczba

podregionów ni

1 Poniżej 5 9

2 5 — 10 24

3 10 — 15 19

4 15 — 20 6

5 20 — 30 4

6 30 lub więcej 4

Razem 66

(67)

Uwagi

•

Jeżeli liczebność w przedziale otwartym nie przekracza 5%

badanej zbiorowości, to taki przedział można domknąć szerokością przedziału sąsiedniego.

•

Należy proponować przedziały klasowe w taki sposób, aby największa liczba jednostek posiadała wartości cechy ze

środkowego przedziału (środkowej klasy).

•

Jeśli nie ma przeciwskazań, rozpiętości przedziałów klasowych powinny być jednakowe.

(68)

Graﬁczna prezentacja danych

Najczęściej wykorzystuje się następujące typy wykresów:

•

Wykresy słupkowe,

•

Wykresy kołowe,

•

Wykresy liniowe,

•

Kartogramy,

•

Wykresy w układzie współrzędnych (histogramy, krzywe liczebności, diagramy).

(69)

Wykres słupkowy

Liczba miast w podregionach polski

Liczba podregionów

0 4 8 12 16

Liczba miast

1 - 4 5 - 8 9 - 12 13 - 16 17 - 20 21 - 24 25 - 28 29 - 32

(70)

Histogram

Produkcja sprzedana przemysłu w podregionach

Liczba podregionów 051015202530

Produkcja sprzedana przemysłu w mld zł

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32

(71)

Histogram częstości względnych

Produkcja sprzedana przemysłu w podregionach

Liczba podregionów 00,10,20,30,4

Produkcja sprzedana przemysłu w mld zł

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32