Statystyka
Przedmiot i rola statystyki
Statystyka jest dziedziną nauki zajmującą się metodami ilościowymi opisu zjawisk lub procesów masowych.
Zjawisko jest masowe, gdy dotyczy wystarczająco dużej
liczby jednostek. Wówczas to daje się zaobserwować pewne prawidłowości.
Na każde zjawisko oddziaływują dwie grupy przyczyn:
•
przyczyny główne, które wpływają na powstanie prawidłowości,•
przyczyny uboczne, które powodują odchylenia od niej.Przyjęcie
studenta na wyższą uczelnię
Dla studenta jest zjawiskiem
jednostkowym
Przyjęcie
studenta na wyższą uczelnię
Dla administracji uczelni jest zjawiskiem
masowym
Przyczyna główna - dobrze zdany egzamin maturalny.
Przyczyna uboczna - zwycięstwo w olimpiadzie wiedzy o gospodarce i przedsiębiorczości.
Badania statystyczne a podejmowanie decyzji
Posiadanie rzetelnych, dokładnych i wyczerpujących
informacji, których dostarczają badania statystyczne jest jednym z warunków ułatwiających podejmowanie decyzji.
PROCES DECYZYJNY
DECYZJA
POLECENIE
DZIAŁANIE KONTROLA
INFORMACJA
Podstawowe pojęcia
statystyczne
Zbiorowość statystyczna
To zbiór dowolnych jednostek (np. ludzi, przedmiotów, przedsiębiorstw,
obszarów geograficznych), które mają przynajmniej jedną wspólną właściwość, a różnią się z innych punktów widzenia. Wśród zbiorowości wyróżniamy:
•
Zbiorowość pełną (populację generalną) — zbiór wszystkich jednostek, co do których chcemy wnioskować o charakterystykach ich właściwości. Może ona być skończona (populacja podmiotów gospodarczych zarejestrowanych w systemie REGON) lub nieskończona (populacja owadów w pewnej okolicy).•
Zbiorowość częściową (próbę) — pewien podzbiór populacji generalnej, którego elementy zostały dobrane w sposób losowy lub nielosowy.Symbolem n oznacza się liczebność próby, natomiast przez N — liczebność populacji generalnej.
Jednostka statystyczna
Poszczególne elementy składowe badanej zbiorowości (lub próby) noszą nazwę jednostek statystycznych (jednostek badania,
obserwacji). W celu jednoznacznego określenia, jakie jednostki będą stanowiły zbiorowość statystyczną, niezbędne jest określenie jednostki statystycznej pod względem:
•
rzeczowym (przedmiotowym) — co badamy,•
czasowym — z jakiego okresu pochodzą obserwacje,•
terytorialnym (przestrzennym, geograficznym) — z jakiego obszaru,•
zakresowym — jakie informacje o jednostkach będą gromadzone.Cechy Statystyczne
Cechy Statystyczne
Jednostki wchodzące w skład zbiorowości (pełnej czy częściowej) odznaczają się pewnymi własnościami. Własności te nazywamy cechami statystycznymi.
Cechy statystyczne można podzielić na:
•
stałe, czyli wspólne dla wszystkich jednostek badanej zbiorowości — wykorzystywane wyłącznie do precyzyjnego zdefiniowania badanej zbiorowości statystycznej,•
zmienne, czyli te, dzięki którym poszczególne jednostki różnią się między sobą — wykorzystywane w analizie statystycznej.Jeśli cechę oznaczymy przez X, to jej warianty (wartości, odmiany) oznaczamy przez xi, gdzie i oznacza numer wariantu.
Podział Cech Statystycznych
Cechy Statystyczne
Mierzalne Niemierzalne
Ciągłe Skokowe Porządkowe Nominalne
5 kg
❤ Podstawowe 🇮🇩🇨🇿🇧🇬🇨🇿
Średnie
Wyższe Dostateczny
Cechy mierzalne
Cechy mierzalne (inaczej ilościowe) to takie, które mogą przyjmować określone wartości wyrażone przy pomocy liczb (w postaci jednostek fizycznych - w sztukach, kilogramach, złotych itp.). Są to na przykład wiek (w latach), wzrost (w cm), wynagrodzenie (w zł). Cechy
mierzalne dzieli się na ciągłe i skokowe (dyskretne).
Cechy skokowe (o zmienności skokowej) mogą przyjmować określone wartości ze skończonych lub przeliczalnych zbiorów liczbowych, bez wartości pośrednich (np. liczba osób w gospodarstwie domowym, liczba przebytych chorób zakaźnych).
Cechy ciągłe (o zmienności ciągłej) mogą przyjmować każdą wartość z określonego przedziału liczbowego (np. wiek, wzrost, koszt, prędkość).
Cechy niemierzalne
Cechy niemierzalne (inaczej jakościowe) charakteryzują się tym, że ich wariantów nie można zmierzyć przy pomocy liczb, można je wyrazić tylko słownie. Są to na przykład płeć (kobieta, mężczyzna), kolor
(biały, czarny, niebieski itp.), wykształcenie (podstawowe, zasadnicze zawodowe, średnie, wyższe). Cechy niemierzalne dzieli się na
porządkowe i nominalne.
Cechy porządkowe to takie, których warianty można ustawić w pewnej kolejności (uporządkować), np. wykształcenie, ocena ze sprawowania, stan rynku (bessa, hossa).
Cechy nominalne to cechy niemierzalne, dla których nie ma hierarchii ich wariantów, np. kolor, płeć, marka samochodu.
Przykład
W pewnej niewielkiej firmie produkcyjnej zbadano pracujących tam sześciu pracowników. Zarejestrowano ich wiek, płeć, liczbę osób na utrzymaniu.
Badano zatem pracowników pod względem następujących cech statystycznych:
•
wiek (w latach) — cecha ilościowa (mierzalna), ciągła (gdyż mamy do czynienia z procesem ciągłym, który trwa); zarejestrowano następujące warianty tej cechy: 18, 23, 51, 44, 39 i 51,•
płeć — cecha jakościowa (niemierzalna), nominalna; cecha ta ma dwa warianty: kobieta (jeden pracownik), mężczyzna (pięciu pracowników),•
Liczba osób na utrzymaniu — cecha ilościowa (mierzalna), skokowa;zarejestrowane; warianty tej cechy: 1, 2, 3, 4, gdyż dwóch pracowników ma na utrzymaniu po 1 i 2 osoby.
Skale pomiarowe
• Skala nominalna (możliwe relacje: równe, różne).
• np. rodzaje studiów: politechniczne, ekonomiczne, medyczne.
• Skala porządkowa (możliwe relacje: równe, różne, większe, mniejsze).
• np. wszelkie rangowanie, czyli przypisywanie liczb charakteryzujących stopnie natężenia cechy.
• Skala przedziałowa (możliwe relacje: równe, różne, większe, mniejsze, większe o…, mniejsze o…).
• np. skale Celsjusza, Fahrenheita.
• Skala ilorazowa, stosunkowa (możliwe relacje: równe, różne, większe, mniejsze, większe o…, mniejsze o…, tyle razy większe, tyle razy mniejsze).
• np. waga, wzrost, wynagrodzenie, cena, wiek.
Podział metod statystycznych
Metody Statystyczne
• Metody opisu statystycznego
• Metody wnioskowania statystycznego
• Estymacja
• Weryfikacja hipotez
• Metody analizy struktury
• Metody analizy współzależności
• Metody analizy dynamiki
• Metody analizy
szeregów czasowych Kryterium formalno-
statystyczne
Kryterium zakresowo- przedmiotowe
Działy Statystyki
Kierując się kryterium formalno-statystycznym wyróżnia się dwa działy statystyki:
•
Statystykę opisową, która zajmuje się opracowaniem danych o obserwowanej zbiorowości, dokonując jej uporządkowanego opisu zróżnych punktów widzenia; proponuje szereg miar w sposób syntetyczny charakteryzujących badaną zbiorowość; pozwala na opis tylko jednostek objętych badaniem, bez uogólniania wyników na populację,
•
Wnioskowanie statystyczne, które pozwala ustalić prawidłowości i charakteryzować populację generalną na podstawie zredukowanej liczby danych (z próby), przy zastosowaniu praw rachunkuprawdopodobieństwa. Dzięki niemu możliwe jest określenie błędu jaki popełniamy, uogólniając wyniki z próby na całą zbiorowość.
Badanie statystyczne
Badaniem statystycznym nazywamy ogół prac, których
celem jest poznanie prawidłowości charakteryzujących określoną zbiorowość. Sprowadza się ono do zebrania, odpowiedniego
przetworzenia i analizy informacji na temat badanej zbiorowości statystycznej z punktu widzenia wybranych cech statystycznych, charakteryzujących jednostki należące do tej populacji.
Przed przystąpieniem do badania statystycznego (!) należy wyraźnie sprecyzować jego cel. Od tego zależy bowiem, jakie
jednostki statystyczne poddane będą badaniu, jakiej zbiorowości będą stanowić elementy i pod względem jakich cech będą
badane.
Organizacja badania statystycznego
Badanie Statystyczne
Pełne (całkowite, generalne) obejmuje wszystkie jednostki określonej zbiorowości
• Spisy statystyczne
• Rejestracje statystyczne
• Sprawozdawczość statystyczna
Częściowe (niepełne) obejmuje tylko wybraną część populacji generalnej — próbę
Dobór próby
Losowy Celowy
• Warstwowy
• Prosty za pomocą:
• Losowania
• Za pomocą
tablicy liczb losowych
• Systematyczny
• Wielostopniowy
• Dobór jednostek typowych
• Dobór
proporcjonalny
• Dobór przez eliminację
Przykład
Losowanie statystyczne. W firmie produkującej rowery przeprowadzono badanie jakości. Partia rowerów liczyła 250 sztuk, a do badania postanowiono wybrać 12. Pierwszy rower zostaje wybrany losowo (np. za pomocą tablicy liczb
losowych lub oprogramowania komputerowego). Przyjmijmy, że wybrano rower numer 3. Następne numery rowerów
wyznaczono dodając do 3 kolejne wielokrotności liczby 20. W próbie znalazły się żartem rowery o numerach: 3, 23, 43, 63, 83, 103, 123, 143, 163, 183, 203, 223.
Tablica liczb losowych
Oprogramowanie
Przykład
Metoda warstwowa. Właściciel Toyoty postanowił zaprosić 100 najlepszych pracowników do odwiedzenia centrali firmy.
Aby nikt z pracowników sześciu państw, w których koncern ma oddziały nie poczuł się pokrzywdzony, wybrano losowo pracowników każdego z oddziałów proporcjonalnie do łącznej liczby zatrudnionych w Toyocie.
Oddziały I II III IV V VI Razem
Liczba pracowników
ogółem 600 250 670 125 1400 935 3980
Proporcjonalna liczba wybranych losowo
pracowników 15 7 17 3 35 23 100
Przykład
Dobór celowy. Instytut Ekonomiki Rolnictwa i Gospodarki Żywnościowej polecił przeprowadzenie badania
statystycznego gospodarstw rolnych zorientowanych rynkowo.
W świadomy i subiektywny sposób wybranych zostało 1300 indywidualnych gospodarstw rolnych, które prowadzą
rachunkowość rolną. Badania prowadzone na próbie dobranej w sposób celowy, w przeciwieństwie do losowego, nie
pozwalają (!) na dokonanie uogólnień na całą populację (np.
na wszystkie gospodarstwa rolne w Polsce). Można je co najwyżej uogólnić na określoną część tej populacji (np. na gospodarstwa rolne produkujące głównie na sprzedaż).
Rodzaje badań częściowych
Badania częściowe zalecane są, gdy:
•
proces obserwacji wiąże się ze zniszczeniem lub uszkodzeniem badanego produktu,•
badana zbiorowość jest bardzo liczna, w związku z tym objęcie obserwacją statystyczną wszystkich jej elementów (jednostek) byłoby bardzo kosztowne, czasochłonne iwymagałoby zaangażowania wielu osób.
Najpopularniejsze typy badań częściowych to: badania
reprezentacyjne, badania monograficzne, badania ankietowe.
Przykład
Coroczne badanie aktywności zawodowej
Podwójnie ślepa próba w badaniu efektywności szczepionki
Crash-test
Badania liczby płytek krwi
Szacunek statystyczny
•
Postępowanie, w którym na podstawie pewnych znanych cechzbiorowości ustalamy wartości innych, nieznanych cech tej zbiorowości (np. znając zarobki przewidujemy kwotę wydawaną na zakupy).
•
Proces, w którym na podstawie cech znanej zbiorowości ustalamypoziom tych samych (lub podobnych) cech nieznanej zbiorowości (np.
znając liczbę zakażonych w Niemczech możemy przewidywać liczbę zakażonych w Polsce).
•
Przewidywanie na podstawie wielkości zjawiska w okresachpoprzednich wielkość tego zjawiska w przyszłości (na podstawie stóp zwrotu akcji z poprzednich miesięcy przewidywanie kierunku zmian rynku papierów wartościowych za miesiąc).
Etapy badania statystycznego
•
Projektowanie badania.•
Obserwacja statystyczna.•
Opracowanie i prezentacja materiału statystycznego.•
Analiza statystyczna zebranych danych w tym opis i wnioskowanie statystyczne.Opracowanie i Prezentacja
Danych Statystycznych
Grupowanie danych statystycznych
Grupowanie statystyczne ma na celu podział zbiorowości na grupy jednostek podobnych względem siebie. Dobrze zbudowane szeregi
statystyczne zapewniają właściwy obraz struktury zbiorowości, większą precyzję miar statystycznych charakteryzujących badaną zbiorowość, a także pozwalają łatwiej i szybciej uchwycić relacje zachodzące między badanymi zjawiskami.
Rozróżniamy dwa rodzaje grupowania:
•
Grupowanie proste, polegające na podziale zbiorowości ze względu na jedną cechę,•
Grupowanie złożone, przeprowadzane ze względu na kilka cech równocześnie.Szeregi Statystyczne
Grupowanie proste prowadzone jest w postaci szeregów statystycznych inaczej zwanych rozkładami empirycznymi.
Szeregi Statystyczne
Szeregi
szczegółowe
Szeregi rozdzielcze (strukturalne)
• Cech mierzalnych
• Szeregi rozdzielcze punktowe
• Szeregi rozdzielcze przedziałowe
• o przedziałach zamkniętych
• o przedziałach otwartych
• Cech niemierzalnych
Szeregi
przestrzenne (geograficzne)
Szeregi czasowe
• Momentów
• Okresów
Szereg Szczegółowy
To uporządkowany niemalejąco lub nierosnąco ciąg wartości badanej cechy statystycznej. Uporządkowanie to następuje
tylko według wartości badanej cechy. Jeśli przez xi oznaczymy warianty cechy, to szereg szczegółowy można zapisać
następująco:
x1, x2, x3, …, xN .
Przykład
Dwudziestu uczniów zapytano, ile godzin spędzają dziennie przed komputerem. Udzielili oni następujących odpowiedzi:
2,5 3 0,5 1 6 7 3,5 3 3 2 4 4,5 5 5 5 1,5 5 2,5 0,5 5
W badaniu mamy do czynienia z cechą statystyczną: liczba godzin spędzonych dziennie przed komputerem. Jest to cecha mierzalna ciągła. Zbiorowość (populację) statystyczną tworzą poszczególne jednostki badania, czyli poszczególni uczniowie. Informacje
statystyczne o wartości cechy dla każdej z jednostek tworzą
indywidualny szereg wartości cech (surowy materiał statystyczny).
Po uporządkowaniu otrzymujemy szereg szczegółowy:
0,5 0,5 1 1,5 2 2,5 2,5 3 3 3 3,5 4 4,5 5 5 5 5 5 6 7
Szereg Rozdzielczy
Inaczej zwany szeregiem strukturalnym, jest to zbiór wartości liczbowych uporządkowanych (rosnąco w przypadku cechy
mierzalnej lub porządkowej) według wariantów badanej cechy
mierzalnej lub niemierzalnej, przy czym poszczególnym wariantom cechy przyporządkowane są odpowiadające im liczebności.
Zbiorowość statystyczną dzieli się w ten sposób na klasy według określonej cechy z podaniem liczebności każdej z wyodrębnionych klas.
Zliczanie jednostek posiadających ten sam wariant cechy
wykonujemy poprzez zliczanie bezpośrednie, sposobem kreskowym albo korzystając z odpowiedniego oprogramowania.
Ćwiczenie. 32
W grupie 24 osób rejestrowano ich wynagrodzenia, staż pracy oraz płeć. Wyniki tej rejestracji przedstawiono poniżej. Na podstawie tych informacji dokonaj zliczenia materiału statystycznego sposobem kreskowym. W tym celu sporządź w zeszycie tablicę pozwalającą na dokonanie zliczania z jednoczesnym uwzględnieniem trzech cech.
Kobiety: Mężczyźni:
2200 zł - 32 miesiące 2250 zł - 23 miesiące 2300 zł - 31 miesięcy 2350 zł - 21 miesięcy 2400 zł - 36 miesięcy 2450 zł - 22 miesiące 2480 zł - 40 miesięcy 2510 zł - 25 miesięcy 2520 zł - 40 miesiące 2600 zł - 28 miesięcy 2620 zł - 44 miesiące 2700 zł - 30 miesięcy 2780 zł - 39 miesięcy 2840 zł - 32 miesiące 2910 zł - 40 miesiące 3020 zł - 27 miesięcy 3120 zł - 44 miesiące 3260 zł - 30 miesięcy 3340 zł - 28 miesięcy 3510 zł - 32 miesiące 3700 zł - 23 miesiące 3700 zł - 23 miesiące 4100 zł - 21 miesięcy 4100 zł - 21 miesięcy Ćwiczenie. 33
Dzienna wielkość produkcji i liczba zatrudnionych pracowników w badanej grupie 42 zakładów zostały ujęte w poniższej tablicy.
1) Opracuj wykaz klasyfikacyjny dla dwóch cech (dane o wielkości produkcji należy ująć w siedmiu przedziałach o rozpiętości 500 zł). W tym celu sporządź w zeszycie tablicę pozwalającą na dokonanie zliczania z jednoczesnym uwzględnieniem obu cech.
2) Dokonaj zliczania materiału statystycznego metodą kreskową.
Produkcja w zł
Liczba pracow
ników
Produkcja w zł
Liczba pracow
ników
Produkcja w zł
Liczba pracow
ników
Produkcja w zł
Liczba pracow
ników
2 110 4 5 190 8 4 130 6 4 540 5
3 330 4 2 700 4 4 830 6 5 230 6
4 300 5 2 850 4 4 360 5 2 930 4
4 980 4 3 800 4 5 010 7 3 990 5
3 350 5 4 520 5 5 170 7 2 970 4
4 320 6 2 270 4 4 370 6 3 010 5
4 990 6 4 610 5 3 520 5 4 190 6
3 380 4 2 940 4 2 420 4 4 140 7
2 230 4 4 020 5 5 210 5 4 890 8
3 610 5 4 730 6 3 970 4 4 940 8
4 430 6 2 960 4
Ćwiczenie. 34
Na podstawie informacji dotyczących miesięcznych wydatków na zakup prasy dokonaj w zeszycie czterokrotnie grupowania statystycznego tworząc przedziały o różnej rozpiętości. W pierwszym grupowaniu przedziały powinny mieć rozpiętość 40 zł, w drugim 80 zł, w trzecim 120 zł i w czwartym 160 zł.
120 50 40 42 52 60 56 52 60 44 56 50 46 42 40 52 40 130 134 138 142 190 192 140 196 200 204 206 208 210 212 214 216 218 220 40 42 52 60 42 42 40 58 56 238 240 242 244 250 250 254 256 256 260 260 264 264 272 278 284 286 290 292 294 298 300 300 300 302 324 326 326 328 330 332 150 152 154 368 368 200 250 340 288 165 158 162 166 166 132 336 338 338 354 354 364 288 40 42 60 40 46 50 38 56 40 48 36 56 42 52 368 368 200 250 340 288 50 46 42 52 410 56 50 42 52 40 38 58 40 44 46 36 38 62 46 56 50 38 42 52 368 368 200 250 340 288 52 40 222 224 226 228 230 232 234 238 50 52 40 42 52 42 40 42 36 40 44 42 52 38 62 50 52 52 42 52 40 42 40 42 580 42 52 60 42 42 40 58 56 470 62 200 200 340 288 470 200 602 340 602 250 250 222 224 226 228 230 232 234 238 470 250 250 200 288 602 288 288 340 288 288 288 360
Rozwiązanie:
Przedział Zliczanie Liczba
0 ≤ x < 50 ||||| ||||| ||||| ||||| ||||| ||||| |||||
||||| ||||| ||||| |||
/ / / / / / /
/ / / / /
/ / / / / / /
/ / / /
/ / / / / / / / / /
/ / /
/ / / / / / / / / / / /
/ / / / /
53
50 ≤ x < 100
Liczebności absolutne
Liczebności poszczególnych k klas, wyróżnione na etapie zliczania to absolutne liczebności cząstkowe albo inaczej częstości (niektórzy mówią krótko — liczebności). Przez
liczebności absolutne (zwane też bezwzględnymi), oznaczane symbolem ni, rozumiemy liczbę rzeczywistych obserwacji
odpowiadających danemu wariantowi cechy. Suma
poszczególnych liczebności cząstkowych daje liczebność całej zbiorowości, czyli N:
N = n1 + n2 + … + nk = ∑k
i=1
ni .
Szereg rozdzielczy zbudowany z wykorzystaniem liczebności absolutnych nosi nazwę szeregu prostego.
Liczebności względne
Liczebności względne (tak zwane wskaźniki struktury)
oznaczamy symbolem wi. Określają one, jaki udział w całej zbiorowości mają jednostki statystyczne posiadające dany wariant cechy. Obliczamy je wzorem:
wi = ni
N , i = 1,2,…, k . Mają one następujące własności:
∙ 0 ⩽ wi ⩽ 1,
∙ w1 + w2 + … + wk = ∑k
i=1
wi = 1.
Liczebności skumulowane
Niekiedy badacza interesuje, jaka liczebność odpowiada wszystkim klasom od pierwszej do danej włącznie, a więc jaka jest liczebność jednostek statystycznych posiadających dany wariant cechy lub
niższy. Informacji takich dostarczają liczebności skumulowane.
Liczebności absolutne skumulowane, oznaczane przez nisk,
wskazują ile jednostek statystycznych ma dany wariant cechy lub niższy (słabszy).
Liczebności względne skumulowane, oznaczane przez wisk,
wskazują, jaka część (odsetek) jednostek statystycznych ma dany wariant cechy lub niższy (słabszy).
Liczebności skumulowane
Szereg rozdzielczy o tak przedstawionych liczebnościach
określa się mianem szeregu rozdzielczego skumulowanego lub nazwą dystrybuanty empirycznej.
wisk = w1 + w2 + … + wi = ∑i
l=1
wl, nisk = n1 + n2 + … + ni = ∑i
l=1
nl,
gdzie i = 1,2,…, k .
Przykład - szereg rozdzielczy dla cechy niemierzalnej nominalnej
Uczniów pewnej klasy zapytano, jaki jest ich ulubiony kolor.
Trzech uczniów lubi kolor zielony, pięciu — niebieski, ośmiu — czerwony, trzech — różowy, siedmiu — biały, dwóch — czarny.
Numer
klasy, i Ulubiony kolor, xi
Liczba uczniów, ni
Udział uczniów, wi
Procent
uczniów, wi (w %)
1 Zielony 3 0,11 11
2 Niebieski 5 0,18 18
3 Czerwony 8 0,29 29
4 Różowy 3 0,11 11
5 Biały 7 0,25 25
6 Czarny 2 0,07 7
Razem 28 1,00 100
Przykład - szereg rozdzielczy dla cechy niemierzalnej porządkowej
Badając strukturę 40 pracowników pewnego przedsiębiorstwa pod względem wykształcenia stwierdzono, że: ośmiu z nich
ma wykształcenie wyższe, dwudziestu - średnie, dziesięciu - zawodowe, a dwóch pozostałych - podstawowe.
Numer klasy,
i
Wykształcenie, xi
Liczba
pracowników, ni
Częstości skumulowane,
nisk
Udział pracowników,
wi
Częstości względne skumulowane,
wisk
1 Podstawowe 2 2 0,05 0,05
2 Zawodowe 10 12 0,25 0,30
3 Średnie 20 32 0,50 0,80
4 Wyższe 8 40 0,20 1,00
Razem 40 x 1,00 x
Szeregi rozdzielcze dla cech mierzalnych
Wśród szeregów rozdzielczych budowanych dla cech mierzalnych wyróżnia się:
•
Szeregi rozdzielcze punktowe (o przedziałach jednostkowych),•
Szeregi rozdzielcze przedziałowe (z przedziałami klasowymi)Szeregi rozdzielcze punktowe
Informacje statystyczne grupuje się w szeregi rozdzielcze punktowe wówczas, gdy badamy cechę skokową i ma ona niewiele wariantów. Wówczas ten typ szeregu czyni
prezentację bardziej przejrzystą i czytelną.
xi ni
x1 n1
x2 n2
x3 n3
… …
xk nk
Razem N
Przykład
60 uczniów zapytano o liczbę rodzeństwa. Uzyskano
następujące informacje: 0, 2, 3, 0, 1, 1, 0, 1, 5, 1, 1, 0, 0, 0, 0, 2, 2, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 3, 2, 7, 2, 1, 1, 0, 0, 3, 2, 5, 4, 4. 2, 1, 3, 6, 2, 1, 0, 0, 0, 0, 2, 3, 1, 2, 1, 1, 1, 0, 0, 0.
Numer klasy,
i
Liczba rodzeństwa,
xi
Liczba uczniów,
ni
Częstości skumulowane,
nisk
Udział uczniów,
wi
Częstości względne skumulowane,
wisk
1 0 21 21 0,35 0,35
2 1 18 39 0,30 0,65
3 2 10 49 0,17 0,82
4 3 5 54 0,08 0,90
5 4 2 56 0,03 0,93
6 5 2 58 0,03 0,96
7 6 1 59 0,02 0.98
8 7 1 60 0,02 1,00
Razem 60 x 1,00 x
Szeregi rozdzielcze przedziałowe (z przedziałami klasowymi)
Zaleca się je budować w sytuacji, gdy badana cecha jest
ciągła albo jest cechą skokową o wielu wariantach. Wówczas na wstępie warianty cechy grupuje się w przedziały klasowe, a zadaniem badacza jest zakwalifikowanie każdej jednostki statystycznej do odpowiedniego przedziału. Ostatecznie, otrzymujemy liczebności cząstkowe poszczególnych
przedziałów klasowych, wskazujące na to, ile bądź jaki
odsetek jednostek badania przyjmuje wartości cechy z danego przedziału.
Szeregi rozdzielcze przedziałowe (z przedziałami klasowymi)
Każdy przedział ma dwie granice: dolną x0i oraz górną x1i. Różnicę między górną i dolną granicą i-tego przedziału
klasowego nazywamy rozpiętością przedziału klasowego i oznaczamy przez hi
hi = x1i − x0i .
Przykładowo, dla przedziału klasowego „40 — 50” mamy:
x0i = 40, x1i = 50, hi = 50 − 40 = 10.
Szeregi rozdzielcze przedziałowe (z przedziałami klasowymi)
W szczególnych przypadkach, granice początkowych i/lub końcowych przedziałów w szeregu mogą być otwarte (nie
mieć dolnej lub górnej granicy), np. poniżej 10, powyżej 80.
Tak skonstruowane przedziały określamy jako otwarte lub niedomknięte.
Numer
klasy Przedział klasowy
1 Poniżej 5
2 5 — 10
3 10 — 15
4 15 — 20
5 20 lub więcej
Szeregi rozdzielcze przedziałowe (z przedziałami klasowymi)
Budując szeregi rozdzielcze przedziałowe należy najpierw zdecydować o liczbie przedziałów, ich rozpiętości i sposobie określenia granic przedziałów. Teoria statystyki nie podaje jednoznacznych wzorców budowy szeregów rozdzielczych przedziałowych. Podstawowym warunkiem, jaki trzeba spełnić budując taki szereg, jest dbałość o rozłączność
klasyfikacji zbiorowości (poszczególne przedziały nie mogą
zachodzić na siebie) oraz o to, aby była ona przeprowadzona w sposób wyczerpujący (wyróżnione klasy powinny
obejmować wszystkie jednostki badanej zbiorowości).
Schemat postępowania przy budowaniu przedziałowego
szeregu rozdzielczego
I. Ustalenie liczby klas
Liczba przedziałów klasowych zależy od obszaru zmienności cechy, tj. różnicy między najmniejszą a największą wartością cechy, od liczebności zbiorowości oraz od stopnia szczegółowości informacji jaki chcemy uzyskać w wyniku badania statystycznego. Zaleca się, aby liczbę przedziałów zwiększać w miarę zwiększania liczebności zbiorowości oraz rozszerzania obszaru zmienności cechy. Należy jednak robić to z ogromnym wyczuciem:
•
zbyt mało przedziałów — utrudniona identyfikacja prawidłowości w zbiorowości,•
zbyt dużo przedziałów — mniejsza przejrzystość.I. Ustalenie liczby klas
Liczbę klas k można oszacować korzystając z następującego wzoru:
k ≈ N,
gdzie N oznacza liczbę obserwacji w całej zbiorowości statystycznej.
Zalecana liczba klas w zależności od N
N k
Do 15 3 — 4
16 — 31 4 — 5
32 — 63 5 — 6
64 — 127 6 — 7
128 — 255 7 — 8
256 — 511 8 — 9
Powyżej 512 10
II. Ustalenie początku pierwszego przedziału klasowego x 01
Za początek pierwszego przedziału klasowego zwykle
przyjmuje się najniższą wartość cechy w badanej zbiorowości.
Można też przyjąć liczbę nieco niższą, np. gdy najniższa wartość jest ułamkiem, można przyjąć za x01 najbliższą mniejszą od xmin liczbę całkowitą, gdzie xmin oznacza
najmniejszą wartość w zbiorowości.
xmin = 1,7
0 1 2 3
x01 = 1
III. Ustalenie rozpiętości przedziałów klasowych
Rozpiętość przedziałów klasowych można wyznaczyć ze wzoru:
x01 x11 = x02 x12 = x03 x13
h = xmax − xmin
k .
Najlepiej, jeśli jest ona jednakowa dla wszystkich przedziałów klasowych.
h h h
IV. Budowanie przedziałów klasowych
Budujemy przedziały klasowe domykając je zgodnie z rozpiętością przedziałów klasowych. Należy uważać, aby
żadna jednostka statystyczna nie znalazła się poza szeregiem statystycznym. Zaleca się, aby przedziały klasowe dla cech ciągłych zazębiały się: górna granica danego przedziału była taka sama jak dolna granica przedziału następnego, przy
czym obserwację równą tej granicy zalicza się zwykle do
przedziału następnego. W przypadku cech skokowych zaleca się, aby granice te się nie pokrywały.
⟨x0i, x1i) ⟨x0i+1, x1i+1)
V. Przyporządkowanie poszczególnych jednostek do przedziałów klasowych
Zliczamy poszczególne jednostki statystyczne o wartościach cechy z danego przedziału, obliczając w ten sposób
liczebności cząstkowe.
x0i − x1i 0 − 5 = ⟨0,5) 5 − 10 = ⟨5,10) 10 − 15 = ⟨10,15)
15 − 20 = ⟨15,20) 20 − 25 = ⟨20,25)
ni 9 15
22 11
3
Razem 60
x0i − x1i
0 − 4 = {0,1,2,3,4}
5 − 9 = {5,6,7,8,9}
10 − 14 = {10,11,12,13,14}
15 − 19 = {15,16,17,18,19}
20 − 24 = {20,21,22,23,24}
ni 9 15
22 11
3
Razem 60
Cecha ciągła Cecha skokowa
Przykład
Poniższe dane o podregionach Polski z roku 2007
wykorzystamy do pogrupowania podregionów ze względu na liczbę miast i produkcji sprzedanej przemysłu.
Źródło: Bank Danych regionalnych, www.stat.gov.pl
L.p. Województwo Podregion Liczba miast
Produkcja sprzedana
przemysłu (w mln
1 łódzkie łódzki 11 5806,4
2 m. Łódź 1 10497,3
3 piotrkowski 10 12043,0
… … … … …
64 warmińsko-mazurskie elbląski 19 7520,9
65 ełcki 10 3079,6
66 olsztyński 20 8221,2
Przykład
W badaniu tym jednostki statystyczne stanowią poszczególne podregiony Polski. Badamy je pod względem dwóch cech:
liczby miast (cecha mierzalna skokowa) oraz produkcji sprzedanej przemysłu (cecha mierzalna ciągła).
Źródło: Bank Danych regionalnych, www.stat.gov.pl
L.p. Województwo Podregion Liczba miast
Produkcja sprzedana
przemysłu (w mln
1 łódzkie łódzki 11 5806,4
2 m. Łódź 1 10497,3
3 piotrkowski 10 12043,0
… … … … …
64 warmińsko-mazurskie elbląski 19 7520,9
65 ełcki 10 3079,6
66 olsztyński 20 8221,2
Przykład
Część 1. Grupowanie podregionów według liczby miast.
Liczba miast jest cechą skokową. W przypadku badanych podregionów ma ona zbyt wiele wariantów, aby grupowanie w szereg rozdzielczy punktowy było właściwe. Zbudujemy więc szereg rozdzielczy przedziałowy.
Ponieważ badamy 66 podregionów, to szacujemy liczbę klas k ≈ 66 = 8,12 ≈ 8.
Przykład
Niektóre miasta mają status podregionu, stąd najmniejsza wartość badanej cechy będzie równa 1. Taki będzie zatem początek pierwszego przedziału klasowego. Stałą rozpiętość przedziałów klasowych szacujemy na
Źródło: Bank Danych regionalnych, www.stat.gov.pl
L.p. Województwo Podregion Liczba miast
Produkcja sprzedana
przemysłu (w mln
1 łódzkie łódzki 11 5806,4
2 m. Łódź 1 10497,3
… … … … …
59 kujawsko-pomorskie włocławski 31 11589,9
… … … … …
h = 31 − 1
8,12 = 3,69 ≈ 4.
Przykład
Przystępujemy do budowy szeregu rozdzielczego.
Numer klasy i
Liczba miast xi
Liczba
podregionów ni
1 1 — 4 7
2 5 — 8 8
3 9 — 12 16
4 13 — 16 14
5 17 — 20 11
6 21 — 24 5
7 25 — 28 3
8 29 — 32 2
Razem 66
Przykład
Część 2. Grupowanie podregionów według produkcji sprzedanej przemysłu.
Przystępując do grupowania podregionów względem tej cechy warto zmienić jej jednostkę tak, aby posługiwać się
mniejszymi liczbami. W tym celu wyraziliśmy wartość produkcji w miliardach złotych.
Źródło: Bank Danych regionalnych, www.stat.gov.pl
L.p. Województwo Podregion Liczba miast
Produkcja sprzedana
przemysłu (w mld
1 łódzkie łódzki 11 5,8064
2 m. Łódź 1 10,4973
3 piotrkowski 10 12,043
… … … … …
Przykład
Liczba klas w tym przypadku nie zmieni się, gdyż w dalszym ciągu badamy te same podregiony, a zatem k = 8.
Najmniejszą produkcję odnotowano w podregionie bielskim
— 1367,3 mln zł, a największą w Warszawie — 88399,9 mln zł. Stałą rozpiętość przedziałów ustalimy na poziomie:
h = 88399,9 − 1367,3
8,12 = 10718,3 mln zł ≈ 11 mld zł . Za początek pierwszego przedziału klasowego, czyli x01
przyjmujemy 1 mld zł.
Przykład
Numer klasy i
Produkcja sprzedana przemysłu (w mld zł)
xi
Liczba
podregionów ni
1 1 — 12 41
2 12 — 23 19
3 23 — 34 3
4 34 — 45 2
5 45 — 56 0
6 56 — 67 0
7 67 — 78 0
8 78 — 89 1
Razem 66
Zbudowany szereg nie najlepiej reprezentuje dane produkcji w poszczególnych regionach: produkcja Warszawy wyraźnie przewyższa inne regiony pod względem produkcji.
Przykład
W takiej sytuacji nie warto trzymać się sztywno reguł
statystycznych. Przedziały, w których odnotowano największe skupienie podregionów lepiej jest podzielić na mniejsze, zaś
podregion nietypowy (m. Warszawa) zaliczyć do ostatniego, otwartego przedziału:
Numer klasy i
Produkcja sprzedana przemysłu (w mld zł)
xi
Liczba
podregionów ni
1 Poniżej 5 9
2 5 — 10 24
3 10 — 15 19
4 15 — 20 6
5 20 — 30 4
6 30 lub więcej 4
Razem 66
Uwagi
•
Jeżeli liczebność w przedziale otwartym nie przekracza 5%badanej zbiorowości, to taki przedział można domknąć szerokością przedziału sąsiedniego.
•
Należy proponować przedziały klasowe w taki sposób, aby największa liczba jednostek posiadała wartości cechy ześrodkowego przedziału (środkowej klasy).
•
Jeśli nie ma przeciwskazań, rozpiętości przedziałów klasowych powinny być jednakowe.Graficzna prezentacja danych
Najczęściej wykorzystuje się następujące typy wykresów:
•
Wykresy słupkowe,•
Wykresy kołowe,•
Wykresy liniowe,•
Kartogramy,•
Wykresy w układzie współrzędnych (histogramy, krzywe liczebności, diagramy).Wykres słupkowy
Liczba miast w podregionach polski
Liczba podregionów
0 4 8 12 16
Liczba miast
1 - 4 5 - 8 9 - 12 13 - 16 17 - 20 21 - 24 25 - 28 29 - 32
Histogram
Produkcja sprzedana przemysłu w podregionach
Liczba podregionów 051015202530
Produkcja sprzedana przemysłu w mld zł
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32
Histogram częstości względnych
Produkcja sprzedana przemysłu w podregionach
Liczba podregionów 00,10,20,30,4
Produkcja sprzedana przemysłu w mld zł
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32