Analiza struktury i
przeciętnego poziomu cechy
Analiza struktury
Pod pojęciem analizy struktury rozumiemy badanie budowy (składu) określonej zbiorowości, lub próby, tj. ustalenie, z
jakich składa się elementów oraz jaką część stanowią owe elementy w całym zbiorze.
Wskaźniki struktury
Wyrażają stosunek części zbiorowości statystycznej (ni) do jej całości (N). Można je wyznaczyć za pomocą formuły
wi = ni
N ⋅ 100 % , i = 1,2,…, k . Wskaźniki struktury są liczbami względnymi
(niemianowanymi). Ma to nie tylko duże znaczenie poznawcze, ale również praktyczne. Przykładowo: w
przedsiębiorstwie A wykształcenie wyższe ma 10 na 1000 pracowników, natomiast w przedsiębiorstwie B — 5 na 50 pracujących, zatem 1% pracowników w firmie A, a 10% w firmie B ma wykształcenie wyższe.
Wskaźniki struktury
Wskaźniki struktury mówią jaką część stanowi wybrana grupa klasyfikacyjna w całej zbiorowości.
Wskaźniki struktury, jako proste i zrozumiałe mierniki, znajdują szerokie zastosowanie w praktyce badań
statystycznych. Istotną ich zaletą jest fakt, że mogą być
stosowane dla dowolnych cech (mierzalnych i niemierzalnych), gdyż wykorzystują liczebności cząstkowe i łączną liczebność zbiorowości, bez udziału samych wariantów cechy.
wi = ni
N ⋅ 100 % , i = 1,2,…, k .
Przykład
W pewnym łódzkim liceum do egzaminu maturalnego w 2009 roku przystąpiło 240 uczniów, z czego 162 osoby stanowiły
kobiety.
w1 = 162
240 ⋅ 100 % = 0,675 ⋅ 100 % = 67,5 % .
Aby obliczyć jaki procent zdających maturę stanowiły kobiety, (w1) stosujemy wzór:
Z kolei w celu ustalenia, jaki odsetek stanowili mężczyźni (w2) stosujemy wzór:
w2 = 240 − 162
240 ⋅ 100 % = 0,325 ⋅ 100 % = 32,5 % .
Wskaźnik podobieństwa struktur
Czasami badacza interesuje nie tylko, jaka jest struktura
danej zbiorowości, ale także to, czy jest ona podobna do innej (np. czy struktura zarobków kobiet i mężczyzn jest do siebie zbliżona). Syntetycznym miernikiem podobieństwa struktur jest wskaźnik podobieństwa struktur dany wzorem:
wp = ∑k
i=1
min(w1i, w2i), gdzie
w1i - wskaźnik struktury pierwszej zbiorowości, w2i - wskaźnik struktury drugiej zbiorowości.
Wskaźnik podobieństwa struktur
Warunkiem zastosowania tego wskaźnika jest takie samo grupowanie obu zbiorowości ze względu na badaną cechę mierzalną lub niemierzalną.
Wartości wskaźnika podobieństwa struktur zawierają się w przedziale od 0 do 1 (lub w wyrażeniu procentowym od 0 do 100 procent). Im bliższe jedności (lub 100%) wartości tego wskaźnika, tym większe podobieństwo analizowanych
struktur. Wartość wskaźnika równa 1 (100%) oznacza, że struktury są identyczne.
Przykład
Poniższa tablica przedstawia liczbę osób ukaranych przez sąd grodzki w miejscowościach A i B. Zbadamy czy struktura
wiekowa ukaranych w tych dwóch miejscowościach jest podobna.
Wiek (w
latach) Liczba ukaranych
A B
20 — 24 5 10
25 — 29 10 60
30 — 34 12 90
35 — 39 20 100
40 — 44 130 90
45 — 49 23 50
Razem 200 400
Przykład
Wiek (w latach)
Liczba ukaranych Wskaźniki struktury min(w1i, w2i)
A B w1i w2i
20 — 24 5 10 0,025 0,025 0,025
25 — 29 10 60 0,05 0,15 0,05
30 — 34 12 90 0,06 0,225 0,06
35 — 39 20 100 0,1 0,25 0,1
40 — 44 130 90 0,65 0,225 0,225
45 — 49 23 50 0,115 0,125 0,115
Razem 200 400 1 1 0,575
Wskaźnik podobieństwa struktur wynosi wp = 0,575.
Wielkość ta świadczy o umiarkowanym podobieństwie
badanych struktur ze względu na wiek osób ukaranych przez sądy grodzkie w porównywanych miejscowościach.
Analiza przeciętnego
poziomu cechy
Miary średnie
Jeżeli cecha, którą analizujemy w zbiorowości jest cechą
mierzalną, to zbiorowość możemy scharakteryzować w sposób
syntetyczny za pomocą miar wyrażających jej przeciętny poziom.
Miary przeciętne charakteryzują średni lub typowy poziom
wartości cechy. Są to więc takie miary, wokół których skupiają się wszystkie pozostałe wartości analizowanej cechy.
Miary przeciętne dzielą się na miary klasyczne i pozycyjne.
Pierwsze wyznaczane w oparciu o wszystkie wartości cechy
drugie wskazują określoną pozycję jednostek (np. środkową lub dominującą).
Miary średnie
Miary przeciętne
Klasyczne
• Średnia arytmetyczna
• Średnia harmoniczna
• Średnia geometryczna
Pozycyjne
• Dominanta
• Mediana
Średnia arytmetyczna
Wyraża ona przeciętny poziom badanej cechy (zmiennej) w populacji, np. przeciętna miesięczna sprzedaż, średnia ocena na świadectwie szkolnym itp. Interpretacja średniej i metoda jej wyznaczania jest zawsze taka sama, jednak techniczny
sposób obliczenia średniej zależy od typu szeregu
statystycznego, z którym mamy do czynienia. Średnia jest sumą wartości cechy podzieloną przez liczbę jednostek
zbiorowości. Średnią arytmetyczną oznaczamy symbolem:
x - dla próby,
μ - dla populacji.
Średnia arytmetyczna
Wzór na średnią arytmetyczną dla szeregu szczegółowego:
x = x1 + x2 + … + xN
N =
∑N i=1 xi
N .
Wzór na średnią arytmetyczną ważoną, gdy wartości cechy występują więcej niż jeden raz (xi występuje ni razy):
x = n1x1 + n2x2 + … + nkxk
N =
∑k
i=1 nixi N .
Przykład
Oceny z matematyki
xi
Liczba uczniów
ni nixi
1 2 2
2 4 8
3 10 30
3,5 4 14
4 4 16
4,5 1 4,5
5 2 10
6 1 6
Razem 28 90,5
x =
∑k
i=1 nixi
N = 90,5
28 = 3,23.
Średnia arytmetyczna
W szeregach rozdzielczych przedziałowych wartości cechy w każdej klasie nie są jednoznacznie określone, ale mieszczą się w pewnym przedziale. Możemy jednak przyjąć umowę, że
wartości cechy wewnątrz każdego przedziału rozłożone są
równomiernie, a wówczas środek przedziału jest jednocześnie średnią wartością cechy w danej klasie. Środek i-tego
przedziału klasowego oznaczamy przez .x∘i x∘i = x0i + x1i
2
Średnia arytmetyczna
Jest to oczywiście pewne przybliżenie wartości cechy.
x =
∑k
i=1 nix∘i N .
Do obliczenia średniej ważonej dla szeregu rozdzielczego przedziałowego stosujemy wzór:
x0i x∘i x1i
⟨x0i, x1i)
Przykład
W pewnym przedsiębiorstwie zatrudniającym 130 osób przeprowadzono badanie stażu pracy:
Staż pracy (w latach) (x0i — x1i)
Liczba pracowników (ni)
2 — 4 10
4 — 6 20
6 — 8 35
8 — 10 45
10 — 12 15
12 — 14 5
Razem 130
Przykład
Staż pracy (w latach) (x0i — x1i)
Liczba
pracowników (ni)
Środki przedziałów
klasowych
2 — 4 10 ( )3 30
4 — 6 20 5 100
6 — 8 35 7 245
8 — 10 45 9 405
10 — 12 15 11 165
12 — 14 5 13 65
Razem 130 — 1010
nix∘i x∘i
x =
∑k
i=1 nix∘i
N = 1010
130 ≈ 7,77.
Średnia arytmetyczna
Jeśli zamiast liczebnościami (ni) dysponujemy wskaźnikami struktury (wi), to średnią wyznaczamy przy pomocy wzoru:
x = ∑k
i=1
wix∘i albo wzoru
x =
∑k
i=1 wix∘i 100 ,
gdy wskaźniki struktury wyrażone są w procentach.
Własności średniej arytmetycznej
∙ xmin < x < xmax,
∙ ∑N
i=1
(xi − x) = 0, ∙ ∑k
i=1
ni(xi − x) = 0,
∙ Nx = ∑N
i=1
xi, ∙ Nx = ∑k
i=1
nixi,
∙ Jeżeli wszystkie wartości cech powiększymy o pewną stałą, to średnia powiększy się o tą stałą.
Dominanta
Dominanta (wartość modalna, moda) jest to wartość, która w zbiorowości powtarza się najczęściej. Dominantę oznaczamy symbolem
Do
Stosujemy ją wtedy, gdy chcemy za pomocą jednej liczby wyrazić wariant lub wartość cechy najbardziej typowy,
najczęściej spotykany.
Sposób wyznaczania dominanty zależy od typu szeregu
statystycznego, z którym mamy do czynienia. Dla szeregów szczegółowych lub rozdzielczych punktowych dominantę
wystarczy wskazać, gdyż jest to wartość o największej liczebności.
Przykład
W roku szkolnym 2017/2018 uczeń otrzymał następujące oceny: 2; 2; 3; 3; 3; 3,5; 3,5; 4; 4; 4,5; 4,5; 4,5; 4,5; 5; 5.
Do = 4,5.
Oznacza to, że uczniowie najczęściej otrzymywali ocenę 4,5.
Przykład
Wyniki kolokwium ze statystyki w jednej z grup przedstawia poniższa tabela
Do = 3.
Oznacza to, że najwięcej studentów otrzymało
ocenę dostateczną 3.
Ocena Liczba uczniów
2 4
3 10
3,5 4
4 4
4,5 1
5 2
Razem 25
Dominanta
W przypadku danych przedstawionych w postaci szeregu
rozdzielczego przedziałowego wiemy, która grupa dominuje na tle całości, ale nie wiemy, która wartość przedziału jest
rzeczywistą wartością dominującą. W takich przypadkach obliczamy tylko przybliżoną wartość dominanty:
Do = x0 + (n0 − n−1)h0
(n0 − n−1) + (n0 − n+1) ,
x0 − dolna granica przedziału dominującego, n0 − częstość przedziału dominującego,
n−1, n+1 − częstości przedziałów: poprzedzającego i następującego, h0 − rozpiętość przedziału dominującego.
Dominanta
Aby wyznaczyć dominantę w przypadku szeregu rozdzielczego przedziałowego muszą być spełnione następujące warunki:
•
Musi występować jeden przedział klasowy z wyraźnie dominującą liczebnością w stosunku do pozostałych,•
Przedział klasowy, w którym znajduje się dominanta oraz przedziały z nią sąsiadujące muszą mieć jednakowerozpiętości,
•
Szereg nie może być skrajnie asymetryczny z otwartym przedziałem dominującym.Przykład
Wynagrodzenie miesięczne netto kadry kierowniczej dużego koncernu naftowego przedstawia poniższa tabela:
Wynagrodzenie miesięczne netto
w tys. Zł (x0i — x1i)
Liczba pracowników (ni)
2 — 4 10
4 — 6 20
6 — 8 35
8 — 10 45
10 — 12 15
12 — 14 5
Razem 130
Przykład
Wynagrodzenie miesięczne netto
w tys. Zł (x0i — x1i)
Liczba pracowników (ni)
2 — 4 10
4 — 6 20
6 — 8 35
8 — 10 45
10 — 12 15
12 — 14 5
Razem 130
x0 = 8, n0 = 45, n−1 = 35, n+1 = 15, h0 = 10 − 8 = 2.
Przykład
x0 = 8, n0 = 45, n−1 = 35, n+1 = 15, h0 = 10 − 8 = 2.
Do = x0 + (n0 − n−1)h0
(n0 − n−1) + (n0 − n+1) =
= 8 + (45 − 35) ⋅ 2
(45 − 35) + (45 − 15) =
= 8 + 20
40 = 8,5 tys. zł.
Mediana i pozostałe kwantyle
Mediana jest to wartość, która jest umieszczona dokładnie w środku, pod warunkiem, że mamy do czynienia z
uporządkowaną (z punktu widzenia badanej cechy)
zbiorowością według wielkości jej elementów, tzn. od ich wartości najmniejszej do największej.
Mediana dzieli zbiorowość na dwie równe części w ten
sposób, że połowa jednostek ma wartość cechy niższe lub równe medianie, a połowa ma wartości cechy większe lub równe od mediany.
Mediana zwykle jest oznaczana przez Me.
Mediana i pozostałe kwantyle
Sposób wyznaczania mediany zależy od rodzaju szeregu statystycznego, z którym mamy do czynienia.
Jeżeli informacje o wartościach cechy są przedstawione w
postaci danych indywidualnych (niepogrupowane), to w celu wyznaczenia mediany należy uporządkować informacje
rosnąco i ustalić, która z nich zajmuje miejsce środkowe.
Wartość tej cechy będzie wartością mediany.
50%
xmin xmax
50%
Me
Mediana i pozostałe kwantyle
W tym przypadku sposób wyznaczenia mediany zależy też od tego, czy liczba obserwacji jest parzysta czy nieparzysta.
•
N jest nieparzysta,Me = x(N+1)/2
•
N jest parzysta,Me = xN/2 + xN/2+1 2
Przykład
Zapytano o wiek dwie grupy osób i otrzymano odpowiedzi:
•
Dla pierwszej grupy: 25, 32, 18, 22, 37 lat,Me = x(N+1)/2 = x3 = 25
•
Dla drugiej grupy: 43, 24, 26, 29, 32, 41 lat.Me = xN/2 + xN/2+1
2 = x3 + x4 2
1 2 3 4 5
18 22 25 32 37
1 2 3 4 5 6
24 26 29 32 41 43
N = 5 N = 6
= 29 + 32
2 = 30,5
Mediana i pozostałe kwantyle
W sytuacji, gdy informacje o wartościach cechy
przedstawione są w postaci szeregu rozdzielczego punktowego medianę wyznaczamy na podstawie częstości (liczebności)
skumulowanych nisk w następujący sposób:
•
Wyznaczamy częstości skumulowane nisk,•
Obliczamy numer mediany ze wzoruNrMe = {N/2, gdy N jest parzyste,
(N + 1)/2, gdy N jest nieparzyste,
Mediana i pozostałe kwantyle
•
Wyznaczamy klasę, w której znajduje się mediana, tzn.odszukujemy wartość numeru mediany NrMe wśród
częstości skumulowanych nisk. Jest to klasa o pierwszym numerze i, dla którego
•
Odczytujemy wartość mediany.nisk ⩾ NrMe .
Przykład
Wyniki klasówki w jednej z klas licealnych były następujące:
NrMe = (25 + 1)/2 = 13 ⩽ 14 = n3sk, Me = 3.
Nr klasy Oceny xi
Liczba ocen (ni)
Częstości skumulowane
(nisk)
1 1 1 1
2 2 3 4
3 3 10 14
4 3,5 4 18
5 4 3 21
6 4,5 1 22
7 5 2 24
8 6 1 25
— Razem 25 —
Mediana i pozostałe kwantyle
Medianę w szeregu rozdzielczym przedziałowym wyznaczamy graficznie lub analitycznie, korzystając ze wzoru:
Me = x0 + h0
n0 (NrMe − nisk−1), gdzie
x0 - dolna granica przedziału zawierającego medianę, h0 - rozpiętość przedziału mediany,
n0 - częstość przedziału mediany,
nisk−1 - częstość skumulowana przedziału poprzedzającego przedział mediany,
NrMe - numer mediany.
Przykład
Poniżej podane są dane dotyczące wydajności pracy pracowników pewnego przedsiębiorstwa. Wyznaczymy medianę tej wydajności.
Wydajność pracy w szt./godz.
x0i — x1i
Liczba
pracowników (ni)
Częstości skumulowane
(nisk)
2 — 4 10 10
4 — 6 20 30
6 — 8 37 67
8 — 10 45 112
10 — 12 15 127
12 — 14 5 132
Razem 132 —
NrMe = N
2 = 132
2 = 66, 66 ⩽ 67.
Przykład
Wydajność pracy w szt./godz.
x0i — x1i
Liczba
pracowników (ni)
Częstości skumulowane
(nisk)
2 — 4 10 10
4 — 6 20 30
6 — 8 37 67
8 — 10 45 112
10 — 12 15 127
12 — 14 5 132
Razem 132 —
NrMe = N
2 = 132
2 = 66, h0 = 2, n0 = 37, nisk−1 = 30, Me = x0 + h0
n0 (NrMe − nisk−1) = 6 + 2
37 (66 − 30) = 7,95.
Przykład
Diagram częstości skumulowanych
Liczba pracowników
0 20 40 60 80 100 120 140
Wydajność pracy
2 4 6 Me 10 12 14
Nr mediany
Uwaga
Jeśli mamy dostęp tylko do danych o liczebnościach względnych wi, to w poniżym wzorze
Me = x0 + h0
n0 (NrMe − nisk−1), przyjmujemy:
x0 - dolna granica przedziału zawierającego medianę, h0 - rozpiętość przedziału mediany,
n0 = w0 - częstość względna przedziału mediany,
nisk−1 = wisk−1 - częstość skumulowana względna przedziału poprzedzającego przedział mediany,
NrMe = 50 - numer mediany.
Własności mediany
•
Może być ona wyznaczana w szeregach o otwartych przedziałach klasowych,•
Można ją wyznaczać do opisania zbiorowości, których nie można określić liczbowo (do wyznaczenia mediany nie jest konieczna znajomośćwszystkich wartości cechy mierzalnej),
•
Jest jedyną średnią, którą można wyznaczyć dla rozkładów skrajnie asymetrycznych,•
Nie jest wrażliwa na wartości skrajne (w przeciwieństwie do średniej arytmetycznej),•
Może być wyznaczana w szeregach o nierównych rozpiętościachprzedziałów klasowych, tj. w sytuacji, kiedy niemożliwe jest wyznaczenie dominanty.
Kwantyle
Jeżeli konieczna jest bardziej szczegółowa analiza właściwości strukturalnych, oprócz mediany, która jest kwartylem
drugim, znajdują zastosowanie kwartyl pierwszy i trzeci.
Kwartyle należą do miar statystycznych zwanych kwantylami, które dzielą zbiorowość statystyczną w określonej proporcji.
Kwantyle
Kwartyle Q
Decyle D
Centyle (percentyle)
C
Pierwszy kwartyl Q 1
Dzieli zbiorowość na dwie części w ten sposób, że 25%
jednostek zbiorowości (czyli 1/4) ma wartości cechy niższe bądź równe wartości Q1, a 75% (czyli 3/4) — równe lub wyższe od wartości tego kwartyla.
xmin xmax
75%
Q1
25%
Trzeci kwartyl Q 3
Dzieli zbiorowość na dwie części w ten sposób, że 75%
jednostek zbiorowości (czyli 3/4) ma wartości cechy niższe bądź równe wartości Q3, a 25% (czyli 1/4) — równe lub wyższe od wartości tego kwartyla.
xmin xmax
75%
Q3
25%
Kwartyle
Kwartyle wyznaczamy w sposób analogiczny jak w
przypadku mediany, z tym że należy uwzględnić konkretny numer kwantyla.
W przypadku danych uporządkowanych rosnąco i
przedstawionych w postaci szeregu szczegółowego wartości kwartyla pierwszego i trzeciego możemy wyznaczyć przez podzielenie zbiorowości na dwie części: pierwszą, złożoną z jednostek nie większych od mediany i drugą, złożoną z
jednostek nie mniejszych od mediany. Mediana każdej z tych części jest odpowiednio kwartylem pierwszym i trzecim.
Przykład I
1 2 3 4 5 6 7 8 9 10 11 12
5 7 8 8 8 9 10 10 12 14 15 16
Me = 9,5
1 2 3 4 5 6
5 7 8 8 8 9
1 2 3 4 5 6
10 10 12 14 15 16
Q1 = 8 + 8
2 = 8 Q3 = 12 + 14
2 = 13
Przykład II
1 2 3 4 5 6 7 8 9 10 11 12 13 5 5 7 8 8 8 9 10 10 12 14 15 15
Me = 9
1 2 3 4 5 6 7
5 5 7 8 8 8 9
1 2 3 4 5 6 7
9 10 10 12 14 15 15
Q1 = 8 Q3 = 12
Kwartyle
Wyznaczenie kwartyla w przypadku danych przedstawionych w postaci szeregu rozdzielczego punktowego sprowadza się do odszukania numeru kwartyla w liczebnościach skumulowa-
nych.
NrQ1 = {N/4, gdy N jest parzyste,
(N + 1)/4, gdy N jest nieparzyste, NrQ3 = {3N/4, gdy N jest parzyste,
3(N + 1)/4, gdy N jest nieparzyste,
Przykład
Nr klasy Oceny
xi
Liczba ocen (ni)
Częstości skumulowane
(nisk)
1 1 1 1
2 2 3 4
3 3 10 14
4 3,5 4 18
5 4 3 21
6 4,5 1 22
7 5 2 24
8 6 1 25
— Razem 25 —
NrQ1 = N + 1
4 = 25 + 1
4 = 6,5, 6,5 ⩽ 14 = n3sk, Q1 = 3.
Przykład
Nr klasy Oceny
xi
Liczba ocen (ni)
Częstości skumulowane
(nisk)
1 1 1 1
2 2 3 4
3 3 10 14
4 3,5 4 18
5 4 3 21
6 4,5 1 22
7 5 2 24
8 6 1 25
— Razem 25 —
NrQ3 = 3(N + 1)
4 = 3(25 + 1)
4 = 19,5, 19,5 ⩽ 21 = n5sk, Q3 = 4.
Kwartyle
W przypadku materiału statystycznego przedstawionego w postaci przedziałowych szeregów rozdzielczych Q1 i Q3
wyznaczamy na podstawie wzorów:
Q1 = xQ1 + hQ1
nQ1 (NrQ1 − nisk−1), Q3 = xQ3 + hQ3
nQ3 (NrQ3 − nisk−1),
xQ - dolna granica przedziału klasowego zawierającego Q, hQ - rozpiętość przedziału kwartyla,
nQ - częstość przedziału kwartyla,
nisk−1 - częstość przedziału poprzedzającego przedział kwartyla, NrQ - numer kwartyla.
Przykład
Wydajność pracy w szt./godz.
x0i — x1i
Liczba
pracowników (ni)
Częstości skumulowane
(nisk)
2 — 4 10 10
4 — 6 20 30
6 — 8 37 67
8 — 10 45 112
10 — 12 15 127
12 — 14 5 132
Razem 132 —
NrQ1 = N
4 = 132
4 = 33, xQ1 = 6, hQ1 = 2, nQ1 = 37, nisk−1 = 30.
Q1 = xQ1 + hQ1
nQ1 (NrQ1 − nisk−1) = 6 + 2
37 (33 − 30) = 6,16.
Przykład
Wydajność pracy w szt./godz.
x0i — x1i
Liczba
pracowników (ni)
Częstości skumulowane
(nisk)
2 — 4 10 10
4 — 6 20 30
6 — 8 37 67
8 — 10 45 112
10 — 12 15 127
12 — 14 5 132
Razem 132 —
NrQ3 = 3N
4 = 3 ⋅ 132
4 = 99, xQ3 = 8, hQ3 = 2, nQ3 = 45, nisk−1 = 67.
Q3 = xQ3 + hQ3
nQ3 (NrQ3 − nisk−1) = 8 + 2
45 (99 − 67) = 9,42.
Własności kwartyli
Należy zauważyć, że znajomość wartości Q1 i Q3 w
uporządkowanym szeregu pozwala nam na stwierdzenie, że połowa (50%) środkowych jednostek danej zbiorowości
statystycznej przyjmuje wartość od Q1 do Q3.
25%
xmin Me xmax
25% 25% 25%
Q1 Q3
50%
Kwantyle
Jeżeli zbiorowość jest bardzo liczna, może się okazać, że podział zbiorowości na ćwiartki jest niewystarczający.
Stosujemy wówczas decyle (dzielące zbiorowość na
subpopulacje dziesięcioprocentowe) lub percentyle (dzielące zbiorowość na subpopulacje jednoprocentowe).
10%
xmin xmax
90%
D1
95%
xmin xmax
5%
C95