• Nie Znaleziono Wyników

Statystyki opisowe w analizie rozkładu empirycznego zmiennej

– podstawowe zagadnienia

3. Statystyki opisowe w analizie rozkładu empirycznego zmiennej

Kluczowe pojęcia: rozkład częstości zmiennej, kategoria zmiennej, charakterystyki opisowe rozkładu, miary tendencji centralnej, miary położenia, średnia, dominanta, mediana, średnia obcięta, kwartyle, M-estymatory, miary rozproszenia, odchylenie standardowe, wariancja, skośność rozkładu, spłaszczenie, kurtoza

3.1. Rozkład częstości zmiennej

Przystępując do analizy statystycznej, należy w pierwszej kolejności zapoznać się z częstością występowania poszczególnych wariantów badanej zmiennej/cechy, czyli z rozkładem częstości tej zmiennej. Rozkład częstości to ujęcie danych w ka-tegorie i wskazanie liczby obserwacji w obrębie każdej kategorii w badanej zbio-rowości (Górniak, Wachnicki, 2000, s. 105). Znajomość rozkładu empirycznego zmiennej to znajomość częstości występowania – bezwzględnych (ni) i/lub względ-nych (wi) – poszczególnych kategorii zmiennej (xi). Aby wyznaczyć częstości (nie-zależnie od skali pomiarowej zmiennej), korzystamy z polecenia Analiza → Opis

statystyczny → Częstości (rysunek 3.1A).

Pojawia się okno dialogowe podzielone na dwie części (rysunek 3.1B). Po lewej stronie znajduje się wykaz wszystkich zmiennych, jakie mamy w naszym zbiorze danych. W pole Zmienne przenosimy zmienną (lub zmienne), dla których chcemy utworzyć Tabelę częstości – robimy to poprzez dwukrotne kliknięcie w nią, prze-ciągnięcie jej na prawą stronę albo po ustawieniu się na tej zmiennej wykorzystu-jemy strzałkę znajdującą się między oknami. Aby utworzyć taką tabelę, należy za-znaczyć Pokaż tabele częstości (opcja ta jest oznaczana domyślnie).

52 Statystyki opisowe w analizie rozkładu empirycznego zmiennej

A

B

Rysunek 3.1. Wykonywanie polecenia Częstości

Dodatkowo można przedstawić rozkład zmiennej na wykresie – należy wybrać

Wykresy, a następnie dobrać odpowiedni wykres (do wyboru mamy wykres kołowy,

słupkowy i histogram, na którym można – jak na rysunku 2.3 – dodać krzywą nor-malną). Jeśli mamy do czynienia ze zmienną o niewielkiej liczbie wariantów (w tym zwłaszcza mierzoną na skali nominalnej lub porządkowej) i jednocześnie uwzględnio-ne kategorie obejmują 100% jednostek należących do badauwzględnio-nej zbiorowości (populacji lub próby), wygodny będzie wykres kołowy. Można na nim oznaczyć albo liczebno-ści (opcja Częstoliczebno-ści), albo procenty (opcja Procent obserwacji). Jeśli nie uwzględniamy 100% zbiorowości albo kategorii zmiennej jest dużo, lepszy będzie wykres słupkowy. Dla zmiennych mierzonych na skali ilościowej polecany jest histogram (warto wybrać dodatkowo Pokaż krzywą normalną na histogramie – rysunek 3.1).

3.2. Statystyki opisowe rozkładu zmiennej

Należy pokreślić, że samo przedstawienie rozkładu częstości zmiennej nie wystar-cza. Warto pójść dalej, aby uchwycić zasadnicze właściwości rozkładu i scharak-teryzować go syntetycznie za pomocą niewielu liczb. Liczby, które sumarycznie i skrótowo opisują rozkład, nazywa się charakterystykami opisowymi rozkładu zmiennej (Lange, 1952, s. 46). Poznanie liczbowych charakterystyk rozkładu jest bardzo ważne, gdyż umożliwia porównania ilościowe rozkładów dwóch lub więcej

Statystyki opisowe rozkładu zmiennej 53 zmiennych. Jak podkreślano w rozdziale drugim, liczbowe charakterystyki rozkła-du zmiennej losowej w populacji nazywa się parametrami, natomiast charaktery-styki rozkładu wyznaczone na podstawie próby losowej – statystykami opisowy-mi (są one estymatoraopisowy-mi konkretnych parametrów). Statystyk opisowych używa się również wtedy, gdy prowadzimy badanie całkowite, dotyczące populacji gene-ralnej i obejmujące wszystkie jej jednostki.

Podstawowymi zadaniami statystyk opisowych są (Zając, 1994, s. 131–134): • określenie przeciętnego poziomu (tendencji centralnej, położenia) wartości

zmiennej;

• ocena zróżnicowania (rozproszenia) wartości zmiennej; • określenie siły i kierunku asymetrii (skośności);

• ocena koncentracji (spłaszczenia rozkładu).

Liczbowymi charakterystykami syntetycznego opisu rozkładu cechy są cztery gru-py mierników. Klasyfikację tych miar zaprezentowano na rysunku 3.2. Pierwszy podział na miary klasyczne i pozycyjne wynika z istoty problemu, jakiego dotyczą. Miary klasyczne są wyznaczane na podstawie wszystkich wartości zmiennej (xi), natomiast miary pozycyjne na podstawie tylko niektórych obserwacji.

Miary opisowe Klasyczne Pozycyjne Położenia Zróżnicowania Asymetrii Spłaszczenia

Rysunek 3.2. Klasyfikacja miar opisowych rozkładu zmiennej

Źródło: opracowanie własne.

W  niniejszym podręczniku, ze  względu na  ograniczenia jego objętości, przedstawimy sposoby wyznaczania miar (położenia, rozproszenia, skośno-ści i koncentracji), w tym wzory, jedynie dla danych indywidualnych (szeregów szczegółowych). Z tego samego powodu z grupy miar średnich klasycznych omó-wimy tylko średnią arytmetyczną.

54 Statystyki opisowe w analizie rozkładu empirycznego zmiennej

Porównując rozkład tej samej cechy (zmiennej) w różnych zbiorowościach, moż-na stwierdzić, że różnice między nimi sprowadzają się do czterech charakterystycz-nych właściwości rozkładu (Zając, 1994, s. 133–134):

rozkłady mogą różnić się położeniem, tzn. wartością zmiennej, w której pobli-żu skupiają się obserwacje (rysunek 3.3, wariant 1),

obserwacje mogą skupiać się wokół tej samej wartości, ale różnić się rozprosze-niem oraz spłaszczerozprosze-niem (rysunek 3.3, wariant 2),

rozkłady mogą wreszcie różnić się położeniem, rozproszeniem, spłaszczeniem oraz skośnością (rysunek 3.3, warianty 3 i 4).

Wariant 1 Wariant 3 Wariant 4 1 2 1 2 1 ni xi Wariant 2 ni xi xi xi ni ni 1 2

Rysunek 3.3. Przykładowe rozkłady zmiennej różniące się położeniem i/lub rozproszeniem

Źródło: opracowanie własne.

Każdą z powyższych właściwości można rozważać oddzielnie.

3.2.1. Miary położenia

Nazwa miar położenia wynika z ich lokalizacji (miejsca położenia) na osi odcię-tych układu współrzędnych przedstawiającego rozkład zmiennej. Można wskazać miejsce, w którym leży wartość najlepiej reprezentująca wszystkie warianty zmien-nej. Miary położenia dzielą się na: przeciętne (tendencji centralnej) i kwantyle.

Miary przeciętne informują o średnim lub typowym poziomie wartości ce-chy/zmiennej. Są wartościami, wokół których skupiają się pozostałe wartości

Statystyki opisowe rozkładu zmiennej 55 analizowanej zmiennej. Miary przeciętne, podobnie jak wszystkie pozostałe mia-ry opisujące rozkład, dzielą się na dwie grupy: klasyczne i pozycyjne. Średnie klasyczne są wyznaczane na podstawie wszystkich wartości zmiennej badanych jednostek zbiorowości, podczas gdy miary pozycyjne wskazują określoną pozy-cję jednostek (np. środkową lub dominującą). Miary przeciętne są wielkościami mianowanymi, wyrażone są w jednostkach miary badanej zmiennej.