• Nie Znaleziono Wyników

Opis rozkładu elementów próby

5.3.1 Analiza danych jakościowych

Rozkład – interesuje nas liczba lub procent elementów w każdej z kategorii.

1. wykres kołowy: Prosty sposób prezentacji danych, których wartości dają w sumie pewną całość

(a) skład wyznaniowy ludności Warszawy na początku XX wieku : katolicy 60%, Żydzi 32%, Inne wyznania 8%).

2. wykresy słupkowe: Prosty sposób prezentacji danych, których war-tości mogą, ale nie muszą dawać w sumie pewną całość

(a) dochody osobiste w różnych regionach USA w 1983 (Północny Wschód 300 mld $, Środkowy Wschód 320 mld, Południe 400 mld.);

(b) procent użytkowników, którzy stwierdzają, że na ich życie duży wpływ mają: telefony komorkowe, laptopy, ipady.

Rysunek 18: Skład wyznaniowy ludności Warszawy na początku XX wieku

47

Rysunek 19: Skład wyznaniowy ludności Warszawy na początku XX wieku

3. Tablice wielodzielcze. Przypuśćmy, że chcemy zbadać zależność mię-dzy dwiema zmiennymi jakościowymi X i Y , z których pierwsza przyj-muje wartości w k kategoriach A1, . . . , Ak, a druga w l kategoriach B1, . . . , Bl. Próba n elementowa ma postać (x1, y1), (x2, y2), . . . , (xn, yn).

Takie dane umieszczamy zazwyczaj w tablicy wielodzielczej, mają-cej k wierszy i l kolumn. Element nij, znajdujący się w i-tym wierszu i j-tej kolumnie tej tablicy jest równy liczbie tych elementów (xk, yk) próby, dla których wartość pierwszej cechy należy do kategorii Ai, a drugiej do kategorii Bj.

(a) Czy płeć zdającego wpływa na wynik egzaminu? Poniższa tabela przedstawia wyniki egzaminu ze statystyki.

Zdany Oblany

Studenci 20 30

Studentki 30 20

(b) Poniższa tabela przedstawia wyniki ankiety dotyczącej wpływu poglądów politycznych na skłonność do palenia marihuany.

Nigdy Okazjonalnie Często

Postępowe 479 173 119

Konserwatywne 214 47 15

Inne 172 45 55

48

5.3.2 Analiza danych ilościowych:

Niech x1, . . . , xn oznaczają zaobserwowane w próbie wartości cechy ilościowej X.

Rozkład cechy X – interesuje nas to jakie wartości przyjmuje cecha ilo-ściowa X i jak często każda z tych wartości jest przyjmowana. W szczegól-ności interesuje nas kształt, środek, rozrzut rozkładu cechy.

1. Kształt:

(a) Ile jest punktów szczytowych (mod) ?

(b) Czy rozkład jest symetryczny, czy też skośny.

2. Środek: punkt centralny.

3. Rozrzut: odstęp między największymi i najmniejszymi wartościami.

4. Identyfikacja obserwacji odstających (nie pasujących do reszty).

Zaobserwowane w próbie wartości cechy ilościowej: x1, . . . , xn.

• Statystyki porządkowe: Ustawiamy wartości próby x1, . . . , xn od najmniejszej do największej otrzymujemy zwane statystykami pozycyj-nymi (porządkowymi) x(1) ≤ . . . ≤ x(n).

• Rozkład cechy w próbie: Niech y1 < y2. . . < yk oznaczają różne, uporządkowane rosnąco, wartości próby x1, . . . , xn i niech ni będzie liczbą powtórzeń wartości yi w próbie, i = 1, . . . , k. Wówczas ciąg (y1, n1), . . . , (yk, nk) nazywamy rozkładem cechy w próbie x1, . . . , xn. Pokazuje on jakie wartości przyjmuje cecha w próbie i jak często.

• Rozkład częstości cechy w próbie: Jeśli w definicji rozkładu za-miast wartości ni podamy częstość występowania wartości yi, to jest ni/n, to otrzymamy ciąg (y1, n1/n), . . . , (yk, nk/n) nazywamy rozkła-dem częstości cechy w próbie x1, . . . , xn.

Przykład 1. Wyniki 25 rzutów kostką:

1, 2, 2, 3, 6, 6, 2, 5, 4, 3, 5, 6, 1, 3, 2, 2, 2, 2, 6, 5, 4, 3, 4, 5, 6.

1. statystyki pozycyjne to odpowiadające tej próbie:

1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 2. rozkład i rozkład częstości dla tej próby:

Wartość (liczba oczek) 1 2 3 4 5 6

Liczność 2 7 4 3 4 5

Częstość 0.08 0.28 0.16 0.12 0.16 0.20

49

• Szereg rozdzielczy: Jeśli liczba różnych obserwacji w próbie jest duża, to rozkład częstości jest niezbyt czytelny. Dlatego najpierw gru-pujemy dane. W tym celu wybieramy liczbę k ∈ N i liczby a1 <

a2 < . . . ak+1, takie że a1 < x(1) i ak+1 > x(n). Tworzymy przedziały I1 = [a1, a2), I2 = [a2, a3), . . . , Ik = [ak, ak+1), zwane klasami i obli-czamy n1, . . . , nk - liczby obserwacji z próby wpadających do przedzia-łów I1, . . . , Ik. Obliczamy również kolejne częstości.

Przykład: Wydatki (w setkach zł) 1000 losowo wybranych klientów Tesco:

Wydatki [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9)

Liczność 406 216 119 111 47 33 32 18 8

Częstość 0.406 0.216 0.119 0.111 0.047 0.033 0.032 0.018 0.008

• Histogram: Sporządzenie histogramu polega na naniesieniu na po-ziomej osi układu współrzędnych przedziałów I1, . . . , Ik i zbudowaniu nad nimi przylegających do siebie słupków. Wysokość hj słupka nad przedziałem Ij jest tak dobrana, by pole tego słupka było wprost proporcjonalne do nj. Jak to zrealizować? Przypuśćmy, że n1 > 0.

Wówczas za wysokość pierwszego słupka przyjmujemy dowolną liczbę h1 > 0, a wysokości pozostałych słupkach wyznaczamy ze wzoru

hj(aj+1− aj) h1(a2− a1) = nj

n1.

1. zazwyczaj wysokości słupków dobieramy tak, by suma pól prosto-kątów była równa 1. Wówczas

hj = nj

n(aj+1− aj), j = 1, . . . , k.

*Powód? Tak znormalizowany histogram bardzo dobrze przybliża kształt gęstości rozkładu, z którego pochodzi próba.

Wniosek. Jeśli chcemy sprawdzić z jakiego rozkładu pochodzi próba, to rysujemy znormalizowany histogram i wybieramy gę-stość f0, która “najlepiej” do niego pasuje. Uznajemy, że próba pochodzi z rozkładu opisanego gęstością f0.

2. Jeśli przedziały klasowe mają te same długości, wysokości słupków są wprost proporcjonalne do liczby obserwacji z odpowiadających im klas.

3. Nie istnieje jedyny właściwy sposób rysowania histogramu, ale należy uwzględnić następujące zasady:

(a) liczba klas: k ∼ √3

n, gdy n ≥ 50, k = 4, gdy 30 < n < 50.

(b) końce przedziałów klasowych powinny być “wygodnymi” licz-bami ( [2, 3) a nie [1.99, 3.01) ).

(c) jeśli to możliwe, tworzymy przedziały tej samej długości.

50

Rysunek 20: Wydatki 1000 losowo wybranych klientów Tesco Histogram jest sugestywnym środkiem syntezy obserwacji zawartej w próbie, ponieważ jest opisem graficznym. Analizując histogram należy zwrócić uwagę na ogólną prawidłowość z jaką układają się dane i ude-rzające odstępstwa od tej prawidłowości.

Prawidłowość można ocenić

1. wyznaczając środek i rozproszenie histogramu,

2. opisując kształt histogramu, to znaczy, czy jest on symetryczny, czy też skośny (prawoskośny, gdy ma długie prawe ogony, a średnia jest większa od mediany, albo lewoskośny),

3. identyfikując obserwacje odstające, tzn. wartości skrajne, duże lub małe.

51

Rysunek 21: Histogram dla rozkładu symetrycznego

Rysunek 22: Histogram dla rozkładu prawoskośnego

• Wykres łodyga-liście Jeśli liczba obserwacji w próbie nie jest zbyt duża, to zamiast histogramu możemy zrobić wykres łodyga-liście. W tym celu:

– Każdą obserwację dzielimy na dwie części: łodygę i liść. Liśćiem jest ostatnia (położona najbardziej na prawo) z cyfr tworzących tę liczbę. Pozostałe cyfry to łodyga.

– Uporządkowane malejąco łodygi wypisujemy w pionowej kolum-nie, tak by najmniejsza z nich znalazła się na górze. Na prawo od tej kolumny rysujemy pionową linię.

– Uporządkowane rosnąco liście, odpowiadające ustalonej łodydze, wypisujemy w poziomym wierszu, na prawo od tej łodygi.

Zaleta: Nie tracimy informacji wynikającej z grupowania danych.

52

Przykład:

Łodyga Liście 1 26 2 569 3 8 4 1 5 008

Wykres łodyga liście dla próby 5.0, 1.2, 2.5, 4.1, 1.6, 3.8, 5.0, 2.6, 2.9, 5.8 Wskaźniki sumaryczne: Próbę należy również scharakteryzować za po-mocą kilku wskaźników liczbowych umożliwiających odpowiedź na pytania:

• gdzie leży „środek” próby?

• jak duże jest rozproszenie cechy w próbie wokół owego środka?

Wskaźniki określające środek próby nazywamy wskaźnikami położenia. Wskaź-niki określające rozproszenie próby wokół środka nazywamy wskaźnikami roz-proszenia.

Wskaźniki położenia

1. Wartość średnią w próbie x1, . . . , xn, oznaczaną x, otrzymujemy dodająć do siebie wartości x1, . . . , xn i dzieląc otrzymany wynik przez n (liczbę obserwacji), tzn.

x = x1+ x1+ . . . + xn

n .

Uwaga: x jest estymatorem (oszacowaniem) średniej w populacji.

2. Medianą w próbie x1, . . . , xn jest „środek” próby, tzn. liczba M , taka że połowa wartości próby jest większa niż M a druga połowa jest mniej-sza niż M . Aby znaleźć medianę

• Ustawiamy obserwacje od najmniejszej do największej otrzymując wartości x(1) ≤ . . . ≤ x(n).

• Jeśli n jest nieparzyste, to mediana jest środkową obserwacją wśród x(1), . . . , x(n).

• Jeśli n jest parzyste, to mediana jest równa średniej arytmetycznej z dwóch środkowych obserwacji spośród x(1), . . . , x(n).

To oznacza, że

M =

( x((n+1)/2), gdy n jest nieparzyste, x(n/2)+ x(n/2+1)

2 , gdy n jest parzyste.

Przykłady:

53

(a) Dla próby 6, 2, 1, 8, 4 statystykami porządkowymi są 1, 2, 4, 6, 8.

Ponieważ n = 5 jest liczbą nieparzystą, medianą jest środkowa, czyli trzecia statystyka porządkowa: M = x(3) = 4.

(b) Dla próby 7, 2, 1, 8 statystykami porządkowymi są 1, 2, 7, 8. Po-nieważ n = 4 jest liczbą parzystą, medianą jest średnia z dwóch

“środkowych” statystyk porządkowych: czyli średnia z drugiej i trzeciej statystyki porządkowej: M = x(2)+ x(3)

2 = 2 + 7

2 = 3, 5.

Uwaga: Mediana w próbie jest estymatorem mediany w populacji, Średnia a mediana

1. Mediana dzieli powierzchnię histogramu na połowę, a średnia to środek ciężkości histogramu;

2. Mediana jest odporna na obserwacje odstające, a średnia nie;

3. Jeżeli histogram jest prawoskośny (długie prawe ogony), to średnia jest zwykle większa niż mediana.

4. Obie te miary położenia są jednakowo ważne;

5. Mediana zawsze jest dobra miarą położenia, a średnia jest nią jedynie wtedy, gdy rozkład cechy jest symetryczny;

6. Średnia jest częściej wykorzystywana do testowania i estymacji (o czym później).

Wskaźniki rozproszenia Analiza danych, przeprowadzana jedynie na pod-stawie miar położenia, może prowadzić do błędnych wniosków. Przykładowo, z równości median zarobków w dwóch grupach pracowników, nie wynika, że zarobki w tych grupach mają ten sam rozkład. W pierwszej grupie wszyscy mogą bowiem zarabiać tyle samo, podczas gdy w drugiej mogą być tacy, co zarabiają dużo i tacy ,co zarabiają mało. Analizując dane trzeba więc także uwzględnić ich rozproszenie.

Przykład: Dwie próby −10, 0, 10 i 0, 0, 0, 0 mają te same średnie 0 i te same mediany 0, ale pierwsza z nich jest znacznie bardziej rozproszona.

1. Pierwszy i trzeci kwartyl w próbie x1, . . . , xn.

• Pierwszy kwartyl Q1 to mediana z tych obserwacji w uporząd-kowanej próbie x(1) ≤ . . . ≤ x(n), które są położone na lewo od mediany M .

• Trzeci kwartyl Q3 to mediana z tych obserwacji w uporządko-wanej próbie x(1) ≤ . . . ≤ x(n), które są położone na prawo od mediany M .

Uwaga:

(a) Q1 i Q3 to estymatory pierwszego i trzeciego kwartyla w populacji.

(b) Q1, M, Q3 dzielą próbę na cztery, mniej wiecej równoliczne, części.

54

2. Rozstęp międzykwartylowy w próbie IQR = Q3 − Q1.

IQR jest lepszą miarą rozproszenia w próbie niż rozstęp x(n)− x(1), bo x(n) i x(1) mogą być obserwacjami odstającymi.

Uwaga: IQR = Q3 − Q1 jest estymatorem rozstępu międzykwartylo-wego w populacji pierwszego i trzeciego kwartyl w populacji.

3. kwantyl rzędu p, gdzie p ∈ (0, 1):

bxp = inf{x : bFn(x) ≥ p} = X(bnpc) gdy np ∈ N, X(bnpc+1) gdy np /∈ N.

Inne podejście, odpowiadające podanej wcześniej definicji mediany:

xbp =

( X(bnpc)+ X(bnpc+1)

2 gdy np ∈ N,

X(bnpc+1) gdy np /∈ N.

Uwaga: bxp jest estymatorem kwantyla rzędu p w populacji

4. Wariancja w próbie x1, . . . , xn, oznaczaną symbolem s2, otrzymujemy dodając do siebie kwadraty odchyleń kolejnych obserwacji od średniej x i dzieląc otrzymany wynik przez n − 1, tzn.

s2 = (x1 − x)2+ (x2− x)2+ . . . + (xn− x)2

n − 1 .

Uwaga: s2 jest estymatorem wariancji w populacji.

5. Odchylenie standardowe w próbie x1, . . . , xn, oznaczane symbolem s, to dodatni pierwiastek z wariancji w próbie, tzn.

s =

r(x1− x)2+ (x2− x)2+ . . . + (xn− x)2

n − 1 .

Uwaga:

(a) s mierzy rozproszenie próby wokół średniej próbkowej, więc używa się tego parametru, gdy za wskaźnik położenia przyjmuje się x;

(b) s ≥ 0, przy czym s = 0 wtedy i tylko wtedy, gdy wszystkie war-tości w próbie są takie same. s i s2 rośną wraz z rozproszeniem.

(c) s jest lepsze od s2, bo wyraża się w tych samych jednostkach co wartości w próbie.

(d) IQR jest odporne na obserwacje odstające, a s2 nie jest (nawet jedna obserwacja odstająca drastycznie zwiększa s2).

(e) IQR zawsze jest dobrą miarą rozproszenia, a s2 jest nią jedynie wtedy, gdy rozkład cechy jest symetryczny;

Znając medianę i kwartyle możemy sporządzić jeszcze jeden rysunek ułatwia-jący wnioskowanie o próbie. Jest nim

55

• Wykres pudełkowy: Bardzo przydatnym, graficznym środkiem wstęp-nej analizy danych, jest wykres pudełkowy. Można z niego odczy-tać pięć wielkości charakteryzujących próbę: najmniejszą obserwację, pierwszy kwartyl Q1, medianę M , trzeci kwartyl Q3, największą obser-wację.

– Skala na osi pionowej odpowiada wartościom obserwacji. Dolna podstawa ramki to pierwszy kwartyl, górna to trzeci kwartyl. Dłu-gosć pionowego boku ramki to oczywiście IQR. Poziomy odcinek wewnątrz ramki to mediana. Odcinek wychodzący z górnej pod-stawy ramki kończy się poziomą linią (wąsem) wyznaczającą naj-większą obserwację. Podobnie konstruuje się dolny wąs.

• Zmodyfikowany box-plot: Odcinek wychodzący z górnej podstawy ramki kończy się poziomą linią (wąsem) wyznaczającą największą ob-serwację mniejszą lub równą Q3+ 1.5 × IQR. Analogicznie dla dolnego wąsa. Obserwacje odstające, czyli te spoza przedziału [Q3 − 1.5 × IQR, Q3+ 1.5 × IQR], są nanoszone indywidualnie.

1. Za pomocą box-plotów dobrze porównuje się rozkłady tej samej cechy w kilku próbach (np. zarobki mężczyzn i kobiet).

2. Ponieważ (x, s) nie są odporne na obserwacje odstające i mogą prowadzić do błędnych wniosków, gdy rozkład cechy nie jest sy-metryczny, do analizy zawsze należy dołączyć box-plot.

Rysunek 23: Box-plot dla próby rozmiaru n = 100 z rozkładu normalnego N (0, 1).

56

Rysunek 24: Box-ploty dla trzech prób rozmiaru n = 100 z rozkładów nor-malnych N (0, 1), N (1, 22) i N (1, 32)

Rysunek 25: Zmodyfikowany box-plot dla próby rozmiaru n = 50 z rozkładu chi-kwadrat z jednym stopniem swobody.

• Wykres przebiegu. Czasami dane ilościowe z próby są pomiarami pewnej wielkości, zbieranymi w następujących po sobie momentach czasowych. Wówczas dobrym pomysłem na ich wizualizację jest spo-rządzenie ich wykresu w funkcji czasu. Dane tego typu noszą nazwę szeregu czasowego, a odpowiadający im wykres jest zwany wykresem przebiegu. Analizując taki wykres można stwierdzić czy istnieje

– zależność między wartościami obserwowanymi w sąsiednich mo-mentach czasowych,

– ogólna tendencja wzrostowa albo spadkowa (trend),

– zmienność sezonowa (kształt wycinka wykresu pojawiający się w kolejnych przedziałach czasowych).

57

Rysunek 26: Notowania akcji firmy Microsoft od stycznia 2008. roku do marca 2016. roku.

5.3.3 Podsumowanie

Przeprowadzając wstępną analizę danych

1. Wyznaczamy wskaźniki liczbowe charakteryzujące środek i rozproszenie próby, czyli średnią i wariancję w próbie lub medianę i kwartyle w próbie.

2. Rysujemy box-plot, gdyż ułatwia on przeanalizowanie położenia i roz-proszenia próby.

3. Rysujemy histogram by ocenić kształt, środek, rozrzut rozkładu cechy.

Za jego pomocą

(a) znajdujemy punkty szczytowe, czyli najczęściej powtarzające się wartości (modę) (dla nich słupki histogramu są najwyższe), (b) oceniamy czy rozkład jest symetryczny, czy też skośny.

(c) znajdujemy środek - punkt centralny

(d) wyznaczamy rozrzut, czyli odstęp między największymi i naj-mniejszymi wartościami.

(e) identyfikujemy obserwacje odstające (niepasujące do pozostałych obserwacji).

4. Jeśli histogram jest symetryczny, środek i rozrzut rozkładu oceniamy za pomocą średniej i wariancji. W przeciwnym razie podajemy też medianę i kwartyle.

5. Jeśli w próbie są obserwacje odstające, środek i rozrzut rozkładu oce-niamy za pomocą mediany i kwartyli, bo średnia i wariancja nie są odporne na takie obserwacje.

58

Przykład: Roczne dochody (w dolarach) 15 losowo wybranych pracownic banku JPMorgan to 16015, 17516, 19312, 16555, 18206, 20788, 12641, 16904, 15953, 17124, 19338, 18405, 17813, 19090, 17274. Dla tej próby statystyki po-rządkowe mają postać:

12641, 15953, 16015, 16555, 16904, 17124, 17274, 17516, 17813, 18206, 18405, 19090, 19312, 19338, 20788,

a podstawowe miary położenia i rozproszenia są równe 1. x = 16015 + . . . + 17274

15 = 17529.

2. s2 = (16015 − 17529)2+ . . . + (17274 − 17529)2

15 − 1 = 3.6466 · 106.

3. M = 17516, bo n = 15, więc medianą jest środkowa, czyli ósma obser-wacja w uporządkowanej rosnąco próbie.

4. Q1 = 16555, bo w uporządkowanej rosnąco próbie, na lewo od mediany M jest 7 obserwacji, a środkową z nich jest czwarta z nich, czyli 16555.

5. Q3 = 19090, bo w uporządkowanej rosnąco próbie, na lewo od mediany M jest 7 obserwacji, a środkową z nich jest czwarta z nich, czyli 19090.

Powiązane dokumenty