Rachunek prawdopodobieństwa i statystyka
Średnia i odchylenie standardowe
Dorota Celińska-Kopczyńska
Uniwersytet Warszawski
Zajęcia 4 4 grudnia 2020
Idea zajęć – co i po co będziemy robić?
I Średnia i wariancja (odchylenie standardowe) pomagają w zrozumieniu zachowania się rozkładów
I Zakłada się, że dobrym przybliżeniem średniej jest średnia arytmetyczna
I Podczas dzisiejszego labu sprawdzimy, czy dzięki średniej arytmetycznej możemy wnioskować na temat innych właściwości rozkładu
I Pierwsze zadanie pokaże przypadek “przyzwoitego” rozkładu, później pojawią się “patologie”
Problem 3a – znana średnia i wariancja
Będziemy pracować z rozkładem Poissona z parametrem λ.
Rozkład Poissona jest przykładem użytecznego rozkładu
dyskretnego, stosowanego w badaniach ilościowych. Standardowy przykład: modelowanie dzietności.
Ile wynosi średnia i wariancja dla tego rozkładu?
Problem 3a – znana średnia i wariancja
I Wygeneruj N = 1000 wartości z rozkładu Poissona, λ = 10 (poisson(lambda, shape) z np.random)
I Narysuj histogram uzyskanych wartości. Spróbuj odczytać średnią z histogramu i porównać ją ze średnią analityczną I Dla kolejnych wartości i ∈ [1, N] policz ¯xi = x1+···+xi i. Narysuj
wykres wartości xi. Jak zachowuje się wraz ze wzrostem i ? I Nanieś poziomą linię równą λ.
I Oblicz odchylenie standardowe σi dla i pierwszych obserwacji (np.sqrt()). Nanieś na wykres wartości λ ± σi
Co tak naprawdę obrazuje wierzchołek histogramu?
Wyobraźmy sobie cztery turnieje, w których zawodnicy mogą zdobyć od 0 do 10 pkt, mamy 100 uczestników. Częstotliwość uzyskanych punktów w turniejach jest przedstawiona na poniższych histogramach.
0 5 10 15 20
0.0 2.5 5.0 7.5 10.0
turniej1
count
0 5 10 15 20
0 4 8 12
turniej2
count
0 5 10 15 20
0 4 8 12
turniej3
count
0 5 10 15 20
0 4 8 12
turniej4
count
Jakie są średnie? Co jest w wierzchołku?
I turniej 1: 5 (wierzchołek 5) I turniej 2: 5.44 (wierzchołek 8) I turniej 3: 4.62 (wierzchołek 2) I turniej 4: 5.41 (wierzchołek 3, 8)
Wniosek
I Średnia i wierzchołek powinny być położone w tym samym miejscu, gdy mamy do czynienia z symetrycznym,
jednomodalnym rozkładem.
I W innych sytuacjach może to nie zachodzić (w wierzchołku jest na pewno moda, dominanta)
I Na podstawie samej średniej (czy innych statystyk
pozycyjnych) nie odczytamy, czy rozkład jest wielomodalny (rysunki są przydatne...)
Problem 3b – rozkład bez średniej
Rozważymy symetryczny, jednomodalny, dyskretny rozkład:
P(X = k) = 4|k|(|k|+1)1 , dla k 6= 0 oraz P(X = 0) = 0.5.
I Pokaż, że te formuły faktycznie opisują rozkład dyskretny I Pokaż, że ten rozkład nie ma średniej
I Narysuj wykres P(X = k) dla k ∈ [−10, 10]
Wykres
Zadanie zaliczeniowe do 7.01.2021 23:59
1. Napisz funkcję, która wylosuje wartości z rozkładu P(X = k) 2. Wylosuj N = 10000 wartości x1, . . . , xn z tego rozkładu 3. Dla i ∈ 1, . . . , n oblicz ¯xi = x1+···+xi i, narysuj wykres tych
wartości
4. Dla i ∈ 1, . . . , n oblicz ˆxi = med (x1, . . . , xi), narysuj wykres tych wartości
Krok 1 – generator
I Główna trudność tego zadania polega na napisaniu generatora wartości xi.
I Nasz rozkład możemy podzielić na trzy obszary:
I obszar liczb ujemnych (p-stwo 0.25) I wartość zero (p-stwo 0.5)
I obszar liczb dodatnich (p-stwo 0.25)
I zero jest łatwo zwrócić, wartości z obszarów dodatnich i ujemnych losujemy tak samo (z dokładnością do znaku)
Krok 1 – generator a)
I Zacznijmy od symulacji rzutu kostką czterościenną – to zadecyduje nam, w którym miejscu rozkładu się znaleźliśmy I Przykładowo możemy uznać, że 1 zwraca nam stronę ujemną,
2 i 3 zwraca zero, a 4 zwraca stronę dodatnią (konwencja, ważna jest jedynie proporcja!)
I Jeśli wylosujemy zero to je zwracamy, jeśli stronę dodatnią albo ujemną, przechodzimy do b)
Krok 1 – generator b)
I Czy łatwo jest policzyć dystrybuantę? Niekoniecznie I Czy łatwo jest policzyć P(X k)? Tak
I Skorzystamy z wcześniej zdefiniowanego teleskopu!
P(X k) = (1 k − 1
k + 1) + ( 1
k + 1− 1
k + 2) + · · · = 1 k
Krok 1 – generator b)
I Losujemy wartość a z rozkładu jednostajnego na [0, 1]
I Szukany x to podłoga z 1a
I W przypadku strony ujemnej zwracamy −x
Kroki 2-4
Pozostałe kroki zadania analogicznie jak Zadanie 3a
Mediana? Po co to?
I Przy okazji zadania 3a pokazaliśmy, że średnia to za mało, żeby wnioskować o zachowaniu rozkładu
I Wzajemne położenie mediany i średniej pozwala nam ocenić asymetrię rozkładu dla jednomodalnych rozkładów
I M = r – rozkład symetryczny I M > r – asymetria lewostronna
I M < r – asymetria prawostronna (ciężki ogon)
Przykład o turniejach
I turniej 1: Śr: 5, M: 5 (moda 5) – symetryczny I turniej 2: Śr: 5.44, M: 6 (moda 8) – lewoskośny I turniej 3: Śr: 4.62, M: 4 (moda 2) – prawoskośny I turniej 4: Śr: 5.41, M: 5.50 (moda 3, 8) – dwumodalny
0 5 10 15 20
0.0 2.5 5.0 7.5 10.0
turniej1
count
0 5 10 15 20
0 4 8 12
turniej2
count
0 5 10 15 20
0 4 8 12
turniej3
count
0 5 10 15 20
0 4 8 12
turniej4
count
Problem 3c – rozkład bez wariancji
Rozważymy symetryczny, jednomodalny, dyskretny rozkład:
P(X = k) = |k|(|k|+1)(|k|+2)1 , dla k 6= 0 oraz P(X = 0) = 0.5.
Zadanie rozwiązujemy analogicznie do zadania 3b. Jedynym
“podchwytliwym” krokiem jest znalezienie teleskopu.