• Nie Znaleziono Wyników

Zajęcia44grudnia2020 ŚredniaiodchyleniestandardoweDorotaCelińska-Kopczyńska Rachunekprawdopodobieństwaistatystyka

N/A
N/A
Protected

Academic year: 2021

Share "Zajęcia44grudnia2020 ŚredniaiodchyleniestandardoweDorotaCelińska-Kopczyńska Rachunekprawdopodobieństwaistatystyka"

Copied!
18
0
0

Pełen tekst

(1)

Rachunek prawdopodobieństwa i statystyka

Średnia i odchylenie standardowe

Dorota Celińska-Kopczyńska

Uniwersytet Warszawski

Zajęcia 4 4 grudnia 2020

(2)

Idea zajęć – co i po co będziemy robić?

I Średnia i wariancja (odchylenie standardowe) pomagają w zrozumieniu zachowania się rozkładów

I Zakłada się, że dobrym przybliżeniem średniej jest średnia arytmetyczna

I Podczas dzisiejszego labu sprawdzimy, czy dzięki średniej arytmetycznej możemy wnioskować na temat innych właściwości rozkładu

I Pierwsze zadanie pokaże przypadek “przyzwoitego” rozkładu, później pojawią się “patologie”

(3)

Problem 3a – znana średnia i wariancja

Będziemy pracować z rozkładem Poissona z parametrem λ.

Rozkład Poissona jest przykładem użytecznego rozkładu

dyskretnego, stosowanego w badaniach ilościowych. Standardowy przykład: modelowanie dzietności.

Ile wynosi średnia i wariancja dla tego rozkładu?

(4)

Problem 3a – znana średnia i wariancja

I Wygeneruj N = 1000 wartości z rozkładu Poissona, λ = 10 (poisson(lambda, shape) z np.random)

I Narysuj histogram uzyskanych wartości. Spróbuj odczytać średnią z histogramu i porównać ją ze średnią analityczną I Dla kolejnych wartości i ∈ [1, N] policz ¯xi = x1+···+xi i. Narysuj

wykres wartości xi. Jak zachowuje się wraz ze wzrostem i ? I Nanieś poziomą linię równą λ.

I Oblicz odchylenie standardowe σi dla i pierwszych obserwacji (np.sqrt()). Nanieś na wykres wartości λ ± σi

(5)

Co tak naprawdę obrazuje wierzchołek histogramu?

Wyobraźmy sobie cztery turnieje, w których zawodnicy mogą zdobyć od 0 do 10 pkt, mamy 100 uczestników. Częstotliwość uzyskanych punktów w turniejach jest przedstawiona na poniższych histogramach.

0 5 10 15 20

0.0 2.5 5.0 7.5 10.0

turniej1

count

0 5 10 15 20

0 4 8 12

turniej2

count

0 5 10 15 20

0 4 8 12

turniej3

count

0 5 10 15 20

0 4 8 12

turniej4

count

(6)

Jakie są średnie? Co jest w wierzchołku?

I turniej 1: 5 (wierzchołek 5) I turniej 2: 5.44 (wierzchołek 8) I turniej 3: 4.62 (wierzchołek 2) I turniej 4: 5.41 (wierzchołek 3, 8)

(7)

Wniosek

I Średnia i wierzchołek powinny być położone w tym samym miejscu, gdy mamy do czynienia z symetrycznym,

jednomodalnym rozkładem.

I W innych sytuacjach może to nie zachodzić (w wierzchołku jest na pewno moda, dominanta)

I Na podstawie samej średniej (czy innych statystyk

pozycyjnych) nie odczytamy, czy rozkład jest wielomodalny (rysunki są przydatne...)

(8)

Problem 3b – rozkład bez średniej

Rozważymy symetryczny, jednomodalny, dyskretny rozkład:

P(X = k) = 4|k|(|k|+1)1 , dla k 6= 0 oraz P(X = 0) = 0.5.

I Pokaż, że te formuły faktycznie opisują rozkład dyskretny I Pokaż, że ten rozkład nie ma średniej

I Narysuj wykres P(X = k) dla k ∈ [−10, 10]

(9)

Wykres

(10)

Zadanie zaliczeniowe do 7.01.2021 23:59

1. Napisz funkcję, która wylosuje wartości z rozkładu P(X = k) 2. Wylosuj N = 10000 wartości x1, . . . , xn z tego rozkładu 3. Dla i ∈ 1, . . . , n oblicz ¯xi = x1+···+xi i, narysuj wykres tych

wartości

4. Dla i ∈ 1, . . . , n oblicz ˆxi = med (x1, . . . , xi), narysuj wykres tych wartości

(11)

Krok 1 – generator

I Główna trudność tego zadania polega na napisaniu generatora wartości xi.

I Nasz rozkład możemy podzielić na trzy obszary:

I obszar liczb ujemnych (p-stwo 0.25) I wartość zero (p-stwo 0.5)

I obszar liczb dodatnich (p-stwo 0.25)

I zero jest łatwo zwrócić, wartości z obszarów dodatnich i ujemnych losujemy tak samo (z dokładnością do znaku)

(12)

Krok 1 – generator a)

I Zacznijmy od symulacji rzutu kostką czterościenną – to zadecyduje nam, w którym miejscu rozkładu się znaleźliśmy I Przykładowo możemy uznać, że 1 zwraca nam stronę ujemną,

2 i 3 zwraca zero, a 4 zwraca stronę dodatnią (konwencja, ważna jest jedynie proporcja!)

I Jeśli wylosujemy zero to je zwracamy, jeśli stronę dodatnią albo ujemną, przechodzimy do b)

(13)

Krok 1 – generator b)

I Czy łatwo jest policzyć dystrybuantę? Niekoniecznie I Czy łatwo jest policzyć P(X ­ k)? Tak

I Skorzystamy z wcześniej zdefiniowanego teleskopu!

P(X ­ k) = (1 k 1

k + 1) + ( 1

k + 1 1

k + 2) + · · · = 1 k

(14)

Krok 1 – generator b)

I Losujemy wartość a z rozkładu jednostajnego na [0, 1]

I Szukany x to podłoga z 1a

I W przypadku strony ujemnej zwracamy −x

(15)

Kroki 2-4

Pozostałe kroki zadania analogicznie jak Zadanie 3a

(16)

Mediana? Po co to?

I Przy okazji zadania 3a pokazaliśmy, że średnia to za mało, żeby wnioskować o zachowaniu rozkładu

I Wzajemne położenie mediany i średniej pozwala nam ocenić asymetrię rozkładu dla jednomodalnych rozkładów

I M = r – rozkład symetryczny I M > r – asymetria lewostronna

I M < r – asymetria prawostronna (ciężki ogon)

(17)

Przykład o turniejach

I turniej 1: Śr: 5, M: 5 (moda 5) – symetryczny I turniej 2: Śr: 5.44, M: 6 (moda 8) – lewoskośny I turniej 3: Śr: 4.62, M: 4 (moda 2) – prawoskośny I turniej 4: Śr: 5.41, M: 5.50 (moda 3, 8) – dwumodalny

0 5 10 15 20

0.0 2.5 5.0 7.5 10.0

turniej1

count

0 5 10 15 20

0 4 8 12

turniej2

count

0 5 10 15 20

0 4 8 12

turniej3

count

0 5 10 15 20

0 4 8 12

turniej4

count

(18)

Problem 3c – rozkład bez wariancji

Rozważymy symetryczny, jednomodalny, dyskretny rozkład:

P(X = k) = |k|(|k|+1)(|k|+2)1 , dla k 6= 0 oraz P(X = 0) = 0.5.

Zadanie rozwiązujemy analogicznie do zadania 3b. Jedynym

“podchwytliwym” krokiem jest znalezienie teleskopu.

Cytaty

Powiązane dokumenty

I Skoro się powtórka pojawiła, to zwracamy rozmiar grupy, w którym to się stało... Po co

Zastosuj tę metodę do problemu paradoksu urodzinowego (wynikiem działania całego programu powinien być histogram)... Metoda alias

I Monte Carlo jest metodą stosowaną do matematycznego modelowania zjawisk zbyt złożonych, żeby można było wyznaczyć ich wyniki analitycznie.. I Poprzez wielokrotne losowania

pozwoli nam weryfikować, czy rozkład zmiennej jest zgodny z zadanym teoretycznych rozkładem, a drugą, która pozwoli odpowiedzieć na pytanie, czy pomiędzy zmiennymi

(Mogą Państwo sprawdzić sobie wyniki korzystając z gotowej implementacji, jednak w oddanym zadaniu konieczne jest samodzielne zaimplementowanie

Dyrekcja chce „odmłodzić” filię B, bowiem wysunięto hipotezę, że średni wiek pracowników filii A jest znacznie niższy niż średni wiek pracowników filii B.. Dla dwóch

Jeżeli potrzebujesz przypomnieć sobie wiadomości dotyczące średniej arytmetycznej proponuję zapoznać się z informacjami zawartymi w podręczniku (str.. Zrób

Jeśli chcesz popracować więcej możesz rozwiązać pozostałe zadania z tego tematu zadania prześlij do 11 maja.. Na tej lekcji zapomnij zapoznasz się z nowymi pojęciami takimi