• Nie Znaleziono Wyników

Statystyczna Analiza Danych – laboratorium Wczytywanie danych, przedziały ufności Dorota Celińska-Kopczyńska

N/A
N/A
Protected

Academic year: 2021

Share "Statystyczna Analiza Danych – laboratorium Wczytywanie danych, przedziały ufności Dorota Celińska-Kopczyńska"

Copied!
7
0
0

Pełen tekst

(1)

Statystyczna Analiza Danych – laboratorium

Wczytywanie danych, przedziały ufności

Dorota Celińska-Kopczyńska

Uniwersytet Warszawski

Zajęcia 3 18/19 marca 2021

(2)

O czym będą zajęcia?

I Nauczymy się wczytywać różne zbiory danych do R

I Porozmawiamy o statystyce opisowej danych i podstawowej wizualizacji

I Policzymy i porównamy przedziały ufności dla średnich I ˆ· wskazuje, że dana wartość będzie estymatorem

(oszacowaniem), ¯X będzie średnią

(3)

Zadanie 1

1. Wczytaj dane Zadluzenie gmin.csv

2. Sprawdź podstawowe statystyki opisowe próby (summary) 3. Oblicz średnią i odchylenie standardowe zadłużenia 4. Przedstaw zadłużenie gmin na histogramie (ggplot2).

5. Czy zadłużenie gminy Ostrowice wygląda na typowe dla polskiej gminy? Zdecyduj, czy pozostawić tę obserwację w zbiorze.

(4)

Zadanie 2

1. Porównaj histogramy zadłużenia z i bez gminy Ostrowice 2. Przyjrzyj się również statystykom opisowym zbioru

3. Oceń czy rozkład zadłużenia odbiega od rozkładu normalnego I Sporządź wykres kwantylowy (ggplot2::stat qq)

I Dodaj prostą obrazującą ogólny trend (ggplot2::stat qq line)

4. Czy wnioski zmienią się, jeśli zlogarytmujemy zmienną (można dodać ε, żeby uniknąć efektu zera)?

(5)

Usuwanie obserwacji

m[-c(2176:2178),] # usun wiersze o podanych numerach

m <- subset(m, m$Zadluzenie.gmin < 110) # wybierz podzbior, ktory spelnia warunek rownames(m[m$Zadluzenie.gmin>110,]) # zwroci numery wierszy dla obserwacji, ktore

# uznalismy za podejrzane

(6)

Wykres kwantyl-kwantyl w ggplot2

ggplot() + stat_qq(aes(sample = m$Zadluzenie.gmin)) + stat_qq_line(aes(sample = m$Zadluzenie.gmin)) + theme_minimal()

# stat_qq -- warstwa odpowiedzialna za narysowanie wykresu kwantyl-kwantyl

# stat_qq_line -- linia, ktora pomaga zauwazyc odchylenia od zachowania

# rozkladu zgodnego z rozkladem normalnym

# powstaje przez poprowadzenie linii przez punkty

# odpowiadajace Q1 i Q3

(7)

Zadanie 3+4

I Wczytaj dane iris i wybierz wiersze odpowiadające gatunkowi versicolor

I Sprawdź, czy zmienna Sepal.Width ma rozkład normalny I Oblicz i porównaj przedziały ufności dla średniej wartości

zmiennej Sepal.Width

I studentyzowany: ( ¯X ±t(1−α/2,n−1) n−1 S )ˆ I asymptotyczny: ( ¯X ±q1−α/2n S )ˆ

I Jakie konsekwencje dla naszej analizy miałoby niespełnienie założenia o normalności rozkładu?

Cytaty

Powiązane dokumenty

[r]

W ka»dym podpunkcie w poni»szych pytaniach prosimy udzieli¢ odpowiedzi TAK lub NIE zaznaczaj¡c j¡ na zaª¡czonym arkuszu odpowiedzi.. Ka»da kombinacja odpowiedzi TAK lub NIE w

(c) Liczba całkowita jest podzielna przez 3 wtedy i tylko wtedy, gdy suma cyfr tej liczby jest po- dzielna przez 3.. (d) Jeżeli liczba całkowita jest podzielna przez 9, to

Proszę rozważyć przypadki rozmieszczenia niemalejącego i nieros- nącego.. Przepisy trzeba

A very good recent review of the state of art in this problem can be found in Chapter 1 of Wirsching’s book [Wir98]... This gives a more precise answer to question (ii) above as we

[r]

;7P›¼ ½{¾K¿Às¿©ÁsÂÿÄÆÅÀGÇÄ/ÈÊÉzËsÁoÌË$ÇGÀ"¿iÀGÍÊÌKÄÆÌzÎ"ÏЯЯÐÑ ÒYÓÔÈKÑ ÌKÀGÕ6Ñ

w., gdy jedno mo˙zna otrzyma´ c z drugiego przy pomocy sko´ nczonej ilo´sci przekszta lce´ n