Zajęcia nr 2
Zajęcia mają na celu zbadanie własności pewnego zestawu danych nazywanego Kwartetem Anscombe'a.
Jest to zestaw czterech zestawów danych o identycznych cechach statystycznych, takich jak średnia arytmetyczna, wariancja, współczynnik korelacji czy równanie regresji liniowej, jednocześnie wyglądających zgoła różnie przy przedstawieniu graficznym.
Układ tych danych został stworzony w 1973 roku przez amerykaoskiego statystyka Francisa Anscombe'a aby ukazad znaczenie graficznej reprezentacji danych przy okazji ich analizy statystycznej.
Reprezentacja graficzna:
Co jest takiego ciekawego w tych czterech zbiorach? Otóż wszystkie cztery mają dokładnie te same własności statystyczne:
średnia
wariancja
średnia
wariancja
korelacja
regresja liniowa:
Ten przykład dobitnie pokazuje, jak istotne jest zapoznanie się i zaprzyjaźnienie z eksplorowanymi danymi.
Lokalizacja zbiorów danych:
1. zbiór A: http://zsi.tech.us.edu.pl/~nowak/smad/zbior1a.txt 2. zbiór B: http://zsi.tech.us.edu.pl/~nowak/smad/zbior2a.txt 3. zbiór C: http://zsi.tech.us.edu.pl/~nowak/smad/zbior3a.txt 4. zbiór D: http://zsi.tech.us.edu.pl/~nowak/smad/zbior4a.txt
Celem zajęd jest wykonanie niezbędnych analiz wykazujących te własności i wyliczenia w środowisku R.
Krok po kroku w R:
1. Wczytanie zbioru nr 1
dane = read.table(file.choose(),sep="\t",header=TRUE) 2. Wyświetlenie danych:
print(dane)
V1 V2 1 10 8.04 2 8 6.95 3 13 7.58 4 9 8.81 5 11 8.33 6 14 9.96 7 6 7.24 8 4 4.26 9 12 10.84 10 7 4.82 11 5 5.68
3. Podsumowanie danych summary(dane)
V1 V2
Min. : 4.0 Min. : 4.260 1st Qu.: 6.5 1st Qu.: 6.315 Median : 9.0 Median : 7.580 Mean : 9.0 Mean : 7.501
3rd Qu.:11.5 3rd Qu.: 8.570 Max. :14.0 Max. :10.840 4. Korelacja:
> cor(dane)
V1 V2 V1 1.0000000 0.8164205 V2 0.8164205 1.0000000 5. Odchylenie standardowe dla 1 zmiennej:
> sd(dane[1]) 6.. Wariancja dla 1 zmiennej:
> var(dane[1]) 7. Regresja liniowa:
> lm(dane$V2~dane$V1) Call:
lm(formula = dane$V2 ~ dane$V1) Coefficients:
(Intercept) dane$V1 3.0001 0.5001
8. Wykres równania regresji liniowej
> abline(lm(dane$V2~dane$V1))
Wyniki obliczeo wraz z wykresami i odpowiednimi wnioskami proszę przesład na adres: agnieszka.nowak@us.edu.pl z tytułem
„SMAD- lab2”