• Nie Znaleziono Wyników

Statystyka opisowa w R Zajmiemy się zbiorem FAITHFUL

N/A
N/A
Protected

Academic year: 2021

Share "Statystyka opisowa w R Zajmiemy się zbiorem FAITHFUL"

Copied!
5
0
0

Pełen tekst

(1)

Statystyka opisowa w R

Zajmiemy się zbiorem FAITHFUL.

Old Faithful – gejzer położony w Parku Narodowym Yellowstone w amerykaoskim stanie Wyoming. Old Faithful nie jest ani największym ani najbardziej regularnie wybuchającym gejzerem w parku, jednak jest jednym z najpopularniejszych, ponieważ wybucha regularnie i najczęściej z wszystkich dużych gejzerów. Jego nazwa, która dosłownie oznacza „stary wierny”, została nadana mu przez ekspedycję w 1870 roku i odzwierciedla fakt, że erupcje gejzera są dośd dokładnie przewidywalne.

Gejzer wybucha przeciętnie 17 razy na dobę. Ze względu na trzęsienia ziemi na przestrzeni kilku ostatnich dekad średni odstęp czasu pomiędzy erupcjami uległ stopniowemu wydłużeniu. W 2004 roku przerwa pomiędzy erupcjami trwała ok. 55–100 minut i była proporcjonalna do czasu trwania erupcji poprzedniej. Erupcje trwały zazwyczaj od 1,5 do 5 minut. Po erupcji trwającej mniej niż 2,5 minuty następuje przerwa 65 minutowa (±10 min), a po erupcjach dłuższych niż 2,5 minuty, przerwa 92 minutowa (±10 min). Po trzęsieniu ziemi z 1998 roku najczęściej mają miejsce dłuższe erupcje z długą przerwą.

W czasie erupcji gejzera w powietrze wrzucane jest od 14 do 32 tysięcy litrów wrzącej wody. Wyrzucana woda ma średnią temperaturę 95 °C, gdyż na wysokości na której położony jest gejzer, 2245 m n.p.m., temperatura wrzenia wody wynosi 93 °C.

Wybuchająca woda tworzy szeroką kolumnę o średniej wysokości 40 metrów, chod może ona mierzyd od 32 do 56 metrów.

Odnośnik do opisu zbioru: http://stat.ethz.ch/R-manual/R-devel/library/datasets/html/faithful.html Podstawowe statystyki:

Rzut na dane:

(2)

Ale po kolei…

Średnia…

Dla n-elementów próby, średnia wynosi:

Podobnie dla N elementów populacji, średnia wynosi:

Ćwiczenie:

Znajdź wartość średnią atrybutu “Waiting” w zbiorze faithful.

Mediana

Ćwiczenie:

Znajdź medianę dla cechy waiting.

Kwartyle

Ćwiczenie:

Znajdź kwartyle dla cechy „waiting”.

Percentyle

Chcemy znaleźć 32, 57 i 98-y percentyl dla cechy “durations”

Ćwiczenie:

Znajdź 17, 43, 67 i 85 percentyl dla cechy waiting.

(3)

Range

Ćwiczenie:

Znajdź wartość range dla cechy “waiting”.

Interquartile Range

Ćwiczenie:

Znajdź wartość IQR dla cechy “waiting”.

Wariancja Dla próby:

Dla populacji N:

Ćwiczenie:

Znajdź wartość wariancji dla cechy “waiting”

(4)

Odchylenie standardowe

Ćwiczenie:

Znajdź wartość odchylenia standardowego dla cechy „Waiting”.

Skośność

Najprostszym sposobem oceny skośności rozkładu jest porównanie lokalizacji charakterystyk tendencji centralnej:

- rozkład lewoskośny: mediana < średnia arytmetyczna < moda (dominanta, wartośd dominująca);

- rozkład prawoskośny: mediana > średnia arytmetyczna > moda;

- rozkład symetryczny: mediana = średnia arytmetyczna = moda.

Musimy doinstalować pakiet “moments”

I potem załadowad bibliotekę komendą library(moments).

To oznacza, że rozkład czasu trwania erupcji jest przekrzywiony w lewo.

Ćwiczenie:

Znajdź skośność dla cechy “waiting” I oceń ją.

(5)

Kurtoza

Rozkłady prawdopodobieństwa można podzielić ze względu na wartość kurtozy na rozkłady:

mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0)

leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym

platokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym

Kurtoza czasu trwania erupcji wynosi -2. histogram nie jest w kształcie dzwonu. W

artości cechy badanej są mniej skoncentrowane niż przy rozkładzie normalnym

Ćwiczenie:

Znajdź kurtozę dla cechy “waiting” I oceń ją.

Cytaty

Powiązane dokumenty

© Copyright by Jerzy Wierzbiƒski, Warszawa 2008. Recenzent:

5) Korzystając z Dane/Analiza danych / Histogram narysuj histogram oraz sporządź szereg rozdzielczy („Zakres komórek” to blok danych, pole „Zakres zbioru” pozostaw puste,

5) Korzystając z Dane/Analiza danych / Histogram narysuj histogram oraz sporządź szereg rozdzielczy („Zakres komórek” to blok danych, pole „Zakres zbioru” pozostaw puste,

Dla tego samego zbioru wartości liczbowych obliczona średnia geometryczna jest zawsze mniejsza od średniej arytmetycznej, a średnia harmoniczna jest zawsze

Kwartyl trzeci (górny) to wartość cechy zmiennej, która dzieli badaną zbiorowość w taki sposób, że 75% jednostek zbiorowości charakteryzuje się wartościami nie wyższymi

Zontek (1996) za- proponowali pewną metodę odpornej estymacji efektów stałych i odchylenia standardowego efektów losowych bazującą na zgodnych w sensie Fishera i róż- niczkowalnych

Zbadaj czy da się dla nich zastosować zadanie regresji, a konkretnie, czy da się na podstawie wartości BMI wnioskować na temat wartości atrybutu

W pewnym zakładzie wśród losowo wybranych dwudziestu osób okazało się, że cztery z nich nigdy nie były na zwolnieniu chorobowym.. Oszacować jaki odsetek pracowników tego