Analiza danych

(1)

Analiza danych

Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/

Podstawowe wskaźniki.

Estymacja parametryczna (1).

WSKAŹNIKI POŁOŻENIA PRÓBY

• Średnia

• Mediana i kwantyle

0 2

0 1 2 3 4 5 6 7 8

∑

=

n

i

xi

x n

1

Kwantyl rzędu p∈(0,1) to taka wartość q_p, że (pn) elementów próby ma wartość mniejszą od q_p.

Kwantyl rzędu 0,5 to mediana.

(2)

WSKAŹNIKI ROZPROSZENIA

• Wariancja

• Odchylenie standardowe (pierwiastek z wariancji)

• Odchylenie przeciętne

• Rozstęp międzykwartylowy IQR = Q

₃

- Q

₁

0 2

0 1 2 3 4 5 6 7 8

( )

∑

=

− −

=

n

i

x

n x s

1 2 2

1 1

∑

=

−

=

n

i

i x

n x d

1 1

1

WARTOŚCI ODSTAJĄCE

• Częsty skutek błędów (np. źle wprowadzone dane, błąd aparatury).

• Obecność wartości odstających może negatywnie wpłynąć na wyniki analizy

• Uwaga – automatyczne usuwanie wartości

odstających może doprowadzić do przeoczenia

istotnych informacji!

(3)

WARTOŚCI ODSTAJĄCE A WARTOŚCI ŚREDNIE

• Mediana jest dość odporna na wartości odstające.

• Średnia ucinana: średnia z wyłączeniem k najmniejszych i największych obserwacji.

• Średnia winsorowska: średnia z próby, w której obserwacje x

₁

, ... x

_k

zamieniamy na wartość x

_k+1

(i odpowiednio wartości największe).

ESTYMACJA PARAMETRÓW

Załóżmy, że analizujemy pewne zjawisko o znanym (w przybliżeniu) mechanizmie działania.

Na podstawie analizy tego mechanizmu,

przyjmujemy założenie (model probabilistyczny) dotyczące poszczególnych cech tego zjawiska.

Nieznane parametry modelu możemy oszacować (estymować) analizując dostępne dane.

Model probabilistyczny

z param. x

estymacja parametru x dane

(4)

PRZYKŁAD

System komputerowy zbiera dane z trzech czujników, napływające w tempie 1 pomiar na minutę.

Każdy z czujników, niezależnie od

pozostałych, może zgłosić wartość pustą (null), wynikającą z czynników czysto losowych (zjawisko nie ma pamięci).

System komputerowy potrafi obsłużyć sytuacje błędne, ale o ile nie wystąpią na wszystkich trzech czujnikach jednocześnie. Wówczas potrzebna jest interwencja obsługi.

Ile razy (średnio) w ciągu miesiąca potrzebna jest interwencja?

p₁ p₂

p₃

ESTYMACJA WARTOŚCI ŚREDNIEJ

Budujemy model probabilistyczny – zakładamy, że błędy są niezależne i mają stały w czasie rozkład zerojedynkowy

(prawdop. błędu = p_i). Ozn. X_i– zmienna losowa o wart. 1, gdy wystąpił błąd.

Musimy oszacować p_iza pomocą średniej liczby błędów w długim czasie.

Niech µ_i– wartość oczekiwana zmiennej losowej X_i. Wówczas:

i

≈ x

µ

Dlaczego tak jest i na ile dobre to przybliżenie? – O tym później...

(5)

ESTYMACJA WARIANCJI

Podobnie możemy estymować z próby wariancję rozkładu.

Niech σ²– wariancja zmiennej losowej X. Wówczas:

Dlaczego tak jest i na ile dobre to przybliżenie? – O tym później...

( )

∑

=

− −

=

≈

n

i

x

n x s

1 2 2

2

Analiza danych

Analiza danych

Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/

Podstawowe wskaźniki.

Estymacja parametryczna (1).

WSKAŹNIKI POŁOŻENIA PRÓBY

• Średnia

• Mediana i kwantyle

∑

WSKAŹNIKI ROZPROSZENIA

• Wariancja

• Odchylenie standardowe (pierwiastek z wariancji)

• Odchylenie przeciętne

• Rozstęp międzykwartylowy IQR = Q

- Q

( )

∑

− −

=

x

n x s

1 1

∑

WARTOŚCI ODSTAJĄCE

• Częsty skutek błędów (np. źle wprowadzone dane, błąd aparatury).

• Obecność wartości odstających może negatywnie wpłynąć na wyniki analizy

• Uwaga – automatyczne usuwanie wartości

odstających może doprowadzić do przeoczenia

istotnych informacji!

WARTOŚCI ODSTAJĄCE A WARTOŚCI ŚREDNIE

• Mediana jest dość odporna na wartości odstające.

• Średnia ucinana: średnia z wyłączeniem k najmniejszych i największych obserwacji.

• Średnia winsorowska: średnia z próby, w której obserwacje x

, ... x

zamieniamy na wartość x

(i odpowiednio wartości największe).

ESTYMACJA PARAMETRÓW

PRZYKŁAD

ESTYMACJA WARTOŚCI ŚREDNIEJ

≈ x

µ

ESTYMACJA WARIANCJI

( )

∑

− −

=

≈

x

n x s

1

σ 1