Analiza danych
Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/
Podstawowe wskaźniki.
Estymacja parametryczna (1).
WSKAŹNIKI POŁOŻENIA PRÓBY
• Średnia
• Mediana i kwantyle
0 2
0 1 2 3 4 5 6 7 8
∑
==
n
i
xi
x n
1
1
Kwantyl rzędu p∈(0,1) to taka wartość qp, że (pn) elementów próby ma wartość mniejszą od qp.
Kwantyl rzędu 0,5 to mediana.
WSKAŹNIKI ROZPROSZENIA
• Wariancja
• Odchylenie standardowe (pierwiastek z wariancji)
• Odchylenie przeciętne
• Rozstęp międzykwartylowy IQR = Q
3- Q
10 2
0 1 2 3 4 5 6 7 8
( )
∑
=
− −
=
n
i
i
x
n x s
1 2 2
1 1
∑
=−
=
n
i
i x
n x d
1 1
1
WARTOŚCI ODSTAJĄCE
• Częsty skutek błędów (np. źle wprowadzone dane, błąd aparatury).
• Obecność wartości odstających może negatywnie wpłynąć na wyniki analizy
• Uwaga – automatyczne usuwanie wartości
odstających może doprowadzić do przeoczenia
istotnych informacji!
WARTOŚCI ODSTAJĄCE A WARTOŚCI ŚREDNIE
• Mediana jest dość odporna na wartości odstające.
• Średnia ucinana: średnia z wyłączeniem k najmniejszych i największych obserwacji.
• Średnia winsorowska: średnia z próby, w której obserwacje x
1, ... x
kzamieniamy na wartość x
k+1(i odpowiednio wartości największe).
ESTYMACJA PARAMETRÓW
Załóżmy, że analizujemy pewne zjawisko o znanym (w przybliżeniu) mechanizmie działania.
Na podstawie analizy tego mechanizmu,
przyjmujemy założenie (model probabilistyczny) dotyczące poszczególnych cech tego zjawiska.
Nieznane parametry modelu możemy oszacować (estymować) analizując dostępne dane.
Model probabilistyczny
z param. x
estymacja parametru x dane
PRZYKŁAD
System komputerowy zbiera dane z trzech czujników, napływające w tempie 1 pomiar na minutę.
Każdy z czujników, niezależnie od
pozostałych, może zgłosić wartość pustą (null), wynikającą z czynników czysto losowych (zjawisko nie ma pamięci).
System komputerowy potrafi obsłużyć sytuacje błędne, ale o ile nie wystąpią na wszystkich trzech czujnikach jednocześnie. Wówczas potrzebna jest interwencja obsługi.
Ile razy (średnio) w ciągu miesiąca potrzebna jest interwencja?
p1 p2
p3
ESTYMACJA WARTOŚCI ŚREDNIEJ
Budujemy model probabilistyczny – zakładamy, że błędy są niezależne i mają stały w czasie rozkład zerojedynkowy
(prawdop. błędu = pi). Ozn. Xi– zmienna losowa o wart. 1, gdy wystąpił błąd.
Musimy oszacować piza pomocą średniej liczby błędów w długim czasie.
Niech µi– wartość oczekiwana zmiennej losowej Xi. Wówczas:
i
i
≈ x
µ
Dlaczego tak jest i na ile dobre to przybliżenie? – O tym później...
ESTYMACJA WARIANCJI
Podobnie możemy estymować z próby wariancję rozkładu.
Niech σ2– wariancja zmiennej losowej X. Wówczas:
Dlaczego tak jest i na ile dobre to przybliżenie? – O tym później...
( )
∑
=− −
=
≈
n
i
i
x
n x s
1 2 2
2