Indexy sezonowe – kryteria Niech

(1)

Indexy sezonowe – kryteria

Niech : zi – wahania sezonowe w i-tej obserwacji, ilość sezonów k , n – ilość pomiarów danego sezonu.

średnia wartość wahań sezonowych w i-tym sezonie - Si’ = ( zi + zi+k +…+ zi+(n-1)*k) * 1/n suma średnich wahań sezonowych Si’ (dla i od 1 do k) , ss = (Si + Si+1’+…+Sk’ )

index sezonowy dla i tego sezonu, Si = Si’* ( k / ss )

(czyli jego średnia sezonowa pomnożona przez, liczbę sezonów dzielonych przez sumę średnich sezonowych ) zi – w modelu multiplikatywnym to (Ŷi / Yi) gdzie Ŷi – średnia ruchoma o okresie k

zi – w modelu addytywnym to (Yi - Ti)

Indexy sezonowe w modelu multiplikatywnym: Yi = Ti *Si*Ci

Index Si mówi o ile poziom zjawiska (wydobycie węgla itp.) jest w i-tym obrazie wyższy bądź niższy od poziomu zjawiska opisanego przez trend.

(Si – 1)*100% - wyraża nam stosunek procentowy, zwiększenia lub zmniejszenia zjawiska w stosunku do trendu.

Indexy sezonowe w modelu addytywnym: Yi = Ti +Si + Ci

Index Si mówi o ile wartość danego zjawiska (wydobycie węgla itp.) jest w i-tym obrazie wyższy bądź niższy od poziomu zjawiska opisanego przez trend.

Szereg czasowy

Zbiór obserwacji zmiennych uporządkowanych w czasie.



^Y_t ^:^t^^T



T - jest zbiorem indeksów najczęściej dyskretnych. (np. data w formacie yymmdd ) Składniki szeregu czasowego:

1 – trend – stała tendencja rozwojowa – Tt

2 – wahania sezonowe – miesięczne, kwartalne, roczne - Si

3 – wahania cykliczne – duży okres, trudno określić - Ci

4 – wahania przypadkowe – składnik nieregularny (błąd) - Et

Dekompozycja szeregu czasowego (wyodrębnienie składników ) modele:

multiplikatywny: Yi = Ti *Si*Ci*Et (zmienna amplituda) addytywny: Yi = Ti +Si + Ci+Et (stała amplituda i trend)

Wygładzanie szeregu czasowego – eliminacja wahań przypadkowych (czasami i okresowych)

Zakładamy, że mamy do czynienia z szeregiem w którym występuje tylko trend i wahania przypadkowe Stosujemy model regresyjny najmniejszych kwadratów do wyznaczenia trendu.

t

t a at E

Y  ₀  ₁ 

Estymujemy a0 i a1

Trend liniowy: Yˆ_t aˆ0aˆ1t Tˆ0

Trend potęgowy: ˆ ₀ ^a¹

t a t

Y 

Trend wykładniczy: Yˆ t a₀a₁^t

(2)

Proste wygładzanie wykładnicze

Stosuje się gdy nie ma wyraźnie zarysowanego trendu i sezonowości.

¹  ^ˆ^,

 

⁰^,¹

ˆ_t_1Y_t  Y_t  Y

α – współczynnik wygładzania.

Gdy α = 0, to bierzemy pod uwagę wygładzone Y Gdy α = 1 to bierzemy pod uwagę Y z pomiarów.

Wygładzanie szeregu czasowego średnią ruchomą

Nieparzysty okres wygładzania:





 ^q  q k

q t

t Y

Yˆ m1

m – okres wygładzania m = 2q + 1

Np. dla m = 3: q = 1, Yt = ( 1 / 3 ) * ( Yt-1+Yt+Yt+1) – więc Yˆt będzie teraz wartością średnią z obserwacji jej poprzedzającej, jej samej i następnej. Przy czym w wygładzonym szeregu pomijamy pierwsze i ostatnie q obserwacji.

Parzysty okres wygładzania:







  

 _



 





^q ^t ^q

q k

q t q

t

t Y Y Y

Y m

2 1 2

1 ˆ 1

m – okres wygładzania m = 2q

Przy czym w wygładzonym szeregu pomijamy pierwsze i ostatnie q obserwacji.

Karty Kontrolne

Badane kartami cechy powinny mieć rozkład normalny.

Do oceny liczbowej ( pomiary wielkości fizycznych ):

X – R, gdy liczność próbki <= 9 X – S, gdy liczność próbki >= 10

(i zmodyfikowana karta X – S, dla próbek o różnej liczności ) Do oceny kontrolnej:

- wyznaczanie liczby egzemplarzy wadliwych ( 1 obiekt = max 1 wada):

p – udział (np. %) egzemplarzy wadliwych w próbkach równolicznych lub zmiennych (np. różne ilości pacjentów w miesiącu)

np – liczba egzemplarzy wadliwych w próbkach równolicznych - suma wystąpień zjawiska na obszarze:

c – rozmiar obszaru stały lub nieznany u – rozmiar obszaru zmienny

CL – średnia wartość

UCL, LCL - granice pasma.

(3)

Karta X - R ,

X n

   ,^X ^^,k  u1/2

k jest to kwantyl rozkładu normalnego. W praktyce często przyjmujemy k = 3, co odpowiada przedziałowi na poziomie ufności 0,9973 (lub testowi na poziomie istotności 0,0027 )

Zazwyczaj trzeba estymować średnią i wariancje.

m X X

X  X₁ ₂... ^m

, gdzie Xijest średnią z i-tej próby

sigmę estymujemy z rozstępu R (karta X – R) lub z odchylenia standardowego S ( X – S) m

R R

R  R₁ ₂... ^m

, gdzie Ri  Xi,maxXi,min , dla i-tej próby

Można wykazać, że

2

ˆ d

 R

 , gdzie d2 jest stałą zależną od próbki n. Wiec otrzymujemy:

A po wprowadzeniu oznaczenia:

Karta X =

LCL n CL UCL n

 



 

3 3









X X X

X X

k LCL

CL

k UCL

















(4)

Teraz tworzymy kartę do kontroli rozstępu R:

Za pomocą estymatorów : R ^R ,

2 3

d R d

R 



Gdzie d3 jest stałą zależną od n.

Otrzymujemy:

Po wprowadzeniu: Otrzymujemy kartę R :

Karty X – S:

rozproszenie procesu estymujemy za pomocą odchylenia standardowego

gdzie Si – odchylenie standardowe w i-tej próbie.

Po przekształceniach otrzymujemy następujące karty

Kartę X Kartę S

Gdzie A3, B4, B3 – różne dla różnych ilości próbek n – są z tablicowane.

(5)

Karty X – S ( dla próbek o różnej liczności ) :

Karta wygląda tak samo, ale różni się sposobem wyliczania X i S:

gdzie ni to liczność i-tej próbki.

A3, B4, B3 wyznaczane są oddzielnie dla każdej próbki, wiec granice kontrolne mogą być liniami nieciągłymi.

Alternatywnie można posłużyć się uśrednioną licznością próbki (szczególnie gdy różnice są małe)

Ponieważ taka średnia nie musi być liczbą całkowitą, często stosujemy wzór na mode (najczęściej przybieraną wartość):

Karty kontrolne pojedynczych pomiarów:

Do kontroli pojedynczych pomiarów można stosować kartę wykorzystującą przesuwające się rozstępy (moveing ranges), zdefiniowane jako wartości bezwzględne różnic miedzy pomiarami.

Średni ruchomy rozstęp wynosi:

Karta kontroli pojedynczych pomiarów Karta rozstępu

Ponieważ dla próbek liczności n=2, D3=0 i D4=3,267.

(6)

Karta p – frakcja jednostek niezgodnych

Dla p – dopuszczalnej frakcji jednostek niezgodnych.

Jeśli p nie jest znane to estymujemy z 20-30 próbek o liczności n:

, gdzie

gdzie Di – liczba jednostek niezgodnych w i-tej próbce, więc pi to frakcja niezgodnych jednostek w próbce i Otrzymujemy kartę p:

Uwaga: Gdy otrzymamy LCL < 0 to LCL = 0;

Karta p – dla próbek o różnej liczności p wyznaczamy:

karta p ma postać:

Uwaga: Granice liczymy oddzielnie dla każdej próbki, jeśli próbki nie są równoliczne to granice nie są ciągłe.

(7)

Karta np - liczba jednostek niezgodnych

Jeśli p nie jest znane to szacujemy je tak samo jak w karcie p. Otrzymujemy wówczas:

Karta c – liczba niezgodności

Często liczba niezgodności zaobserwowanych w ustalonym czasie ma rozkład Poissona, c jest wartością oczekiwaną liczby niezgodności.

Ponieważ w rozkładzie Poissona wartość oczekiwana i wariancja są sobie równe, to karta c ma postać

Gdy nieznany c to szacujemy z 20-30 próbek. ( ci – liczba niezgodności w i-tej próbce)

Otrzymujemy kartę c:

Uwaga: Gdy otrzymamy LCL < 0 to LCL = 0;

(8)

Karta u – liczba niezgodności na jednostkę - próbki o n liczności.

ui – będzie liczbą niezgodności na jednostkę w i-tej próbce

zatem u jest to średnia liczba niezgodności na jednostkę oszacowaną na podstawie m próbek

a karta u wygląda następująco:

Karta u – liczba niezgodności na jednostkę - próbki o różnej liczności.

ui – będzie liczbą niezgodności na jednostkę w i-tej próbce

zatem u jest to średnia liczba niezgodności na jednostkę oszacowaną na podstawie m próbek

a karta u wygląda następująco:

Uwaga: Granice liczymy oddzielnie dla każdej próbki, jeśli próbki nie są równoliczne to granice nie są ciągłe.

(9)

Średnia ucięta

Służy do wykluczenia skrajnych pomiarów które często mogą być wynikiem błędu.

1. Porządkowanie próby

2. Odcięcie obserwacji krańcowych (% obserwacji, lub k obserwacji) [przeważnie 1-2%]

k – jeśli znamy liczność próby. k:= max{ k <= n* α } 3. Liczymy średnią



^



 

 ⁿ ^k

k

i in

t X

k X n

1 :

2 1

Średnia Winsorowska

1. porządkowanie próby

2. ucięcie k – obserwacji z obu stron

3. odcięte obserwacje uzupełniamy o k+1 obserwacja na początku, i n-k’tą na końcu 4. Liczymy średnią



 



  

 ^ _









ⁿ ^k ⁿ ^kⁿ

k i

n i n

k k

w kX X kX

X n _:

1 : :

1 ,

1

Wykres Pareto

Jest to wykres słupkowy oparty na uporządkowanych malejąco wartościach związanych z poszczególnymi kategoriami. Jest on często uzupełniany o krzywą Lolentza – która pokazuje wzrost skumulowanego udziału procentowego wyróżnianych kategorii. Krzywa udziału procentowego ma swoją oddzielną skalę

umieszczoną na osi po prawej stronie wykresu. Wykres Pareto może być konstruowany w oparciu o tablicę rozkładu częstości, która opisuje występowanie analizowanego skutku w różnych obszarach lub z różnych przyczyn. Zatem jest on rodzajem uporządkowanego malejącego histogramu. Za pomocą wykresu Pareto można łatwo zweryfikować prawdziwość hipotezy o umiejscowieniu i udziale najistotniejszych przyczyn badanego zjawiska. Jeśli znajdzie ona potwierdzenie to wykres czytelnie wskazuje grupę przyczyn , których usunięcie pozwoliłoby uniknąć większości skutków.

(10)

Proces Decyzyjny:

1. Sformułuj jasno problem decyzyjny ( sytuacja w której podmiot – decydent - staje przed wyborem jednego z przynajmniej dwóch wariantów działania )

2. Wylicz wszystkie możliwe decyzje ( różne możliwe warianty działania dla decydenta)

3. Zidentyfikuj wszystkie możliwe stany natury ( czyli każde z możliwych następstw wariantu decyzyjnego, niezależne od decydenta, ale mające wpływ na wypłatę )

4. Określ wypłatę dla każdej możliwej sytuacji (czyli komórce na przecięciu decyzji/stan natury) 5. Wybierz stosowny model matematyczny problemu decyzyjnego

6. Zastosuj wybrany model i podejmij decyzję.

Zbiór możliwych decyzji (akcji) Zbiór stanów natury

Wypłata (korzyść) Strata możliwości

Przy danym stanie natury θj strata możliwości związana z decyzją ai jest równa maksymalnej wypłacie w stanie natury θj minus wypłatą w stanie wij odpowiadającą j-temu stanowi natury i i-tej decyzji ai

I

Decyzja ak dominuje decyzję ai (nie jest gorsza od ai), jeżeli w



ak^,^



^w



ai^,^



^,^^^^

Decyzja ak ściśle dominuje decyzję ai (jest lepsza od ai), jeżeli w



ak^,^



^w



ai^,^



^,^^^^

oraz w



a_k,'



w



a_i,'



,' Decyzja ak jest równoważna decyzji ai , jeżeli w



a_k,



w



a_i,



, Decyzja ak jest dopuszczalna jeśli nie istnieje decyzja ściśle ją dominująca.

Decyzja ak jest niedopuszczalna jeśli istnieje decyzja ściśle ją dominująca.

Kryteria wyboru decyzji optymalnych

Podejmowanie decyzji w warunkach pewności

(tylko 1 stan natury) Decyzja optymalną jest decyzja która odpowiada maksymalnej wypłacie.

Podejmowanie decyzji w warunkach ryzyka

Znany jest rozkład prawdopodobieństwa wystąpienia poszczególnych stanów natury. (teoretyczne założenia, badania empiryczne przeprowadzone w przeszłości, subiektywna ocena decydenta)

Kryteria wyboru w warunkach ryzyka:

- maksymalizacja oczekiwanej wypłaty (oczekiwana oznacza ze mnożysz ją przez prawdopodobieństwo) liczysz EMV dla wierszy, sumując wypłaty mnożone przez prawdopodobieństwo ich zajścia.

wybierasz maksymalną z oczekiwanych wypłat (maksymalne EMV z wszystkich wierszy)

(11)

- minimalizacja oczekiwanej straty możliwości (obliczanie tablicy strat możliwości)

liczysz EOL dla wierszy, sumując straty mnożone przez prawdopodobieństwo ich zajścia.

wybierasz minimalną z oczekiwanych strat możliwości

Podejmowanie decyzji w warunkach niepewności:

Nie dysponujemy żadnymi informacjami o prawdopodobieństwie.

Kryteria wyboru w warunkach niepewności:

- kryterium maksymaksowe (MaxMax)

decyzją optymalną jest ta której odpowiada maksymalna wypłata

(wybierasz maksymalna wypłatę z każdego wiersza, i z nich wybierasz maksymalna) - kryterium maksyminowe (MaxMin)

decyzją optymalną jest ta której odpowiada maksymalna z minimalnych wypłat (wybierasz minimalną wypłatę z każdego wiersza, i z nich wybierasz maksymalną)

- kryterium Laplace’a

decyzja której odpowiada maksymalna oczekiwana wypłata

(liczysz średnią wypłatę z każdego wiersza (decyzji) i wybierasz największą z nich) m – ilość stanów natury

- kryterium Hurwicza

decyzja której odpowiada maksymalna wartość oceny Hurwicza

ocenę dla decyzji ai liczymy używając współczynnika

α

[0,1] (‘stopnia optymizmu’)

( mnożymy maksymalną wypłatę w wierszu przez współczynnik α, i dodajemy do niej minimalną wypłatę w wierszu pomnożoną przez (1 – α) – z tak powstałych ocen wierszy(decyzji) wybieramy maksymalną )

- kryterium Savage’a (minmaxowe, MinMax)

decyzja której odpowiada minimalna z maksymalnych strat możliwości.

(liczymy tablice strat możliwości. W niej z wierszy wybieramy maksymalną wartość , a następnie z wybranych wartości wybieramy minimalną)

(12)

Analiza Wariancji

Badamy czy czynnik α wpływa na zmienną objaśnianą X.

(Czasami badamy, czy wiele czynników α… wpływa na zmienną objaśnianą) jeżeli (ilość próbek w każdym z poziomów jest taka sama n=n1=…=nr ) to - układ jest zrównoważony.

w przeciwnym przypadku – jest nie zrównoważony Hipoteza o równości średnich:

H K

H _r





 :

...

:₁ ₂ 

Jeśli K – prawdziwe, to znaczy że są przynajmniej 2 które są różne (np. 1 różna od 2,3,4..całej reszty) Założenia Analizy Wariancji:

1. Próbki są niezależne

2. Próbki pochodzą z populacji o rozkładzie normalnym

3. Wariancje od rozkładów odpowiadających poszczególnym poziomom są sobie równe.

Jeśli założenia nie są spełnione to stosujemy test rangowy Kruskala-Wallisa, dla nieparametrycznej ANOWY.

ij i

Xij   µ – niezmienna i stała wielkość równa dla wszystkich poziomów αi – wpływ i tego poziomu

εij – składnik losowy (błąd)

 

_ij~ N 0, εij – błędy są rozkładu normalnego o wartości oczekiwanej 0

εij i εkj – są niezależne, więc nie skorelowane co oznacza że Cov(εij, εkj) = 0

i i

ij i

ij i ij











































 ( ) Wartość oczekiwana dla Xij jest równa sumie wartości oczekiwanych z 3 czynników. Wartość oczekiwana z błędu(εij) jest równa 0.

Wartość oczekiwana z µ jest stała. Weryfikujemy hipotezę czy µi zależy od czynnika α.

H K

H _r





 :

0 ...

:₁ ₂ 

jeśli H prawdziwe – oznacza to, że αi nie ma wpływu na µi, więc czynnik α nie ma wpływu na zmienną objaśnianą X.

Weryfikacja założeń:

Normalność próby:

Test Saphiro-Wilka

Test Kolmogorova-Smirnova Test Cramer von Mises Test Andersen-Darling Wykres normalności

Wariancje na różnych poziomach są sobie równe (jednorodność wariancji).

Test Barteletta Test Cochrana Test Hartleya

(13)

 

²

0 0



 







 ^r

i ni j

SST ij sum-squere-total – całkowita suma kwadratów odchyleń. Czyli suma różnic wszystkich wartości Xij od oczekiwanej wartości X

 

²

0 0



 







 ^r

i ni j

i

SSE ij sum-squere-error –suma kwadratów odchyleń wartości cechy od średnich grupowych. Czyli suma różnic wszystkich Xij od oczekiwanej wartości z grupy Xi

 

²



0









 ^r

i

SSA i sum-squere-A –suma kwadratów odchyleń wartości średnich grupowych cechy A od średniej ogólnej. Czyli suma różnic wszystkich średnich z grupy i Xi od oczekiwanej wartości ze wszystkich obserwacji

SST = SSA + SSE Interesuje nas proporcja miedzy SSA i SSE, czyli czy zmienność średniej jest opisana bardziej przez czynniki losowe, czy bardziej przez czynnik A.

) 2

( 

  E MSE r

n

MSE SSE Estymator nieobciążony wariancji ogólnej.

) 2

1 ( 

  E MSA r

MSA SSA Estymator nieobciążony wariancji ogólnej. Nie musi być nieobciążony, jednak jeśli H – jest prawdziwe, to jest nieobciążony.

TABLICA ANOWY:

Źródło zmienności Suma kwadratów odchyleń

Liczba stopni swobody

Średni kwadrat odchyleń

Statystyka testowa p-value Różnice

międzygrupowe SSA r-1 MSA=SSA/(r-1)

T=MSA/MSE

Różnice wewnątrz

grupowe SSE n-r MSE=SSE/(n-r)

ogółem SST=SSA+SSE n-1

Statystyka testowa T, ma rozkład F-Snedecora jeśli H jest prawdziwe.

r n r

H F

MSE

T MSA ^¹^,^ H odrzucamy dlaT  F₁_^^r_^¹^,ⁿ^^r^

(14)

Dwu Czynnikowa Analiza Wariancji

Badamy czy czynniki α, β wpływa na zmienną objaśnianą X, czy zachodzi miedzy nimi interakcja, czy wpływa tylko jeden czynnik.

Hipotezy:

H K

H _r





 :

0 ...

:₁ ₂ 

H K

H _s





 :

0 ...

:₁ ₂ 

H K

H _rs





 :

0 ...

:₁₁ ₁₂  H – czynnik α nie wpływa

K – wpływa H – czynnik β nie wpływa

K – wpływa H – nie ma interakcji

K – są interakcje Założenia Analizy Wariancji:

1. Próbki są niezależne

2. Próbki pochodzą z populacji o rozkładzie normalnym

3. Wariancje od rozkładów odpowiadających poszczególnym poziomom są sobie równe.

Jeśli założenia nie są spełnione to stosujemy test rangowy Kruskala-Wallisa, dla nieparametrycznej ANOWY.

ijk ijg j i

Xijk     µ – niezmienna i stała wielkość równa dla wszystkich poziomów k – nr. obserwacji

αi – wpływ i tego poziomu czynnika α β j – wpływ j tego poziomu czynnika β

γij – wpływ interakcji czynnika α z i-tego poziomu, i czynnika β z j- tego poziomu.

εijk – składnik losowy (błąd)

 

_ijk~ N 0, εijk – błędy są rozkładu normalnego o wartości oczekiwanej 0

εij i εkj – są niezależne, więc nie skorelowane co oznacza że Cov(εij, εkj)

= 0 Średnia ogólna:



  

 

 

 ^r

i s j

n k

n ijk

s

r ₁ ₀ ₀ 1

Zakładamy że w każdej kratce jest tyle samo n obserwacji. Więc łącznie jest m = n * r * s obserwacji.

r – ilość poziomów czynnika α s – ilość poziomów czynnika β

 

²

0 0 1



  







 ^r

i s j

n

k ijk

SST sum-squere-total – całkowita suma kwadratów odchyleń. Czyli suma różnic wszystkich wartości Xij od oczekiwanej wartości X

 

²

0 0 0



  







 ^r

i s j

ni

k ijk ij

SSE sum-squere-error –suma kwadratów odchyleń odpowiadająca

efektom losowym

  ²

 0

   

 ^r

i

ns i

SSA

sum-squere-A –suma kwadratów odchyleń wartości średnich grupowych cechy A od średniej ogólnej.

(15)

 

²



0

  

 ^s

j

nr j

SSB sum-squere-B –suma kwadratów odchyleń wartości średnich

grupowych cechy B od średniej ogólnej.

  ²

 0 0

    

r i

s j

ji

nSSAB ij

Suma kwadratów odchyleń wynikająca z interakcji

SST = SSA + SSB+SSAB+SSE

TABLICA ANOWY DWU CZYNNIKOWEJ:

Źródło

zmienności Suma kwadratów

odchyleń Liczba stopni

swobody Średni kwadrat odchyleń Statystyka testowa p-value

A SSA r-1 MSA=SSA/(r-1)

T1=MSA/MSE T2=MSB/MSE T3=MSAB/MSE

B SSB s-1 MSB=SSB/(s-1)

Interakcje SSAB (r-1)(s-1) MSAB=SSAB/(r-1)(s-1)

błąd SSE r * s * (n-r) MSE=SSE/rs(n-r)

ogółem SST r * s *(n-1)

Statystyka testowa T, ma rozkład F-Snedecora jeśli H jest prawdziwe.

 1, ( )

1 ¹

r n rs r

H F

MSE

T  MSA ^ ^

 1, ( )

2 H² Fs rsnr

MSE

T  MSB  ^ ^

( 1)( 1), ( )

3 ³

r n rs s r

H F

MSE

T  MSAB ^ ^ ^

H odrzucamy dlaT  F₁_^{ }^..._ Jeśli próbki są o liczności n=1 to w modelu dokonujemy zmian:

- Przyjmujemy że nie ma interakcji między czynnikami. Nie ma SSAB w tablicy.

- SSE jest teraz liczony jak SSAB w ANOWIE z n>1.

- Liczba stopni swobody SST to (rs-1).

(16)

Współczynniki regresji Tworzenie kart decyzyjnych

Analiza skupień (metody hierarchiczne i nie hierarchiczne) Odległość między skupieniami

Analiza głównych składowych Mankament generatorów liniowych

Plany badania według oceny alternatywnej Reszty rozkład normalny

Kryterium Savage’a (na jednostkę wariancji) , test Durbina – (test autkoretky reszt)

Tworzenie kart decyzyjnych , 4 rodzaje gdzie wpływa ma(na?) częstość





 

 _n

i

i i

k k k

k

H P H A P

H P H A P A

P A H A P

H P

1

) ( )

| (

) ( )

| ( )

( ) ) (

|

( bayers

Indexy sezonowe – kryteria Niech