• Nie Znaleziono Wyników

Nieparametryczna procedura identyfikacji elementów rzadko występujących (nietypowych)

N/A
N/A
Protected

Academic year: 2021

Share "Nieparametryczna procedura identyfikacji elementów rzadko występujących (nietypowych)"

Copied!
30
0
0

Pełen tekst

(1)

Instytut Badań Systemowych Polska Akademia Nauk

Streszczenie pracy doktorskiej

Nieparametryczna procedura identyfikacji elementów rzadko występujących (nietypowych)

mgr Damian Kruszewski

Studia Doktoranckie „Techniki informacyjne – teoria i zastosowania”

Instytut Badań Systemowych, Polska Akademia Nauk

Promotor: prof. dr hab. inż. Piotr Kulczycki

Instytut Badań Systemowych, Polska Akademia Nauk

Akademia Górniczo-Hutnicza, Wydział Fizyki i Informatyki Stosowanej

Warszawa, 2016

(2)

— 1 —

1. WSTĘP

Zadanie identyfikacji elementów nietypowych jest jednym z podstawowych problemów współczesnej analizy danych [Aggarwal, 2015]. Jego znaczenie współcześnie wzrasta, zwłaszcza wobec powszechnego dziś automatycznego sposobu pomiarów, przesyłania, gromadzenia i przetwarzania informacji, gdy pomijany jest aspekt ludzkiej spostrzegawczości i inteligencji przy wychwytywaniu potencjalnych anomalii.

Występowanie elementów nietypowych można interpretować w dwojaki sposób. W pierwszym, powszechniejszym, kojarzą się one z grubymi błędami obarczającymi niektóre elementy rozważanego zbioru. Są one wówczas eliminowane lub poprawiane. W tym przypadku identyfikację elementów nietypowych można nazywać „wykrywaniem”, co ze swej natury jest przecież związane ze zjawiskami negatywnymi. W drugim, rzadszym ale konstruktywnym, elementy nietypowe reprezentują nieszablonowe zjawiska, wybitne jednostki lub nowe trendy. Dostarczają one wówczas wyjątkowo wartościowej informacji, stymulując nietrywialne zachowania i nowatorskie koncepcje. Aby objąć także ten przypadek warto pojęcie „wykrywanie” uogólnić do „identyfikacji”, jak to zrobiono w niniejszym tekście.

Definicja elementów nietypowych nie jest jednoznaczna. Najogólniejsza stanowi, że są to obserwacje pochodzące z innego rozkładu niż reszta populacji. Jednak takie określenie nie wskazuje jak rozpoznać je w konkretnym zbiorze danych. Najczęściej uściśla się tę definicję do ujęcia odległościowego, wskazując na elementy najbardziej oddalone od większości populacji. W niniejszej pracy stosowana będzie koncepcja częstotliwościowa, stanowiąca że elementami nietypowymi są elementy rzadkie, czyli te dla których prawdopodobieństwo pojawienia się jest nikłe. Takie ujęcie pozwala zidentyfikować obserwacje nietypowe nie tylko na obrzeżach populacji, ale w przypadku rozkładu wielomodalnego o oddalonych członach, także pomiędzy nimi, nawet blisko środka zbioru.

Szczegółowy przegląd pojęć i metod związanych z obserwacjami nietypowymi można znaleźć w klasycznych monografiach [Aggarwal, 2013; Barnett i Lewis, 1994] oraz artykule przeglądowym [Hodge i Austin, 2004]. Ich identyfikacja znajduje wszechstronne zastosowanie praktycznie we wszystkich dyscyplinach. W zagadnieniach medycznych wyniki odbiegające od standardów mogą wskazywać na zagrożenia, choroby lub patologie, w zadaniach technicznych stanowić o uszkodzeniu w nadzorowanym systemie dynamicznym, w archeologii – o odmiennym pochodzeniu badanych obiektów, w bankowości – o próbie oszustwa. Elementy nietypowe mogą też wskazywać na zagrożenie porządku publicznego, anomalie pogodowe, trzęsienia ziemi, zmiany klimatyczne i niebezpieczeństwa ekologiczne.

Jak wspomniano, przedmiotem niniejszej pracy będzie identyfikacja elementów nietypowych w sensie rzadkiego występowania w populacji. Dysponując reprezentatywnym dla niej zbiorem danych, wyróżnimy rejony o najmniejszej gęstości rozkładu, i to tak aby łączne prawdopodobieństwo pojawienia się obserwacji w tych rejonach było równe założonej wartości, np. 0,01, 0,05, 0,1. Elementy należące do tych właśnie zbiorów będą właśnie traktowane za nietypowe (rzadkie). Ocena czy testowany element

(3)

— 2 —

należy uznać za nietypowy będzie mogła być podana w postaci klasycznej logiki dwuwartościowej (deterministycznej, ostrej) oraz rozmytej [Zadeh, 1965] i intuicjonistycznej [Atanassov, 1999]. Formuła zaprojektowanej procedury zostanie oparta na nieparametrycznej metodyce estymatorów jądrowych [Kulczycki, 2005; Silverman, 1986; Wand i Jones, 1995], co uniezależnia ją od rozkładu charakteryzującego badaną populację. Przedłożony materiał jest kompletny, gotowy do użycia bez żmudnych badań przedmiotowych. Cenną jest jego łatwa, ilustracyjna interpretacja.

W rozdziale 2 niniejszego streszczenia pracy doktorskiej, przybliżona zostanie metodyka statystycznych estymatorów jądrowych. Rozdział 3 przedstawia podstawową formułę procedury umożliwiającej identyfikację elementów nietypowych, w sensie rzadkiego ich występowania. Z uwagi na trudne uwarunkowania, wynikłe głównie z naturalnej bardzo małej liczby elementów uznawanych za nietypowe, jakość procedury zostanie znacząco polepszona w rozdziale 4 poprzez istotne powiększenie zbioru elementów reprezentatywnych dla populacji. Z kolei, w rozdziale 5, zostaną wygenerowane równoliczne wzorce elementów nietypowych i typowych, co stworzy podstawę do efektywnego wyznaczenia oceny rozmytej i intuicjonistycznej, a także dogodnego stosowania dobrze opracowanej, wartościowej i zróżnicowanej metodyki klasyfikacji, według preferencji badacza i uwarunkowań rozważanego zadania. Tym sposobem ze swej natury nienadzorowane zadanie identyfikacji elementów nietypowych zostanie sprowadzone do znacznie dogodniejszego nadzorowanego zagadnienia klasyfikacji z równolicznymi wzorcami. W rozdziale 6 działanie procedury zostanie zweryfikowane z wykorzystaniem sztucznie wygenerowanych ilustratywnych danych, a w rozdziale 7 na podstawie danych medycznych. Niniejsze streszczenie pracy doktorskiej kończy rozdział 8, zawierający podsumowanie.

Ostatecznie:

Celem pracy jest opracowanie procedury umożliwiającej identyfikację elementów nietypowych, w oparciu o nieparametryczną metodykę estymatorów jądrowych.

Elementami nowatorskimi przedstawionej rozprawy są następujące tezy (cele) badawcze:

(1) określenie procedury identyfikacji elementów nietypowych, umożliwiającej podział zbioru danych na elementy nietypowe i typowe o założonej proporcji, przy czym charakter typowości interpretowany jest tu jako prawdopodobieństwo występowania danego elementu w badanej populacji; użycie metodyki estymatorów jądrowych uniezależnia powyższą koncepcję od rozkładu analizowanego zbioru danych;

(2) zastosowanie algorytmu generowania elementów o odpowiednim rozkładzie, w celu uzyskania liczności zapewniającej uzyskanie w praktyce założonej proporcji z odpowiednią dokładnością;

(3) synteza równolicznych wzorców elementów nietypowych i typowych, co umożliwia dogodne stosowanie dobrze opracowanej i zróżnicowanej metodyki klasyfikacji; niniejszym nienadzorowane zadanie identyfikacji elementów nietypowych zostaje sprowadzone do problemu nadzorowanego; co więcej, ocena przynależności do zbioru elementów nietypowych może być wówczas efektywnie przedłożona w postaci rozmytej, jak również intuicjonistycznej.

(4)

— 3 —

2. PRELIMINARIA MATEMATYCZNE – STATYSTYCZNE ESTYMATORY JĄDROWE

W niniejszej pracy gęstość jest wyznaczana przy wykorzystaniu jądrowych estymatorów gęstości rozkładu prawdopodobieństwa zmiennej losowej. Estymatory jądrowe wykorzystuje się współcześnie przede wszystkim w naukach technicznych, ekonomicznych, a także przyrodniczych [Lexell i Taylor, 1991; Hirst et al, 2002]. Szczegółowe informacje dotyczące zagadnień opisanych w poniższym rozdziale znaleźć można w klasycznych monografiach [Kulczycki, 2005; Silverman, 1986; Wand i Jones, 1995] i dalszej bogatej literaturze przedmiotowej.

Niech dana będzie 𝑛-wymiarowa ciągła zmienna losowa 𝑋, której rozkład posiada gęstość prawdopodobieństwa 𝑓. Jej jądrowy estymator 𝑓̂: ℝ𝑛→ [0, ∞) wyznacza się na podstawie

eksperymentalnie otrzymanej m-elementowej próby losowej 𝑥𝑖= [ 𝑥𝑖,1 𝑥𝑖,2

𝑥𝑖,𝑛

], przy 𝑖 = 1, 2, … , 𝑚 , i w swej

podstawowej formule dany jest wzorem

𝑓̂(𝑥) = 𝑓̂ ([

𝑥1 𝑥2

𝑥𝑛

]) = 1

𝑚∑ 𝐾(𝑥, 𝑥𝑖, ℎ)

𝑚 𝑖=1

, (1)

gdzie ℎ = [ 1 2

𝑛

] stanowi 𝑛-wymiarowy wektor dodatnich parametrów wygładzania (szerokości pasma),

natomiast mierzalna funkcja 𝐾: ℝ𝑛→ [0, ∞) o jednostkowej całce ∫ 𝑓̂(𝑥)d𝑥 = 1𝑛 , symetryczna względem zera, tj. 𝐾(𝑥) = 𝐾(−𝑥) dla każdego 𝑥 ∈ ℝ𝑛, i mająca w tym miejscu słabe maksimum globalne, nazywana jest jądrem. Dla przypadku wielowymiarowego, w dalszej części niniejszej pracy, stosowane będzie tzw. jądro produktowe 𝐾(𝑥, 𝑥𝑖, ℎ), które jest iloczynem jąder jednowymiarowych 𝐾𝑗: ℝ → [0, ∞) dla 𝑗 = 1, 2, … , 𝑛 :

𝐾(𝑥, 𝑥𝑖, ℎ) = ∏1

𝑗𝐾𝑗(𝑥𝑗− 𝑥𝑖,𝑗 𝑗 )

𝑛 𝑗=1

. (2)

Na ogół, jako funkcje 𝐾𝑗 przyjmuje się typowe gęstości (jednowymiarowych) rozkładów probabilistycznych, a wartości parametrów wygładzania wyznacza na podstawie odpowiednich algorytmów optymalizacyjnych. Zagadnienia te zostaną dodatkowo skomentowane poniżej.

Wzory (1) oraz (2) składają się na podstawową postać jądrowego estymatora gęstości rozkładu prawdopodobieństwa. W praktyce możliwe są różnorodne modyfikacje i uogólnienia estymatora (1), dostosowujące jego własności do konkretnej badanej rzeczywistości. Należy jednak pamiętać, że zwiększają one złożoność wzorów, zmniejszają łatwość interpretacyjną i w konsekwencji sprawiają, że

(5)

— 4 —

rozwiązanie problemu staje się mniej dogodne dla potencjalnego użytkownika.

W literaturze dostępne są różne algorytmy wyboru wektora parametrów wygładzania. Do najbardziej znanych należą metoda podstawień oraz krzyżowego uwiarygodnienia [Kulczycki, 2005;

Silverman, 1986; Wand i Jones, 1995]. W niniejszej pracy stosowana będzie metoda podstawień [Kulczycki, 2005], dostatecznie dokładna w przedłożonym zagadnieniu, o liniowej złożoności obliczeniowej. Zgodnie z jej formułą przyjmuje się

𝑗= (8√𝜋 3

𝑊(𝐾𝑗) 𝑈(𝐾𝑗)2

1 𝑚)

1/5

𝜎̂𝑗 dla 𝑗 = 1, 2, … , 𝑛 , (3)

gdzie 𝑊(𝐾𝑗) = ∫ 𝐾−∞ 𝑗(𝑥)2 d𝑥 oraz 𝑈(𝐾𝑗) = ∫ 𝑥−∞ 2𝐾𝑗(𝑥) d𝑥, natomiast 𝜎̂𝑗 oznacza estymator odchylenia standardowego 𝑗-tej współrzędnej

𝜎̂𝑗= √ 1

𝑚 − 1∑ 𝑥𝑖,𝑗2

𝑚 𝑖=1

1

𝑚(𝑚 − 1)(∑ 𝑥𝑖,𝑗

𝑚 𝑖=1

)

2

dla 𝑗 = 1, 2, … , 𝑛 . (4)

W przeciwieństwie do wartości parametrów wygładzania, wybór postaci jądra nie ma istotnego znaczenia z punktu widzenia własności statystycznych estymatora. Pozwala to na wybór funkcji 𝐾𝑗 w postaci dogodnej dla konkretnego zastosowania. W niniejszej pracy stosowane będą jądra normalne i jednostajne. W przypadku jednowymiarowym przyjmują one kolejno następujące postacie:

𝐾𝑗(𝑥) = 1

√2𝜋 exp (−𝑥2

2) (5)

𝐾𝑗(𝑥) = { 1

2 𝑑𝑙𝑎 𝑥 ∈ [−1,1]

0 𝑑𝑙𝑎 𝑥 ∉ [−1,1]

(6)

Jądro normalne powszechnie traktuje się jako podstawowe. Jądro jednostajne ma ograniczony nośnik i przyjmuje skończoną liczbę wartości, co zostanie aktywnie wykorzystane w dalszej części rozprawy. Wartości funkcjonałów występujących we wzorze (3) wynoszą odpowiednio dla jądra normalnego

𝑊(𝐾𝑗) = 1

2√𝜋 , 𝑈(𝐾𝑗) = 1 (7)

oraz jednostajnego

𝑊(𝐾𝑗) = 0,5 , 𝑈(𝐾𝑗) =1

3 . (8)

(6)

— 5 —

3. PODSTAWOWA WERSJA PROCEDURY

Początkowa koncepcja opracowanej procedury identyfikacji elementów nietypowych oparta jest na teście istotności zaproponowanym w pracy [Kulczycki i Prochot, 2002]. Dzięki stosowaniu nieparametrycznych metod zbyteczne jest wprowadzanie założeń dotyczących typu występującego rozkładu.

Niech dany będzie zbiór złożony z elementów reprezentatywnych dla populacji

𝑥1, 𝑥2 , … , 𝑥𝑚 ∈ ℝ𝑛 (9)

Potraktujmy elementy powyższego zbioru jako realizacje 𝑛-wymiarowej ciągłej zmiennej losowej 𝑋, o rozkładzie prawdopodobieństwa posiadającym gęstość 𝑓, i wyznaczmy – zgodnie ze wskazaniami rozdziału 2 (z użyciem jądra normalnego) – jej estymator jądrowy 𝑓̂. Następnie rozważmy zbiór jego wartości na elementach zbioru (9), czyli

𝑓̂(𝑥1), 𝑓̂(𝑥2), … , 𝑓̂(𝑥𝑚) ∈ ℝ . (10)

Poszczególne wartości 𝑓̂(𝑥𝑖) charakteryzują prawdopodobieństwo występowania obserwacji 𝑥𝑖, a zatem im mniejsza jest wartość 𝑓̂(𝑥𝑖), tym element 𝑥𝑖 można interpretować jako „mniej typowy”, a ściślej:

rzadziej występujący.

Zdefiniujmy teraz liczbę

𝑟 ∈ (0,1) , (11)

ustalającą czułość prezentowanej procedury identyfikacji elementów nietypowych. Będzie ona stanowić o założonej proporcji elementów nietypowych w relacji do ogółu populacji, czyli ilorazie liczby elementów nietypowych do sumy nietypowych i typowych. Fakt ten wymaga wyraźnego podkreślenia, gdyż opracowana w niniejszej pracy metoda jest predestynowana do tych zagadnień, w których określenie takiej proporcji jest szczególnie wskazane lub nawet wymagane. Z powyższej interpretacji widać, że w praktycznych zastosowaniach wartości parametru (11) można ograniczyć inkluzją

𝑟 ∈ (0; 0,2] ; (12)

w praktyce najczęściej stosuje się

𝑟 = 0,01; 0,05; 0,1 , (13)

ze szczególnym uwzględnieniem środkowej opcji. Pomimo, że proponowana metodyka mogłaby być stosowana przy ogólniejszym niż (12) warunku (11), to wymagałoby to rozważania wielu przypadków, i tak nieistotnych z aplikacyjnego punktu widzenia. Warto zauważyć, że dla 𝑟 > 0,5, elementy nietypowe stałyby się typowymi i vice-versa.

(7)

— 6 —

Potraktujmy teraz zbiór (10) jako realizacje rzeczywistej (jednowymiarowej) zmiennej losowej i wyznaczmy estymator kwantyla jej rozkładu, rzędu 𝑟. W dalszej części pracy stosowany będzie pozycyjny estymator drugiego rzędu [Parrish, 1990; Kulczycki, 1998] dany wzorem

𝑞̂𝑟 = {

𝑧1 dla 𝑚𝑟 ≤ 0,5

(0,5 + 𝑖 − 𝑚𝑟)𝑧𝑖+ (0,5 − 𝑖 + 𝑚𝑟)𝑧𝑖+1 dla 0,5 ≤ 𝑚𝑟 ≤ (𝑚 − 0,5) 𝑧𝑚 dla 𝑚𝑟 ≥ (𝑚 − 0,5)

, (14)

gdzie

𝑖 = [𝑚𝑟 + 0,5] , (15)

przy czym [𝑑] ozacza część całkowitą liczby 𝑑 ∈ ℝ, natomiast 𝑧𝑖 jest 𝑖-tą co do wielkości wartością zbioru (10) po jego uporządkowaniu, a zatem

{𝑧1, 𝑧2, … , 𝑧𝑚} = {𝑓̂(𝑥1), 𝑓̂(𝑥2), … , 𝑓̂(𝑥𝑚)} , (16) przy czym 𝑧1 ≤ 𝑧2≤ ⋯ ≤ 𝑧𝑚. Posługiwanie się pozycyjnym estymatorem kwantyla gwarantuje, że jego wartość nie wykracza poza nośnik badanej zmiennej losowej, a ściślej iż – ze względu na zastosowanie przy konstrukcji 𝑓̂ jądra o dodatnich wartościach – spełnione jest 𝑞̂𝑟 > 0.

Ostatecznie, jeżeli dla testowanego elementu 𝑥̃ ∈ ℝ𝑛 prawdziwy jest warunek 𝑓̂(𝑥̃) ≤ 𝑞̂𝑟, to element ten należy uznać za nietypowy, w przeciwnym przypadku 𝑓̂(𝑥̃) > 𝑞̂𝑟 jest on typowy. Warto zauważyć, że przy prawidłowo określonych wielkościach 𝑓̂ oraz 𝑞̂𝑟, powyższe gwarantuje uzyskanie proporcji liczności elementów nietypowych do ogółu populacji na założonym poziomie 𝑟.

Warto podkreślić, że proponowana procedura identyfikacji elementów nietypowych, w połączeniu z własnościami estymatorów jądrowych, w przypadku wielowymiarowym pozwala na wnioskowanie na podstawie nie tylko wartości poszczególnych współrzędnych testowanego elementu, ale także relacji między nimi.

4. POWIĘKSZONY WZORZEC POPULACJI

Aczkolwiek z teoretycznego punktu widzenia koncepcja przedstawiona w poprzednim rozdziale wydaje się kompletna, to przy stosowanych w praktyce licznościach 𝑚 oraz wymaganych małych proporcjach 𝑟 – uściślonych zależnościami (12) i (13) – wartość estymatora kwantyla obarczona jest dużym błędem ze względu na nikłą liczbę elementów mniejszych od estymowanej wartości. Jak wykazuje weryfikacja numeryczna (rozdział 6), skutkiem tego jest zdecydowanie za duża – wobec założonej – liczba elementów uznawanych za nietypowe. Aby temu przeciwdziałać zbiór danych zostanie powiększony poprzez wygenerowanie elementów o rozkładzie tożsamym z rozkładem charakteryzującym badaną populację, oszacowanym na podstawie zbioru (9).

Metodyka powiększenia zbioru reprezentatywnego dla rozważanej populacji zostanie zaproponowana w oparciu o koncepcję eliminacji von Neumanna [Neumann, 1951; Kotulski, 2001].

(8)

— 7 —

Pozwala ona wygenerować ciąg liczb losowych o rozkładzie z nośnikiem ograniczonym do przedziału [𝑎, 𝑏], przy czym 𝑎 < 𝑏, scharakteryzowanym przez gęstość prawdopodobieństwa 𝑓 o wartościach ograniczonych dodatnią liczbą 𝑐, czyli

𝑓(𝑥) ≤ 𝑐 dla każdego 𝑥 ∈ [𝑎, 𝑏] . (17)

W przypadku wielowymiarowym przedział [𝑎, 𝑏] uogólnia się do 𝑛-wymiarowego prostopadłościanu [𝑎1, 𝑏1] × [𝑎2, 𝑏2] × … × [𝑎𝑛, 𝑏𝑛], przy czym 𝑎𝑗 < 𝑏𝑗 dla 𝑗 = 1,2, … , 𝑛 .

Najpierw rozważony zostanie przypadek jednowymiarowy. Niech dane będą dwie niezależne zmienne losowe: 𝑈 o rozkładzie jednostajnym na przedziale [𝑎, 𝑏] oraz 𝑉 o rozkładzie jednostajnym na przedziale [0, 𝑐]. Zauważmy też, że jeżeli jednowymiarowa zmienna losowa 𝑊 ma rozkład jednostajny na przedziale [0, 1], to zmienna (𝑒 − 𝑑)𝑊 + 𝑑 ma taki rozkład na przedziale [𝑑, 𝑒], przy 𝑑 < 𝑒. Pozwala to korzystać ze standardowego generatora jednostajnego na [0, 1] do generowania tego typu rozkładu na [𝑎, 𝑏] lub [0, 𝑐].

Pierwsza faza metody eliminacji polega na wygenerowaniu pary realizacji zmiennych losowych 𝑈 i 𝑉. Oznaczmy je przez 𝑢 oraz 𝑣. Następnie sprawdza się, czy

𝑣 ≤ 𝑓(𝑢) . (18)

Jeżeli warunek (18) jest spełniony, to przyjmujemy wartość 𝑢 jako poszukiwaną realizację zmiennej losowej 𝑋 o rozkładzie scharakteryzowanym przez gęstość 𝑓, czyli

𝑥 = 𝑢 . (19)

W przeciwnym przypadku usuwa się uprzednie realizacje 𝑢 oraz 𝑣 i generuje dalsze ich wartości, wykonując fazy (18) i (19), aż do uzyskania żądanej liczności próby losowej. Otrzymujemy tym sposobem wymaganą liczbę realizacji zmiennej 𝑋, o rozkładzie określonym gęstością 𝑓.

W przedkładanej procedurze gęstość zostanie oszacowana za pomocą estymatorów jądrowych.

Oznaczmy jej estymator przez 𝑓̂. Zastosowane będzie jądro jednostajne. Pozwala ono łatwo oszacować ograniczenie nośnika, jak również definiowany wcześniej parametr 𝑐. Mianowicie:

𝑎 = min

i=1,2,… ,𝑚𝑥𝑖− ℎ (20)

𝑏 = max

𝑖=1,2,… ,𝑚𝑥𝑖+ ℎ (21)

oraz

𝑐 = max

i=1,2,… ,𝑚{𝑓̂(𝑥𝑖− h), 𝑓̂(𝑥𝑖+ ℎ)} . (22)

(9)

— 8 —

Ostatni wzór wynika z faktu, że maksimum estymatora jądrowego z jądrem jednostajnym musi wystąpić na brzegu któregoś z jąder. Warto też zwrócić uwagę, że wyznaczenie parametrów (20)-(22) nie wymaga dużych nakładów obliczeniowych. Osiągnięto to dzięki odpowiedniemu wyborowi postaci jądra, korzystając ze wspomnianej w rozdziale 2 niewrażliwości estymatorów jądrowych na jego kształt.

Algorytm eliminacji von Neumanna dla 𝑛-wymiarowych zmiennych losowych jest analogiczny do podanego wcześniej przypadku jednowymiarowego. Brzegi 𝑛-wymiarowego prostopadłościanu [𝑎1, 𝑏1] × [𝑎2, 𝑏2] × … × [𝑎𝑛, 𝑏𝑛] wyznacza się ze wzorów analogicznych do (20)-(21) odrębnie dla poszczególnych współrzędnych indeksowanych parametrem 𝑗:

𝑎𝑗= min

i=1,2,… ,𝑚𝑥𝑖,𝑗− ℎ𝑗 dla 𝑗 = 1,2, … , 𝑛 (23) 𝑏𝑗= max

𝑖=1,2,… ,𝑚𝑥𝑖,𝑗+ ℎ𝑗 dla 𝑗 = 1,2, … , 𝑛 . (24) Maksimum estymatora jądrowego znajduje się wówczas w jednym z rogów któregoś z jąder, a zatem

𝑐 = max

i=1,2,… ,𝑚{𝑓̂ ([

𝑥𝑖,1± ℎ1 𝑥𝑖,2± ℎ2 𝑥𝑖,𝑛± ℎ𝑛

])} po wszystkich kombinacjach ± . (25)

Warto zwrócić uwagę, że liczba powyższych kombinacji jest skończona i wynosi 2𝑛. W oparciu o tak zdefiniowany algorytm, generuje się 𝑛 realizacji poszczególnych współrzędnych zmiennej losowej 𝑈 i kolejną dla zmiennej 𝑉, po czym sprawdza warunek (18).

Wyniki weryfikacji numerycznej, przedstawione w rozdziale 6 wskazują, że dla odpowiednio dużej liczności powiększonego – przy wykorzystaniu metody eliminacji von Neumanna – zbioru (9), formuła procedury identyfikacji elementów nietypowych, przedstawiona wcześniej w rozdziale 4, zachowuje założone proporcje pomiędzy licznościami elementów nietypowych i typowych z wymaganą w praktyce dokładnością.

5. RÓWNOLICZNE WZORCE ELEMENTÓW NIETYPOWYCH I TYPOWYCH; OCENA ROZMYTA I INTUICJONISTYCZNA

Ewentualny podział elementów zbioru danych (9) na nietypowe oraz typowe umożliwiłby określenie ich wzorców, po czym – dla tak powstałego zagadnienia – zastosowanie dobrze opracowanej i różnorodnej metodyki klasyfikacji. Jednak większość procedur analizy danych, polegających na ustalaniu relacji na podstawie dwóch zbiorów, działa znacząco lepiej jeśli są one zrównoważone, a nawet równoliczne [Kaufman i Rousseeuw, 1990; Krzyśko et al, 2008]. Warto zauważyć, że z uwagi na warunki (12)-(13), zbiory elementów nietypowych i typowych byłyby w rozważanym tu zagadnieniu ze swej natury nawet silnie niezrównoważone.

(10)

— 9 —

Rozważmy zatem zbiór (9) złożony z elementów reprezentatywnych dla badanej populacji, powiększony zgodnie z treścią rozdziału 4. Jeżeli wyróżnimy jego podzbiór składający się z tych obserwacji 𝑥𝑖, dla których 𝑓̂(𝑥𝑖) ≤ 𝑞̂𝑟, to można go uznać za wzorzec elementów nietypowych;

zanotujmy zatem

𝑥1𝑛𝑡, 𝑥2𝑛𝑡 , … , 𝑥𝑚𝑛𝑡𝑛𝑡 ∈ ℝ𝑛 . (26)

Analogicznie, zbiór tych obserwacji, dla których 𝑓̂(𝑥𝑖) > 𝑞̂𝑟 można traktować jako wzorzec elementów typowych

𝑥1𝑡, 𝑥2𝑡 , … , 𝑥𝑚𝑡 𝑡∈ ℝ𝑛 . (27)

Liczności powyższych wzorców wynoszą odpowiednio 𝑚𝑛𝑡 oraz 𝑚𝑡. Zgodnie z przyjętym założeniem 𝑟 ≅ 𝑚𝑛𝑡(𝑚𝑛𝑡+ 𝑚𝑡). Na podstawie warunku (13), zbiór (26) jest zatem około 10-100 razy mniej liczny niż (27).

Wykorzystując algorytm przedstawiony w rozdziale 4 można zwiększyć liczność zbioru (26) do 𝑚𝑡, zrównoliczniając wzorce elementów nietypowych i typowych. Dzięki wcześniejszemu powiększeniu wzorca populacji, uzyskana niniejszym wspólna liczność jest wystarczająca w praktyce do zapewnienia założonej proporcji między elementami nietypowymi i typowymi z odpowiednią dokładnością.

Ostatecznie, metoda identyfikacji elementów nietypowych, ze swej natury nienadzorowana, została niniejszym sprowadzona do nadzorowanej klasyfikacji o dwóch zrównolicznionych na dostatecznie dużym poziomie wzorcach elementów, a zatem do zagadnienia o bogatej i wartościowej metodyce, umożliwiającej wybór odpowiedniej procedury w zależności od uwarunkowań rozważanego zagadnienia i preferencji użytkownika. Warto zwrócić uwagę na dostępne w literaturze koncepcje, np. wielorozdzielczości proponowanej w artykule [Kobos i Mańdziuk, 2011] i inne odmienne algorytmy szeroko opracowanej metodyki klasyfikacji, ze wszystkimi ich indywidualnymi własnościami [Breiman et al, 1984].

W dalszej części ocena przynależności testowanego elementu zostanie określona w postaci rozmytej oraz intuicjonistycznej. Aczkolwiek z teoretycznego punktu widzenia można w tym celu użyć zarówno zbiorów elementów nietypowych i typowych, otrzymanych w wyniku działania podstawowej formuły procedury (rozdział 3) lub po powiększeniu zbioru danych (rozdział 4), to najbliższe intuicyjnej poprawności wyniki otrzymuje się po zrównolicznieniu tych zbiorów.

Niech zatem dane będą równoliczne (𝑚𝑛𝑡 = 𝑚𝑡) zbiory – odpowiednio – elementów nietypowych oraz typowych

𝑓̂(𝑥1𝑛𝑡), 𝑓̂(𝑥2𝑛𝑡) , … , 𝑓̂( 𝑥𝑚𝑛𝑡𝑛𝑡) ∈ ℝ𝑛 (28) 𝑓̂(𝑥1𝑡), 𝑓̂(𝑥2𝑡 ) , … , 𝑓̂(𝑥𝑚𝑡𝑡) ∈ ℝ𝑛 , (29)

gdzie 𝑓̂ oznacza jądrowy estymator gęstości rozkładu prawdopodobieństwa zmiennej losowej 𝑋 dla podstawowej próby (9). Zdefiniujmy średnie wartości estymatora jądrowego 𝑓̂ na elementach nietypowych

(11)

— 10 — 𝑠𝑛𝑡 = 1

𝑚𝑛𝑡∑ 𝑓̂(𝑥𝑖𝑛𝑡)

𝑚𝑛𝑡

𝑖=1

(30) i analogicznie na typowych

𝑠𝑡 = 1

𝑚𝑡∑ 𝑓̂(𝑥𝑖𝑡)

𝑚𝑡

𝑖=1

. (31)

Podobnie wyznaczone zostają średnie kwadraty odchyleń dla obu prób, czyli dla elementów nietypowych oraz typowych odpowiednio

𝑣𝑛𝑡 = 1

𝑚𝑛𝑡∑[𝑠𝑛𝑡− 𝑓̂(𝑥𝑖𝑛𝑡)]2

𝑚𝑛𝑡

𝑖=1

(32)

𝑣𝑡 = 1

𝑚𝑡∑[𝑠𝑡− 𝑓̂(𝑥𝑖𝑡)]2

𝑚𝑡

𝑖=1

. (33)

Zdefiniujmy tzw. wartości odniesienia zbiorów elementów nietypowych 𝑤𝑛𝑡 oraz typowych 𝑤𝑡 odpowiednio

𝑤𝑛𝑡= 0 (34)

𝑤𝑡 = max

i=1,2,… , 𝑚𝑡[𝑓̂(𝑥𝑖𝑡)] + min

i=1,2,… , 𝑚𝑛𝑡[𝑓̂(𝑥𝑖𝑛𝑡)] ≅

≅ max

𝑥∈ℝ𝑛[𝑓̂(𝑥)] + min

i=1,2,… , 𝑚𝑛𝑡[𝑓̂(𝑥𝑖𝑛𝑡)] . (35)

Niech dla dowolnego 𝑥 ∈ ℝ𝑛, dane będą funkcje 𝑑𝑛𝑡: ℝ𝑛→ [0, ∞) oraz 𝑑𝑡: ℝ𝑛→ [0, ∞), zdefiniowane zależnościami

𝑑𝑛𝑡2 (𝑥) =(𝑓̂(𝑥) − 𝑤𝑛𝑡)2 𝑣𝑛𝑡

(36)

𝑑𝑡2(𝑥) =(𝑤𝑡− 𝑓̂(𝑥))2

𝑣𝑡 , (37)

które mogą być ilustracyjnie interpretowane jako „odległości” od wartości odniesienia (34)-(35), zestandaryzowane wariancjami (32)-(33), w zbiorach elementów nietypowych oraz typowych. (Należy podkreślić nieformalny charakter powyższego ujęcia – wartości tych funkcji nie należy traktować jako klasycznych odległości, w sensie wartości metryki.)

Przy powyższych oznaczeniach, funkcja przynależności do zbioru elementów nietypowych 𝜇𝑛𝑡: ℝ𝑛→ [0,1] określona jest wzorem

(12)

— 11 — 𝜇𝑛𝑡(𝑥) = 1

1 + (𝑑𝑛𝑡(𝑥) 𝑑𝑡(𝑥) )

𝑐2𝑓

= 1

1 + (𝑑𝑛𝑡2 (𝑥) 𝑑𝑡2(𝑥))

𝑐1𝑓

,

(38)

gdzie parametr 𝑐𝑓 > 0 stanowi o stopniu rozmycia (standardowo przyjmuje się 𝑐𝑓 = 1). Z punktu widzenia poprawności interpretacji warto zmodyfikować we wzorach (36)-(37) parametry 𝑣𝑛𝑡 oraz 𝑣𝑡 odwrotnie proporcjonalnie, tzn. 𝑣𝑛𝑡 zastąpić przez 𝑎𝑣𝑛𝑡, natomiast 𝑣𝑡 przez 𝑣𝑡/𝑎, przy czym 𝑎 > 0. Początkowo przyjmuje się 𝑎 = 1, po czym odpowiednio zwiększa albo zmniejsza jego wartość tak, aby 𝜇𝑛𝑡(𝑦) ≅ 0,5, gdzie 𝑦 jest takim elementem, że 𝑓̂(𝑦) ≅ 𝑞̂𝑟.

Powyższa procedura może być uzupełniona dla potrzeb generowania oceny intuicjonistycznej.

Podobnie do wzorów (34)-(37) wprowadzona zostaje „odległość” od estymatora kwantyla 𝑑𝑚𝑤: ℝ𝑛 [0, ∞), zestandaryzowane wariancjami (32)-(33), przetransponowana o punkt odniesienia 𝑤𝑚𝑤 > 0, określona zależnością

𝑑𝑚𝑤2 (𝑥) = {

𝑤𝑚𝑤+(𝑞̂𝑟− 𝑓̂(𝑥))2

𝑣𝑛𝑡 gdy 𝑓̂(𝑥) ≤ 𝑞̂𝑟 𝑤𝑚𝑤+(𝑓̂(𝑥) − 𝑞̂𝑟)2

𝑣𝑡 gdy 𝑓̂(𝑥) ≥ 𝑞̂𝑟

. (39)

Poszczególne funkcje definiujące zbiór intuicjonistyczny określone są następującymi wzorami:

– funkcja 𝜇𝑛𝑡: ℝ𝑛→ [0,1] przynależności do zbioru elementów nietypowych

𝜇𝑛𝑡(𝑥) = 1

1 + (𝑑𝑛𝑡(𝑥) 𝑑𝑡(𝑥) )

𝑐2𝑓

+ (𝑑𝑛𝑡(𝑥) 𝑑𝑚𝑤(𝑥))

𝑐2𝑓

= 1

1 + (𝑑𝑛𝑡2 (𝑥) 𝑑𝑡2(𝑥))

𝑐1𝑓

+ (𝑑𝑛𝑡2 (𝑥) 𝑑𝑚𝑤2 (𝑥))

𝑐1𝑓

; (40)

– funkcja 𝑣𝑛𝑡: ℝ𝑛→ [0,1] nieprzynależności do zbioru elementów nietypowych (przynależności do zbioru typowych)

𝑣𝑛𝑡(𝑥) = 1

1 + (𝑑𝑡(𝑥) 𝑑𝑛𝑡(𝑥))

𝑐2𝑓

+ ( 𝑑𝑡(𝑥) 𝑑𝑚𝑤(𝑥))

𝑐2𝑓

= 1

1 + (𝑑𝑡2(𝑥) 𝑑𝑛𝑡2 (𝑥))

𝑐1𝑓

+ ( 𝑑𝑡2(𝑥) 𝑑𝑚𝑤2 (𝑥))

𝑐1𝑓

; (41)

– funkcja 𝜋𝑛𝑡: ℝ𝑛→ [0,1] marginesu wahania

𝜋𝑛𝑡(𝑥) = 1 − 𝜇𝑛𝑡(𝑥) − 𝑣𝑛𝑡(𝑥) , (42)

gdzie 𝑐𝑓 > 0 jest parametrem stanowiącym o stopniu rozmycia (standardowo 𝑐𝑓 = 1). Parametry 𝑣𝑛𝑡 oraz 𝑣𝑡 są modyfikowane odwrotnie proporcjonalnie, tzn. 𝑣𝑛𝑡 zastępowane jest we wzorach (36)-(37) i (39) przez 𝑎𝑣𝑛𝑡, natomiast 𝑣𝑡 przez 𝑣𝑡/𝑎 , przy czym 𝑎 > 0. Początkowo przyjmuje się 𝑎 = 1, po czym

(13)

— 12 —

odpowiednio zwiększa albo zmniejsza jego wartość tak, aby 𝜇𝑛𝑡(𝑦) ≅ 𝑣𝑛𝑡(𝑦), gdzie 𝑦 jest takim elementem, że 𝑓̂(𝑦) ≅ 𝑞̂𝑟. Wartość parametru 𝑤𝑚𝑤 powinna być ustalana na podstawie indywidualnych uwarunkowań rozważanego zagadnienia. Początkowo można przyjąć 𝑤𝑚𝑤 = 0,001, po czym zwiększać do osiągnięcia żądanej wartości 𝜋𝑛𝑡(𝑦), gdzie ponownie 𝑦 jest takim elementem, że 𝑓̂(𝑦) ≅ 𝑞̂𝑟; przykładowo 𝜋𝑛𝑡(𝑦) = 0,5.

Na koniec warto skomentować własności oraz wykazać poprawność definicji wprowadzonych wzorami (30)-(42). Dla ustalenia uwagi rozważany będzie estymator jądrowy skonstruowany z użyciem jądra normalnego.

Relacje będą dowiedzione z prawdopodobieństwem 1, a zatem dla prawie każdego 𝑥 ∈ ℝ𝑛 w sensie miary o rozkładzie z gęstością 𝑓, charakteryzującym zbiór (9). Istnienie tej gęstości założono w rozdziale 3, określając podstawową wersję procedury.

Na podstawie definicji (26)-(27), wartości średnich (30)-(31) spełniają warunek 𝑠𝑛𝑡 < 𝑠𝑡. Co więcej, estymator jądrowy skonstruowany z użyciem jądra normalnego przyjmuje dodatnie wartości, a zatem prawdziwe jest 0 < 𝑠𝑛𝑡 < 𝑠𝑡.

Ponieważ dla dowolnego 𝑧 ∈ ℝ przeciwobraz 𝐾−1(𝑧) jest co najwyżej dwupunktowy, to przeciwobraz 𝑓̂−1(𝑧) zawiera co najwyżej skończoną liczbę punktów z ℝ𝑛. Wynika stąd, że średnie kwadraty odchyleń (32)-(33) są niezerowe; w przeciwnym przypadku nie istniałaby bowiem gęstość 𝑓. W konsekwencji 𝑣𝑛𝑡> 0 oraz 𝑣𝑡 > 0. W szczególności, uwalnia to ułamki występujące we wzorach (36)- (37) i (39) od zer w mianownikach.

Symbol dolnej wartości odniesienia 𝑤𝑛𝑡 – z definicji (34) równej przecież 0 – wprowadzono dla celów interpretacyjnych i zachowania symetrii wobec górnej wartości odniesienia 𝑤𝑡. Komentując warunek (35) warto zauważyć, że maksimum funkcji 𝑓̂ w zbiorze ℝ𝑛 występuje w obszarze zagęszczenia elementów 𝑥𝑖𝑡. Co więcej, zgodnie ze wskazaniami rozdziału 4, liczność tego zbioru ulega istotnemu powiększeniu.

Wynika stąd, że w praktyce max

i=1,2,… , 𝑚𝑡[𝑓̂(𝑥𝑖𝑡)] ≅ max

𝑥∈ℝ𝑛[𝑓̂(𝑥)]. Ostatecznie, dzięki wprowadzeniu wartości odniesienia (34)-(35), przedział [mini=1,2,… , 𝑚𝑛𝑡𝑓̂(𝑥𝑖𝑛𝑡) , maxi=1,2,… , 𝑚𝑡𝑓̂(𝑥𝑖𝑡)] został obustronnie poszerzony do przedziału [𝑤𝑛𝑡, 𝑤𝑡] o nieznaczną wartość mini=1,2,… , 𝑚𝑛𝑡𝑓̂(𝑥𝑖𝑛𝑡), co powoduje, że funkcje 𝑑𝑛𝑡 oraz 𝑑𝑡 są dodatnie. Pozwoli to uniknąć zer w mianownikach wzorów (38) i (40)-(41).

Jak wynika z powyższego, 𝑑𝑛𝑡(𝑥) 𝑑⁄ (𝑥) ∈ (0, ∞), co implikuje, że wartości funkcji 𝜇𝑡 𝑛𝑡, zdefiniowanej wzorem (38), należą do przedziału [0,1].

Dzięki założeniu 𝑤𝑚𝑤 > 0, funkcja 𝑑𝑚𝑤 przyjmuje wartości dodatnie. Wraz ze sformułowaną powyżej analogiczną własnością dotyczącą funkcji 𝑑𝑛𝑡 oraz 𝑑𝑡, uwalnia to wzory (40)-(41) od zer w mianownikach.

Wartości ilorazów 𝑑𝑛𝑡(𝑥) 𝑑⁄ (𝑥) , 𝑑𝑡 𝑛𝑡(𝑥) 𝑑 𝑚𝑤(𝑥) , 𝑑𝑡(𝑥) 𝑑 𝑛𝑡(𝑥) oraz 𝑑𝑡(𝑥) 𝑑 𝑚𝑤(𝑥) należą do przedziału (0, ∞), a dzięki temu wartości funkcji 𝜇𝑛𝑡 oraz 𝜈𝑛𝑡, danych wzorami (40)-(41), należą do przedziału [0,1].

(14)

— 13 —

Pozostaje jeszcze wykazać, że 𝜋𝑛𝑡(𝑥) ∈ [0,1]. Zapiszmy korzystając z prawych stron równości (40)-(41):

𝜇𝑛𝑡(𝑥) + 𝑣𝑛𝑡(𝑥) = 1

1+(𝑑𝑛𝑡2 (𝑥)

𝑑𝑡2(𝑥))

𝑐𝑓1

+(𝑑𝑛𝑡2 (𝑥)

𝑑𝑚𝑤2 (𝑥))

𝑐𝑓1

+ 1

1+(𝑑𝑡2(𝑥)

𝑑𝑛𝑡2 (𝑥))

𝑐𝑓1

+( 𝑑𝑡2(𝑥)

𝑑𝑚𝑤2 (𝑥))

𝑐𝑓1

. (43)

Mnożąc licznik i mianownik pierwszego ułamka przez (𝑑𝑡2(𝑥)𝑑𝑚𝑤2 (𝑥))

1

𝑐𝑓 oraz drugiego przez

(𝑑𝑛𝑡2 (𝑥)𝑑𝑚𝑤2 (𝑥))

1

𝑐𝑓 otrzymuje się

𝜇𝑛𝑡(𝑥) + 𝑣𝑛𝑡(𝑥) = (𝑑𝑡2(𝑥)𝑑𝑚𝑤2 (𝑥))

1

𝑐𝑓+(𝑑𝑛𝑡2(𝑥)𝑑𝑚𝑤2 (𝑥))

1 𝑐𝑓

(𝑑𝑡2(𝑥)𝑑𝑚𝑤2 (𝑥))

1

𝑐𝑓+(𝑑𝑛𝑡2(𝑥)𝑑𝑚𝑤2 (𝑥))

1

𝑐𝑓+(𝑑𝑛𝑡2 (𝑥)𝑑𝑡2(𝑥))

1 𝑐𝑓

.

(44)

Ponieważ wszystkie składniki występujące w powyższym ułamku są dodatnie, to powyższy ułamek należy do przedziału [0,1], a zatem na podstawie definicji (42) mamy 𝜋𝑛𝑡(𝑥) ∈ [0,1], co należało dowieść.

6. WERYFIKACJA NUMERYCZNA

W niniejszym rozdziale przedstawiono wyniki weryfikacji numerycznej, w ramach której pozytywnie sprawdzona została poprawność działania opracowanej procedury identyfikacji elementów nietypowych. Wyniki, otrzymane dla rzeczywistych danych z zakresu medycyny przedłożono w rozdziale 7.

Rozważmy zatem zbiór (9) generowany jako realizacje jednowymiarowej zmiennej o rozkładzie dwumodalnym, ze znaczną odległością między składnikami (co implikuje obecność elementów nietypowych także „wewnątrz” rozkładu), będącej zestawieniem dwóch zmiennych o rozkładzie normalnym i następujących wartościach oczekiwanych, wariancjach oraz udziałach

𝐸1= −3 , 𝑉1= 1 , 40%

𝐸2= 3 , 𝑉2= 1 , 60% ; (45) przeprowadzone tu badania mają charakter podstawowy dla sprawdzenia poprawności opracowanej procedury w przypadku jednowymiarowym;

Warto podkreślić, iż w niniejszym streszczeniu pracy doktorskiej przedstawiono wyniki weryfikacji numerycznej tylko dla jednowymiarowej zmiennej dwumodalnej. Bardziej szczegółową weryfikację można znaleźć w przedłożonej pracy doktorskiej, gdzie zbiór (9) generowany jest dodatkowo jako realizacje następujących zmiennych losowych:

(1) jednowymiarowej o rozkładzie normalnym standardowym

𝐸 = 0 , 𝑉 = 1 ; (46)

(15)

— 14 —

wyniki są w tym przypadku łatwo interpretowalne dzięki swej prostocie i powszechności w klasycznych ujęciach parametrycznych;

(2) dwuwymiarowej, czteromodalnej ze znaczną odległością między składnikami (elementy nietypowe ulokowane są również „wewnątrz” rozkładu), będącej zestawieniem czterech zmiennych o rozkładzie normalnym oraz następujących wartościach oczekiwanych, kowariancjach i udziałach

𝐸1= [−33 ] , 𝐶𝑜𝑣1 = [1 00 1] , 40%

𝐸2= [ 3−3] , 𝐶𝑜𝑣2= [1 00 1] , 20%

𝐸3= [−3−3] , 𝐶𝑜𝑣3= [1 00 1] , 30%

𝐸4 = [33] , 𝐶𝑜𝑣4= [1 00 1] , 10% ;

(47)

badania te mają charakter podstawowy dla sprawdzenia poprawności opracowanej w niniejszej pracy procedury w przypadku wielowymiarowym.

Symulacje przeprowadzono dla zbiorów o następujących licznościach 𝑚 próby (9): 10, 20, 50, 100, 200, 500, 1.000, 2.000, 5.000, 10.000, a także przy standardowych wartościach parametru 𝑟 określającego założony udział ilościowy elementów nietypowych w populacji 0,1, 0,05, 0,01, a w konsekwencji czułość procedury. Po ustaleniu modelu testującego, dla dowolnej pary parametrów 𝑚 oraz 𝑟, sprawdzano 10.000 elementów z odpowiedniego rozkładu (45)-(47) w zakresie uznania za nietypowe czy typowe. Za każdym razem dokonywano pomiarów dla 100 różnych takich zestawów. W tabelach pokazano uzyskaną w ten sposób proporcję zidentyfikowanych obserwacji nietypowych do liczby testowanych elementów, podaną w klasycznej postaci średnia ± odchylenie standardowe, wyznaczoną na podstawie owych 100 zestawów.

Tabela 1 obrazuje wyniki otrzymane przy zastosowaniu podstawowej wersji procedury przedstawionej w rozdziale 3. Zauważmy, że w miarę wzrostu liczności 𝑚, średnia wartość uzyskiwanych proporcji identyfikowanych elementów nietypowych w relacji do liczby testowanych elementów, zmierza do założonej wartości parametru 𝑟, a odchylenie standardowe do zera. I tak, 10-procentową dokładność uzyskiwanych proporcji identyfikowanych elementów względem wartości parametru 𝑟 otrzymano przy 𝑟 = 0,1 dla liczności 𝑚 = 500, przy 𝑟 = 0,05 dla 𝑚 = 1.000, natomiast przy 𝑟 = 0,01 dla 𝑚 = 2.000. W większości praktycznych aplikacji wielkości te mogą nie być satysfakcjonujące. Empirycznie potwierdza to zasadność procedury powiększania wzorca charakteryzującego populację, przedstawionej w rozdziale 4.

(16)

— 15 —

Tab. 1. Proporcje liczby elementów uznanych za nietypowe do wszystkich testowanych obserwacji, przy zastosowaniu podstawowej wersji procedury dla rozkładu dwumodalnego (45).

r

m 0,1 0,05 0,01

10 0,212 ± 0,119 0,165 ± 0,127 0,004 ± 0,011 20 0,163 ± 0,067 0,099 ± 0,059 0,010 ± 0,014 50 0,130 ± 0,046 0,077 ± 0,039 0,031 ± 0,025 100 0,122 ± 0,036 0,065 ± 0,024 0,018 ± 0,011 200 0,115 ± 0,026 0,060 ± 0,019 0,016 ± 0,008 500 0,108 ± 0,015 0,056 ± 0,010 0,012 ± 0,005 1.000 0,106 ± 0,011 0,053 ± 0,008 0,012 ± 0,003 2.000 0,105 ± 0,008 0,053 ± 0,005 0,011 ± 0,002 5.000 0,104 ± 0,005 0,052 ± 0,003 0,010 ± 0,001 10.000 0,103 ± 0,003 0,052 ± 0,002 0,010 ± 0,001

Na Rys. 1 zostało zilustrowane rozmieszczenie elementów uznanych za nietypowe i typowe.

Pierwsze z nich pojawiają się nie tylko w ogonach rozkładu, ale – co należy szczególnie podkreślić – także w jego „wnętrzu”, co bezpośrednio wynika z własności estymacji nieparametrycznej. Ponownie można zaobserwować, że im większa jest wartość parametru 𝑟, tym są one odpowiednio liczniejsze.

Dodatkowo można zauważyć, że ze względu na mniejszy udział czynnika 𝑁(−3, 1) w stosunku do 𝑁(3, 1), lewe obszary elementów nietypowych są nieco mniejsze od prawych.

𝑟 = 0,1

𝑟 = 0,05

𝑟 = 0,01

Rys. 1. Rozmieszczenie elementów nietypowych (ciemne koła) i typowych (jasne koła), przy zastosowaniu podstawowej wersji procedury (𝑚 = 1.000) dla rozkładu dwumodalnego (45).

(17)

— 16 —

W Tab. 2 pokazano wyniki uzyskane przy zastosowaniu procedury powiększania wzorca dla populacji, przedstawionej w rozdziale 4. Na podstawie próby o liczności 𝑚, generowana była próba 𝑚 elementów, przy czym praktycznie uzasadnione jest 𝑚> 𝑚. Specyficzny przypadek 𝑚= 𝑚 został zamieszczony jedynie dla celów badawczych.

Warto zauważyć, że wraz ze wzrostem wartości parametrów zarówno 𝑚 jak i 𝑚, średnia wartość proporcji identyfikowanych elementów nietypowych w relacji do liczby testowanych obserwacji jest coraz bliższa założonej wartości parametru 𝑟, a odchylenie standardowe zmniejsza się. Własność ta względem pierwszego z tych parametrów była prawdziwa już dla wersji podstawowej procedury (por.

Tab. 1). Teraz jednak – po wprowadzeniu parametru 𝑚 – nabiera specjalnego praktycznego znaczenia:

zwiększając liczbę elementów generowanych można istotnie polepszać jakość wyników. I tak, 10-procentową dokładność uzyskiwanej proporcji tego typu elementów, względem wartości parametru 𝑟, otrzymano:

− przy 𝑟 = 0,1, dla każdego 𝑚 ≥ 20 przy dowolnym 𝑚≥ 𝑚 (w wersji podstawowej dokładność taką uzyskiwano dopiero dla 𝑚 = 500);

− przy 𝑟 = 0,05, dla każdego 𝑚 ≥ 20 przy dowolnym 𝑚≥ 200 (w wersji podstawowej dokładność taką uzyskiwano dla 𝑚 = 1.000);

− w bardzo trudnym przypadku 𝑟 = 0,01, dla każdego 𝑚 ≥ 100 przy 𝑚= 10.000 (w wersji podstawowej dokładność taką uzyskiwano dopiero dla 𝑚 = 2.000).

Powyższe wielkości wydają się bezwzględnie satysfakcjonujące w większości praktycznych zastosowań.

Ciekawą obserwacją jest prześledzenie wyników dla 𝑚 = 𝑚, a zatem na przekątnej głównej Tab.

2. Przypadek ten oznacza, że generowana jest próba o liczności równej zbiorowi (9). Porównanie tych wyników z rezultatami uzyskanymi dla podstawowej wersji procedury (Tab. 1), wskazuje, że są one lepsze. Tłumaczyć to można swoistą stabilizacją wyników, niejako filtrowanych przez rozkład wynikły ze zbioru (9), bez dodatkowej przecież informacji wnoszonej przy 𝑚> 𝑚 przez powiększenie próby. Taki swoisty pozytywny „warunek początkowy” dodatkowo motywuje do koncepcji zwiększania liczności wzorca populacji, przedłożonej w rozdziale 4.

Cytaty

Powiązane dokumenty

in the files of the case, 2) to establish contacts with the participants and take from them the consent to participate in the proceedings, 3) to hold individual meetings with

The time evaluation of density and instantaneous velocity field for moving an evaporating droplet in a fully periodic domain.. Roughly, the length of a computational domain is

Therefore, the aim of this study was to evaluate the effects of InCa calcium containing fertilizer on fruit yield quality and quantity, fruit susceptibility to

Wtedy naturalnym podziałem tego zbioru na bloki jest: blok czerwonych kulek, blok niebieskich kulek, blok zielonych kulek. Jeśli chcemy permutować, czyli ustawiać w kolejności te

Wtedy naturalnym podziałem tego zbioru na bloki jest: blok czerwonych kulek, blok niebieskich kulek, blok zielonych kulek. Jeśli chcemy permutować, czyli ustawiać w kolejności te

We have used the case of São Paulo as an illustration of what informal urbanization has meant for the process of production of urban space and democratization

Cheques or orders should be made payable to High Speed Surface Craft, £ cheques should be drawn on a bank within the UK and US$ cheques should be drawn on a bank within the