Ukryte modele Markowa - Index of /rozprawy2/10638

2.7 Podsumowanie

3.1.2 Ukryte modele Markowa

Ukryty model Markowa HMM (ang. Hidden Markov Model) [25, 89, 159, 181, 191] opisuje proces stochastyczny jako sekwencję nieobserwowalnych stanów generujących obserwacje. Można wyróżnić dwa procesy. Pierwszy - łańcuch Markowa ze skończoną liczbą stanów - charakteryzuje się rozkładem prawdopodobieństwa stanu początkowego i macierzą prawdopodobieństw przejść między stanami, drugi zaś jest ciągiem obserwacji generowanym przez stany zgodnie z danymi rozkładami prawdopodobieństwa. Wykorzystując HMM można reprezentować rozkłady prawdopodobieństwa w ciągach obserwacji. Jako obserwację traktuje się symbol z dyskretnego alfabetu, zmienną rzeczywistą lub obiekt, nad którym

3.1. WYKORZYSTYWANE METODY 59 jest możliwe zdeﬁniowanie rozkładu prawdopodobieństwa. Oznaczając obserwację w chwili t przez ¯ytzakłada się, że obserwacje są dokonywane w jednakowo odległych, dyskretnych chwilach. Wtedy t jest indeksem przyjmującym całkowite wartości,

t ∈ {1, 2, ..., T }.

Nazwa ukryte modele Markowa wynika z następujących założeń:

1. Pewien proces, którego stan ¯xtjest ukryty dla obserwatora generuje obserwację ¯yt,

2. Stan procesu ¯xt spełnia własność Markowa (zależy wyłącznie od ¯xt−1, zaś obserwacja ¯yt zależy wyłącznie od ¯xt).

Łączny rozkład prawdopodobieństwa stanów i obserwacji jest następujący:

p(¯y1:T,¯x1:T) = p (¯x1) p (¯y1|¯x1) ΠT

t=2p(¯xt|¯xt−1) p (¯yt|¯xt) (3.1) gdzie przez ηp:k rozumie się ciąg ηp, ηp+1, ..., ηk, 1 ¬ p < k ¬ T .

Zakłada się, że zmienna stanu ¯xtprzyjmuje wartości dyskretne należące do zbioru n

1, 2, ..., ¯N^o.

Na rys. 3.3 przedstawiono przykładowy schemat topologiczny HMM z pięcioma stanami, łuki wskazują przejścia między nimi. Ustalenia liczby stanów i struktury modelu dokonuje się na ogół eksperymentalnie. Pokazany układ jednokierunkowy (tzw. model Bakisa [159]) jest typowy w modelowaniu szeregów czasowych.

Rysunek 3.3: Przykładowy HMM z pięcioma stanami Chcąc zatem wykorzystać HMM o zadanej strukturze, należy poznać: 1. Rozkład prawdopodobieństwa stanu początkowego,

2. Prawdopodobieństwa przejść między stanami, 3. Model obserwacji.

Rozkład prawdopodobieństwa stanu początkowego scharakteryzowany jest przez ¯

N - elementowy wektor Π, którego i - ty element πi oznacza prawdopodobieństwo

P(¯x1 = i). Prawdopodobieństwa przejść określone są przez macierz A = [aij] o wymiarach ¯N × ¯N, gdzie aij = P (¯xt+1 = j|¯xt= i), i, j = 1, 2, ..., ¯N. Model obserwacji zaś opisuje prawdopodobieństwo P (¯yt|¯xt). W przypadku, gdy obserwacje są dyskretnymi symbolami, którym można przypisać wartości 1, 2, ..., ¯K, model ten opisuje się przez macierz prawdopodobieństw obserwacji B = [bik] o wymiarach

N × ¯K, gdzie

bik = P (¯yt= k|¯xt = i) (3.2) Natomiast gdy obserwacja jest wektorem liczb rzeczywistych, B = [bi(¯yt)] staje się ¯N–wymiarowym wektorem funkcji gęstości rozkładów prawdopodobieństwa, przyjmowanych najczęściej jako suma rozkładów normalnych:

bi(¯yt) = p (¯yt|¯xt= i) = ¯ S X s=1 ¯cisN(¯yt, µis,Σis) (3.3) gdzie µis są wektorami wartości oczekiwanych, a Σis macierzami kowariancji. Nieujemne współczynniki wagowe ¯cis dla każdego i dają w sumie 1. Zazwyczaj zakłada się, że macierz przejścia A oraz model obserwacji B nie zależą od czasu.

Dalej, do reprezentacji parametrów HMM będzie stosowana notacja λ = (A, B, Π). Z wykorzystaniem HMM wiążą się trzy zadania: (1) uczenia, (2) klasyﬁkacji i (3) dekodowania. Uczenie polega na wyznaczaniu parametrów modelu

λ maksymalizujących prawdopodobieństwo P_{Y |λ}¯

w przypadku, gdy dany jest ciąg obserwacji ¯Y = ¯y1:T oraz struktura modelu λ. W zadaniu klasyﬁkacji dany ciąg obserwacji ¯Y należy przypisać do klasy k reprezentowanej przez model λk ze zbioru znanych modeli λ1, λ2, ... λ_M¯, dla którego prawdopodobieństwo P

Y |λk

przyjmuje wartość maksymalną w tym zbiorze. Ideę klasyﬁkacji z wykorzystaniem HMM przedstawiono na rys. 3.4. Dekodowanie zaś polega na wyznaczaniu najbardziej prawdopodobnej sekwencji stanów ¯X∗ = ¯x∗

1:T, tzn. maksymalizującej prawdopodobieństwo P_{Y , ¯}¯ _X|λ

, na podstawie ciągu obserwacji dla znanego modelu ¯Y, λ. Zadanie dekodowania rozwiązuje się algorytmem Viterbiego [89, 159, 191], który wykorzystuje metodę programowania dynamicznego. Rozważając sekwencję ¯X = ¯x1:T ukrytych stanów, miarą prawdopodobieństwa realizacji ciągu ¯X

w ukrytym modelu Markowa λ jest prawdopodobieństwo warunkowe P _{Y , ¯}¯ _X|λ ,

3.1. WYKORZYSTYWANE METODY 61

Rysunek 3.4: Wykorzystanie HMM w zadaniu klasyﬁkacji, rozpoznana klasa

k = arg max P ( ¯Y |λm_¯) dla ¯m ∈[1, ¯M] określone w następujący sposób:

P _{Y , ¯}¯ _X|λ = ^P _{Y , ¯}¯ _{X, λ} P (λ) ^{= P} ¯ Y | ¯X, λP_X|λ¯ (3.4) P _{Y | ¯}¯ _{X, λ}

= P (¯y1|¯x1) P (¯y2|¯x2) ...P (¯yT|¯xT) (3.5)

P _X|λ¯

= P (¯x1) P (¯x2|¯x1) P (¯x3|¯x2) ...P (¯xT|¯xT−1) (3.6) Następnie otrzymuje się wzór:

P _{Y , ¯}¯ _X|λ

= ΠT

t=1P (¯xt|¯xt−1) P (¯yt|¯xt) (3.7)

P(¯x1|¯x0) = P (¯x1) przy użyciu którego wyznacza się sekwencję ¯X∗:

P _{Y , ¯}¯ _X∗|λ= max_X¯P _{Y , ¯}¯ _X|λ

(3.8) Wzór (3.8) można zapisać na dwa równoważne sposoby:

(i) max_X¯ n P _{Y , ¯}¯ _X|λ = ΠT t=1_d˜_{(t, ¯x}_t_{|t −}_{1, ¯x}_t−₁₎o (3.9) (ii) min_X¯ ( h −log P _{Y , ¯}¯ _X|λi = T X t=1 ¯ d(t, ¯xt|t −1, ¯xt−1) ) (3.10) gdzie: ˜ d(t, ¯xt|t −1, ¯xt−1) = P (¯xt|¯xt−1) P (¯yt|¯xt) (3.11) ¯ d(t, ¯xt|t −1|¯xt−1) = − log ˜d(t, ¯xt|t −1, ¯xt−1) (3.12)

Zadania (3.9) i (3.10) można rozwiązać metodą programowania dynamicznego, które wykorzystuje zasadę optymalności Bellmana:

(tp, sp)^(t,s)→ (tk, sk) = (tp, sp) → (t, s) ⊕ (t, s) → (tk, sk) (3.13) gdzie: tp, t, tk ∈ {1, 2, ..., T }, tp < t < tk, sp, s, sk ∈ ⁿ1, 2, ..., ¯N^o natomiast znak ⊕ oznacza połączenie ścieżek. Oznaczając zatem:

˜ D(τ, ¯xτ) = max_X¯_τΠτ t=1_d˜_{(t, ¯x}_t_{|t −}_{1, ¯x}_t−₁₎ _(3.14) ¯ D(τ, ¯xτ) = min_X¯_τ τ X t=1 ¯ d(t, ¯xt|t −1, ¯xt−1) (3.15) gdzie 1 ¬ τ ¬ T , ¯Xτ jest początkowym fragmentem sekwencji stanów kończącym się w stanie ¯xτ w chwili τ, tzn. ¯Xτ = ¯x1:τ. Wartości początkowe dla funkcji ˜D i ¯D

są następujące: ˜ D(1, ¯x1) = P (¯x1) P (¯y1|¯x1) (3.16) ¯ D(1, ¯x1) = − log _D˜_{(1, ¯x}₁₎ (3.17) Z (3.16) i (3.17) wynikają następujące związki rekurencyjne:

D(t + 1, ¯xt+1) = max¯xt_D˜_{(t, ¯x}_t_{) P (¯x}_t₊₁_|_¯x_t_{) P (¯y}_t₊₁_|_¯x_t₊₁₎ _(3.18) ¯

D(t + 1, ¯xt+1) = minx¯t

n_D¯_{(t, ¯x}_t_{) − log (P (¯x}_t₊₁_|_¯x_t_{)) − log (P (¯y}_t₊₁_|_¯x_t₊₁₎₎o

(3.19) Optymalny stan końcowy ¯x∗

T otrzymuje się z zależności: ¯x∗

T = arg maxx¯T_D˜_{(T, ¯x}_T_{) = arg min}_x_¯

T_D¯_{(T, ¯x}_T₎ _(3.20) Optymalna długość ścieżki wynosi:

D∗ = ˜D(T, ¯x∗

T) lub ¯D∗ = ¯D(T, ¯x∗

T) (3.21)

Jeżeli oznaczyć przez ˜Ψ (t + 1, ¯xt+1) przedostatni stan na optymalnej ścieżce kończącej się w chwili t + 1 w stanie ¯xt+1, to otrzymuje się następującą zależność:

Ψ (t + 1, ¯xt+1) = arg max¯xt_D˜_{(t, ¯x}_t_{) P (¯x}_t₊₁_|_¯x_t_{) P (¯y}_t₊₁_|_¯x_t₊₁₎ _(3.22) = arg minx¯t

n ¯

D(t, ¯xt) − log (P (¯xt+1|¯xt)) − log (P (¯yt+1|¯xt+1))o Algorytm Viterbiego opiera się na powyższych rozważaniach [159]. Można go przedstawić następująco:

1. Zdeﬁniowanie wartości początkowych: (a) Dla każdego i = 1, 2, . . . , ¯N,

i. ¯D(1, i) = −log P (¯x1 = i) − log P (¯y1|¯xi), ii. ˜Ψ (1, i) = 0.

3.1. WYKORZYSTYWANE METODY 63 2. Dla każdego t = 1, 2, ..., T − 1,

(a) Dla każdego ¯xt= 1, 2, . . . , ¯N, i. Oblicz ¯D(t + 1, ¯xt+1), ii. Zapamiętaj ˜Ψ (t + 1, ¯xt+1).

3. Zakończ t, długość optymalnej ścieżki wynosi ¯D∗, 4. Określ najlepszą sekwencję stanów ¯X∗,

5. Oblicz ¯x∗ T,

(a) Dla każdego t = T − 1, T − 2, . . . 1, i. ¯x∗ t = ˜Ψ t+ 1, ¯x∗ t+1 .

Logarytmowanie w algorytmie pozwala uniknąć problemów numerycznych wynikających z mnożenia małych liczb. Algorytm Viterbiego stosuje się często bezpośrednio w zadaniach uczenia i klasyﬁkacji. W pierwszym z nich, prawdopodobieństwa wyznacza się zliczając przejścia i obserwacje dotyczące stanów z optymalnej sekwencji ¯X∗ i modyﬁkując model aż do uzyskania zbieżności. W zadaniu klasyﬁkacji rozpoznanie opiera się na dominującym prawdopodobieństwie P _{Y , ¯}¯ _X∗|λ biorącym udział przy wyznaczaniu brzegowej wartości P_{Y |λ}¯

. Inny sposób uczenia zaproponowany przez Bauma i Welcha [159] jest wersją metody EM (ang. Expectation–Maximization). Polega on na wyznaczaniu prawdopodobieństw P (¯y_1:t,¯xt= i|λ) oraz P (¯yt+1:T|¯xt= i, λ) metodami, w przód i wstecz. Parametry modelu poprawiane są w sposób iteracyjny, kolejne kroki algorytmu prowadzą do maksymalizacji prawdopodobieństwa P_{Y |λ}¯

. Metoda nie gwarantuje uzyskania rozwiązania globalnego. Prawdopodobieństwo P _{Y |λ}¯

, występujące także w zadaniu klasyﬁkacji wyznacza się metodą w przód. Złożone procesy modeluje się zwykle wyodrębniając prostsze elementy i łącząc ich modele w odpowiednie struktury (sieci HMM). Dotyczy to np. modelowania zdań na podstawie modeli słów. Taką sieć przedstawia rys. 3.5. Reprezentuje ona sekwencje złożone z dwóch słów. Pomijając słowa start i stop, które wskazują na początek i koniec sekwencji, tak przedstawiona gramatyka umożliwia tworzenie dowolnych zdań złożonych ze słów: słowo1 i słowo2 (np. słowo1 słowo1 słowo2 słowo1 itd.). W przypadku gdy dostępne są modele Markowa jednostek mniejszych niż słowa,

Rysunek 3.5: Przykład sieci HMM, na podstawie [184]

słowa mogą być modelowane za pomocą takich modeli w sposób analogiczny do modelowania zdań za pomocą modeli słów.

Przygotowany model λ = (A, B, Π) może też posłużyć jako generator stanów i obserwacji. Dodatkowe i bardziej szczegółowe informacje na temat modeli Markowa można odnaleźć w [89, 159, 181, 184, 191].

Dzięki swoim właściwościom modelowania sekwencji obserwacji modele Markowa są często wykorzystywane w różnych zagadnieniach związanych ze sztuczną inteligencją tj. w modelowaniu mowy, rozpoznawaniu pisma ręcznego, rozpoznawaniu wzorców, czy nawet klasyﬁkacji dźwięków muzycznych [159].

W dokumencie Index of /rozprawy2/10638 (Stron 62-68)