• Nie Znaleziono Wyników

Wprowadzenie

Modele klas ukrytych (ang. latent class models), zwane również analizą klas ukrytych (ang. latent class analysis) należą do tzw. modeli ze zmiennymi ukrytymi (ang. latent variable models), w których ukrytą zmienną jest klasa.

Modele te można zaliczyć również do tzw. podejścia modelowego w taksonomii (ang. model-based clustering), gdzie wykorzystywana jest idea mieszanek roz-kładów (zob. Domański, Pruska, 2000; Witek, 2009). W odróżnieniu od

heury-stycznych metod taksonomicznych (tj. metod hierarchicznych, iteracyjno- -aglomeracyjnych), w których podstawą klasyfikacji obiektów do klas są

różne-go rodzaju miary odległości, w podejściu modelowym obiekty klasyfikowane są na podstawie prawdopodobieństw.

Istotą modelowania klas ukrytych jest badanie związków między katego-riami zmiennych nominalnych i porządkowych. Wykorzystuje ona dane zawarte w tablicy kontyngencji. Metoda ta została wprowadzona przez Lazarsfelda (1950) w latach 50. XX w., a w kolejnych latach rozwijana przez Goodmana (1970), który przyczynił się do rozwinięcia algorytmu pozwalającego otrzymać parametry funkcji największej wiarygodności, oraz Habermana (1979), który pokazał związek pomiędzy modelami klas ukrytych oraz modelami logaryt-miczno-liniowymi. Metoda ta nadal cieszy się dużym zainteresowaniem i rozwi-jana jest m.in. przez uczonych, takich jak Hagenaars (2002), Vermunt (2010), Linzer i Lewis (2011).

1. Model klas ukrytych – definicja

Rozważa się zbiór n obiektów, charakteryzowanych za pomocą zmiennych dychotomicznych lub politomicznych, zwanych zmiennymi obserwowanymi (ang. manifest variables) o wielu kategoriach l1

, K ,

lm (zob. Bąk, 2011). Zbiór

wszystkich obiektów można więc zapisać za pomocą wektora

obserwację na j-tej zmiennej o h-tej kategorii. Przyjmując, że liczba wszystkich kategorii jest równa

Model klas ukrytych dla danych jakościowych można zapisać jako mie-szankę rozkładów wielomianowych, w której zakłada się, że każda obserwacja

xi pochodzi z mieszanki wielowymiarowych rozkładów wielomianowych (ang.

mixture of multivariate multinominal distributions), określonej jako:

),

fs – funkcja gęstości ukrytej klasy Ps, (s-tego rozkładu składowego mieszanki), xi – wektor realizacji zmiennych obserwowanych xi

= [

xi1,K,xim1

]

,

Θs – wektor parametrów ukrytej klasyPs,

Θ – wektor wszystkich parametrów mieszanki rozkładów, Θ

= ( τ

s

,

Θs

)

,

τ

s – prawdopodobieństwo a priori – wartość prawdopodobieństwa, że dana

obserwacja należy do klasy Ps

( 0 1 ), .

1 s l s l

u

s

≥ ∧ ∑

s=

τ =

Θs

Θ

∀ ≠

τ

Rozkłady składowe można zaś zapisać jako:

, jako iloczyn m niezależnych rozkładów wielomianowych o parametrach Θsj. Parametry mieszanki oznaczone są za pomocą wektora Θ

= ( τ

1,K,u

,

Θ1,K,u

)

.

Dla danych estymatorów

τ ˆ

s i

Θ

sjh prawdopodobieństwa a posteriori przy-należności obiektów do poszczególnych klas mogą być obliczone za pomocą wzoru Bayes’a:

=

Należy zauważyć, że liczba szacowanych niezależnie parametrów modelu klas ukrytych wzrasta wraz z liczbą klas, zmiennych i ich kategorii. Liczba sza-cowanych parametrów wynosi u

j

(

lj

1 ) + (

u

1 )

. Jeżeli liczba ta przekro-czy liczebność zbioru lub łączną liczbę komórek w tablicy kontyngencji dla zmiennych obserwowanych, wtedy model klas ukrytych stanie się modelem nieidentyfikowalnym.

2. Model klas ukrytych z zmiennymi towarzyszącymi

Model klas ukrytych oprócz zmiennych obserwowanych może zawierać jeszcze tzw. zmienne towarzyszące (ang. covariates lub concomitant variables), mające wpływ na przynależność obiektów do klas – wpływ na prawdopodobień-stwa a priori (zob. np. Dayton i Macready, 1988; Hagenaars i McCutcheon, 2002). Zmienne towarzyszące wraz ze zmiennymi X1

, K ,

Xm biorą udział w szacowaniu parametrów modelu klas ukrytych, na podstawie którego będzie można dokonać klasyfikacji nowych obiektów bez udziału zmiennych obserwo-wanych. Zmienne towarzyszące wykorzystywane są często w badaniach marke-tingowych, ekonomicznych, psychologicznych, w których pozyskanie zmien-nych obserwowazmien-nych jest bardzo kosztowne (por. Witek, 2011).

Najczęściej parametry zmiennych towarzyszących szacowane są wraz z po-zostałymi parametrami modelu klas ukrytych (jednocześnie). Ten sposób esty-macji zwany jest jednokrokową techniką estyesty-macji parametrów zmiennych to-warzyszących (ang. one-step technique for estimating the effects of covariates) (zob. np. Dayton i Macready 1988; Hagenaars i McCutcheon, 2002). Alterna-tywnym sposobem estymacji parametrów zmiennych towarzyszących jest tzw.

podejście trzykrokowe (ang. three-step approach), w którym szacowane są pa-rametry klasycznego modelu klas ukrytych (1), następnie obliczane są prawdo-podobieństwa a posteriori (3). W kroku trzecim szacowane są parametry równa-nia regresji, gdzie prawdopodobieństwa te traktowane są jako zmienne zależne, a zmienne towarzyszące jako zmienne objaśniające. Jednakże Bolck, Crown i Hagenaars (2004) udowodnili, że w wyniku szacunku parametrów trzykrokową metodą estymacji, estymatory parametrów takiego modelu są obciążone.

Włączając do modelu klas ukrytych zmienne towarzyszące, zakładamy, że mają one wpływ na prawdopodobieństwa a priori. W klasycznym modelu klas ukrytych (bez zmiennych towarzyszących) zakładamy, że każda obserwacja ma takie samo prawdopodobieństwo przynależności do klasy ukrytej.

W przypadku gdy zmienne towarzyszące mają wpływ na prawdopodobieństwa przynależności obiektów do klas

( τ

s

)

, model klas ukrytych zapisać można jako:

),

Nadal jednak spełniony musi być warunek, że

.

τ

Wpływ zmiennych

towa-rzyszących na prawdopodobieństwa a priori wyrażany jest za pomocą wielo-mianowej funkcji logitowej (zob. Agresti, 2002).

Jeżeli w szacowaniu parametrów modelu klas ukrytych biorą udział zmien-ne towarzyszące, zazwyczaj pierwsza z klas jest tzw. klasą referencyjną. Zakłada się wtedy, że iloraz szans prawdopodobieństw a priori dla klas ukrytych, w po-równaniu do tej klasy (klasy referencyjnej) jest liniową funkcją zmiennych towa-rzyszących. Dla m2 zmiennych towarzyszących, wektor parametrów tych zmiennych

αs ma długość m2 +1 (dla każdej zmiennej towarzyszącej i wyrazu wolnego). Po-nieważ pierwsza klasa jest klasą referencyjną, z definicji α1 =0. Wtedy:

2

W wyniku kilku przekształceń otrzymujemy:

=

W modelu klas ukrytych z udziałem zmiennych towarzyszących, szacowa-nych jest więc u−1 wektorów αs, a także warunkowych prawdopodobieństw przynależności obiektów do klas ukrytych. Mając dane estymatory αˆs i

Θ

sjh, prawdopodobieństwa a posteriori i przynależności obiektów do klas uzyskiwane są poprzez zastąpienie

τ

s w równaniu (3) funkcją

τ

s

(

zi

;

α

)

z równania (8):

Liczba szacowanych parametrów takiego modelu klas ukrytych jest równa

3. Estymacja parametrów

Estymacja modelu klas ukrytych polega m.in. na oszacowaniu liczby i wielko-ści poszczególnych klas. Metodą największej wiarygodnowielko-ści szacowane są parame-try modelu klas ukrytych (4). Funkcja największej wiarygodności określona jest wzorem:

Popularną metodą szacowania parametrów największej wiarygodności jest algorytm EM (Dempster et al., 1977). W pakiecie poLCA wykorzystywana jest zmodyfikowana wersja algorytmu EM (zob. Bandeen-Roche et al., 1977). Pro-ces estymacji zapoczątkowany jest przez wartości startowe dla α)

'

si

Θ '

sjh, dzięki którym wyznaczone są prawdopodobieństwa a posteriori P(sxi,zi) dane wzo-rem (9). Parametry zmiennych towarzyszących szacowane (i uaktualniane) są zgodnie z formułą:

,

gdzie α)

'

sto wektor estymatorów parametrów zmiennej towarzyszącej, Dαto gradient, zaś Dα2 hesjan macierzy z parametrem α. Nowe wartości parametrów

Θ

sjh wyznaczane są za pomocą formuły:

Kroki algorytmu powtarzane są dopóty, dopóki przyrost funkcji wiarygod-ności nie będzie mniejszy niż zadana wartość graniczna lub nie zostanie osiągnięta maksymalna liczba iteracji. Wzory oraz szczegółowe informacje dotyczące gradien-tu Dα oraz hesjanu Dα2 można znaleźć w pracy Bandeen-Roche et al. (1997).

4. Wybór modelu i ocena jakości dopasowania

Jedną z głównych zalet modeli klas ukrytych jest to, że w odróżnieniu od popularnych metod taksonomicznych (tj. k-średnich, metody Warda), istnieje kilka statystycznych miar służących wyborowi i ocenie ich jakości dopasowania. Najczę-ściej w różnego rodzaju badaniach empirycznych na początku sprawdza się dopa-sowanie dla s=1. W kolejnych krokach zwiększa się liczbę klas o jeden, tak długo aż model osiągnie najlepsze dopasowanie. Należy jednak pamiętać, że wraz z do-datkową liczbą klas, liczba szacowanych parametrów wzrasta o

1 +

j

(

lj

1 )

, dlatego najczęściej wykorzystywane są kryteria informacyjne, będące wyrazem kompromisu pomiędzy jakością dopasowania a złożonością modelu. Do najbar-dziej popularnych kryteriów informacyjnych zaliczane są: Bayesowskie kryte-rium informacyjne Schwarza BIC (Bayesian Information Criterion), krytekryte-rium informacyjne Akaike AIC (Akaike Information Criterion). Kryteria te mogą dawać niejednoznaczne wskazania co do oceny modeli klas ukrytych.

Istnieje kilka formuł zapisu wspomnianych kryteriów oceny dopasowania modeli klas ukrytych. W pakietach programu R najczęściej wykorzystywane są kryteria podlegające minimalizacji. Można je przestawić na pomocą następują-cych wzorów:

) log(

) ˆ , ( log

2

P M v n

BICs

= −

xiΘs s

+

s , (13)

s s s i

s P M v

AIC

= − 2 log (

x Θ

ˆ , ) + 2

, (14)