• Nie Znaleziono Wyników

SPIS TRE

N/A
N/A
Protected

Academic year: 2021

Share "SPIS TRE"

Copied!
48
0
0

Pełen tekst

(1)

SPIS TREŚCI

WPROWADZENIE... 3

1. ISTOTA ANALIZY KLAS UKRYTYCH... 4

2. RYS HISTORYCZNY ANALIZY KLAS UKRYTYCH... 5

3. KLASYFIKACJA MODELI KLAS UKRYTYCH... 6

4. PODSTAWOWE ZAŁOŻENIA MODELU KLAS UKRYTYCH. ZAŁOŻENIE LOKALNEJ NIEZALEŻNOŚCI... 13

5. ESTYMACJA MODELU Z WYKORZYSTANIEM METODY NAJWIĘKSZEJ WIARYGODNOŚCI. OGRANICZENIA W ZASTOSOWANIU MNW... 17

6. ZAGADNIENIA SELEKCJI (WYBORU) MODELI... 19

7. KLASYCZNY MODEL KLAS UKRYTYCH DLA WSKAŹNIKÓW JAKOŚCIOWYCH (SKOKOWYCH)... 22

8. OCENA DOPASOWANIA MODELU... 27

9. PRZYKŁADY EMPIRYCZNE Z LITERATURY ZACHODNIEJ I POLSKIEJ.... 29

10. PREZENTACJA GRAFICZNA WYNIKÓW ANALIZY.... 35

11. ZASTOSOWANIE MODELU UKRYTYCH KLAS NA UŻYTEK PROCESÓW DEMOGRAFICZNYCH... 40

12. WYBRANE PROGRAMY KOMPUTEROWE... 46

LITERATURA... 47

(2)
(3)

WPROWADZENIE

Celem niniejszego opracowania jest przedstawienie wybranych zagadnień przedstawionych podczas seminarium szkoleniowego “Basic and Advanced Topics in Modelling” – Generalized Linear Models with Latent Variables. ZA Spring Seminar 2003, które odbyło się w dniach 17-21 marzec 2003 w Niemczech w Kolonii. Opracowanie nie zamieszcza przykładów własnych. Aplikacje takie są planowane w przyszłości. Tekst bazuje głownie na przykładach prezentowanych podczas szkolenia, jak również przykładzie zaczerpniętym z literatury demograficznej. Celem opracowania jest rozpowszechnianie informacji o nowych metodach i technikach badawczych i ich zastosowaniach.

W ostatnich latach opublikowano wiele prac na temat ukrytych zmiennych (Latent Class – LC) oraz skończonych mieszanych modeli1 niż na temat jakichkolwiek innych modeli statystycznych. Ów wzrost zainteresowania w temacie LC spowodowany jest rozwojem zaawansowanych algorytmów komputerowych, które pozwalają dzisiejszym

“maszynom” na przeprowadzenie analizy ukrytych klas na zbiorach danych zawierających więcej niż tylko kilka zmiennych. Co ciekawe, badacze coraz częściej zdają sobie sprawę z tego, że zastosowanie modeli ukrytych klas może dać przewagę nad tradycyjnymi podejściami analizy skupień, czy też analizy czynnikowej.

W takich dyscyplinach jak: socjologia, ekonomia czy psychologia do badania zależności, czy związku między badanymi zmiennymi łatwo jest zastosować metody statystyczne, w sytuacji gdy mamy do czynienia z obserwowalnymi cechami mierzalnymi.

Problem natomiast pojawia się, gdy w przypadku cech ukrytych, czyli takich, których nie da się bezpośrednio zmierzyć, a ich ocena jest subiektywna. Kolejnym zagadnieniem jest badanie charakteru i siły zależności między cechami niemierzalnymi (ukrytymi).2

Przykładami zmiennych ukrytych są między innymi: preferencje, nastawienia, intencje zachowań czy cechy osobowości. Takiego rodzaju charakterystyki mogą zostać jedynie zmierzone pośrednio przez średnie obserwowalnych wskaźników; np. poprzez kwestionariusz skonstruowany w taki sposób, by otrzymać odpowiedzi powiązane z nastawieniem, czy preferencjami. Z tego też powodu rozwinięto różne techniki skalowania

1 Pod pojęciem modeli mieszanych rozumie się modele które zawierają zmienne o różnych rozkładach.

2 A. Bartkowiak “Analiza struktur ukrytych” 22/05/2002, str. 1

(4)

by dostarczyć informacje o nieobserwowalnych cechach używając wskaźników.

Przykładem takich technik są modele z ukrytymi zmiennymi (latent class models).3

1. ISTOTA ANALIZY KLAS UKRYTYCH

Analiza ukrytych klas jest metodą statystyczną służącą do odkrywania podtypów w powiązanych ze sobą wielowymiarowych kategorialnych cech. Ukryta klasa określa pewną abstrakcyjną cechę lub charakterystykę, która nie może być zaobserwowana bezpośrednio.

Tak, więc jeśli ukryty konstrukt (construct) ma charakter skokowy, to znaczy cecha jest jakościowa i różnią się warianty – w ramach danej zmiennej, to można potraktować każdą cechę jako ukrytą klasę.

Podstawową ideą,4 której podlega analiza ukrytych klas jest bardzo prosta: niektóre parametry w postulowanym statystycznym modelu różnią się, co do ukrytych podgrup. Te podgrupy tworzą warianty ukrytych zmiennych skokowych. Idea, o której była mowa na początku ma kilka pozornie niezwiązanych ze sobą zastosowań, z których najważniejszymi są: clustering, scaling, density estimation oraz random effect modelling. Poza naukami społecznymi modele ukrytych klas odnoszą się często do skończonych modeli mieszanych (finite mixture models). Modele klas ukrytych dostarczają niezwykle ważnego narzędzia do analizy danych wielowymiarowych (D.J. Bartholomew, M. Knott 2002). Modele te oferują ramy modelowe, wewnątrz których wiele ważnych metod może zostać połączonych ale też z których nowe metody mogą być rozwijane. Model statystyczny określa wspólny rozkład zbioru losowych zmiennych i staje się modelem z ukrytymi zmiennymi w momencie gdy niektóre z tych zmiennych są nieobserwowalne. Pytaniem jest dlaczego wprowadzana jest w ogóle ukryta zmienna do modelu oraz co wnosi jej obecność z punktu widzenia analizy naukowej?

Pierwszą przyczyną zastosowania zmiennych ukrytych jest redukcja “wymiarowości”.

Jeśli informacja zawarta we wzajemnej relacji wielu zmiennych może zostać wyrażona w pewnym dobrym przybliżeniu w znacznie mniejszym zbiorze zmiennych to zdolność badacza do wyjaśniania struktury danych zmiennych wzrośnie. Jest to generalna idea przyświecająca analizie czynnikowej czy też zastosowaniu liniowych modeli strukturalnych. Z kolei modele klas ukrytych odpowiedzą na pytanie w jaki sposób ograniczyć liczbę zmiennych z którymi mamy do czynienia na początku badania do znacznie mniejszej liczby wskaźników minimalizując przy tym stratę informacji. Po drugie

3 J. K Vermunt i J. Magidson “Latent variable”, str. 1 (www.statisticalinnovations.com)

4 J. Magidson, J.K. Vermunt “A nontechnical introduction to latent class models”

(5)

ukryte wielkości są obecnie niezbyt trudne do znalezienia, coraz powszechniejsze, w obszarach zastosowań metod statystycznych. Dotyczy to przede wszystkim nauk społecznych.

Z formalnego statystycznego punktu widzenia nastąpił duży postęp jeśli chodzi o estymację i testowanie modeli ukrytych klas. Niektóre osiągnięcia w ekonometrii, biometrii i statystyce matematycznej – na polu modeli skończonych (finite models), modeli z nieobserwowalną heterogenicznością (unobserved heterogeneity) czy też modeli losowych (random effects models) – są blisko “spokrewnione” z modelami klas ukrytych.

Ponadto w naukach społecznych i behawioralnych odkryty został bliski związek między modelami klas ukrytych a modelami logarytmiczno-liniwymi oraz związek między modelami klas ukrytych a modelami IRM (Item Response Modelling) (J. A. Hagenaars, A. L. McCutcheon 2002). Doprowadziło to do sytuacji, w której analiza klas ukrytych stała się postrzegana jako ogólny model z ukrytymi zmiennymi dla jakościowych zmiennych.

Wreszcie analiza klas ukrytych dostarcza bardzo użytecznych narzędzi pozwalających znaleźć odpowiedź na wiele pytań w naukach społecznych i behavioralnych.

Pomimo że obecnie dostępnych jest wiele programów, które w łatwy sposób pozwalają na zastosowanie modeli klas ukrytych to “praktykujący” badacze nie zawsze uważają analizę klas ukrytych jako dobrą alternatywę dla lepiej znanych technik, takich jak analiza czynnikowa czy modelowanie liniowe równań strukturalnych nawet w przypadku gdy analiza klas ukrytych jest bardziej właściwa do zastosowania w danej sytuacji.

2. RYS HISTORYCZNY ANALIZY KLAS UKRYTYCH

Problem mierzenia relacji (związku) czy też braku niezależności między dwoma lub więcej obserwowalnymi (dycho- poli- tomicznymi) zmiennymi ma długą historię. Już w XIX wieku temat ten był podejmowany przez badaczy w różnych obszarach zastosowań (J. A. Hagenaars, A. L. McCutcheon 2002). Z kolei zastosowanie modeli klas ukrytych jako narzędzia pozwalającego na głębsze zrozumienie zaobserwowanego związku ma znacznie krótszą historię. Ciekawe jest jednak iż modele, które powstały wcześniej są odpowiednikami pewnych specjalnych odmian modeli klas ukrytych czy innych modeli struktur ukrytych. Jednakże główny rozwój modeli klas ukrytych datuje się na drugą połowę XX wieku, natomiast praktyczne zastosowanie tych modeli, na różnych polach badawczych, w ostatnim dwudziestopięcioleciu.

(6)

Analiza ukrytych klas została wprowadzona w 1950 roku przez Lazarfeld’a, który użył tej techniki jako narzędzia do zbudowania pewnej typologii, segmentów na podstawie zaobserwowanych dychotomicznych zmiennych. Ponad 20 lat później w 1974 Goodman uczynił go użytecznym w praktyce dzięki rozwinięciu algorytmu pozwalającego otrzymać estymatory metody największej wiarogodności parametrów modelu. Ponadto zaproponował rozwinięcie dla politomicznych (polytomous)5 zmiennych obserwowalnych oraz wielokrotnych ukrytych zmiennych. Goodman opracował również bardzo wiele w temacie identyfikacji modelu. W tym samym okresie Haberman (1979) pokazał związek pomiędzy modelami ukrytych klas oraz modelami logarytmiczno-liniowymi dla tabel częstości z brakującymi (nieznanymi) liczebnościami komórek. Od tamtego czasu zaproponowanych zostało bardzo wiele ważnych rozwinięć klasycznych modeli ukrytych klas, takich jak np. modeli zawierających ciągłe zmienne, lokalne niezależności, porządkowe zmienne, kilka ukrytych zmiennych oraz powtarzalne miary. Ogólne ramy dla analizy kategorialnych zmiennych ze skokowymi zmiennych ukrytymi zostały opracowane przez Hagenaars’a (1990) i rozwinięte przez Vermunt’a (1997).

Podczas gdy w naukach społecznych modele ukrytych klas oraz modele mieszane są traktowane jako narzędzia używane głównie w analizie jakościowych danych, natomiast mogą one być z powodzeniem wykorzystywane również w kilku innych obszarach analiz.

Jednym z nich jest estymacja funkcji gęstości, w której wykorzystuje się fakt, iż złożone funkcje gęstości mogą być przybliżane do ich kombinacji ze skończonymi elementami o prostszej funkcji gęstości. Analiza ukrytych klas może być również wykorzystywana jako narzędzie do probabilistycznej analizy skupień dla ciągłych zmiennych obserwowalnych.

Jest to podejście oferujące wiele zalet w stosunku do tradycyjnych technik wykorzystywanych w analizie skupień takich jak “segmentowanie” za pomocą metody K- średnich. Kolejnym obszarem zastosowania jest zajmowanie się, radzenie sobie z nieobserwowalną heterogenicznością; np. w analizie regresji z zależnymi obserwacjami.

3. KLASYFIKACJA MODELI KLAS UKRYTYCH

Model z ukrytymi zmiennymi jest nieliniową ścieżką analizy problemu. Ponadto model zawiera jedną lub więcej ukrytych zmiennych reprezentujących interesujące

5 zmienna politomiczna to zmienna z wieloma kategoriami w przeciwieństwie do zmiennej dychotomicznej, która posiada tylko dwie kategorie.

(7)

badającego charakterystyki, które nie są obserwowalne. Istnieją dwa podstawowe założenia definiujące przyczynowy mechanizm, któremu podlegają odpowiedzi.

Pierwsze, zakłada się, że odpowiedzi dotyczące wskaźników są wynikiem wpływu jednostki na ukrytą zmienną.

Po drugie zmienne obserwowalne nie mają ze sobą nic wspólnego po wprowadzeniu zmiennych ukrytych; co jest często referowane jako aksjomat lokalnej niezależności.

Pozostałe dwa założenia dotyczą rozkładu ukrytych jak i obserwowalnych zmiennych.

Rozkład tych zmiennych determinuje różne rodzaje modeli. Tak jak podaje Bartholomew wyróżniamy cztery główne rodzaje modeli:

analiza czynnikowa (FACTOR ANALYSIS – FA)

analiza z ukrytymi charakterystykami (LATENT TRAIT ANALYSIS – LTA)

analiza z ukrytymi profilami (LATENT PROFILE ANALYIS – LPA)

analiza z ukrytymi zmiennymi (LATENT CLASS ANALYSIS – LCA)

Tablica 1. Klasyfikacja metod analizy klas ukrytych

Zmienna ukryta Zmienna obserwowalna Ciągła Skokowa

Ciągła FA LPA

Skokowa LTA LCA

Źródło: D.J. Bartholomew i M. Knott 2002, Latent Variable Models and Factor Analysis, str. 3

Jak pokazuje powyższe zestawienie, w FA oraz LTA zmienne ukryte są traktowane jako ciągłe o rozkładzie normalnym. Z kolei zmienne obserwowalne są ciągłe i w większości przypadków warunkowy rozkład zmiennych obserwowalnych dla danych ukrytych zmiennych jest zakładany jako normalny. Natomiast w przypadku LPA i LCA ukryte zmienne są skokowe i zakłada się, że pochodzą z rozkładu wielomianowego, natomiast zmienne niezależne (wskaźniki) obserwowalne są dychotomiczne, porządkowe czy też nominalne jakościowe, a ich rozkłady warunkowe mają rozkład dwu- lub wielomianowy.

LPA oraz LCA składają się na analizę ukrytych struktur, opartej na założeniu, że zmienne obserwowalne są wskaźnikami pewnej ukrytej struktury. Głównym aspektem analizy jest powiązanie pomiędzy zmiennymi obserwowalnymi i ukrytymi, które można przedstawić za pomocą formalnych modeli matematycznych. Wspomniana analiza

(8)

ukrytych struktur powstała na potrzeby nauk społecznych; w socjologii służy mierzeniu postaw społecznych, w psychologii dotyczy raczej zdolności niż postaw a w ekonomii przy badaniu np. jakości życia, statusu ekonomicznego, opinii czy aktywności konsumenta.6

Fundamentalnym założeniem we wspomnianej wcześniej typologii Bartholomew’a jest rozróżnienie pomiędzy zmienną ciągłą i skokową. Badacz musi sam zadecydować czy bardziej naturalnym jest traktować zmienne jako ciągłe czy też skokowe. Jednakże jak wykazał Heinen (T. Hainen 1996), rozkład ukrytej ciągłej zmiennej może być aproksymowany przez rozkład skokowy, co pokazuje, że rozgraniczenie z początku tego akapitu nie jest wcale takie fundamentalne jakby można było początkowo sądzić.

Specyfika rozkładów warunkowych zmiennych objaśniających wynika naturalnie z typu przyjętej skali. Dynamiczny rozwój modeli z ukrytymi zmiennymi w naturalny sposób skłania się ku temu by dopuścić różny rozkład dla każdej ze zmiennych. Mogą to być:

rozkłady: normalny, t-studenta, lognormalny, gamma czy wykładniczy dla zmiennych ciągłych; rozkłady: dwumianowy dla dychotomicznych zmiennych, wielomianowy dla porządkowych i nominalnych oraz Poisson’a, dwumianowy i dwumianowy odwrotny dla liczebności. Zależnie od tego czy zmienna ukryta jest traktowana jako ciągła czy skokowa otrzymuje się jedną z form modeli: LTA lub LCA.7

Dotychczas omówiono modele klas ukrytych dla wskaźników jakościowych.

Jednakże podstawowe założenie analizy ukrytych klas mówiące o tym, że parametry statystycznego modelu różnią się pomiędzy nieobserwowalnymi podgrupami, może również być nakładane na modele ze zmiennymi różnych typów skali. W literaturze przedmiotu wyodrębnia się 3 ważne typy aplikacji modeli klas ukrytych lub skończonych modeli mieszanych, które nie mieszczą się w ramach jakościowej analizy danych, a mianowicie: segmentacja ze zmiennymi ciągłymi, estymacja funkcji gęstości i modelowanie efektów losowych (random-effect modelling).

W ciągu ostatnich 10 lat powróciło zainteresowanie analizą ukrytych klas jako narzędzia do analizy skupień z ciągłymi zmiennymi. Model ukrytych klas może być postrzegany jako probabilistyczny albo jako oparty na modelu (modelowy) wariant tradycyjnej niehierarchicznej procedury analizy skupień jak np. metoda K-średnich.

Pokazano, że procedura segmentowania oparta na ukrytych klasach jest skuteczniejsza od

6 A. Bartkowiak ..., str. 1 i 2

7 Ibidem, str. 2

(9)

większości tradycyjnych metod ad hoc.8 Metoda ta znana jest jako: model ukrytego profilu (latent profile model), segmentowanie modelu mieszanego, oparte na modelu segmentowanie, ukryta analiza dyskryminacyjna oraz segmentowanie ukrytych klas. W podstawowej formule modelu prawdopodobieństwa zostały zastąpione przez gęstości. Z ciągłymi zmiennymi, klasowo wyszczególnione gęstości zazwyczaj są przyjmowane jako (ograniczone) wielowymiarowe normalne, gdzie każda ukryta klasa posiada swój własny średni wektor oraz macierz kowariancji. Innym ważnym zastosowaniem ukrytych klas jest nieparametryczny model efektów losowych. Leżący u podstaw pomysł polega na tym, że parametry modelu regresji mogą się różnić w obrębie nie obserwowalnych podgrup. Dla tego rodzaju analizy, do której często nawiązuje się jako do analizy regresji ukrytych klas, zmienna ukrytych klas (ukryta klasa) pełni rolę zmiennej uśredniającej (moderating). Owa metoda jest bardzo podobna do modeli regresji dla powtarzalnych miar lub zbiorów dwupoziomowych danych, z tą różnicą, że brak jest założenia dotyczącego rozkładu losowych czynników.

Tradycyjne modele używane w analizie regresji, analizie dyskryminacyjnej czy log- liniowej zawierają parametry, które opisują tylko zależności między obserwowalnymi zmiennymi. Modele ukrytych klas różnią się od poprzednio wspomnianych tym, że zawierają jedną lub więcej skokowych nie obserwowalnych zmiennych. W badaniach marketingowych interpretuje się kategorie ukrytych klas, (ukrytych zmiennych) jako segmenty. Wśród swoich zastosowań analiza ukrytych klas dostarcza nowego narzędzia, pomagającego zidentyfikować ważne segmenty rynkowe w marketingu.

Ostatnio został wykryty bliski związek pomiędzy modelami ukrytych klas oraz modelami efektów losowych (random effects models – REM). Ponadto uwidoczniło się również powiązanie między ukrytymi klasami a “ukrytymi warstwami” w najszerzej używanym modelu sieci neuronowych (multilayer perceptron – MLP). Rozwój tych technik otworzył drogę do zastosowania modeli ukrytych klas w nieliniowej regresji dostarczając udoskonaleń, przewagi nad obecnymi podejściami REM i MLP jeśli chodzi o szybkość i skuteczność estymacji, a także interpretacji wyników.

Modele ukrytych klas nie polegają założeniom tradycyjnego modelowania, które w praktyce są często naruszane; chodzi o liniowy związek, rozkład normalny czy homogeniczność. Stąd, są mniej podatne na obciążenia (dotyczące) związane z danymi, które nie podlegają modelowym założeniom. Również dla polepszenia opisu (i predykcji)

8 metody ad hoc nie zakładają “z góry” przed dokonaną analizą istnienie pewnych prawidłowości w analizowanych zmiennych np. ilość analizowanych klas.

(10)

segmentów, związek między ukrytymi klasami a zmiennymi (covariates) może być szacowany jednocześnie wraz z identyfikacją klas (segmentów). To pozwala na wyeliminowanie stosowanego zazwyczaj drugiego kroku analizy, w której analiza dyskryminacyjna jest przeprowadzana w celu powiązania segmentów lub czynników, otrzymanych tradycyjnymi metodami, z demograficznymi lub innymi zmiennymi. Ostatnio modele ukrytych klas zostały rozszerzone o zmienne o różnych typach skali (nominalne, porządkowe, ciągłe oraz liczebności) zawarte w tej samej analizie.

Poniżej przedstawiono krótką charakterystykę 3-ch rodzajów modeli ukrytych klas.

Analiza wykorzystująca te modele może być wykorzystana do analizy jako substytucyjna do tradycyjnych technik analizy skupień, jako narzędzie zastępujące tradycyjną analizę czynnikową – redukującą wymiarowość, oraz jako narzędzie estymacji osobnych modeli regresji dla poszczególnych segmentów.

Istnieją trzy główne obszary analizy z wykorzystaniem modeli ukrytych klas, które to obejmują: umieszczanie analizowanych przypadków w segmentach, redukcję zmiennych, konstrukcję skali oraz predykcję zmiennej zależnej.

Można więc wyróżnić trzy główne rodzaje modeli ukrytych klas:

modele ukrytych klas z wykorzystaniem segmentów (Latent Class Cluster Models)

modele ukrytych klas z wykorzystaniem czynników (Latent Class Factor Models)

modele ukrytych klas w regresji i modelach wyboru (Latent Class Regressioon and Choice Models).

Modelowanie ukrytych klas z wykorzystaniem segmentacji polega na identyfikacji segmentów obejmujących jednostki obserwacji mających te same zainteresowania, charakteryzujących się takimi samymi postawami, zachowaniem czy wyznających te same wartości. LC Cluster Modele zawierają zmienną ukrytą o K – kategoriach, z których każda reprezentuje segment. Przewagę jaką powyżej wspomniane modele mają nad tradycyjną analizą skupień to:

klasyfikacja, przynależność bazuje na prawdopodobieństwach wyestymowanych bezpośrednio z modelu

zmienne mogą być ciągłe, kategorialne (nominalne lub porządkowe) lub liczebności, lub ich dowolną kombinacją

do opisu segmentów można używać zmiennych demograficznych oraz innych zmiennych objaśniających.

(11)

Tradycyjne podejście wykorzystują podejście algorytmu “niekontrolowanego” uczenia się (klasyfikacji), którego mechanizm polega na grupowaniu cech, które są “blisko” siebie biorąc przyjmując ad hoc definicję “dystansu”. W ostatniej dekadzie zainteresowanie przesunęło się w stronę modeli bazujących na podejściu wykorzystujących oszacowane prawdopodobieństwa do sklasyfikowania cech do odpowiedniej klasy. Najpopularniejszy model wykorzystuje podejście, w którym każda ukryta klasa reprezentuje ukryty segment.

W badaniach marketingowych metoda ta nazywana jest “ukrytą analizą dyskryminacyjną”.

W dzisiejszych czasach posiadając szybkie komputery w łatwy sposób można przeprowadzać te żmudne obliczeniowo analizy.

W przypadku zmiennej ciągłej Magidson i Vermunt pokazali, że analiza ukrytych klas z wykorzystaniem klas daje taki sam wynik, jak w przypadku zastosowania algorytmu K - średnich.

W przypadku modeli ukrytych klas z wykorzystaniem czynników:

mamy do czynienia z identyfikacją czynników, które grupują ze sobą zmienne posiadające to samo źródło wariancji,

model może zawierać kilka porządkowych ukrytych czynników, z których każdy ma 2 lub więcej poziomów,

czynniki mogą być skorelowane lub nieskorelowane (ortogonalne).

Zalety powyższych modeli nad tradycyjną analizą czynnikową są następujące:

nie ma potrzeby obracania czynników by je interpretować,

estymacja ocen czynników metodą największej wiarogodności są otrzymywane bezpośrednio z modelu bez nakładania dodatkowych założeń,

zmienne mogą być ciągłe, jakościowe (nominalne lub porządkowe) lub liczebności, lub ich dowolną kombinacją,

rozbudowane modele czynnikowe mogą być oszacowane zawierając zmienne objaśniające oraz skorelowane reszty.

Z kolei tradycyjne podejście analizy czynnikowej stosowane przez badaczy marketingowych zawiera:

szacowanie złożonych zmiennych z przedmiotów badań będących postawami,

szacowanie “perceptualnych” map i wykresów wiążących ze sobą produkt i jego markę z zachowaniami, postawą oraz cechami demograficznymi jednostek,

estymacja ocen faktorów,

bezpośrednią konwersję, przejście od faktorów do segmentów.

(12)

Ponadto analiza ukrytych klas z wykorzystaniem czynników może być przeprowadzona dla mniejszej liczby zmiennych niż tradycyjna analiza czynnikowa. Na przykład: w przypadku tradycyjnej analizy czynnikowej potrzeba przynajmniej trzech zmiennych ciągłych i taka właśnie analiza biorąca pod uwagę 3 zmienne daje tylko jeden czynnik. Natomiast w przypadku modelu ze zmiennymi ukrytymi 3 zmienne dychotomiczne dostarczają 1 czynnik. Oczywiście analiza ukrytych klas z wykorzystaniem czynników nie ogranicza się tylko do zmiennych dychotomicznych, a włączenie do analizy dodatkowych zmiennych pozwala na identyfikowanie kolejnych czynników. Na przykład w analizie jednej lub dwóch ciągłych zmiennych, nawet bez zmiennych objaśniających może dostarczyć w rozwiązaniu 2 lub więcej czynników. Co więcej, wyniki dwu- czynnikowego rozwiązania mogą być czytelnie zilustrowane graficznie.9

Wreszcie model ukrytych klas w regresji, znany również jako model segmentacji ukrytych klas, charakteryzuje się tym, że:

jest wykorzystywany do predykcji zależnej zmiennej będącej funkcją predyktorów,

zawiera zmienną ukrytą o R-kategoriach, z których każda reprezentuje homogeniczną populację (klasę, segment),

dla każdego z ukrytych segmentów można wyestymować inny model regresji,

klasyfikuje cechy w segmenty i symultanicznie szacuje dla każdego z nich modele regresji.

Zaletami, którymi może się podejście poszczycić, jest to, iż:

osłabienie tradycyjnych założeń, mówiących o tym, że każdy model dla wszystkich cech zakłada R=1, co pozwala na oszacowanie osobnego modelu regresji dla każdego z segmentów,

diagnostyczne statystyki pozwalają na określenie wartości dla R,

w przypadku, gdy R>1, model może zostać rozszerzony o dodatkowe zmienne objaśniające, by przeprowadzona analiza była dokładniejsza i by przyporządkowanie do segmentu było bardziej klarowne.

Typowe zastosowanie w marketingu tradycyjnego odpowiednika powyższego modelu ukrytych klas zawiera:

9 (Modele czynnikowe mogą mieć również zastosowanie, gdy mamy do czynienia z mierzeniem i klasyfikacją błędów w jakościowych zmiennych. Właściwie można to porównać do modeli ukrytych charakterystyk (IRT), w przypadku których nie jest wymagane założenie o normalności rozkładu charakterystyk (traits) poddanych analizie.)

(13)

studia, analiza satysfakcji klienta: identyfikację poszczególnych determinant satysfakcji klienta, które są odpowiednie dla każdego segmentu,

wspólne studia: identyfikacja atrybutów produktów, które należą do różnych segmentów rynku,

bardziej ogólnie: identyfikacja ukrytych segmentów, które mogą wyjaśnić nieobserwowalną heterogeniczność wśród danych.

Zatem ogólnie rzecz biorąc, opisane modele (Latent Class Models) oferują ciekawe podejście badaczom, których obszarami zainteresowania jest szeroko pojęty marketing i identyfikacja segmentów rynkowych, ale nie tylko, mogą one również znaleźć zastosowanie w innych dziedzinach nauk społecznych i ekonomicznych.

4. PODSTAWOWE ZAŁOŻENIA MODELU KLAS UKRYTYCH.

ZAŁOŻENIE LOKALNEJ NIEZALEŻNOŚCI

Konstrukcja modelu Latent Class Model jest oparta na przyjęciu trzech założeń:

Pierwsze - Liczebności klas - oznacza to, że klasy wykluczają się na wzajem, co implikuje to, że wszystkie osoby mogą być przyporządkowane jednej z nich, naturalnie z określonymi prawdopodobieństwami.

Drugie - Określone przyporządkowane klasom prawdopodobieństwa (pozycje, przyszeregowania) spełniają:

i=I1

Π

iA'X =1 dla i = 1 ... I

jJ=1

Π

Bj'X =1 dla j = 1 .... J (1) gdzie: B’X - prawdopodobieństwo zrealizowania się zdarzenia B;

A’X - prawdopodobieństwo zrealizowania się zdarzenia A.

Każda z klas ma dla każdego wyrażenia wszystkich zaobserwowanych zmiennych określone prawdopodobieństwo = prawdopodobieństwo warunkowe. I właśnie te prawdopodobieństwa charakteryzują klasy, ich zróżnicowanie wewnątrz każdej z nich oraz pomiędzy nimi.

Trzecie - Lokalna stochastyczna niezależność - oznacza to, że wewnątrz każdej z klas odpowiedzi respondentów na zmienne (pytania) są brane jako stochastycznie niezależne;

co oznacza, że prawdopodobieństwo wszystkich odpowiedzi poszczególnej osoby wewnątrz klas równe jest produktowi prawdopodobieństwa jego pojedynczej odpowiedzi.

(14)

W modelu klas ukrytych brak jest ograniczającego założenia o liniowości, normalności rozkładu danych czy też jednorodności wariancji.

Analiza ukrytych klas obejmuje analizę ukrytych charakterystyk (np. inteligencji, zadowolenia, postawy), czyli takich, których nie można bezpośrednio zmierzyć. Jednakże poprzez analizę zmiennych mierzalnych, manifestowanych i próbę znalezienia związku między tymi zmiennymi a ukrytą lub ukrytymi zmiennymi, które są właściwym obiektem badań. Badając np. dwie dychotomiczne zmienne w poniższej tablicy kontyngencji.

Tablica 2. Tablica kontyngencji dla przykładu zwolenników dwóch seriali.

Oglądam regularnie serial

“Strasznie miła rodzina”

Oglądam regularnie

“Tematy dnia”

Tak Nie

Tak 93 197 290

Nie 417 93 510

510 290 800

Źródło: Prof. Herrmann, University of Mainz, Department of Marketing

Sprawdzając zależność między tymi zmiennymi używając testu Chi-kwadrat otrzymujemy obliczoną statystykę na poziomie 197,6 przy 1 stopniu swobody, co oczywiście daje podstawy do odrzucenia hipotezy mówiącej o braku zależności między badanymi zmiennymi. Jaka jest przyczyna występowania tej zależności? W tej sytuacji należałoby się doszukiwać czegoś ukrytego, czegoś co nie jest mierzalne. Odpowiedź brzmi: ukryta zmienna. Ukryta zmienna odpowiada za przynależność respondentów do jednej z np.

dwóch klas. Jeżeli zatem założymy, że ukryta wyrażana jest przez dwie klasy. Następnym krokiem przeprowadzenia analizy ukrytych klas jest wyznaczenie osobnej tablicy kontyngencji dla każdej z klas, tak aby wewnątrz klas zachowana została tzw. lokalna niezależność.

Tablica 3a. Tablica kontyngencji dla KLASY NR1 – 300 osób Oglądam regularnie serial

“Strasznie miła rodzina”

Oglądam regularnie

“Tematy dnia”

Tak Nie

Tak 48 192 240

Nie 12 48 60

60 240 300

(15)

Źródło: jak w tablicy 2.

Tablica 3b. Tablica kontyngencji dla KLASY NR2 – 500 osób Oglądam regularnie serial

“Strasznie miła rodzina”

Oglądam regularnie

“Tematy dnia”

Tak Nie

Tak 45 5 50

Nie 405 45 450

450 50 500

Źródło: jak w tablicy 2.

Obecność ukrytych klas jest przyczyną istnienia zależności między powyższymi zmiennymi. Przesłanką dla przeprowadzenia analizy są:

tablica kontyngencji z obserwacjami,

założenie o liczbie obserwacji w każdej z klas

istnienie niezależności wewnątrz klas (każda z osób może być przyporządkowana tylko do jednej z klas).

Z przedstawionego prostego przykładu wynika cel analizy ukrytych klas. Analiza ukrytych klas ma na celu znalezienie, zdefiniowanie odpowiedniej liczby klas, w których zaobserwowane zmienne są od siebie niezależne, co odpowiada tzw. lokalnej niezależności.

Ponadto lokalna niezależność oznacza również niezależność wewnątrz każdej z klas.

Chcąc wyprowadzić model z powyższego przykładu należy najpierw wprowadzić odpowiednie oznaczenia:

A - zmienna - Oglądam regularnie serial “Strasznie miła rodzina”

i - warianty zmiennej A

B - zmienna - Oglądam regularnie “Tematy dnia”

j - warianty zmiennej B X - zmienna ukryta

t - warianty zmiennej X (t=1,...,T), w przykładzie T=2

Пij - prawdopodobieństwo, że respondent wybierze i-ty oraz j-ty wariant odpowiednio zmiennej A i B

pij - zaobserwowana wartość Пij

∑ Π Π

= T=

i

ABX ijt ij

1

(2)

(16)

Zaobserwowane zmienne można wyrazić jako funkcję wielu nieznanych parametrów w postaci:

Π Π

Π

Π

ijtABX = tX* itA'X* Bjt'X (3)

gdzie:

wyrażenia po prawej stronie równania oznaczają odpowiednio:

Π

tX - prawdopodobieństwo przynależności do klasy t

Π

itA'X - warunkowe prawdopodobieństwo, że respondent wybrał i-ty wariant zdarzenia A, pod warunkiem znalezienia się w klasie t

Π

Bjt'X - warunkowe prawdopodobieństwo, że respondent wybrał j-ty wariant zdarzenia B, pod warunkiem znalezienia się w klasie t

W przykładzie "telewizyjnym", załóżmy, że mielibyśmy dane wszystkie nieznane parametry:

Zaobserwowana zmienna:

p11 = 93 / 800 = 0,116

Prawdopodobieństwo przynależności do klas:

П1X = 300 / 800 = 0,375 П2X = 500 / 800 = 0,625

Warunkowe prawdopodobieństwa bycia w klasie 1:

П11A'X = 0,2 П11B'X = 0,8

Warunkowe prawdopodobieństwa bycia w klasie 2:

П12A'X = 0,9 П12B'X = 0,1

Łatwo podstawić do wzoru ogólnego powyższe współczynniki by otrzymać wartość prawdopodobieństwa Π11:

Π11 = Σ ΠtX * ΠitA’X * ΠjtB’X

0,116 = 0,375*0,2*0,8 + 0,625*0,9*0,1

(17)

Jednakże nieznane są wartości parametrów znajdujących się po prawej stronie ogólnego wzoru, zatem najpierw muszą one zostać oszacowane przy pomocy użycia metody największej wiarogodności (Maximum Likelihood Estimation – MLE).

5. ESTYMACJA MODELU Z WYKORZYSTANIEM METODY NAJWIĘKSZEJ WIARYGODNOŚCI. OGRANICZENIA W ZASTOSOWANIU MNW

Niech I oznacza całkowitą liczbę wariantów możliwych odpowiedzi w L-wymiarowej tabeli częstości, tak że

=

= L

l

Dl

I

1

, oraz niech i oznacza konkretną daną wejściową, ni zaobserwowaną częstość w komórce i, oraz P(Y=yi) prawdopodobieństwo posiadania schematu odpowiedzi komórki i.

Do oszacowania parametrów modeli ukrytych klas używa się metody największej wiarogodności. Istotą MNW jest budowa funkcji wiarogodności, która jest maksymalizowana. Dla wygody obliczeń zazwyczaj wykorzystuje się logarytm funkcji wiarygodności który zapisuje się jako:

=

=

= I

i

i

i P Y y

n L

1

) (

ln

ln (4)

Należy zauważyć, że tylko niezerowe zaobserwowane dane wejściowe odnoszą się do funkcji wiarogodności, jest to cecha którą wykorzystuje bardziej wydajne oprogramowanie stworzone do szacowania ukrytych klas, stworzone na przestrzeni ostatnich lat.

Pierwszym z różnych problemów powstałych przy szacowaniu modeli ukrytych klas jest to, że parametry modelu mogą być niezidentyfikowane nawet, jeśli liczba stopni swobody jest większa lub równa zero. Nieidentyfikowalność oznacza różne zbiory wartości parametrów dają takie same maksimum funkcji log-wiarogodności albo inaczej mówiąc, że nie ma jedynego zbioru oszacowań parametrów. Formalnie sprawdza się identyfikację poprzez zidentyfikowanie dodatniej macierzy informacji. Kolejnym sposobem jest szacowanie modelu z różnymi zbiorami wartości (danych) początkowych. Poza rozwiązaniami lokalnymi zidentyfikowany model daje takie same wyniki dla każdego zbioru wartości początkowych.

(18)

Pomimo, że brak jest pewnych ogólnych zasad uwzględniających identyfikację modeli ukrytych zmiennych możliwe jest wyznaczenie konkretnych oczekiwań i wskazanie błędów (niezgodności). Przy braku ograniczeń dla analizy ukrytych klas potrzebne są co najmniej 3 wskaźniki, ale w przypadku gdy są one dychotomiczne to nie więcej niż 2 ukryte klasy mogą być zidentyfikowane. Należy uważać przy 4 dychotomicznych zmiennych, w którym to przypadku 3 klasowy model bez nałożonych ograniczeń jest niezidentyfikowany, pomimo, że posiada dodatnią liczbę stopni swobody. Z 5 dychotomicznymi wskaźnikami nawet pięcioklasowy model jest identyfikowalny. Zwykle możliwe jest osiągnięcie identyfikacji poprzez ograniczanie konkretnych parametrów modelu: np. ograniczenia P(Yl=1|X=1)=P(Yl=2|X=2) mogą być wykorzystane do zidentyfikowania modelu dwuklasowego z dwiema dychotomicznymi wskaźnikami.

Drugi problem, który odnosi się do estymacji modeli ukrytych klas to obecność lokalnych maksimów. Funkcja log-wiarogodności modelu ukrytych klas nie zawsze jest wypukła, co oznacza rosnące (wstępujące) algorytmy mogą zbiegać się do innego maksimum zależnie od wartości początkowych. Zazwyczaj najlepszym sposobem jest więc, oszacować model przy użyciu różnych zbiorów losowych wartości początkowych. Zazwyczaj kilka zbiorów zbiega się do tej samej najwyższej wartości funkcji log-wiarogodności, które później mogą zostać przypisane rozwiązaniom największej wiarogodności. Niektóre programy zautomatyzowały używanie kilku zbiorów losowych wartości początkowych aby zredukować prawdopodobieństwo otrzymania rozwiązania lokalnego.

Trzecim problemem w modelowaniu ukrytych klas jest pojawianie się rozwiązań granicznych, które są prawdopodobieństwami równymi 0 lub 1, albo log-liniowymi parametrami dążącymi do + lub – nieskończoności. One to mogą powodować obliczeniowe problemy w szacowaniu algorytmów, pojawianie się rozwiązań lokalnych, komplikacje w obliczaniu (szacowaniu) standardowych błędów i liczby stopni swobody dla testów zgodności. Można zapobiec pojawianiu się rozwiązań granicznych poprzez narzucanie ograniczeń lub biorąc pod uwagę inne rodzaje wcześniej istniejących informacji o parametrach modelu.

Najbardziej popularnymi metodami numerycznymi wykorzystywanymi w estymacji modeli są algorytmy EM-Expectation-Maximization oraz Newton-Raphson-NR.

EM jest bardzo stabilną iteracyjną metodą do szacowania maksymalnej wiarogodności z niekompletnymi danymi. NR jest szybszą procedurą, jednakże aby funkcjonować potrzebuje dobrych wartości początkowych. Druga z tych metod wykorzystuje macierz

(19)

drugiego rzędu pochodnych funkcji log-wiarogodności, która jest również potrzebna dla otrzymania standardowych błędów parametrów modelu.

6. ZAGADNIENIA SELEKCJI (WYBORU) MODELI

W przypadku modeli klas ukrytych niektóre z kryteriów oceny dopasowania modelu stały się w większym lub mniejszym stopniu standardowe. Cała procedura sprowadza się do sprawdzenia jak dobrze teoretyczne liczebności komórek replikują empiryczne zaobserwowane liczebności. Najczęściej używanymi testami są: Chi-kwadrat, likelihood ratio L2, AIC oraz BIC10. Wszystkie te testy sprowadzają się do porównywania między teoretycznymi częstościami reprezentowanymi przez oszacowane parametry modelu oraz zaobserwowanymi w danych empirycznych. Model klas ukrytych prowadzący do dużych rozbieżności między wspomnianymi częstościami jest nie do przyjęcia, oczywiście gdy teoretyczne częstości są zbliżone do zaobserwowanych to istnieje możliwość jego akceptacji i zastosowania.

Modele z większą liczbą parametrów zazwyczaj dają lepsze dopasowanie do danych (teoretyczne częstości znajdują się bliżej zaobserwowanych). Modele z mniejszą liczbą parametrów dają nieco gorsze dopasowanie ale zadaniem badacza jest znalezienie najbardziej “ubogiego” (z jak najmniejszą liczbą szacowanych parametrów) modelu czyli jak najmniej skomplikowanego który reprezentuje akceptowalne (zadowalające) dopasowanie do zaobserwowanych danych.

Istnieje kilka podejść estymacji dopasowania modeli ukrytych klas. Najczęściej używanym jest podejście wykorzystujące iloraz wiarygodności chi-kwadrat statystyki L2 w celu oszacowania obszaru, w którym wyniki estymacji dla teoretycznych częstości Fˆ różnią ijkl się od korespondujących z nimi zaobserwowanych częstości fijkl:

) ˆ /

ln( )

2 =

ijkl

ijkl ijkl

ijkl F f

f

L (5)

Model jest dopasowany do danych, jeżeli wartość L2 jest dostatecznie niska, biorąc pod uwagę powszechnie używany limit statystycznego błędu na poziome 0,05.

ijkl (częstości teoretyczne) są otrzymywane w wyniku dwustopniowego procesu.

Najpierw otrzymywane są oszacowania największej wiarygodności parametrów modelu

10 AIC – Akaike’s Information Criterium; BIC – Bayesian Information Criterium; opis tych miar został podany w dalszej części opracowania.

(20)

oraz zastępowane w prawej stronie równania (8) w celu otrzymania oszacowań prawdopodobieństw πˆijklt. Te oszacowania prawdopodobieństw są sumowane wewnątrz ukrytych klas w celu otrzymania teoretycznych prawdopodobieństw dla każdej z komórek w zaobserwowanej tablicy oraz pomnożone przez rozmiar próby N w celu otrzymania oszacowań największej wiarygodności dla teoretycznych częstości.

=

= T

t ijklt

ijkl N

F

1

ˆ πˆ (6)

W przypadku, gdy Fˆ =ijkl fijkl dla każdej komórki (i, j, k, l) model będzie idealnie dopasowany, a L2 wyniesie 0. Gdy wartość L2 przekracza 0, mierzy brak dopasowania modelu, kwantyfikując siłę związku (braku niezależności), która pozostaje niewyjaśniona przez model. Natomiast, kiedy N jest wystarczająco duże L2 zbiega do rozkładu chi- kwadrat oraz liczba stopni swobody (DF) jest równa liczbie komórek w pełnym wielowymiarowym modelu minus liczba niezależnych parametrów M. W przypadku modelu z czterema kategorialnymi zmiennymi liczba komórek jest równa IJKL, a liczba parametrów:

)]

1 ( ) 1 ( ) 1 ( ) 1 [(

1+ + + +

=T T I J K L

M (7)

M jest otrzymywane poprzez wyznaczenie T-1 niezależnych prawdopodobieństw ukrytych klas oraz dla każdej klasy I-1 warunkowych prawdopodobieństw powiązanych z kategoriami zmiennej A, J-1 niezależnych warunkowych prawdopodobieństwa powiązanych z B, itd. Ze względu na to, że prawdopodobieństwa sumują się do jedności prawdopodobieństwo powiązane z jedną kategorią każdej zmiennej jest odrzucane (stąd nie jest liczone jako niezależny parametr): może być zatem otrzymane jako jeden minus suma pozostałych. Jeżeli okazałoby się, że DF < 0 (degrees of freedom tj. stopnie swobody) wtedy model nie jest identyfikowalny, co oznacza, że niektóre oszacowania nie są dostępne dla wszystkich parametrów. Na przykład, dla I = J = K = L = 2, DF=-4 dla T

= 4, co oznacza, że czteroklasowy model nie jest identyfikowalny. Jednakże w niektórych przypadkach może się zdarzyć, że DF > 0, a mimo to model nadal będzie nieidentyfikowalny.

W przypadku, gdy mamy do czynienia z brakami danych w badaniu, rozkład chi-kwadrat nie powinien być używany do wyliczenia wartości p (p-value), ponieważ L2 nie został właściwie przybliżony. Zamiast tego do estymacji p można użyć podejścia bootstrapowego. Z brakami danych mamy do czynienia w przypadku, gdy liczba zaobserwowanych zmiennych lub liczba kategorii tych zmiennych jest duża. W takiej

(21)

sytuacji liczba komórek w otrzymanej wielowymiarowej tablicy będzie duża odpowiednio do rozmiaru próby, z czego wynikają puste komórki. Braki danych również występują w przypadku, gdy modele ukrytych klas zostaną rozszerzone o zmienne ciągłe.

Kolejnym podejściem oceniającym dopasowanie modelu w przypadku braku danych jest podejście wykorzystujące ważone kryterium informacyjne. Miary takie jak: AIC i BIC są szczególnie przydatne przy porównywaniu modeli. Najczęściej używaną jest statystyka BIC zdefiniowana jako BIC = L2 – ln(N) DF. Model z niższą wartością BIC jest preferowany bardziej niż ten z wartością wyższą.

Inforamtion Criteria sprawdzają wiarygodność modeli estymowanych dla coraz to większej liczby parametrów wymagalnych do oszacowania bardziej pełnego modelu.

Sprawdzają one wiarygodność poprzez redukcję będąc funkcją rosnącej liczby parametrów.

Jeżeli model bazowy daje właściwe dopasowanie do danych, nie jest potrzebna analiza ukrytych klas, ponieważ nie istnieje związek między zmiennymi, który można wyjaśniać.

W większości przypadków jest jednak tak, że model bazowy nie jest dobrze dopasowany do danych i L2 służy jako podstawowa miara całkowitej zależności. To sugeruje trzecie podejście w szacowaniu dopasowania modeli ukrytych klas polegające na porównywaniu L2 związanych z modelami ukrytych klas, dla których T > 1 z bazową wartością L2(H0) w celu otrzymania procentu redukcji L2. Tak więc skoro całkowita zależność może być skfantyfikowana przez L2(H0), miara procentu redukcji reprezentuje całkowity związek wyjaśniony przez model. To mniej formalne podejście może być dopełnieniem dwóch pozostałych podejść, bardziej precyzyjnych, L2 i BIC. Przykładem na to, jak wykorzystywać te miary niech będzie: załóżmy, że L2 sugeruje, że trzyklasowy model prawie daje dokładne dopasowanie do niektórych danych (niech p=0,04), ale wyjaśnia 90% całkowitej zależności. Ponadto załóżmy, że czteroklasowy model jest najprostszym modelem, który jest dopasowany do danych zgodnie ze statystyką L2, ale model ten wyjaśnia tylko 91% zależności. W tym przypadku na podstawie praktycznego podejścia trzyklasowy model zostanie wybrany, jako że wyjaśnia prawie tyle samo całkowitego związku.

Kolejną miarą, która może być przydatna do oceny jakości modelu jest statystyka Crossie’go-Read’a która jest wykorzystywana do walidacji chi-kwadrat modelu. Jeśli nie otrzyma się p-value podobnego jak w przypadku chi-kwadrat wtedy nie można uznać p- value wyznaczonego dla chi-kwadrat.

(22)

Standardowe błędy ocen parametrów – służą do identyfikacji istotności parametrów i mogą być użyteczne przy diagnozowaniu modelu czy też jego modyfikacji.

Statystyka Walda jest wykorzystywana do stwierdzenia statystycznej istotności zbioru oszacowanych parametrów dla danej zmiennej. Testuje ona hipotezę mówiącą o tym że wartości każdego z parametrów znajdujących się w zbiorze są równe zero wobec alternatywnej że są różne.

7. KLASYCZNY MODEL KLAS UKRYTYCH DLA WSKAŹNIKÓW JAKOŚCIOWYCH (SKOKOWYCH)

W niniejszym opracowaniu skoncentrowano się na przedstawieniu jednego z modeli klas ukrytych określonego jako model klas ukrytych dla kategorialnych wskaźników w którym obie zmienne obserwowalna i nieobserwowalna są zmiennymi skokowymi.

Tradycyjna analiza ukrytych klas zakłada, że każda obserwacja przynależy do jednej i tylko jednej T ukrytej (nieobserwowlanej) klasy oraz że istnieje lokalna niezależność między manifestowanymi zmiennymi. Oznacza to, że warunkowe przynależność do ukrytej klasy jest jednoznaczna z tym, że zaobserwowane zmienne są wzajemnie od siebie niezależne. Model ten może być wyrażony przy użyciu bezwarunkowych prawdopodobieństw przynależności do każdej ukrytej klasy oraz warunkowych prawdopodobieństw jako parametrów. Na przykład, w przypadku czterech nominalnych manifestowanych zmiennych A, B, C, D mamy:11

X D lt X C kt X B jt X A it X t

ijklt π π π π π

π = (8)

gdzie πtX oznacza prawdopodobieństwo znalezienia się w ukrytej klasie t = 1, 2,…T ukrytej zmiennej X; πitA|X oznacza warunkowe prawdopodobieństwo otrzymania i-tego wariantu odpowiedzi zmiennej A, pod warunkiem przynależności do klasy t; πBjt|X , ktCX

π | , X

D lt

π | dla j = 1, 2,..,J; k = 1, 2,…,K; l = 1, 2,…,L oznaczają odpowiednie warunkowe prawdopodobieństwa dla zmiennych B, C, D.

Założony model może zostać opisany graficznie w postaci diagramu ścieżkowego (patrz poniżej). Ów diagram pokazuje, że manifestowane zmienne nie są połączone ze sobą

11 J. Vermunt, J. Magidson Latent Class Models, D. Kaplan (Ed) Handbook for Quantitative Methodology

(23)

w sposób bezpośredni, ale pośrednio przez zmienną X. Zakłada się, że ukryta zmienna wyjaśnia wszystkie zależności między manifestowanymi zmiennymi. Celem tradycyjnej analizy ukrytych klas jest determinacja jak najmniejszej liczby ukrytych klas T, które w wystarczający sposób wyjaśnią zaobserwowane zależności między manifestowanymi zmiennymi.

Typowa analiza rozpoczyna się dostosowaniem T = 1 (jednoklasowego) bazowego modelu, który pokazuje wzajemną niezależność między zmiennymi. Model bazowy:

D l C k B j A i

ijkl π π π π

π = (9)

Zakłada się, że ten tak zwany zerowany model nie zapewnia dokładnego dopasowania do danych, natomiast jednowymiarowy model ukrytych klas z T = 2 jest dopasowany do danych. Proces ten jest kontynuowany poprzez dopasowywanie kolejnych modeli ukrytych klas, dodając za każdym razem kolejny wymiar poprzez zwiększenie liczby klas o 1, dopóki najprostszy model, który zapewnia dokładne dopasowanie, nie zostanie znaleziony.

Dla przykładu: niech X reprezentuje zmienną ukrytą a Yl jedną z L zmiennych zaobserwowanych, gdzie 1lL. Ponadto niech C będzie liczbą ukrytych klas a Dl

liczbą wariantów (poziomów) Yl. Poszczególne ukryte klasy są numerowane indeksami x, x=1,2...,C natomiast poszczególne Yl indeksami yl , yl =1,2..., Dl . Wektorowy zapis Y oraz y jest używany do odniesienia się do schematu pełnej odpowiedzi. W celu przybliżenia, konkretyzacji teorii rozpatrzmy poniższy zbiór danych otrzymanych z General Social Survey 1987;

Trzy dychotomiczne wskaźniki Y1, Y2, i Y3 są odpowiedziami odpowiednio na pytania:

czy pozwolić antyreligistom mówić (1=pozwolić, 2=nie pozwolić),

czy pozwolić antyreligistom nauczać (1=pozwolić, 2=nie pozwolić),

usunąć antyreligijne książki z biblioteki (1=usunąć, 2=nie usuwać).

Cytaty

Powiązane dokumenty

Poniewa¿ dane te zostan¹ wykorzystane do analizy ruchu pieszego ich zalet¹ jest zawieranie, oprócz sieci dróg i ulic, równie¿ elementów, po których poruszaj¹ siê piesi,

Aczkolwiek historia nie może nigdy dać absolutnie pewnej odpowie- dzi na pytanie «co by było gdyby», to jednak wszystko przemawia za tym, że jeśliby zamiast paktu z Niemcami

• wzrost akceptacji różnych form życia rodzinnego- wśród form cieszących się apro- batą społeczną znajdują się nie tylko sformalizowane związki małżeńskie z dziećmi,

T ransakcja offsetowa jest bardzo skomplikowana, zarówno ze względu na konstrukcje umów wchodzących w jej skład jak i ze względu na warunki prawne, jakim musi sprostać.

W pracy mierzono równolegle aktywność esterazy aspirynowej i cholinesterazy w 106 próbkach surowicy pochodzącej od zdrowych dawców krwi oraz w 120 próbkach surowicy

Если последний период существования советского государства и пере- ходные («перестроечные») годы характеризовались активным обращением к произведениям

Between rooms 265 and 267, as well as on the two edges of the cellars 269 and 270, walls with an E-W orientation were discovered, running under the Middle Ptolemaic walls. The date

Sape- ckiego parafi i Radomyśl, faktem jest jednak, że 19 stycznia 1907 roku otrzymał probostwo w Racławicach 8.. Rozpoczynając duszpasterzowanie w