umożliwiających badanie zbiorów zmiennych metrycznych.
2
Artykuł koncentruje się wokół dwóch zasadniczych celów. Pierwszy z nich
3
ma charakter poznawczy i dotyczy oceny relacji zachodzących pomiędzy różnymi
4
kompetencjami, w szczególności wiąże się z wyodrębnianiem grup umiejętności
5
podobnie ocenianych przez respondentów oraz identyfikacją ich powiązań
6
z charakterystykami społeczno-demograficznymi ankietowanych. Drugi cel jest
7
ukierunkowany metodycznie i odnosi się do wskazania możliwości zastosowania
8
metody grupowania zmiennych niemetrycznych zaproponowanej w pracy [Chavent
9
i in. 2013] do prowadzenia analiz opartych na zmiennych pochodzących ze słabych
10
skal pomiarowych. Ma to duże znaczenie w badaniach społeczno-ekonomicznych,
11
w których często bazuje się na wynikach badań sondażowych zdominowanych
12
przez występowanie zmiennych nominalnych lub porządkowych. Posiadanie tego
13
rodzaju danych nie przekreśla jednakże stosowania podejścia wielowymiarowego,
14
a rozwój procedur analitycznych i ich implementacja w środowisku R owocuje
15
nowymi możliwościami w tym zakresie, na co warto zwrócić uwagę przy doborze
16
metod analizy.
17
METODYKA BADANIA 18
Wykonane analizy opierają się na danych wtórnych pochodzących
19
z ogólnopolskiego badania „Bilans Kapitału Ludzkiego” dotyczącego ludności,
20
przeprowadzonego przez Polską Agencję Przedsiębiorczości oraz Uniwersytet
21
Jagielloński w 2014 r., obejmującego swym zasięgiem 17 674 respondentów. Przed
22
wykonaniem obliczeń usunięto nieznaczną liczbę obserwacji ze względu na
23
występowanie braków danych.
24
Poziom posiadanych kompetencji był oceniany przez ankietowanych
25
w pięciostopniowej skali porządkowej: 1 – niski, 2 – podstawowy, 3 – średni,
26
4 – wysoki, 5 – bardzo wysoki. Opiniowane były zarówno kompetencje twarde, jak
27
i miękkie [zob. Górniak 2014, s. 192-193, 205-206]. Zestawienie kompetencji
28
wziętych pod uwagę w niniejszej pracy wraz ze skrótami stosowanymi w dalszej
29
części artykułu jest następujące [Bilans Kapitału Ludzkiego 2013]1:
30
kompetencje twarde: (A) wyszukiwanie i analiza informacji oraz wyciąganie
31
wniosków (informacje) – szybkie streszczanie dużej ilości tekstu (tekst);
32
logiczne myślenie, analiza faktów (logika); ciągłe uczenie się nowych rzeczy
33
(nowe); (B) obsługa, montowanie i naprawa urządzeń technicznych
34
(urządzenia); (C) wykonywanie obliczeń (obliczenia) – wykonywanie prostych
35
rachunków (proste); wykonywanie zaawansowanych obliczeń matematycznych
36
1 Określenia kompetencji przytoczono w brzmieniu dosłownym z kwestionariusza BKL [https://bkl.parp.gov.pl/pobierz.html/kwestionariusze_IV_2013.7z], w nawiasach podano skrócone określenia stosowane przez Autora w dalszej części opracowania.
(zaawansowane); (D) obsługa komputera i wykorzystanie Internetu (komputer)
1
– podstawowa znajomość pakietu typu MS Office (Office), znajomość
2
specjalistycznych programów, umiejętność pisania programów czy tworzenia
3
stron internetowych (specjalistyczne),
4
kompetencje miękkie: (A) samoorganizacja pracy i przejawianie inicjatywy
5
(samoorganizacja) – samodzielne podejmowanie decyzji (decyzje);
6
przedsiębiorczość i przejawianie inicjatywy (przedsiębiorczość); kreatywność
7
(kreatywność); odporność na stres (stres); terminowa realizacja zaplanowanych
8
działań (terminowość); (B) kontakty z innymi ludźmi, zarówno ze
współpra-9
cownikami, jak i klientami czy podopiecznymi (kontakty) – współpraca
10
w grupie (grupa); łatwe nawiązywanie kontaktów z współpracownikami czy
11
klientami (relacje); bycie komunikatywnym i jasne przekazywanie myśli
12
(komunikatywność); rozwiązywanie konfliktów pomiędzy ludźmi (konflikty);
13
(C) organizowanie i prowadzenie prac biurowych (biuro); (D) zdolności
14
kierownicze i organizacja pracy innych (kierownicze) – koordynowanie pracy
15
innych pracowników (koordynacja); dyscyplinowanie innych pracowników
16
– przywoływanie ich do porządku (dyscyplinowanie); (E) dyspozycyjność
17
(dyspozycyjność) – gotowość do częstych wyjazdów (wyjazdy); elastyczny czas
18
pracy (elastyczność).
19
Rozpatrzone zostały cztery kompetencje twarde natury ogólnej oraz siedem
20
szczegółowych. Zestaw kompetencji miękkich jest szerszy – pięć ogólnych oraz
21
trzynaście szczegółowych. Ze względu na ich odmienny charakter analizy
22
przeprowadzono oddzielnie dla kompetencji miękkich i twardych. Oprócz
23
odpowiedzi dotyczących poziomu umiejętności w badaniu uwzględniono również
24
zmienne charakteryzujące respondentów pod względem
społeczno-demogra-25
ficznym, tj.: miejsce zamieszkania (miasto, wieś); wiek skategoryzowany (18-24,
26
25-34, 35-44, 45-54, 55-59/64); płeć (kobieta, mężczyzna); wykształcenie
27
(gimnazjalne i poniżej, zasadnicze zawodowe, średnie, wyższe); sytuację
28
zawodową według BAEL (pracujący, bezrobotni, nieaktywni).
29
W przytoczonym zestawieniu zmiennych znajdują się wyłącznie zmienne
30
o charakterze niemetrycznym, co musi mieć wpływ na wybór stosownych metod
31
ilościowych zaprojektowanych do badania tego rodzaju danych. Duża liczba
32
rozpatrywanych kompetencji ocenianych na skali porządkowej stanowi swoiste
33
wyzwanie analityczne. Oczywiście możliwe jest badanie każdej kompetencji
34
osobno, np. oceniając średnie wyniki w różnych przekrojach [zob. np. Czarnik,
35
Turek 2015], ale ze względów merytorycznych można podejrzewać, że pomiędzy
36
poziomem różnych kompetencji mogą istnieć powiązania. W literaturze
37
przedmiotu można odnaleźć próby zastosowania różnych technik
38
uwzględniających wieloaspektowe powiązania pomiędzy umiejętnościami.
39
Badanie relacji pomiędzy kompetencjami za pomocą analizy głównych
40
składowych dla zmiennych niemetrycznych (CatPCA) opisano w pracy
41
[Grześkowiak 2014], a zastosowanie klasycznej analizy czynnikowej znaleźć
42
można w publikacji [Górniak 2014]. W artykule [Dziechciarz-Duda, Dziechciarz
1
2016] wykorzystano analizę korespondencji, analizę PROFIT oraz grupowanie
2
oparte na mierze odległości GDM. W publikacji [Grześkowiak 2015] do badania
3
związków użyto reguł asocjacyjnych, a wykorzystanie wielorakiej analizy
czyn-4
nikowej uwzględniającej grupy wieku przedstawiono w pracy [Grześkowiak 2016].
5
Rezultaty wymienionych prac wskazują na istnienie powiązań pomiędzy
6
deklarowanym poziomem różnych umiejętności. Taka struktura danych skłania do
7
poszukiwań pewnych uogólnień, które w sposób syntetyczny pozwalałyby
opisy-8
wać złożone zasoby kompetencyjne.
9
W niniejszej pracy zasugerowano zastosowanie procedury grupowania
10
zmiennych zaproponowanej i omówionej w [Chavent i in. 2013] do identyfikacji
11
powiązań pomiędzy kompetencjami i ich odzwierciedlenia za pomocą nowych
12
reprezentantek. Na korzyści płynące z grupowania zmiennych zwraca się uwagę
13
w [Lasek, Pęczkowski 2010] wskazując na likwidację problemu współliniowości
14
i redundancji informacji, zwiększenie przejrzystości i czytelności związków
15
między zmiennymi oraz umożliwianie budowy modeli o mniejszej złożoności.
16
W literaturze traktującej o grupowaniu zmiennych spotkać można dwa
17
podejścia: najczęstszym jest zastosowanie takich samych algorytmów, jak przy
18
klasyfikacji obiektów, opisanych np. w pracach [Kaufman, Rousseeuw 2009,
19
Everitt i in. 2011, Kassambara 2017]. Podejście drugie to wykorzystanie procedur
20
opracowanych wyłącznie w tym celu, ale należy zaznaczyć, że metod
21
poświęconych jedynie grupowaniu zmiennych jest stosunkowo niewiele. Jak
22
wskazano w opracowaniu [Chavent i in. 2013] do najważniejszych metod dla
23
zmiennych metrycznych należy zaliczyć: procedurę VARCLUS dostępną
24
w oprogramowaniu SAS, metodę grupowania wokół zmiennych ukrytych
25
[Vigneau, Qannari 2003, Vigneau i in. 2015], diametrical clustering [Dhillon i in.
26
2003], ujęcie nieparametryczne [Palla i in. 2012] oraz podejście bazujące na
27
analizie kanonicznej [Bühlmann i in. 2013]. Chavent i in. [2013] przedstawiają
28
uniwersalne rozwiązanie problemu grupowania zmiennych, które zostanie
29
wykorzystane w niniejszym artykule. Jest ono szczególnie interesujące dla badaczy
30
stykających się z analizą danych niemetrycznych lub danych o mieszanym
31
charakterze (metrycznych i niemetrycznych). Autorzy koncepcji postulują
32
tworzenie zmiennych syntetycznych ck reprezentujących wyodrębniane skupienia
33
otrzymane z procedury PCAMIX, tj. analizy głównych składowych dla mieszanki
40
zmiennych metrycznych i niemetrycznych [Kiers 1991]. Algorytmy grupowania są
41
tak skonstruowane by zmaksymalizować kryterium homogeniczności, które dla
1
danego skupienia Ck definiowane jest jako [Chavent i in. 2013]:
2
𝐻(𝐶
𝑘) = ∑
𝑥𝑗 ∈𝐶𝑘𝑟
𝑢,𝑥2 𝑗+ ∑
𝑦𝑗 ∈𝐶𝑘𝜂
𝑢|𝑦2 𝑗,
(2)3
natomiast dla całego podziału jako suma miar homogeniczności (2) wyznaczonych
4
dla utworzonych klas. Dokładny opis algorytmów wraz z charakterystyką pakietu
5
ClustOfVar programu R pozwalającego na zastosowanie procedur jest
6
przedstawiony w pracy [Chavent i in. 2013]. Wartościowym aspektem, na który
7
zwracają uwagę autorzy idei, jest otrzymanie ilościowych zmiennych
8
syntetycznych reprezentujących poszczególne skupienia. Pakiet ClustOfVar daje
9
możliwość wyboru metody grupowania spośród hierarchicznej procedury
10
aglomeracyjnej oraz metody k-średnich. W niniejszej pracy zastosowano pierwsze
11
z wymienionych podejść. Ze stosowaniem hierarchicznych procedur
12
aglomeracyjnych wiąże się problem ustalania ostatecznego podziału na klasy, gdyż
13
metoda w sama w sobie nie daje odpowiedzi na pytanie, ile należy wyodrębnić
14
grup. Twórcy pakietu ClustOfVar proponują ocenę stabilności podziału za pomocą
15
metody bazującej na średnim skorygowanym indeksie Randa.
16
nie, (d) znajdują się w różnych grupach w obu podziałach [zob. Wagner, Wagner
21
2007]. Indeks Randa [Rand 1971] bazuje na porównaniu liczby kombinacji
22
zgodnych do wszystkich wariantów:
23
𝑅 = 𝑎+𝑑
𝑎+𝑏+𝑐+𝑑, (3)
24
Ze względu na fakt, że wartość oczekiwana indeksu Randa dwóch losowych
25
podziałów nie jest stała, Hubert i Arabie zaproponowali jego modyfikację
26
określaną skorygowanym indeksem Randa [Hubert, Arabie 1985], który można
27
wyrazić formułą [Yeung, Ruzzo 2001]:
28
tabeli kontyngencji odzwierciedlającej przynależność do grup otrzymanych
31
w dwóch podziałach P i P’.
32
Pakiet ClustOfVar oferuje podejście bootstrapowe do obliczania
zmodyfi-33
kowanego indeksu Randa umożliwiającego ocenę stabilności podziałów. Średni
34
skorygowany indeks Randa według formuły (4) obliczony na podstawie
35
pięćdziesięciu prób typu bootstrapowego stanowił przesłankę do wyboru
36
ostatecznej liczby klas.
37
Otrzymane grupy zmiennych skupiające kompetencje o zbliżonych ocenach
38
są reprezentowane przez ilościowe zmienne syntetyczne postaci (1), które stanowią
39
podstawę dalszych analiz wiążących ocenę umiejętności z cechami demograficzno-