• Nie Znaleziono Wyników

Analiza zasobów informacyjnych projektu

Zakres i źródła informacji na potrzeby przygotowania projektu inwestycyjnego

2.3. Analiza zasobów informacyjnych projektu

Dane indywidualne znajdujące się w bazach danych mają postać zbiorów, w których zjawiska rynkowe są łączone z innymi cechami, takimi jak np. czas, miejsce, nabywca, typ produktu, zastosowane narzędzie marketingowe itp. Dane te noszą nazwę danych źródłowych i są uzyskiwane w drodze obserwacji całkowitej (czyli obejmującej wszystkie jednostki tworzące badaną zbiorowość, np. punkty sprzedaży, typy produktów, klientów, okresy prowadzonej działalności itp.) lub częściowej (czyli dotyczącej jedynie niektórych jednostek z badanej zbiorowo-ści). Jakość tych danych przesądza o prawdziwości sądów formułowanych na ich podstawie w projektach inwestycyjnych. Procedura statystyczna może jedynie powielić i zwielokrotnić błąd, jeśli znalazł się on w danych źródłowych, natomiast nie może dokonać jego korekty. Warto więc przed podjęciem analiz statystycznych dokonać wstępnej oceny danych źródłowych, w szczególności ocenić i sprawdzić, czy nie są tendencyjne, sprzeczne, niekompletne, nieporównywalne bądź nielo-giczne. Każda z wyróżnionych właściwości danych źródłowych dyskwalifikuje je. W wyniku badania zrealizowanego w terenie i zakodowania danych z poszczegól-nych kwestionariuszy ankietowych w odpowiednim programie komputerowym11

zostaje utworzona baza danych. Przyjmuje ona postać zestawienia tabelarycznego,

Rozdział II. Zakres i źródła informacji na potrzeby przygotowania projektu inwestycyjnego 71

w którym każdy wiersz przeznaczony jest dla pojedynczego respondenta, a każda kolumna odpowiada kolejnym danym zapisanym w formularzu ankietowym. Obowiązuje tu ogólna zasada, że w każdej komórce bazy danych znajduje się poje-dyncza informacja o respondencie. Utworzona baza ujawnia wszystkie perturbacje, które miały miejsce w trakcie prowadzenia wywiadów, przejawiające się w postaci odmowy odpowiedzi na poszczególne pytania, odmowy udziału w całym bada-niu albo odrzucebada-niu ankiety w trakcie kontroli. W rezultacie przeprowadzonego badania możemy dysponować kompletną bazą danych lub bazą niekompletną, z widocznymi niedoborami.

Przykład 7

Zbadano 21 punktów sprzedaży tworzących sieć dystrybucji wyspecjalizowaną w systemach grzewczych. W ramach badania ankietowego odnotowywano warunki zakupu oferowane w punkcie sprzedaży, obroty osiągnięte w minionym roku oraz liczbę zgłaszanych reklamacji. W rezultacie przeprowadzonych wywiadów utworzono bazę danych, której kompletną postać prezentuje tabela 4, a niekompletną tabela 5.

Niekompletna baza danych nie może być podstawą statystycznej analizy wyników służącej do opracowania informacji wykorzystywanej przez działy marketingu. Błędy nielosowe, prowadzące do deformacji próby, powodują bowiem tzw. obciążenie wyników badania, czyli występowanie systematycznych zniekształ-ceń w uzyskiwanych wynikach.

Identyfikacja zakresu deformacji próby z powodu błędów nielosowych jest możliwa dzięki cechom metryczkowym. Cechy te pozwalają dokonać oceny ex post zgodności próby, tzn. oceny zgodności próby zrealizowanej w terenie zgod-nie z ustaleniami przyjętymi w koncepcji badania. Dobór respondentów do próby odbywa się bowiem przy założeniu, że posiadają oni pewne cechy, które sprawiają, że próba odzwierciedla własności populacji, inaczej mówiąc – dobrze ją reprezen-tuje. W przypadku indywidualnych osób są to najczęściej cechy demograficzne, społeczne lub ekonomiczne, ponieważ na temat tych właściwości badanych popu-lacji istnieją dostępne dane. W wyniku różnych problemów, które mogą pojawić się w trakcie badania w terenie, niektóre jednostki wytypowane do próby bywają pominięte w badaniu. Zaistniałe niedobory mogą spowodować zniekształcenie demograficznych, społecznych i ekonomicznych struktur próby przyjętych na wstępie badania jako wymagane. Ujawnienie tego typu zniekształceń jest możliwe dzięki tym cechom metryczkowym, według których konstruowano próbę.

Małgorzata Rószkiewicz

72

Tabela 4. Kompletna baza danych Tabela 5. Niekompletna baza danych

Nr respondenta

(nr ankiety) Warunki zakupu reklamacjiLiczba

Roczny obrót w mln zł

Nr respondenta

(nr ankiety) Warunki zakupu reklamacjiLiczba

Roczny obrót w mln zł 1 Opust 0 1,2 1 Opust 0 1,2 2 Opust 10 3,6 2 Opust 10 3,6 3 Raty 0 2,0 3 Raty 0 2,0

4 Kredyt 0 0,8 4 Kredyt Odmowa 0,8

5 Kredyt 10 3,1 5 Kredyt 10 3,1

6 Opust 40 5,5 6 Opust 40 Odmowa

7 Kredyt 20 2,0 7 Kredyt 20 2,0 8 Opust 10 2,2 8 Opust 10 2,2 9 Opust 10 1,3 9 Opust 10 1,3 10 Raty 10 1,0 10 Raty 10 1,0 11 Opust 20 3,0 11 Opust 20 3,0 12 Opust 30 3,3 12 Opust 30 3,3 13 Opust 20 2,2 13 Opust 20 2,2 14 Raty 10 1,8 14 Raty 10 1,8 15 Raty 10 1,1 15 Raty 10 1,1

16 Raty 0 2,1 16 Odmowa Odmowa Odmowa

17 Kredyt 10 2,6 17 Kredyt 10 2,6

18 Opust 20 2,3 18 Opust 20 2,3

19 Raty 30 1,4 19 Raty 30 1,4

20 Raty 20 1,6 20 Odmowa Odmowa Odmowa

21 Opust 20 3,1 21 Opust 20 3,1

Źródło: Opracowanie własne.

Przykład 8

W badaniu percepcji różnych preferencji muzycznych młodych mieszkańców miast przyjęto założenie, że 1000-elementowa próba będzie odzwierciedlała rze-czywistą strukturę populacji Polski zamieszkałą w miastach według płci i wyróż-nionych trzech grup wiekowych. Na podstawie danych GUS ustalono kwoty dla sześciu kategorii respondentów, uwzględniając ich wiek i płeć, co zaprezentowano w tabeli 6.

Po realizacji badania w terenie na podstawie takich cech metryczkowych jak płeć i wiek ustalono wynikową strukturę próby, którą przedstawia tabela 7.

Rozdział II. Zakres i źródła informacji na potrzeby przygotowania projektu inwestycyjnego 73 Tabela 6. Struktura ludności miast według wieku i płci oraz kwot

wyróżnionych grup w próbie

Grupy wiekowe

Struktura ludności miast według płci

i wyróżnionych grup wiekowych według płci i wyróżnionych grup wiekowychKwoty wyróżnionych grup respondentów płeć

razem płeć razem

kobiety mężczyźni kobiety mężczyźni

15–19 10,5% 10,9% 21,4% 105 109 214

20–29 20,2% 20,0% 40,3% 202 200 403

30–39 20,0% 18,3% 38,3% 200 183 383

Razem 50,7% 49,3% 100,0% 507 493 1 000

Źródło: Opracowanie własne.

Tabela 7. Wynikowa struktura próby

Grupy wiekowe

Liczba respondentów według płci

i wyróżnionych grup wiekowych Struktura próby według płci i wyróżnionych grup wiekowych płeć

razem płeć razem

kobiety mężczyźni kobiety mężczyźni

15–19 104 95 199 12,6% 11,5% 24,1%

20–29 184 194 378 22,2% 23,5% 45,7%

30–39 92 158 250 11,1% 19,1% 30,2%

Ogółem 380 447 827 45,9% 54,1% 100,0%

Źródło: Opracowanie własne.

Łatwo zauważyć, że w badaniu w terenie otrzymano próbę mniej liczną oraz o zdeformowanej strukturze ze względu na wyróżnione cechy. Zanim dokona się analizy wyników, konieczne jest skorygowanie zbioru danych, tak by zachowane były założenia przyjęte na wstępie badania.

Częściowa redukcja niedoborów danych jest możliwa dzięki tzw. imputacjom, w przypadku braku pojedynczych danych, lub ważeniu wyników, jeśli wystąpiły odmowy udziału w badaniu12. Imputacja polega na wprowadzeniu wartości umow-nych w brakujące miejsca bazy daumow-nych. Najpopularniejszą strategią postępowania w przypadku wystąpienia braków danych jest usuwanie z analizy obserwacji, w  których występują pojedyncze braki odpowiedzi. Jest to strategia określana w lite-raturze mianem complete-case-analysis. Ponieważ występowanie braków danych jest selektywne, tzn. nie rozkłada się losowo w populacji (czyli wartości odnotowane

12 Kalton G., Kasprzyk D., The Treatment of Missing Survey Data, „Survey Methodology” 1986, 12, s. 1–16.

Małgorzata Rószkiewicz

74

oraz nieodnotowane różną się między sobą), strategia ta jest niepoprawna, prowadzi bowiem do niskiej efektywności badania. Inną strategią postępowania jest procedura wykorzystująca wszystkie dostępne informacje (available-case, pairwise deletion). W tej strategii wartości cząstkowe wyznacza się ze wszystkich dostępnych danych, np. współczynnik korelacji między cechami X i Y będzie liczony ze wszystkich par obserwacji cechy X i cechy Y, ale odchylenia standardowe wyznaczy się już ze wszystkich dostępnych wartości cechy X oraz wszystkich dostępnych wartości cechy Y, które nie muszą być równoliczne. Opisana strategia może prowadzić do tego, że macierz korelacji nie będzie dodatnio określona, co jest niezbędne w nie-których procedurach statystycznych. Często też otrzymane wyniki są obciążone. Inną strategią są procedury ważenia danych. Ważenie danych stosuje się w przypadku, gdy technika losowania nie gwarantuje jednakowego prawdopodo-bieństwa trafienia do próby (próba nie jest automatycznie wyważona, samoważąca). Wyznaczane wagi są odwrotnością prawdopodobieństwa wylosowania jednostki do próby. Estymatorem wartości oczekiwanej w populacji jest estymator Horvitza--Thompsona (1): E( )X xi i i n i i n = = =

π π 1 1 1 (1)

gdzie: πi – prawdopodobieństwo trafienia do próby jednostki o numerze i, i = 1, 2, …, n; xi – wartości obserwowane w próbie.

W przypadku wystąpienia danych niepełnych następuje skorygowanie wag (2):

p p E( ) ˆ ˆ X xi i i i r i i i r = = =

π π 1 1 1 (2)

gdzie sumowanie odbywa się po r jednostkach, dla których odnotowano dane, zaś prawdopodobieństwo trafienia do próby jest ważone prawdopodobieństwem zaobserwowania danej wartości u i-tej jednostki, za które przyjmuje się frakcję jednostek w pełni obserwowanych w danej warstwie, czyli response-rate (RR). Jeśli próba jest prosta, procedurę ważenia spowodowaną brakami danych prowadzi się według zasady poststratyfikacji omówionej dalej.

Do odmiennej grupy strategii należą metody imputacji. W literaturze naj-częściej można spotkać trzy rodzaje imputacji: imputacje dedukcyjne, imputacje

Rozdział II. Zakres i źródła informacji na potrzeby przygotowania projektu inwestycyjnego 75

deterministyczne oraz imputacje stochastyczne13. Dedukcyjne imputacje polegają na wydedukowaniu brakujących wartości na podstawie dostępnej wiedzy. Np. wiek respondenta można określić na podstawie jego daty urodzenia, zaś całkowity dochód gospodarstwa domowego można wyznaczyć na podstawie danych o dochodach cząstkowych. Pozostałe dwa rodzaje imputacji stosuje się w tych przypadkach, w których zastosowanie metody dedukcyjnej nie jest możliwe. Imputacje te polegają na przewidywaniu brakujących wartości. Przy czym w imputacji stochastycznej wykorzystuje się mechanizm liczb losowych, który nie występuje w imputacji deterministycznej. Oznacza to, że w procedurach deterministycznych szacowana jest tylko jedna możliwa wartość dla brakującej danej. W procedurach stochastycz-nych, wykorzystujących określone rozkłady prawdopodobieństwa, dla brakujących danych za każdym razem można uzyskać inną wartość proponowaną w miejsce brakującej danej. Przykładem imputacji deterministycznej jest wprowadzenie w miejsca brakujących danych wartości średnich charakteryzujących populację, jeśli takie dane występują w innych źródłach14, lub przyjęcie za wartości umowne wartości średnich obliczonych dla wyników dostępnych w bazie danych. W dru-gim przypadku zaleca się wyznaczanie wartości średnich w grupach o wysokiej jednorodności i wprowadzanie średnich grupowych w miejsce brakujących danych. W badaniach panelowych można stosować technikę cold-deck, która polega na uzu-pełnieniu bieżących niedoborów danymi z poprzedniej fali badania panelowego. W technice tej wykorzystuje się informacje o jednostce (której dotyczą niedobory) pochodzące z innego zbioru danych. Bardziej nowoczesne rozwiązania to imputacje na podstawie skonstruowanych funkcji regresji. W tej technice za brakujące dane przyjmuje się wartości średnie, wyznaczone z wartości teoretycznych zbudowa-nej funkcji regresji15. Funkcje regresji buduje się, wykorzystując kompletne dane zebrane o jednostkach należących do tej samej grupy jednorodności co jednostka, dla której określa się wartość imputowaną. Z kolei imputacja stochastyczna polega na uwzględnieniu składnika losowego w imputacji deterministycznej. Wartość resztkowa korygująca imputację deterministyczną jest generowana jako liczba losowa o rozkładzie normalnym, w którym wartość oczekiwana wynosi 0, zaś wariancja jest oszacowana na podstawie wariancji zaobserwowanych danych. Inna metoda imputacji, która może być stosowana zarówno jako technika deterministyczna, jak i stochastyczna, to technika hot-deck. Polega ona na uzupełnieniu brakujących

13 Por.  E. S. Nordholt, Imputation: Methods, Simulation Experiments and Practical Examples, „International Statistical Review” 1998, t. 66, nr 2, s. 157–180.

14 Np. z poprzednich badań, ocen ekspertów itp.

Małgorzata Rószkiewicz

76

danych wartościami, które charakteryzują jednostkę podobną ze względu na inne cechy. Wybór jednostki podobnej może być subiektywny (podejście determini-styczne, np. na podstawie największego podobieństwa wyrażonego odległością euklidesową względem badanej jednostki) lub losowy (czyli wylosowanie „dawcy” z grupy osób o wspólnych cechach – podejście stochastyczne). Obok technik prowadzących do imputacji pojedynczych wartości występuje również technika polegająca na imputacji wielu wartości w miejsce brakujących danych. Metoda imputacji wielorakiej generuje zbiór kilku wartości umownych dla każdej braku-jącej informacji. Wartości te pozwalają wygenerować kilka kompletnych zbiorów danych, które stanowią przedmiot dalszej analizy. Rezultaty badania powstają jako wartości średnie wyników pochodzących z poszczególnych zbiorów. Ważenie wyników polega na zmianie struktury próby, tak by odzwierciedlała strukturę właściwą populacji według tych cech, które były podstawą doboru próby. W wyniku odmowy uczestnictwa niektórych respondentów w badaniu następuje bowiem zniekształcenie struktury próby w stosunku do założeń przyjętych na wstępie badania. Dla pewnych grup jednostek w populacji występuje nadreprezentacja w próbie, dla innych powstają niedobory.

Przykład 9

Powtórzmy przytoczony już przykład, w którym zestawiono strukturę popu-lacji oraz strukturę próby. Dane te zostały kolejno zaprezentowane w poniższych tabelach 8 i 9.

Tabela 8. Liczba ludności miast według płci i wyróżnionych grup wiekowych oraz wskaźniki struktury dla wyróżnionych grup

Liczba ludności miast według płci

i wyróżnionych grup wiekowych Struktura ludności miast według płci i wyróżnionych grup wiekowych Grupy

wiekowe płeć razem płeć razem

kobiety mężczyźni kobiety mężczyźni

15–19 58 716 60 901 119 617 10,5% 10,9% 21,4%

20–29 112 962 111 769 224 731 20,2% 20,0% 40,3% 30–39 111 571 102 246 213 816 20,0% 18,3% 38,3% Ogółem 283 249 274 916 558 165 50,7% 49,3% 100,0% Źródło: opracowanie własne.

Rozdział II. Zakres i źródła informacji na potrzeby przygotowania projektu inwestycyjnego 77 Tabela 9. Liczba respondentów według płci i wyróżnionych grup wiekowych

oraz wskaźniki struktury dla wyróżnionych grup

Liczba respondentów według płci

i wyróżnionych grup wiekowych i wyróżnionych grup wiekowychStruktura próby według płci Grupy

wiekowe płeć razem płeć razem

kobiety mężczyźni kobiety mężczyźni

15–19 104 95 199 12,6% 11,5% 24,1%

20–29 184 194 378 22,2% 23,5% 45,7%

30–39 92 158 250 11,1% 19,1% 30,2%

Ogółem 380 447 827 45,9% 54,1% 100,0%

Źródło: opracowanie własne.

Łatwo zauważyć, że pierwsza i druga grupa wiekowa są nadmiernie repre-zentowane w próbie, natomiast znaczne niedobory występują w grupie trzeciej. Zniekształcona została również struktura próby według płci, wykazując wyraźną nadreprezentację mężczyzn w stosunku do kobiet.

Korekta bazy danych poprzez ważenie wyników polega na przypisaniu każ-demu respondentowi innego znaczenia w próbie. Waga ta wyraża zakres i siłę zniekształcenia spowodowanego odmowami odpowiedzi. Jeśli jednostka należy do grupy nadmiernie reprezentowanej w próbie, jej znaczenie zostaje obniżone poprzez zastosowanie odpowiedniej wagi, w przeciwnym razie waga zwiększa znaczenie jednostki. Wszystkie dane w poszczególnych wierszach bazy danych są korygowane przez wagi. Prawidłowa konstrukcja wag obejmuje:

1. Wyznaczenie grup ważenia, czyli grup, według których określa się poprawność struktury próby.

2. Wyznaczenie wag, np. według wzoru (3):

W N n h h h = lub w N n n N h h h = ⋅ (3)

gdzie: Wh i wh – waga dla h-tej grupy ważenia; nh – liczba jednostek z próby w h-tej grupie ważenia; Nh – liczba jednostek z populacji w h-tej grupie ważenia;

n nh h k = =

1 – liczebność próby; N Nh h k = =

1 – liczebność populacji.

Pierwszy wzór definiujący tzw. wagi duże prowadzi do zamiany liczebności z próby na liczebności występujące w populacji ze względu na cechy wyznaczające grupy

Małgorzata Rószkiewicz

78

ważenia, natomiast drugi wzór definiujący tzw. wagi małe prowadzi do ukształ-towania struktur próby zgodnych ze strukturami populacji dla tych cech, które określały grupy ważenia.

3. Przypisanie każdej jednostce wagi wynikającej z jej przynależności do grupy ważenia. Przedstawiona w punktach 1–3 korekta struktury próby zrealizowanej strukturą próby wylosowanej nosi nazwę ważenia wyników przy wykorzystaniu poststratyfikacji.

Przykład 10

Dla danych z poprzedniego przykładu otrzymuje się sześć grup ważenia, wyznaczonych przez dwie kategorie płci i trzy kategorie wiekowe. Posługując się powyższymi wzorami, otrzymuje się sześć wag, które przypisuje się każdej jednostce w zależności od jej wieku i płci.

Tabela 10. Wagi duże oraz wagi małe

Wagi duże: w N n h h h = Wagi małe: w N n n N h h h =

Grupy wiekowe płeć płeć

kobiety mężczyźni kobiety mężczyźni

15–19 564,5769 641,0632 0,836500 0,949825

20–29 613,9239 576,1289 0,909615 0,853616

30–39 1 212,728 647,1266 1,796828 0,958809

Źródło: Opracowanie własne.

Wagi przedstawione w drugiej części tabeli wyraźnie pokazują zmianę znacze-nia poszczególnych grup jednostek w próbie. Każdej osobie w próbie, w zależności od jej płci i wieku (przynależności do jednej z trzech grup wiekowych), przypisuje się odpowiednią liczbę spośród sześciu obliczonych. Zbiór wag tworzy dodatkową kolumnę w bazie danych i jest wykorzystywany we wszystkich statystycznych analizach otrzymanych wyników16.

16 Większość profesjonalnych programów komputerowych z zakresu analiz ilościowych posiada automatyczną funkcję ważenia wyników, czyli uwzględniania wag w prowadzonych obliczeniach.

Rozdział II. Zakres i źródła informacji na potrzeby przygotowania projektu inwestycyjnego 79

Bibliografia

1. Czarnecki A., Badania marketingowe w warunkach integracji Polski z Unią

Europej-ską. Materiały z VI Sympozjum Naukowego Kolegium Zarządzania i Finansów SGH,

Warszawa 1999.

2. Garbarski L., Rutkowski I., Wrzosek W., Marketing. Punkt zwrotny nowoczesnej firmy, PWE, Warszawa 1998.

3. Kaczmarczyk S., Badania marketingowe. Metody i techniki, PWE, Warszawa 1997. 4. Kalton G., Kasprzyk D., The Treatment of Missing Survey Data, „Survey Methodology”

1986, 12, s. 1–16.

5. Nikodemska-Wołowik A. M., Jakościowe badania marketingowe, PWE, Warszawa 1999. 6. Nordholt E. S., Imputation: Methods, Simulation Experiments and Practical Examples,

„International Statistical Review” 1998, t. 66, nr 2.

7. Polska Klasyfikacja Wyrobów i Usług, Dziennik Ustaw RP, Załącznik do Nr. 42, poz. 264 z dnia 29 kwietnia 1997 r.

8. Polska Scalona Nomenklatura Towarowa Handlu Zagranicznego, Dziennik Ustaw RP, Załącznik do Nr. 150, poz. 733 z dnia 22 grudnia 1995 r.

9. Rószkiewicz  M., Metody ilościowe w  badaniach marketingowych, Wydawnictwo Naukowe PWN, Warszawa 2002.

10. Strzyżewska M., Rószkiewicz M., Analizy marketingowe, Difin, Warszawa 2002. 11. Zarządzenie Nr 173 Prezesa GUS z dnia 5 grudnia 1996 r. Dz. Urz. GUS Nr 21, poz. 151

Małgorzata Rószkiewicz

Rozdział III

Analiza otoczenia rynkowego i sprzedaży