• Nie Znaleziono Wyników

Krzywe operacyjno-charakterystyczne w ewaluacyjnych badaniach marketingowych

N/A
N/A
Protected

Academic year: 2021

Share "Krzywe operacyjno-charakterystyczne w ewaluacyjnych badaniach marketingowych"

Copied!
13
0
0

Pełen tekst

(1)Zeszyty Naukowe nr. 864. Uniwersytetu Ekonomicznego w Krakowie. 2011. Adam Sagan Katedra Analizy Rynku i Badań Marketingowych. Krzywe operacyjno-charakterystyczne w ewaluacyjnych badaniach marketingowych 1. Wprowadzenie Badania ewaluacyjne dotyczą oceny efektów programów, polityki i innych działań organizacji rządowych, społecznych i non profit mających na celu kształtowanie pożądanych zmian w zachowaniach społecznych. Jest to element zarządzania zmianą społeczną. W obszarze badań marketingowych, szczególnie na poziomie mikromarketingowym, ocenie podlegają programy marketingowe przedsiębiorstw. Badania te dotyczą skuteczności i efektywności kampanii promocyjnych, efektów wprowadzenia nowych marek na rynek i innowacji technologicznych, programów PR itp. Prowadzi się je w ujęciu dynamicznym: pretestu – badań śledzących (trackingowych), i posttestu danej kampanii reklamowej czy promocyjnej. Bezpośrednie odniesienie do klasycznych badań ewaluacyjnych stanowią badania marketingowe w ujęciu makromarketingowym, związanym z oceną skuteczności kampanii społecznych mających pobudzić zmiany w określonych typach postaw i zachowań. Ocena programów marketingowych jest związana z analizą wpływu zmiennych niezależnych odzwierciedlających sposób manipulacji składnikami programu marketingowego na zmienne zależne określające pożądane reakcje docelowych konsumentów lub innych odbiorców tych programów w odniesieniu do grup kontrolnych. Pomiar jego skuteczności jest dokonywany na podstawie różnorakich wskaźników siły efektu (effect size). Do najczęściej stosowanych wskaźników wielkości efektu należą znane z metaanalizy danych wskaźniki g Cohena, d Hedgesa i g Glassa, a także wiele innych, takich jak popularne w badaniach medycznych: iloraz szans (odds ratio).

(2) Adam Sagan. 6. i względne ryzyko (relative risk), oraz stosunek reakcji pozytywnych do negatywnych, różnice w średnich, wartościach testu F, wartości współczynników zgodności, miar korelacji i regresji, zakresy wyjaśnionej wariancji, wielkości ładunków czynnikowych itp. Idea tych wskaźników jest przedstawiona na przykładzie współczynnika g Cohena:. g=. XE − XK , σK. gdzie: XE – wartość średnia mierzonej cechy w grupie eksperymentalnej, XK – wartość średnia mierzonej cechy w grupie kontrolnej, σK – odchylenie standardowe cechy w grupie kontrolnej.. (1). 2. Wskaźniki diagnostyczne dla tabel 2×2 W badaniach programów marketingowych o wiele ważniejsze niż ocena istotności związków między zmiennymi jest określenie siły efektu. W tym celu plan badawczy musi uwzględniać występowanie określonego testu diagnostycznego (wskaźnika), który wskazuje na pojawienie się pożądanego efektu i tym samym ujawnianie statystycznej zależności między testem a wskazywanymi zjawiskami. W najprostszym układzie analitycznym relacje te mają postać tabeli kontyngencji 2×2, w której określana jest relacja między występowaniem lub niewystępowaniem danego wskaźnika i otrzymanymi rezultatami post hoc (wystąpieniem danego efektu lub niewystępowaniem). Sytuację taką obrazuje tabela 1. Problem klasyfikacji jest przedstawiany najczęściej za pomocą tabeli kontyngencji (confusion matrix). Tabela 1. Tabela powiązań między wskazaniami testu a rezultatami post hoc Tabela kontyngencji. Rzeczywiste klasy (rezultat – wzrost sprzedaży) Tak. Tak Hipotetyczne klasy (test diagnostyczny Nie – kampania promocyjna) Ogółem rzeczywistych Źródło: opracowanie własne.. Nie. Prawdziwie dodatnie Fałszywie dodatnie (PD) (FD) 435 [75%] 147 [25%]. Ogółem hipotetycznych Przewidywane (P) 582 [100%]. Fałszywie ujemne (FU) 375 [74%]. Prawdziwie ujemne Nieprzewidywane (PU) (N) 134 [26%] 509 [100%]. Dodatnie (D) 810 [74%]. Ujemne (U) 281 [26%]. Razem (R) 1091 [100%].

(3) Krzywe operacyjno-charakterystyczne.... 7. Tabela 1 przedstawia relację między wskazaniami określonego testu diagnostycznego (np. zastosowanie kampanii promocyjnej skierowanej do określonej grupy klientów docelowych) a osiągniętymi rezultatami (np. wzrostem sprzedaży)1. Test na charakter binarny (występowanie efektu penetracji lub jego brak) oraz rezultat również jest określany w sposób dychotomiczny (nastąpił wzrost sprzedaży lub nie nastąpił). Na podstawie tego rodzaju tabeli można określić przede wszystkim zależność między wskazaniami testu a osiągniętym rezultatem. Przyjmuje się, że dwie zmienne są statystycznie niezależne, jeżeli warunkowe rozkłady zmiennej zależnej (Y) są jednakowe dla każdego poziomu zmiennej niezależnej (X). W sytuacji przedstawionej w tabeli zmienną niezależną (X) są wskazania testu, a zmienną zależną (Y) jest zmiana sprzedaży. W nawiasach podane są rozkłady procentowe liczone względem zmiennej niezależnej, co umożliwia przyczynową interpretację zależności między zmiennymi. Wynika z nich, że rozkłady warunkowe dla każdego poziomu zmiennej „test” są właściwie takie same jak rozkład brzegowy (rozkład procentowy do kolumn). Stąd należy wnioskować o statystycznej niezależności zmiennych „test” i „rezultat” i tym samym zależności między promocją a sprzedażą produktu. Można tym samym domniemywać o małej skuteczności kampanii reklamowej. Na podstawie warunkowych rozkładów procentowych można wyróżnić też inne wskaźniki wielkości efektu promocyjnego. Należą do nich: 1) różnice proporcji: p1 – p2 = 0,75 – 0,74 = 0,01; kupujących wśród grupy objętej kampanią jest o 1 punkt procentowy więcej niż wśród nieobjętych kampanią; 2) ryzyko względne: p1/p2 = 0,75/0,74 = 1,01; proporcja kupujących jest o 1% wyższa wśród osób objętych programem promocyjnym; 3) szansa sukcesu: p1/(1 – p1) = 0,75/(1 – 0,75) = 3; zakup wśród osób objętych programem jest 3 razy bardziej prawdopodobny niż brak zakupu wśród tych osób; p /(1 − p1 ) 0,75 / 0, 25 3,00 = = = 1,05; szansa zakupu wśród 4) iloraz szans: 1 p2 /(1 − p2 ) 0,74 / 0, 26 2,85 osób objętych programem jest o 5% wyższa niż szansa zakupu wśród osób, które nie zostały objęte programem promocyjnym. Na podstawie tabeli można obliczyć również inne wskaźniki skuteczności kampanii (testu) dla układów 2×2: 1) stopa poprawnych klasyfikacji – czułość (recall, hit rate) C = PD/D = = 435/810 = 53,7%; prawdopodobieństwo uzyskania poprawnie zaklasyfikowanych uczestników programu wśród kupujących wynosi 53,7%; 2) stopa błędnych klasyfikacji – stopa fałszywych alarmów ( false alarm rate) FAR = FD/U = 147/281 = 52,3%; prawdopodobieństwo uzyskania fałszywie zaklasyfikowanych uczestników programu wśród niekupujących wynosi 52,3%;   Tabela taka zwana jest także confusion matrix.. 1.

(4) 8. Adam Sagan. 3) iloraz błędnych klasyfikacji ( false alarm ratio) FARt = FD/P = 147/582 = = 25,2%; prawdopodobieństwo uzyskania fałszywie zaklasyfikowanych uczestników programu wśród biorących udział w kampanii wynosi 25%; 4) wskaźnik obciążenia (bias) B = P/D = 582/810 = 71,8%; prawdopodobieństwo, że uczestnik kampanii promocyjnej dokonał zakupu, wynosi 71,8%; 5) poprawność frakcji PF = (PD + PU)/R = (435 + 134)/1091 = 52,15%; poprawnie zaklasyfikowanych klientów na podstawie kryterium udziału w programie promocyjnym jest 54,6%; 6) specyficzność S = PU/U = 134/281= 47,6%; prawdopodobieństwo uzyskania poprawnie zaklasyfikowanych klientów nieobjętych programem wśród osób, które nie dokonały zakupu, wynosi 47,6%; 7) dodatni iloraz wiarygodności C/(1 – S) = 53,7/(100 – 47,6) = 1,02; na każdy 1% osób, które nie dokonały zakupu, lecz były objęte programem, 1,02% klientów kupiło produkt i uczestniczyło w programie promocyjnym; 8) ujemny iloraz wiarygodności (1 – C)/S = (100 – 53,7)/47,6 = 0,097; na każdy 1% niekupujących i nieuczestniczących w programie 0,097% osób nie kupiło produktu, lecz uczestniczyło w programie; 9) dodatnia wartość predykcyjna (precision) DWP = PD/P = 435/582 = 0,75; prawdopodobieństwo przynależności do grupy klientów na podstawie uczestnictwa w programie promocyjnym wynosi 75%; 10) ujemna wartość predykcyjna UWP = PU/N = 134/509 = 0,26; prawdopodobieństwo przynależności do grupy osób niekupujących produktu na podstawie braku uczestnictwa w programie promocyjnym wynosi 26%; 11) wskaźnik J Youdena C + S – 1 = 0,537 + 0,476 – 1 = 0,013; ogólna skuteczność (dyskryminacja) kampanii wynosi 1,3%; 12) wskaźnik dyskryminacji Pierce PDS = C – FAR = 53,7% – 52,3% = 1,4%; ogólna dyskryminacja kampanii wynosi 1,4%. 3. Krzywe operacyjno-charakterystyczne Obok powyższych wskaźników efektów jednymi z częściej stosowanych metod są graficzne metody oceny zależności między rezultatami testu diagnostycznego a występowaniem wskazywanego zjawiska. Dostarczają one tym samym przesłanej do oceny jakości modeli pomiarowych i procedur klasyfikacyjnych. Należą do nich takie graficzne narzędzia analizy, jak krzywe operacyjno-charakterystyczne (receiver operator characteristic – ROC), wykresy czułości-precyzji (precision‑recall plots), lift charts i wykresy kalibracyjne (calibration plots)2. 2   Krzywe lift są bardzo popularnymi narzędziami oceny klasyfikacji w procedurach data mining. Na temat oceny poszczególnych rodzajów krzywych zob. M. Vukl, T. Curk, ROC Curve, Lift Chart and Calibration Plot, „Metodoloski zvezki” 2006, nr 3(1), s. 89–108; J. Davis, M. Goad-.

(5) Krzywe operacyjno-charakterystyczne.... 9. Krzywe operacyjno-charakterystyczne są popularnym narzędziem wizualizacji, oceny i wyboru modeli predykcyjnych i klasyfikacyjnych3. Przedstawiają one graficzny obraz zależności między korzyściami (wynikami prawdziwie dodatnimi) a kosztami klasyfikacji (wynikami fałszywie dodatnimi). Do podstawowych celów zastosowania tych krzywych należy graficzna prezentacja trafności zmiennych klasyfikacyjnych (detektorów sygnałów) w zależności od przyjętych wartości progowych tych zmiennych, ocena mocy dyskryminacyjnej zmiennych klasyfikacyjnych i porównanie trafności klasyfikacji dla różnych modeli predykcyjnych4. Problem oceny poprawności klasyfikacji i zastosowań krzywych ROC jest szczególnie ważny w analizie detekcji sygnałów i medycynie, w których krzywe te mają największe zastosowanie5. W badaniach marketingowych wykorzystanie krzywych ROC jest mniej popularne (szczególnie w literaturze polskiej). W marketingowych zastosowaniach krzywych ROC dominują obszary analizy wartości i lojalności klienta6. Krzywe operacyjno-charakterystyczne mają dwa podstawowe zastosowania: 1) pozwalają na ocenę mocy dyskryminacyjnej potencjalnych wskaźników mierzonych zjawisk oraz 2) stanowią pomoc w określeniu specyficznej wartości wskaźnika, który służy jako najlepsza wartość progowa optymalizująca relację między stopami wskazań prawdziwie dodatnich i wskazań fałszywie dodatnich7. Krzywą ROC przedstawiono na rys. 1. Krzywa jest graficznym obrazem zależności między stopami wyników fałszywie dodatnich (SFD) i prawdziwie dodatnich (SPD). W krańcowych punktach przestrzeni pod krzywą ROC wartości (0;0) oznaczają, że wynik klasyfikacji nie zawiera ocen fałszywie dodatnich (brak błędu klasyfikacji), ale również nie zawiera wartości prawdziwie dodatnich. Wartości (1;1) oznaczają sytuację odwrotną, w której występują wartości dodatnie (prawdziwe i fałszywe). Doskorich, The Relationship between Precision-Recall and ROC Curves, Proceedings of the 23 rd International Conference on Machine Learning, Pittsburgh, PA 2006. 3   J.P. Egan, Signal Detection Theory and ROC Analysis, Academic Press, New York 1975. 4   A. Maxion, R.R. Roberts, Proper Use of ROC Curves in Intrusion/Anomaly Detection. Technical Report Series, University of Newcastle upon Tyne, 2004. 5   Jednym z interesujących zastosowań tego podejścia była detekcja sygnałów w analizie obrazów radarowych w czasie II wojny światowej. Pozwalała ona operatorom radarów na odróżnienie okrętów wroga od własnych statków lub szumu. 6   N. Glady, B. Bart Baesens, C. Croux, Modeling Customer Loyalty Using Customer Lifetime Value, Catholic University Leuven, www.econ.kuleuven.be/fetew/pdf_publicaties/KBI_0618.pdf, 11.01.2008. 7   Analiza krzywych ROC występuje w licznych pakietach statystycznych. Należą do nich uniwersalne programy, takie jak SPSS, Statistica (makro Visual Basic), STATA i Systat, oraz specjalistyczne oprogramowanie: Med-calc, AccuROC, Analyse-It, CMDT, GraphROC, mROC czy ROCKIT. Ocenę jakości tych programów można znaleźć w artykule: C. Stephan i in., Comparison of Eight Computer Programs for Receiver-Operating Characteristic Analysis, „Clinical Chemistry” 2003, nr 49(3), s. 433–439..

(6) Adam Sagan. 10. 100. FD (%). FU (%) D. A. C. B E PD (%). PU (%). 0 0. 100. Rys. 1. Krzywa ROC Źródło: opracowanie własne na podstawie: R.M. Stein, The Relationship between Default Prediction and Lending Profits: Integrating ROC Analysis and Loan Pricing, „Journal of Banking & Finance” 2005, nr 29, s. 1213–1236.. nała klasyfikacja jest reprezentowana przez punkt (0;1), w którym nie występują wyniki fałszywie dodatnie, a jedynie prawdziwie dodatnie. Punkt A przedstawiony na rys. 1 obrazuje najczęstszą sytuację, w której występuje określona proporcja wyników prawdziwie dodatnich (PD), prawdziwie ujemnych (PU), fałszywie dodatnich (FD) i fałszywie ujemnych (FU). Ogólnie rzecz biorąc, ma ona miejsce w przypadku, gdy stopa wyników prawdziwie dodatnich rośnie o wiele szybciej niż stopa wyników fałszywie dodatnich. W przestrzeni ROC występować może wiele punktów o określonej kombinacji stóp SPD i SFD. Punkty zlokalizowane w lewym górnym rogu przestrzeni ROC charakteryzują klasyfikacje o lepszych własnościach predykcyjnych niż punkty w prawym górnym rogu ROC. Punkty B i D reprezentują kombinację SPD i SFD, które są traktowane jako „konserwatywne” klasyfikatory, ponieważ klasyfikują przypadki prawdziwie dodatnie przy jednoczesnej niskiej stopie klasyfikacji fałszywie dodatniej. Jest to jednak okupione także względnie niską stopą wartości prawdziwie dodatnich (jeżeli test wskazuje na dodatni przypadek, to najprawdopodobniej jest on również w rzeczywistości dodatni). Punkt A natomiast przedstawia „liberalną” klasyfikację, pozytywnej klasyfikacji dokonuje się bowiem na podstawie słabych dowodów i można poprawnie klasyfikować prawie wszystkie wartości jako prawdziwie dodatnie przy jednoczesnej wysokiej stopie wyników fałszywie dodatnich.

(7) Krzywe operacyjno-charakterystyczne.... 11. (test poprawnie wskazuje wszystkie dodatnie przypadki, ale jednocześnie błędnie diagnozuje jako dodatnie również wiele ujemnych). Stąd punkt B wskazuje na bardziej konserwatywną klasyfikację niż punkt C. Punkty leżące na przekątnej wykresu (np. punkt E) przedstawiają losowe przypisanie przypadku do danej klasy, co wynika z takiej samej proporcji wyników fałszywie i prawdziwie dodatnich (SPD = SFD). Wszystkie punkty leżące pod przekątną przedstawiają natomiast klasyfikacje mniej poprawne niż klasyfikacja losowa8. Wybór strategii klasyfikacji zależy w dużej mierze od charakteru problemu. Najczęściej celem klasyfikacji jest minimalizacja oczekiwanych kosztów (stopy błędnych klasyfikacji), maksymalizacja stopy wyników prawdziwie dodatnich przy danej stopie wyników fałszywie dodatnich (tzw. kryterium Neymana-Pearsona) lub osiągnięcie równych stóp wyników fałszywie dodatnich i fałszywie ujemnych. Cele klasyfikacji mogą wynikać również ze specyfiki sektora. W obszarze zarządzania relacjami z klientem zwykle większą wagę przywiązuje się do poprawnej klasyfikacji zyskownych klientów (błędna klasyfikacja zyskownego klienta jako niezyskownego może być bardzo kosztowna) niż klientów mających niską wartość życiową. W przypadku zmiennych binarnych problem klasyfikacji jest rozwiązywany na podstawie tabel kontyngencji 2×2. Przykładem tego rodzaju sytuacji są oceny kampanii promocyjnych stosowanych wobec określonych typów klientów. Tego rodzaju efekty dyskretnych klasyfikacji w tabelach 2×2 są przedstawiane jako jeden punkt na krzywej ROC. W celu porównywania wyników analizy częściej stosowana jest skalarna reprezentacja krzywych ROC w postaci obszaru pod krzywą ROC (area under ROC – AUC). Wartość tego pola pod krzywą zawsze jest w przedziale od 0 do 1, a pole powyżej linii wyboru losowego jest większe od 0,5. Wartość AUC = 1 oznacza doskonałą klasyfikację. Wskaźnik AUC jest równoważny prawdopodobieństwu, że losowo wybrana wartość dodatnia będzie miała wyższą rangę od losowo wybranej wartości ujemnej i tym samym jest odpowiednikiem testu rang Wilcoxona. Wartość AUC jest także związana bezpośrednio ze współczynnikiem Giniego, który jest równy podwojonej powierzchni znajdującej się między główną przekątną a krzywą ROC (G = 2×AUC – 1)9. Często klasyfikacje są dokonywane na podstawie prawdopodobieństw lub wartości ocen czy rankingów. W takiej sytuacji wskaźnik nie ma charakteru binarnego, lecz jest wielokategorialny lub ciągły. Wówczas istotne jest określenie poziomu czułości wskaźnika, który najtrafniej różnicuje klasyfikację przypadków z punktu widzenia dychotomicznego kryterium i dostarcza przesłanek wyboru   T. Fawcett, An Introduction to ROC Analysis, „Pattern Recognition Letters” 2006, nr 27, s. 861–874. 9   Ibidem. 8.

(8) 12. Adam Sagan. takiej wartości ciągłego wskaźnika, która optymalizuje zależność między stopami błędów klasyfikacji, czyli wskazaniami fałszywie dodatnimi i fałszywie ujemnymi. Przypadki fałszywie dodatnie związane są z I błędem klasyfikacji (klasyfikacja błędnych przypadków jako poprawnych), a przypadki fałszywie ujemne z II błędem klasyfikacji (klasyfikacja przypadków poprawnych jako błędnych). Stopy tych błędów zależą od czułości instrumentu diagnostycznego oraz poziomu odcięcia, przy którym nastąpi dychotomizacja wskaźnika (cut-off ). Wzrost poziomu odcięcia wskaźnika powoduje obniżenie I błędu klasyfikacji, ale wzrost błędu II klasyfikacji, i odwrotnie – obniżenie poziomu krytycznego powoduje wzrost I błędu klasyfikacji i obniżenie II błędu. Zagadnienia tego typu znajdują często zastosowanie w ocenie trafności klasyfikacji dokonywanych za pomocą różnych metod klasyfikacyjnych (np. analizy dyskryminacyjnej czy regresji logistycznej) oraz przeprowadzonych na podstawie różnych zmiennych predykcyjnych, które służą do oceny przewidywań wyborów produktów, reakcji na reklamę, migracji i odejść klientów, stanów ich zadowolenia itp. 4. Krzywe ROC w ocenie wyborów samochodów osobowych Przykładem zastosowania tego typu analizy jest ocena wyboru samochodu danej klasy cenowej (nowy lub używany) na podstawie zagregowanych ocen pożądanych cech samochodów kształtujących strukturę korzyści dla konsumenta10. Zmienne klasyfikacyjne dotyczyły następujących kategorii ocen: 1) ocena techniczna (duża moc silnika, duże przyspieszenie, duża prędkość maksymalna), 2) bezpieczeństwo (poduszki powietrzne, ABS, kurtyna powietrzna, strefy zgniotu), 3) koszty eksploatacji (małe zużycie paliwa, diesel, zamienniki części oryginalnych, koszty założenia instalacji gazowej, trwała karoseria, wytrzymały silnik), 4) funkcjonalność – nowoczesność (wycięcia na głośniki, duża pojemność bagażnika, panoramiczne lusterka, wyciszone wnętrze, ciemne szyby, elektryczne sterowanie, centralny zamek, zagłówki z tyłu, sportowe fotele), 5) zabezpieczenia (autoalarm, blokada kierownicy, immobiliser, blokada skrzyni biegów), 6) dodatkowe wartości (komputer, automatyczne wycieraczki, czujniki parkowania, GPS, wycieraczki świateł, klimatyzacja, podgrzewane fotele, światła ksenonowe, automatyczna skrzynia biegów), 7) wygląd (skórzana tapicerka, aluminiowe felgi, lakier metaliczny). Podsumowane oceny dla poszczególnych kategorii zostały znormalizowane w taki sposób, że przestrzeń zmienności ocen dla każdej kategorii mieściła się w przedziale od 0 do 100. 10   Dane empiryczne pochodzą z badań dr. Mariusza Łapczyńskiego dotyczących analizy struktury korzyści (benefit structure analysis) na polskim rynku samochodów osobowych, któremu składam podziękowanie za ich udostępnienie..

(9) Krzywe operacyjno-charakterystyczne.... 13. 0,00. 0,25. Wrażliwość 0,50 0,75. 1,00. Celem analizy było znalezienie punktu odcięcia dla zmiennych klasyfikacyjnych, przy którym następowała minimalizacja I i II błędu klasyfikacji i tym samym powierzchni pod krzywą ROC. Krzywe ROC dla każdej z wyróżnionych siedmiu kategorii przedstawione są na rys. 2. Większość kategorii cech nie pozwala na trafną klasyfikację wyboru nowego samochodu z badanej klasy cenowej. Najsłabszą mocą klasyfikacyjną charakteryzują się cechy związane z zabezpieczeniami (z), dla których przewidywania wyborów są mniej trafne nawet od przewidywań czysto losowych (powierzchnia AUC jest mniejsza od 0,5). Najbardziej trafne przewidywania można uzyskać na podstawie oceny technicznej (ot), dla których pole AUC pod krzywą ROC jest maksymalne i wynosi 0,6277. Wyróżnione punkty na krzywej oznaczają punkty odcięcia (cut-off ), które charakteryzują się określonymi relacjami między wskaźnikiem wrażliwości (sensitivity) i 1-specyficzności (specificity). Punkt optymalny jest punktem najdalej oddalonym na krzywej w kierunku północno-zachodnim o wartościach wskaźnika wrażliwości 0,75 i wskaźnika 1-specyficzności 0,60. Cechy charakteryzujące ocenę techniczną samochodu okazały się najlepszym klasyfikatorem zakupów nowych (lub używanych) samochodów i ten rodzaj cech był przedmiotem bardziej szczegółowej analizy.. 0,00. 0,25. 0,50 1-specyficzność. krzywa ROC dla ot: 0,6277 krzywa ROC dla be: 0,4966 krzywa ROC dla w: 0,5539. 0,75. 1,00. krzywa ROC dla fn: 0,536 krzywa ROC dla z: 0,4638 Punkt odniesienia. Rys. 2. Krzywe ROC wymiarów ocen samochodów Źródło: opracowanie własne na podstawie wyników uzyskanych za pomocą programu Stata 9.0..

(10) Adam Sagan. 14. Analiza krzywej ROC w przypadku ciągłych lub porządkowych zmiennych klasyfikujących polega na ocenie wskaźników wrażliwości i specyficzności w zależności od przyjętego punktu odcięcia. Uwzględniając fakt, że wzrost poziomu odcięcia wskaźnika powoduje obniżenie I błędu klasyfikacji (wyników fałszywie dodatnich) przy jednoczesnym wzroście błędu II klasyfikacji (wyników fałszywie ujemnych), należy zauważyć, że przyjęcie jako poziomu odcięcia wartości bardzo wysokiej pożądanych cech samochodu (np. 90) wpływa na wysoką wartość wskaźnika wrażliwości (klasyfikacji prawdziwie dodatnich), ale jednocześnie niską wskaźnika specyficzności (klasyfikacji prawdziwie ujemnych). Strukturę stóp błędów oraz wskaźników wrażliwości i specyficzności w zależności od punktu odcięcia przedstawia tabela 2. Znajdują się w niej wskaźniki wrażliwości, specyficzności i odsetek poprawnie sklasyfikowanych przypadków w zależności od punktu odcięcia. Tabela 2. Relacja między wrażliwością a specyficznością w zależności od punktu odcięcia Punkt odcięcia 0 10 20 30 40 50 60 70 80 90 100. Wrażliwość (%) 100,00 97,36 95,47 93,21 87,17 75,09 57,36 43,40 24,91 8,68 4,15. Specyficzność (%) 0,00 2,99 9,95 18,41 29,35 47,26 61,19 71,64 86,57 96,52 98,01. Poprawnie sklasyfikowane przypadki (%) 56,87 56,65 58,58 60,94 62,23 63,09 59,01 55,58 51,50 46,57 44,64. Źródło: opracowanie własne na podstawie wyników uzyskanych za pomocą programu Stata 9.0.. Wynika z niej, że na poziomie progu 90 odsetek ocen prawdziwie dodatnich (wrażliwość) wynosi tylko 8,68 (poprawna klasyfikacja samochodu używanego jako rzeczywiście używanego przy tak wysokich ocenach parametrów technicznych), a odsetek ocen fałszywie dodatnich (1-specyficzność) równa się 100 – 96,52 = 3,48 (błędna klasyfikacja samochodu używanego jako nowego przy wysokich ocenach parametrów technicznych). Maksymalizacja poprawnie sklasyfikowanych przypadków występuje przy punkcie odcięcia na poziomie ok. 50 pkt, dla którego wartość wrażliwości znajduje się na poziomie 0,75, a specyficzności 47,26..

(11) Krzywe operacyjno-charakterystyczne.... 0,00. 0,25. Wrażliwość 0,50. 0,75. 1,00. 15. 0,00. 0,25. 0,50 1-specyficzność. 0,75. 1,00. Przestrzeń pod krzywą ROC = 0,6277. Rys. 3. Krzywa ROC dla oceny technicznej Źródło: opracowanie własne na podstawie wyników uzyskanych za pomocą programu Stata 9.0.. 100 90 80 70. %. 60 50 40 30 20 10 0. 0. 10. 20. 30. 40 50 60 Ocena techniczna. Fałszywie ujemne. 70. 80. 90. 100. Fałszywie dodatnie. Rys. 4. Krzywe stóp błędów dla oceny technicznej Źródło: opracowanie własne na podstawie wyników uzyskanych za pomocą programu Simstat 2.5..

(12) 16. Adam Sagan. Kombinacja stóp wrażliwości i specyficzności maksymalizujących poprawnie zaklasyfikowane przypadki (prawdziwie ujemne i prawdziwie dodatnie) jest przedstawiona na krzywej operacyjno-charakterystycznej jako punkt maksymalnie przesunięty w lewą górną część wykresu. Podobne informacje można uzyskać na podstawie wykresu stóp błędów klasyfikacji, czyli rozkładu wskazań fałszywie dodatnich i fałszywie ujemnych (rys. 4). Krzywa wskazań fałszywie ujemnych ma charakter opadający, a krzywa wskazań fałszywie dodatnich jest rosnąca. Punkt przecięcia obu krzywych wskazuje na poziom zmiennej klasyfikacyjnej minimalizującej oba rodzaje błędów. 5. Podsumowanie Zastosowanie krzywych ROC do oceny trafności klasyfikacji dostarcza interesujących wskaźników diagnostyczno-porównawczych. Obok znanych wskaźników trafności klasyfikacji, takich jak lift chart i wykresy czułości-precyzji, jest bardzo często wykorzystywana w medycynie, uczeniu maszynowym i detekcji sygnałów. Prostota i zalety tej metody są przesłankami szerszego jej zastosowania w ocenie programów marketingowych i analizie wyborów konsumentów. Literatura Davis J., Goadrich M., The Relationship between Precision-Recall and ROC Curves, Proceedings of the 23rd International Conference on Machine Learning, Pittsburgh, PA 2006. Egan J.P., Signal Detection Theory and ROC Analysis, Academic Press, New York 1975. Fawcett T., An Introduction to ROC Analysis, „Pattern Recognition Letters” 2006, nr 27. Glady N., Bart Baesens B., Croux C., Modeling Customer Loyalty Using Customer Lifetime Value, Catholic University Leuven, www.econ.kuleuven.be/fetew/pdf_publicaties/KBI_0618.pdf, 11.01.2008. Maxion A., Roberts R.R., Proper Use of ROC Curves in Intrusion/Anomaly Detection. Technical Report Series, University of Newcastle upon Tyne, 2004. Stein R.M., The Relationship between Default Prediction and Lending Profits: Integrating ROC Analysis and Loan Pricing, „Journal of Banking & Finance” 2005, nr 29. Stephan C. i in., Comparison of Eight Computer Programs for Receiver-Operating Characteristic Analysis, „Clinical Chemistry” 2003, nr 49(3). Vukl M., Curk T., ROC Curve, Lift Chart and Calibration Plot, „Metodoloski zvezki” 2006, nr 3(1)..

(13) Krzywe operacyjno-charakterystyczne.... 17. The Receiver Operator Characteristic Curve in Market Research Evaluations The articles examines the characteristics and use of the receiver operator characteristic (ROC) in research on marketing phenomena. This approach is an extremely popular tool for assessing prediction accuracy in medical research and signal detection, and is being ever more widely used in social and marketing research. The article presents the main indicators of classification accuracy for contingency tables (2×2) and the principles governing the use of ROC curves. The use of these curves is illustrated with an analysis of the accuracy of the choice of car (new or used) based on the structure of customer benefits..

(14)

Cytaty

Powiązane dokumenty

względu jednak na oczywiste trudności szacowania tych prawdopodobieństw dla pojedynczej osoby, przyjmuje się niekiedy (czasem przemilczając to założenie), że

dzimy więc, że czynności prawne, należące do dziedziny prawa materialnego mogą być wciągnięte w ramy procesu i stanowić treść oświadczeń procesowych. Tu powstaje

Do analiz m ikroskopow ych p rzy­ gotow ano preparaty w postaci odłupków ze św ieżych przełam ów próbek, które pokryto w arstew ką przew odzącego m etalu (Au)

umowy z Gminą Baranów” powinno być brzmienie „Zwalnia się od podatku od nieruchomości grunty i budynki wykorzystywane na potrzeby systemu

Zawiera on scrambler samo- synchronizujący generujący sekwencję pseudoprzy- padkową konieczną do porównywania obu ciągów (testowego i wzorcowego) i zliczania błędów wraz z

At the Chair of Organisation and Management works are in progress on the research subject “Social potential of enterprises and public organisations”. Assessment of the social

A - trójwymiarową tablicę zawierającą macierze danych dla podzbioru obiektów typu A w poszczególnych symulacjach (pierwszy wymiar oznacza numer symulacji, drugi

„Wszechstronna, krytyczna interpretacja wszystkich aspektów zajść marco­ wych jest dziś naglącym obowiązkiem socjologów, zwłaszcza tych, którzy zajmo­ wali się dydaktyką,