1. Rola organizacyjnego uczenia się we współczesnym zarządzaniu
1.5. Wyzwania zastosowania wiedzy i uczenia się w praktyce zarządzania
1.5.2. Wyzwanie wiarygodnej wiedzy i dowodów
Zarówno planowanie interwencji publicznych, jak i weryfikacja ich rzeczywi-stych efektów wymagają wiedzy. Prowadzi to do dwóch skomplikowanych kwestii.
Po pierwsze: jaką wiedzę można uznać za wystarczająco wiarygodną, by wykorzystać ją w planowaniu działań publicznych. Po drugie: co jest przekonującym dowodem jakości programu.
Próba odpowiedzi na te pytania stawia nas w centrum „wojny paradygmatów”
nauk społecznych, która wynika z biegunowo odmiennych filozofii definiowania, po-strzegania i poznania świata, a która toczy się ze zmienną intensywnością od lat sie-demdziesiątych XX wieku (Greene, Henry 2005; Tavistock Institute i in. 2003). Po jed-nej stronie stoją zwolennicy tradycyjjed-nej, pozytywistyczjed-nej filozofii badań. Przyjmują oni, że naukowcy mogą dokonać oceny efektów danej interwencji publicznej według obiektywnych kryteriów, które program spełnił, a które zweryfikowano w procesie pomiaru (Quality as measured). Dla przedstawicieli pozytywizmu wiarygodnymi do-wodami są te osiągnięte w procesie badawczym, analogicznym wobec badań nauk ścisłych – powtarzalnym, opartym na podejściu ilościowym oraz eksperymentalnym planie badawczym (a jeśli jest to niemożliwe – quasi-eksperymentalnym). Planem ba-dawczym dostarczającym najmocniejszych dowodów są badania oparte na losowych grupach kontrolnych (randomised control trials – RCT).
Tabela 10. Pozytywizm vs. konstruktywizm
Pozytywizm Konstruktywizm
Ontologia Rzeczywistość jest dana i jest bytem zewnętrznym
Rzeczywistość tworzą aktorzy społeczni
Epistemologia Potrafię się zdystansować – analizować obiektywnie i chłodno
To, kim jestem, warunkuje to, w jaki sposób postrzegam świat
Podstawa to indukcja, nie można generalizować
Podejście logiczne Jestem w stanie określić, co jest przyczyną, a co skutkiem
Nie mogę jednoznacznie odróżnić przyczyny od skutku, mogę tylko określić relacje elementów Źródło: Christie 2008.
Po drugiej stronie barykady znaleźli się zwolennicy konstruktywizmu, który za-kłada, że rzeczywistość zjawisk społecznych różni się od zjawisk zgłębianych przez nauki ścisłe. Jest dynamiczna, wieloaspektowa i uwarunkowana kontekstem. Cel ba-dania to nie ekstrahowanie ogólnych teorii, ale zrozumienie kontekstu, uwarunko-wań, w których następuje zmiana. Z tej perspektywy jakość programu jest wypadkową
opinii, odczuć uczestników – interesariuszy (Quality as experienced). Wiarygodnymi dowodami sukcesu są więc jakościowe strategie badawcze, badania obejmujące jak największą liczbę opinii jak najszerszej grupy aktorów, ich różne punkty widzenia.
Sam ewaluator pozostaje w tym wypadku nawet nie tyle oceniającym, ile moderato-rem zmiany społecznej.
Ta filozoficzna wojna paradygmatów ma, wbrew pozorom, bardzo namacalne przełożenie na praktykę działań publicznych. W połowie lat 1990-tych XX wieku zwolennikom pozytywistycznego podejścia udało się przeforsować w administracji prezydenta Busha (juniora) uznanie za „złoty standard” badań ewaluacyjnych tylko tych studiów opartych na losowych grupach kontrolnych27. Narzucenie takiego roz-wiązania spotkało się z ożywioną dyskusją i krytyką zarówno środowiska naukow-ców, ewaluatorów jak i operatorów programów. Krytycy zwracali uwagę na szereg poważnych ograniczeń metod eksperymentalnych (Brass i in. 2006; Cook i in. 2010;
European Evaluation Society 2007). Po pierwsze zwracano uwagę, że struktura wielu programów nie pozwala na zastosowanie eksperymentalnych planów badawczych.
RCT sprawdzają się w odniesieniu do dużych programów o wąskiej, prostej struktu-rze celów, sektorowej orientacji (np. pole służby zdrowia bądź szkoleń) i homogenicz-nej, dużej grupie beneficjentów (zwykle osób lub firm). Tymczasem wiele programów publicznych jest zaprojektowanych jako interwencje wielopoziomowe i międzysek-torowe, o wiązkach celów. Efekty mogą być mierzalne tylko za pomocą triangulacji ujęć badawczych. Po drugie, RCT wymagają sztywnego podejścia – tzn. raz zapro-jektowany program musi być wdrażany w niezmienionej formie, a wybrana grupa kontrolna ma pozostać stała, gdyż jakiekolwiek modyfikacje zniekształcą wyniki eksperymentu. Ta sztywność oznacza też niezmienne otoczenie bądź kontrolowanie czynników otoczenia. Tymczasem w programy, szczególnie wieloletnie, są zmieniane w trakcie wdrażania, a rzeczywistość wokół nich również jest dynamiczna. Wymóg metodyki RCT odbiera więc menedżerom praktyczną elastyczność w dostosowywa-niu programu do zmian w otoczew dostosowywa-niu. Ta sztywność zawęża też obraz rzeczywistości – RCT nie uwzględniają ani zmian środowiska, w którym działa program, ani efektów
27 W 1993 r., na fali wzmacniania zarządzania zorientowanego na wyniki, Kongres Stanów Zjed-noczonych uchwalił The Government Performance and Results Act (GPRA). Akt ten nakładał na agen-cje federalne obowiązek dorocznego określania celów (opisanych konkretnymi wskaźnikami) i składania sprawozdań z osiąganych rezultatów. Po 10 latach działania systemu Biuro Zarządzania i Budżetu (OMB) wprowadziło Program Assessment Rating Tool (PART) (Ho 2007). W założeniu narzędzie to miało za-pewnić zestandaryzowane podejście do porównywania i oceny zróżnicowanych programów federalnych, a także połączyć wyniki ocen z procesem budżetowym i decyzjami o dalszym finansowaniu programu.
W szablonie oceny uznano, że dowodem na działanie programu, niezależnie od jego tematyki, są wyłącz-nie ewaluacje oparte na eksperymentalnym plawyłącz-nie badawczym i RCT (a więc pozytywistyczny paradyg-mat badań). Programy, które nie były w stanie udokumentować swoich wyników za pomocą takich ewa-luacji, otrzymywały w rankingach rządu 0 punktów, co z kolei prowadziło do ograniczania ich wydatków.
Tę logikę zaczęto stosować nie tylko do programów federalnych, lecz również do międzynarodowych programów humanitarnych. Po 10 latach i wielu dyskusjach administracja prezydenta Obamy wycofała się z tego podejścia. Cały zaś system PART z perspektywy czasu okazał się kosztowny i restrykcyjny, o zni-komej przydatności dla opinii publicznej i polityków, a tylko ograniczonej użyteczności dla menedżerów (Newcomer, Redburn 2011).
ubocznych (nieprzewidzianych w wyjściowym modelu)28. Kolejnym problemem jest kwestia grupy kontrolnej. W wielu polach interwencji publicznych (np. interwencje infrastrukturalne) trudno jest ustalić grupy kontrolne, a sztuczne wyłączanie części społeczności z udziału w programie tylko na potrzeby testu ma poważne implikacje etyczne i polityczne. Czwartym argumentem jest niska użyteczność wniosków z ta-kich badań. Dobrze wykonane RCT dają co prawda mocne dowody na temat relacji przyczynowo-skutkowej między interwencją a zmianą w konkretnym otoczeniu, jed-nak nie mogą wyjaśnić tej zmiany. A co więcej, ich wnioski trudno generalizować, odnosząc do innych sytuacji. Takie badania nie odpowiadają więc na kluczowe dla praktyków pytanie o to, jakie przyczyny i mechanizmy zadecydowały, że program za-działał lub nie (czy była to kwestia konstrukcji jego celów, zmian w otoczeniu progra-mu, jakości wdrażania itp.).
Szerszym, rozstrzygającym argumentem było wskazanie, że przedkładanie jednej metody ponad inne i traktowanie jej jako warunku wyjściowego każdego z badań jest rażąco sprzeczne z logiką badań społecznych. Metody są tylko narzędziem, są wtórne wobec pytań. To pytania badawcze determinują kształt metodyki, a nie metoda ma narzucać kierunek badania. Przyjęcie RCT jako „standardu” to wpadnięcie w pułapkę
„chłopca z młotkiem”29. Ostatecznie, administracja amerykańska wycofała się z me-tody RCT jako „złotego standardu” dla wszystkich interwencji publicznych.
Ostra dyskusja na temat ewaluacji doprowadziła jednak do stopniowego wyło-nienia się pragmatycznego, pośredniego stanowiska pomiędzy paradygmatami. Pre-zentuje je szkoła realistyczna (realist approach) (Henry i in. 1998; Pawson, Tilley 1997) i zbieżny z nią nurt ewaluacji wspieranych teorią (theory driven evaluation). Uznają one konieczność stosowania modeli logicznych przy planowaniu ewaluacji, jednak traktują je jako orientacyjną mapę do eksploracji działania programu, a nie sztywny schemat, który ma być poddany falsyfikacji. Jakość programu przy tych podejściach jest definiowana na podstawie rzeczywiście osiągniętych efektów – ich użyteczności z perspektywy różnych interesariuszy i po uwzględnieniu oraz wyjaśnieniu mecha-nizmu, który do tych efektów doprowadził. Wiarygodne dowody sukcesu to te, które zostały zbudowane na przejrzystym ciągu logicznym i poparte badaniami własnymi, szerszymi teoriami, jak i innymi studiami.
Na poziomie metodyki za badanie o wysokiej jakości, tzn. wiarygodne, uznaje się takie, w którym:
• dobór metod i podejścia badawczego jest odpowiedni do pytania będącego przed-miotem zainteresowania zlecających, kontekstu oraz ograniczeń praktycznych – czasu i zasobów (tzw. platynowy standard);
28 Klasycznym przykładem tego ograniczenia przytaczanym przez krytyków podejść eksperymental-nych jest fakt, że wdrażane w latach 1950–1960 duże ewaluacje eksperymentalne amerykańskich progra-mów edukacyjnych zupełnie „przegapiły” rewolucję kulturową „dzieci kwiatów”, która wstrząsnęła ame-rykańskim systemem edukacji (Chelimsky 2011).
29 Abraham Kaplan żartobliwie zauważył: „Daj chłopcu młotek, a uzna, że wszystko, co spotka na swojej drodze, wymaga wbicia”. W swojej książce The Conduct of Inquiry: Methodology for Behavioral Science (1964, s. 28) nazwał to „prawem jednego narzędzia”.
• wnioski są budowane na zróżnicowanych źródłach danych (triangulacja), a coraz częściej również na bazie zróżnicowanych metod30;
• zachowana jest rzetelność metod i technik zbierania oraz analizy danych;
• zachowana jest systematyczność i przejrzystość procesu badawczego;
• badacze prowadzą studium w sposób autorefleksyjny (Donaldson i in. 2008, s. 248;
Olejniczak i in. 2012, s. 298–300).
To pragmatyczne podejście nie rozwiązuje jednak definitywnie konfliktu paradyg-matów. Można się spodziewać, że co jakiś czas będzie on powracał, tym bardziej, iż Komisja Europejska w ostatnim czasie w sferze funduszy UE nawiązuje do pomysłów administracji amerykańskiej, próbując rozwijać podejścia eksperymentalne i metody kontrfaktyczne.
Warto podkreślić, że cała powyższa dyskusja dotyczy głównie badań ewaluacyj-nych i ekspertyz. Tymczasem, praktycy zarządzania publicznego zwracają uwagę, że te źródła to tylko jeden z rodzajów wiedzy, na którym budowane są polityki publicz-ne. W rzeczywistości założenia interwencji stanowią wypadkową wiedzy naukowej z zakresu nauk ścisłych, ekonomii i innych nauk społecznych, intuicji politycznych, statystyk, profesjonalnego doświadczenia decydentów etc. (Mulgan 2011). Każda z tych odmian wiedzy wywodzi się z nieco innej tradycji, znalezienie wspólnego mia-nownika – jednej hierarchii siły dowodów – jest właściwie niemożliwe.
Tak więc w praktyce dnia codziennego to od personelu tworzącego program i od głównych decydentów zależy, jak zróżnicowane są przesłanki, na których buduje się program, jak są ważone argumenty i rodzaje wiedzy. Jej „wiarygodność” jest roz-strzygana na poziomie organizacji i pojedynczych osób – ich map mentalnych stwo-rzonych przez edukację, doświadczenie we współpracy z naukowcami, umiejętność krytycznej oceny metodyki badań i szerzej, zdolność do krytycznego myślenia31. Tak jak przy racjonalnym planowaniu, również i w przypadku kwestii wiarygodności wie-dzy, ciężar sprostania wyzwaniu zdaje się spoczywać głównie na kadrach organizacji publicznych.