Wyzwanie wiarygodnej wiedzy i dowodów - Wyzwania zastosowania wiedzy i uczenia się w praktyce z

1. Rola organizacyjnego uczenia się we współczesnym zarządzaniu

1.5. Wyzwania zastosowania wiedzy i uczenia się w praktyce zarządzania

1.5.2. Wyzwanie wiarygodnej wiedzy i dowodów

Zarówno planowanie interwencji publicznych, jak i weryfikacja ich rzeczywi-stych efektów wymagają wiedzy. Prowadzi to do dwóch skomplikowanych kwestii.

Po pierwsze: jaką wiedzę można uznać za wystarczająco wiarygodną, by wykorzystać ją w planowaniu działań publicznych. Po drugie: co jest przekonującym dowodem jakości programu.

Próba odpowiedzi na te pytania stawia nas w centrum „wojny paradygmatów”

nauk społecznych, która wynika z biegunowo odmiennych filozofii definiowania, po-strzegania i poznania świata, a która toczy się ze zmienną intensywnością od lat sie-demdziesiątych XX wieku (Greene, Henry 2005; Tavistock Institute i in. 2003). Po jed-nej stronie stoją zwolennicy tradycyjjed-nej, pozytywistyczjed-nej filozofii badań. Przyjmują oni, że naukowcy mogą dokonać oceny efektów danej interwencji publicznej według obiektywnych kryteriów, które program spełnił, a które zweryfikowano w procesie pomiaru (Quality as measured). Dla przedstawicieli pozytywizmu wiarygodnymi do-wodami są te osiągnięte w procesie badawczym, analogicznym wobec badań nauk ścisłych – powtarzalnym, opartym na podejściu ilościowym oraz eksperymentalnym planie badawczym (a jeśli jest to niemożliwe – quasi-eksperymentalnym). Planem ba-dawczym dostarczającym najmocniejszych dowodów są badania oparte na losowych grupach kontrolnych (randomised control trials – RCT).

Tabela 10. Pozytywizm vs. konstruktywizm

Pozytywizm Konstruktywizm

Ontologia Rzeczywistość jest dana i jest bytem zewnętrznym

Rzeczywistość tworzą aktorzy społeczni

Epistemologia Potrafię się zdystansować – analizować obiektywnie i chłodno

To, kim jestem, warunkuje to, w jaki sposób postrzegam świat

Podstawa to indukcja, nie można generalizować

Podejście logiczne Jestem w stanie określić, co jest przyczyną, a co skutkiem

Nie mogę jednoznacznie odróżnić przyczyny od skutku, mogę tylko określić relacje elementów Źródło: Christie 2008.

Po drugiej stronie barykady znaleźli się zwolennicy konstruktywizmu, który za-kłada, że rzeczywistość zjawisk społecznych różni się od zjawisk zgłębianych przez nauki ścisłe. Jest dynamiczna, wieloaspektowa i uwarunkowana kontekstem. Cel ba-dania to nie ekstrahowanie ogólnych teorii, ale zrozumienie kontekstu, uwarunko-wań, w których następuje zmiana. Z tej perspektywy jakość programu jest wypadkową

opinii, odczuć uczestników – interesariuszy (Quality as experienced). Wiarygodnymi dowodami sukcesu są więc jakościowe strategie badawcze, badania obejmujące jak największą liczbę opinii jak najszerszej grupy aktorów, ich różne punkty widzenia.

Sam ewaluator pozostaje w tym wypadku nawet nie tyle oceniającym, ile moderato-rem zmiany społecznej.

Ta filozoficzna wojna paradygmatów ma, wbrew pozorom, bardzo namacalne przełożenie na praktykę działań publicznych. W połowie lat 1990-tych XX wieku zwolennikom pozytywistycznego podejścia udało się przeforsować w administracji prezydenta Busha (juniora) uznanie za „złoty standard” badań ewaluacyjnych tylko tych studiów opartych na losowych grupach kontrolnych²⁷. Narzucenie takiego roz-wiązania spotkało się z ożywioną dyskusją i krytyką zarówno środowiska naukow-ców, ewaluatorów jak i operatorów programów. Krytycy zwracali uwagę na szereg poważnych ograniczeń metod eksperymentalnych (Brass i in. 2006; Cook i in. 2010;

European Evaluation Society 2007). Po pierwsze zwracano uwagę, że struktura wielu programów nie pozwala na zastosowanie eksperymentalnych planów badawczych.

RCT sprawdzają się w odniesieniu do dużych programów o wąskiej, prostej struktu-rze celów, sektorowej orientacji (np. pole służby zdrowia bądź szkoleń) i homogenicz-nej, dużej grupie beneficjentów (zwykle osób lub firm). Tymczasem wiele programów publicznych jest zaprojektowanych jako interwencje wielopoziomowe i międzysek-torowe, o wiązkach celów. Efekty mogą być mierzalne tylko za pomocą triangulacji ujęć badawczych. Po drugie, RCT wymagają sztywnego podejścia – tzn. raz zapro-jektowany program musi być wdrażany w niezmienionej formie, a wybrana grupa kontrolna ma pozostać stała, gdyż jakiekolwiek modyfikacje zniekształcą wyniki eksperymentu. Ta sztywność oznacza też niezmienne otoczenie bądź kontrolowanie czynników otoczenia. Tymczasem w programy, szczególnie wieloletnie, są zmieniane w trakcie wdrażania, a rzeczywistość wokół nich również jest dynamiczna. Wymóg metodyki RCT odbiera więc menedżerom praktyczną elastyczność w dostosowywa-niu programu do zmian w otoczew dostosowywa-niu. Ta sztywność zawęża też obraz rzeczywistości – RCT nie uwzględniają ani zmian środowiska, w którym działa program, ani efektów

27 W 1993 r., na fali wzmacniania zarządzania zorientowanego na wyniki, Kongres Stanów Zjed-noczonych uchwalił The Government Performance and Results Act (GPRA). Akt ten nakładał na agen-cje federalne obowiązek dorocznego określania celów (opisanych konkretnymi wskaźnikami) i składania sprawozdań z osiąganych rezultatów. Po 10 latach działania systemu Biuro Zarządzania i Budżetu (OMB) wprowadziło Program Assessment Rating Tool (PART) (Ho 2007). W założeniu narzędzie to miało za-pewnić zestandaryzowane podejście do porównywania i oceny zróżnicowanych programów federalnych, a także połączyć wyniki ocen z procesem budżetowym i decyzjami o dalszym finansowaniu programu.

W szablonie oceny uznano, że dowodem na działanie programu, niezależnie od jego tematyki, są wyłącz-nie ewaluacje oparte na eksperymentalnym plawyłącz-nie badawczym i RCT (a więc pozytywistyczny paradyg-mat badań). Programy, które nie były w stanie udokumentować swoich wyników za pomocą takich ewa-luacji, otrzymywały w rankingach rządu 0 punktów, co z kolei prowadziło do ograniczania ich wydatków.

Tę logikę zaczęto stosować nie tylko do programów federalnych, lecz również do międzynarodowych programów humanitarnych. Po 10 latach i wielu dyskusjach administracja prezydenta Obamy wycofała się z tego podejścia. Cały zaś system PART z perspektywy czasu okazał się kosztowny i restrykcyjny, o zni-komej przydatności dla opinii publicznej i polityków, a tylko ograniczonej użyteczności dla menedżerów (Newcomer, Redburn 2011).

ubocznych (nieprzewidzianych w wyjściowym modelu)²⁸. Kolejnym problemem jest kwestia grupy kontrolnej. W wielu polach interwencji publicznych (np. interwencje infrastrukturalne) trudno jest ustalić grupy kontrolne, a sztuczne wyłączanie części społeczności z udziału w programie tylko na potrzeby testu ma poważne implikacje etyczne i polityczne. Czwartym argumentem jest niska użyteczność wniosków z ta-kich badań. Dobrze wykonane RCT dają co prawda mocne dowody na temat relacji przyczynowo-skutkowej między interwencją a zmianą w konkretnym otoczeniu, jed-nak nie mogą wyjaśnić tej zmiany. A co więcej, ich wnioski trudno generalizować, odnosząc do innych sytuacji. Takie badania nie odpowiadają więc na kluczowe dla praktyków pytanie o to, jakie przyczyny i mechanizmy zadecydowały, że program za-działał lub nie (czy była to kwestia konstrukcji jego celów, zmian w otoczeniu progra-mu, jakości wdrażania itp.).

Szerszym, rozstrzygającym argumentem było wskazanie, że przedkładanie jednej metody ponad inne i traktowanie jej jako warunku wyjściowego każdego z badań jest rażąco sprzeczne z logiką badań społecznych. Metody są tylko narzędziem, są wtórne wobec pytań. To pytania badawcze determinują kształt metodyki, a nie metoda ma narzucać kierunek badania. Przyjęcie RCT jako „standardu” to wpadnięcie w pułapkę

„chłopca z młotkiem”²⁹. Ostatecznie, administracja amerykańska wycofała się z me-tody RCT jako „złotego standardu” dla wszystkich interwencji publicznych.

Ostra dyskusja na temat ewaluacji doprowadziła jednak do stopniowego wyło-nienia się pragmatycznego, pośredniego stanowiska pomiędzy paradygmatami. Pre-zentuje je szkoła realistyczna (realist approach) (Henry i in. 1998; Pawson, Tilley 1997) i zbieżny z nią nurt ewaluacji wspieranych teorią (theory driven evaluation). Uznają one konieczność stosowania modeli logicznych przy planowaniu ewaluacji, jednak traktują je jako orientacyjną mapę do eksploracji działania programu, a nie sztywny schemat, który ma być poddany falsyfikacji. Jakość programu przy tych podejściach jest definiowana na podstawie rzeczywiście osiągniętych efektów – ich użyteczności z perspektywy różnych interesariuszy i po uwzględnieniu oraz wyjaśnieniu mecha-nizmu, który do tych efektów doprowadził. Wiarygodne dowody sukcesu to te, które zostały zbudowane na przejrzystym ciągu logicznym i poparte badaniami własnymi, szerszymi teoriami, jak i innymi studiami.

Na poziomie metodyki za badanie o wysokiej jakości, tzn. wiarygodne, uznaje się takie, w którym:

• dobór metod i podejścia badawczego jest odpowiedni do pytania będącego przed-miotem zainteresowania zlecających, kontekstu oraz ograniczeń praktycznych – czasu i zasobów (tzw. platynowy standard);

28 Klasycznym przykładem tego ograniczenia przytaczanym przez krytyków podejść eksperymental-nych jest fakt, że wdrażane w latach 1950–1960 duże ewaluacje eksperymentalne amerykańskich progra-mów edukacyjnych zupełnie „przegapiły” rewolucję kulturową „dzieci kwiatów”, która wstrząsnęła ame-rykańskim systemem edukacji (Chelimsky 2011).

29 Abraham Kaplan żartobliwie zauważył: „Daj chłopcu młotek, a uzna, że wszystko, co spotka na swojej drodze, wymaga wbicia”. W swojej książce The Conduct of Inquiry: Methodology for Behavioral Science (1964, s. 28) nazwał to „prawem jednego narzędzia”.

• wnioski są budowane na zróżnicowanych źródłach danych (triangulacja), a coraz częściej również na bazie zróżnicowanych metod³⁰;

• zachowana jest rzetelność metod i technik zbierania oraz analizy danych;

• zachowana jest systematyczność i przejrzystość procesu badawczego;

• badacze prowadzą studium w sposób autorefleksyjny (Donaldson i in. 2008, s. 248;

Olejniczak i in. 2012, s. 298–300).

To pragmatyczne podejście nie rozwiązuje jednak definitywnie konfliktu paradyg-matów. Można się spodziewać, że co jakiś czas będzie on powracał, tym bardziej, iż Komisja Europejska w ostatnim czasie w sferze funduszy UE nawiązuje do pomysłów administracji amerykańskiej, próbując rozwijać podejścia eksperymentalne i metody kontrfaktyczne.

Warto podkreślić, że cała powyższa dyskusja dotyczy głównie badań ewaluacyj-nych i ekspertyz. Tymczasem, praktycy zarządzania publicznego zwracają uwagę, że te źródła to tylko jeden z rodzajów wiedzy, na którym budowane są polityki publicz-ne. W rzeczywistości założenia interwencji stanowią wypadkową wiedzy naukowej z zakresu nauk ścisłych, ekonomii i innych nauk społecznych, intuicji politycznych, statystyk, profesjonalnego doświadczenia decydentów etc. (Mulgan 2011). Każda z tych odmian wiedzy wywodzi się z nieco innej tradycji, znalezienie wspólnego mia-nownika – jednej hierarchii siły dowodów – jest właściwie niemożliwe.

Tak więc w praktyce dnia codziennego to od personelu tworzącego program i od głównych decydentów zależy, jak zróżnicowane są przesłanki, na których buduje się program, jak są ważone argumenty i rodzaje wiedzy. Jej „wiarygodność” jest roz-strzygana na poziomie organizacji i pojedynczych osób – ich map mentalnych stwo-rzonych przez edukację, doświadczenie we współpracy z naukowcami, umiejętność krytycznej oceny metodyki badań i szerzej, zdolność do krytycznego myślenia³¹. Tak jak przy racjonalnym planowaniu, również i w przypadku kwestii wiarygodności wie-dzy, ciężar sprostania wyzwaniu zdaje się spoczywać głównie na kadrach organizacji publicznych.

W dokumencie Organizacje uczące się: model dla administracji publicznej - Karol Olejniczak (Stron 46-49)