• Nie Znaleziono Wyników

Jeszcze do niedawna badania dotyczące predykcji międzyprojektowej były bardzo odległe od udziele-nia jednoznacznej odpowiedzi na pytanie o możliwość wykonywaudziele-nia takiej predykcji. Gunes Koru oraz Hongfang Liu [66] analizując ten problem doszli do wniosku, że dla różnych środowisk wytwarzania oprogramowania należy konstruować różne modele predykcji defektów każdorazowo uwzględniając in-dywidualne wzorce występowania defektów. Równocześnie badacze ci uznali jednak, że powyższe sfor-mułowanie nie może prowadzić do konkluzji jakoby tworzenie uogólnionych modeli predykcji defektów (mających zastosowanie do więcej niż jednego projektu) było niemożliwe. Co więcej wyartykułowali

2.4. PREDYKCJA MIĘDZYPROJEKTOWA 27

oni zasadność stosowania uogólnionych modeli wskazując, że są one jedyną opcją dla projektów nie dysponujących danymi historycznymi niezbędnymi do konstrukcji modelu predykcji defektów.

Do innych wniosków doszli Wahyudin, Ramler i Biffl. W pracy [109] zaproponowali oni biblio-tekę służącą do predykcji defektów. W kontekście definiowania struktury tej biblioteki analizowano możliwość ponownego wykorzystywania danych historycznych pochodzących z różnych projektów. Rozważania te doprowadziły autorów do wniosku, że model predykcji defektów powinien być kon-struowany w kontekście konkretnego projektu. Uznali również, że zazwyczaj predykator uzyskany dla jednego projektu, nie nadaje się do zastosowania w drugim. Trudno jednak uznać przedstawione w tej pracy konkluzje za rozstrzygające, ponieważ istnieją badania empiryczne (najważniejsze z nich omówiono poniżej), których wyniki sugerują coś zupełnie innego.

Interesujące badania bliskie predykcji międzyprojektowej zostały przeprowadzone przez Bella, Ostranda i Weyuker. W pracy [89] opisali oni eksperyment przeprowadzony na dwóch dużych pro-jektach przemysłowych, które składały się odpowiednio z 17 i 9 wydań. Zastosowano regresję bino-minalną oraz metryki wyliczane z kodu źródłowego jak i historię modyfikacji i występowania błędów do skonstruowania modelu predykcji defektów. Praca ta została następnie rozszerzona w [113], przez przeanalizowanie trzeciego projektu. W projekcie tym zastosowano taki sam model jak w obydwu wcześniejszych i uzyskano bardzo zachęcające wyniki. Okazało się, że predykcje uzyskane z tego mo-delu pozwalały na wykrycie aż 83% wszystkich znajdujących się w projekcie defektów w zaledwie 20% plików składających się na ten projekt. Dalsze badania zostały przedstawione w [115], gdzie liczba badanych projektów została zwiększona do czterech. Przeprowadzone badania pozwoliły autorom na stwierdzenie, że metoda konstrukcji modeli predykcji defektów, którą zaproponowali z myślą o sys-temach przemysłowych mających wiele historycznych wydań, sprawdza się dobrze nie tylko w tych systemach, dla których była projektowana, ale również w systemach, które wcześniejszych wydań nie miały. Wniosek taki pokazuje, że przy pewnych ograniczeniach, wyniki uzyskane w jednym projekcie mogą z powodzeniem być stosowane w innych projektach. Należy tu jednak pamiętać, że wszystkie projekty badane przez Bella, Ostranda i Weyuker były wytwarzane przez tą samą firmę w ramach zbliżonych procesów wytwarzania oprogramowania i należały do podobnych domen. Granice przeno-szenia doświadczeń między projektami zostały tu więc bardzo zawężone. Dodatkowo należy jeszcze nadmienić, że przenoszona pomiędzy projektami była metoda tworzenia modelu (zestaw wykorzysty-wanych metryk, procedura uczenia modelu) a nie sam model. Natomiast celem badań opisanych w Rozdziale 5 jest przenoszenie modelu między projektami.

Przenoszenie modelu między projektami było analizowane przez Watanabe, Kaiya i Kaijiri w prze-prowadzonym przez nich studium przypadku [111]. Przebadali oni dwa podobne do siebie projekty programistyczne: JEdit oraz Sakura Editor. Oba mają zbliżony rozmiar i należą do tej samej dziedzi-ny, mianowicie oba są edytorami tekstu. Różniły się te projekty natomiast językiem programowania, w którym były realizowane. JEdit został napisany w Javie, a Sakura Editor w C++. Dla każdego z projektów z osobna skonstruowano model predykcji defektów. Ostatecznie, w celu zweryfikowania możliwości dokonywania predykcji międzyprojektowej, model skonstruowany dla projektu JEdit zo-stał zastosowany w projekcie Sakura Editor, a model skonstruowany dla projektu Sakura Editor zozo-stał zastosowany w projekcie JEdit. Wyniki takiej predykcji międzyprojektowej porównano następnie z wynikami predykcji wewnątrzprojektowej, czyli takiej gdzie ten sam projekt był wpierw wykorzysty-wany do budowy modelu, a następnie dokonywano w nim predykcji defektów przy użyciu tego właśnie modelu. Dokładność predykcji została oceniona przy pomocy dwóch metryk: precyzja (ang. precision) i pamięć (ang. recall). W predykcji wewnątrzprojektowej uzyskano precyzję 0, 828 i 0, 733 oraz pamięć 0, 897 i 0, 792. Natomiast w predykcji między projektowej precyzja była równa 0, 872 i 0, 622 a

pa-mięć 0, 596 i 0, 402. Uzyskano więc zdecydowanie lepsze wyniki dla predykcji wewnątrzprojektowej niż

28 ROZDZIAŁ 2. PRZEGLĄD STANU WIEDZY O MODELACH PREDYKCJI DEFEKTÓW

i rozmiaru badanych projektów można stosować predykcję międzyprojektową. Jednocześnie jednak przyznali, że wyników badania które przeprowadzili, czyli dotyczącego zaledwie dwóch projektów, nie można uogólniać. W celu uzyskania rozstrzygających wyników należałoby eksperyment powtórzyć na większej grupie projektów.

Zaawansowane badania dotyczące predykcji międzyprojektowej zostały opisane przez Turhana, Menziesa, Benera i Distefano w [108]. W pracy tej przebadano dziesięć różnych wersji projektów gramistycznych. W oparciu o uzyskane wyniki stwierdzono, że nie istnieje jeden zestaw metryk pro-duktu, który mógłby posłużyć do konstruowania modeli predykcji defektów w dowolnym projekcie. W przeprowadzonych eksperymentach używano do oceny skuteczności modelu prawdopodobieństwa

wykrycia defektu (ang. probability of detection, pd) oraz prawdopodobieństwa fałszywego alarmu (ang. probability of false alarm, pf ). Warto tu nadmienić, że model dokonywał predykcji binarnej: moduł

zawiera defekty albo moduł jest wolny od defektów. Wartości zarówno pd jak i pf były zdecydowanie wyższe w przypadku predykcji międzyprojektowej niż wewnątrzprojektowej. Wynik taki nie pozwala na rozstrzygnięcie, czy predykcja międzyprojektowa dała wyniki chociażby zbliżone do predykcji we-wnątrzprojektowej. Z drugiej jednak strony autorzy wykryli w podzbiorach danych ciekawe zależności, dzięki którym udało im się zaproponować filtrowanie oparte na sąsiedztwie. Sąsiedztwo było definio-wane na podstawie euklidesowej odległości pomiędzy wartościami poszczególnych metryk. Zastosowa-nie filtrowania doprowadziło do istotnego zmZastosowa-niejszenia wartości pf w predykcji międzyprojektowej. Niestety autorzy nie zdecydowali się na przeprowadzenie dodatkowej analizy, która pozwoliłaby na zidentyfikowanie metryk lub cech projektu, które decydują o sukcesie predykcji międzyprojektowej. Natomiast pozytywny wpływ filtrowania opartego o sąsiedztwo świadczy o tym, że takie cechy istnieją. Eksperyment ten został następnie rozszerzony w [107] przez dodanie do zestawu badanych projek-tów dwóch kolejnych, składających się z trzech wydań, co dało w efekcie całkowitą liczbę 13 wydań. Nowe projekty, w odróżnieniu od wcześniej analizowanych, należały do klasy projektów otwartych. Przeprowadzone analizy potwierdziły wcześniejsze obserwacje dotyczące predykcji międzyprojektowej. Mianowicie w części przypadków okazała się ona być w podobnym stopniu skuteczna co predykcja wewnątrzprojektowa. W szczególności dotyczy to projektów otwartych. Wykorzystanie danych z pro-jektów przemysłowych do konstrukcji modelu, który następnie posłużył do przeprowadzenia predykcji w projektach otwartych dało wyniki równie dobre jak w przypadku predykcji wewnątrzprojektowej.

Prawdopodobnie najbardziej zaawansowany eksperyment z zakresu predykcji międzyprojektowej został przeprowadzony w MicroSoft Research i opisany w [83]. W pracy tej sprawdzano, czy predy-katory wyciągnięte z historii jednego projektu mają zastosowanie w drugim. Autorzy przeanalizowali pięć przemysłowych projektów. Analiza wykazała, że nie ma jednego zestawu metryk, który mógłby zostać zastosowany w każdym z pięciu badanych projektów. Aczkolwiek modele predykcji defektów uzyskane z podobnych projektów funkcjonowały dobrze między tymi projektami. Nie podano niestety precyzyjnej definicji podobieństwa projektów. Autorzy analizowali problem predykcji międzyprojek-towej przez budowę modelu w oparciu o dane z jednego, wybranego projektu, a następnie używali tego modelu w czerech pozostałych projektach. Następnie porównywano korelacje pomiędzy estymowaną liczbą defektów uzyskaną z modelu, a rzeczywistą liczbą defektów. Analiza ta wykazała, że model skonstruowany w oparciu o historię jednego projektu bardzo rzadko może zostać z powodzeniem zastosowany do wykonania predykcji w innym projekcie.

Eksperyment został w istotny sposób rozszerzony w [119], gdzie opisano przeprowadzenie łącz-nej liczby 622 predykcji międzyprojektowych dotyczących 12 projektów przemysłowych i otwartych (ang. open-source). Predykcji dokonywano pomiędzy każdymi dwoma wydaniami badanych projek-tów przy zachowaniu ograniczenia zakazującego dokonywania predykcji w wydaniu starszym niż to, na podstawie którego budowano model. W eksperymencie oceniano skuteczność predykcji przy po-mocy precyzji (ang. precision), pamięci (ang. recall) i dokładności (ang. accuracy). Precyzja i pamięć

2.4. PREDYKCJA MIĘDZYPROJEKTOWA 29

zostały już wyjaśnione wcześniej, natomiast przez dokładność należy rozumieć procent poprawnych predykcji. Predykcję międzyprojektową uznawano za wysoce skuteczną jeżeli wszystkie trzy wielkości oceniające model (precyzja, pamięć i dokładność) przyjmowały wartości większe niż 0, 75. Okazało się, że przy tak wysoko postawionej poprzeczce, predykcję międzyprojektową można było uznać za skuteczną jedynie w 21 przypadkach na 622 przebadane, co daje współczynnik sukcesu równy 3, 4%. Równocześnie autorzy podjęli się identyfikacji czynników, które odgrywały kluczową rolę w sukce-sie predykcji międzyprojektowej. Wyniki tej analizy zostały zebrane w postaci drzew decyzyjnych. Osobne drzewo zostało skonstruowane dla każdej z wielkości używanych do oceny predykcji. Niestety autorzy opublikowali jedynie drzewo skonstruowane w oparciu o precyzję. Drzewa dla pamięci i

do-kładności nie zostały ujawnione. Niemniej jest to eksperyment zdecydowanie najbliższy opisanemu

w Rozdziale 5. W związku z tym wyniki eksperymentu przeprowadzonego w laboratoriach MicroSoft Research zostaną szczegółowo porównane z wynikami uzyskanymi w niniejszej pracy i opisane właśnie w Rozdziale 5.

Rozdział 3