• Nie Znaleziono Wyników

Możliwości wykorzystania zasobów Wikipedii w automatycznej ocenie merytorycznej prac tekstowych

N/A
N/A
Protected

Academic year: 2021

Share "Możliwości wykorzystania zasobów Wikipedii w automatycznej ocenie merytorycznej prac tekstowych"

Copied!
14
0
0

Pełen tekst

(1)Zeszyty Naukowe nr. 838. 2010. Uniwersytetu Ekonomicznego w Krakowie. Jacek Wołoszyn Katedra Informatyki. Możliwości wykorzystania zasobów Wikipedii w automatycznej ocenie merytorycznej prac tekstowych Streszczenie. Proces oceniania pisemnych prac studentów może być wspomagany przez odpowiednio zaprojektowany system oprogramowania wykorzystujący zawartość Wikipedii. Ze względu na elektroniczną postać reprezentacji treści artykułów encyklopedia jest zorganizowana w formie złożonej struktury kategorii powiązanych relacjami zawierania się tworzącymi skierowany graf. Łatwość korzystania z Wikipedii skłania do nadużyć, jakich coraz powszechniej dopuszczają się studenci wyższych uczelni. Poprzez kopiowanie i edycję tekstu można w krótkim czasie zestawić z artykułów Wikipedii pracę na dowolny temat, o pozorach pracy samodzielnej. Pomimo zastrzeżeń krytyków Wikipedia oferuje bardzo wysoki poziom aktualności i rzetelności artykułów, zwłaszcza w wersji anglojęzycznej, która zawiera ogromny zbiór haseł redagowanych niejednokrotnie przez biegłych ekspertów. Stawia to nauczycieli akademickich w trudnym położeniu, zmuszając ich do zmiany podejścia do oceniania prac pisemnych dostarczanych przez studentów. Sama ocena merytoryczna nie jest wystarczająca, ponieważ poprawność i aktualność informacji opisanych przez studenta przestaje odzwierciedlać stan jego wiedzy, a staje się raczej wykładnikiem biegłości posługiwania się Wikipedią i wyszukiwarkami internetowymi. W artykule zaproponowano inne podejście do zjawiska nagminnych plagiatów z użyciem Wikipedii. Te same cechy, które skłaniają studentów do intelektualnych nadużyć, można spróbować wykorzystać również do oceny wartości studenckich prac tekstowych. Słowa kluczowe: Wikipedia, plagiat, powiązanie haseł, automatyzacja oceny tekstu.. 1. Wprowadzenie Wikipedia, jeden z symboli ideologicznych epoki Web 2.0, jest przedsięwzięciem o zaskakująco dużej skali i sile oddziaływania na społeczność Internetu. Jest także zjawiskiem o dużym wpływie na przebieg kształcenia w różnych insty-.

(2) 162. Jacek Wołoszyn. tucjach dydaktycznych, wywołującym liczne kontrowersje w środowisku akademickim. Dostępność Wikipedii, prostota jej użycia i wyszukiwania informacji oraz rozległość tematyczna połączona z elektroniczną postacią tekstu stwarzają studentom okazję do posługiwania się materiałami z wolnej encyklopedii na szeroką skalę, dotąd niespotykaną. Wystarczy porównać pod względem włożonego wysiłku wertowanie drukowanych książek w tradycyjnej bibliotece i wykonywanie własnoręcznych notatek z mechanizmem wyszukiwania i kopiowania tekstu w środowisku elektronicznym, aby zauważyć, jak wielką wygodę pracy oferuje Wikipedia. Z drugiej strony owa prostota ułatwia nadużycia, jakich coraz powszechniej dopuszczają się studenci wyższych uczelni [Kawczyński 2005]. Kopiowanie i edycja tekstu umożliwiają stworzenie w krótkim czasie z artykułów Wikipedii pracy na dowolny temat, o pozorach pracy samodzielnej. Co więcej, kompilacja taka będzie merytorycznie poprawna w tym samym stopniu, co artykuły Wikipedii użyte do jej wyprodukowania. Pomimo obaw i zastrzeżeń wielu krytyków poziom aktualności i rzetelności artykułów Wikipedii jest bardzo wysoki, zwłaszcza w wersji anglojęzycznej, która zawiera ogromny zbiór haseł redagowanych niejednokrotnie przez ekspertów [Wikipedia 2007]. Stawia to nauczycieli akademickich w trudnym położeniu, zmuszając ich do zmiany podejścia do oceniania prac pisemnych studentów. Ocena merytoryczna nie wystarcza, ponieważ poprawność i aktualność informacji opisanych przez studenta przestają odzwierciedlać stan jego wiedzy i staje się raczej wykładnikiem biegłości posługiwania się Wikipedią i wyszukiwarkami internetowymi. Z tego powodu wielu wykładowców uważa korzystanie z Wikipedii za niedopuszczalne i stara się je zwalczać różnymi sposobami. Można jednak zaproponować inne podejście do zjawiska nagminnych plagiatów z Wikipedii i te same cechy, które skłaniają studentów do takiego jej nadużywania, spróbować wykorzystać do oceny wartości studenckich prac. Nasuwającym się w naturalny sposób pomysłem jest automatyzacja oceny oparta na elektronicznej dostępności treści Wikipedii i możliwościach programistycznego przeszukiwania i analizowania jej artykułów oraz ocenianego tekstu. Tak zautomatyzowana ocena, traktowana przez nauczyciela jako wskazówka przy rozliczaniu osiągnięć studenta, może mieć charakter wskaźnika o interpretacji negatywnej lub pozytywnej. Przykładem interpretacji negatywnej jest uwzględnianie stopnia podobieństwa tekstu pracy do artykułów Wikipedii jako skali popełnionego przez studenta plagiatu – pod tym względem może to przypominać inne systemy antyplagiatowe stosowane w ocenie prac studenckich. W niniejszym artykule przedstawiona została propozycja pozytywnej interpretacji wyniku automatycznej oceny tekstu, mogącej przemawiać na korzyść autora ocenianej pracy..

(3) Możliwości wykorzystania zasobów Wikipedii…. 163. 2. Struktura treści Wikipedii Zawartość Wikipedii, jak w każdym tego rodzaju zbiorze, stanowią artykuły objaśniające znaczenia poszczególnych haseł encyklopedii. Ze względu na elektroniczną formę reprezentacji treści artykułów nie muszą być one uszeregowane w kolejności alfabetycznej, ponieważ nie ma to znaczenia przy wyszukiwaniu haseł. Zamiast liniowej sekwencji artykuły Wikipedii są zorganizowane w złożoną strukturę kategorii powiązanych relacjami zawierania się tworzącymi skierowany graf. W ten sposób budowana jest pewna struktura ontologiczna reprezentująca klasy pojęć od ogólnych do bardzo wyspecjalizowanych. W artykułach Wikipedii powszechne są łącza odsyłające do innych haseł, silniej lub słabiej związanych tematycznie, bądź też użytych w tekście danego artykułu. Łącza te mogą być wplecione w tekst, na wzór odsyłaczy w tradycyjnej encyklopedii, mogą również być zebrane w bloki pokrewnych haseł. W artykułach znajdują się także łącza do kategorii, do których należą. Same kategorie z kolei mają swoje własne strony, na których znajduje się wykaz haseł należących do danej kategorii, jak również lista pod- i nadkategorii. Tak bogata sieć połączeń między artykułami sprawia, że dla człowieka przeglądającego Wikipedię poruszanie się pomiędzy artykułami jest proste, wygodne i pozwala przy odpowiedniej wprawie szybko odnajdywać poszukiwane informacje. Z punktu widzenia ewentualnych dydaktycznych zastosowań Wikipedii warto także zwrócić uwagę, że korzystanie z zasobów o rozbudowanej strukturze powiązań sprzyja przeszukiwaniu rozleglejszych obszarów wiedzy, kojarzeniu odległych pojęć i faktów oraz rozwijaniu i utrwalaniu skojarzeń. Wikipedia występuje w wielu wersjach językowych, z których najbardziej rozwinięta jest wersja anglojęzyczna. Pomiędzy nimi istnieją powiązania pozwalające na sprawną nawigację. Artykuły zaopatrzone są często w odsyłacze do artykułów poświęconych temu samemu pojęciu w innych językach. Pozwala to użytkownikowi przeszukiwać artykuły w równoległych wersjach językowych uzupełniające się nie tylko pod względem treści, ale także odsyłaczy do pokrewnych haseł. W przypadku napotkania haseł wieloznacznych lub homonimów czytelnik ma też do dyspozycji strony ujednoznaczniające, dzięki którym może odnaleźć poprawną ścieżkę skojarzeniową między pojęciami lub, przeciwnie, poszerzyć obszary poszukiwania wiedzy w encyklopedii. Człowiek posługujący się Wikipedią ma więc do dyspozycji kilka metod poruszania się po zawartości serwisu. Rozpoczynając od pewnego hasła, może on przenosić się do: – haseł użytych w artykule, – pokrewnych haseł, – haseł w tej samej kategorii,.

(4) 164. Jacek Wołoszyn. – pokrewnej kategorii, – synonimów obcojęzycznych, – innych znaczeń tego samego hasła. Należy pamiętać, że cała zawartość Wikipedii, a więc także struktura łączy wewnętrznych, jest redagowana bezpośrednio przez użytkowników. Sprawia to, że pomimo formy elektronicznej serwisu jego warstwa semantyczna jest dziełem ludzkiej inteligencji, a nie efektem pracy programu komputerowego. Pod tym względem Wikipedia jest nieporównanie lepszym źródłem wiedzy niż najlepsze nawet wyszukiwarki internetowe, które dopatrują się związków znaczeniowych między treścią stron jedynie na drodze czysto automatycznej analizy tekstu. Powiązaniom haseł Wikipedii można zatem ufać w tym znaczeniu, że nawet bez zrozumienia jej treści jest możliwe skonstruowanie w dużym stopniu sensownego i poprawnego merytorycznie tekstu jedynie dzięki kopiowaniu akapitów lub pojedynczych zdań wybranych z artykułów odnajdywanych poprzez podążanie za odsyłaczami. Stanowi to z jednej strony poważny problem dla nauczycieli, którzy mogą mieć trudność w ustaleniu, czy i w jakim stopniu tekst przedłożony przez studenta jest bezmyślnie przygotowaną kompilacją, której poprawność merytoryczna i spójność są zasługą jedynie redaktorów Wikipedii. Z drugiej jednak strony struktura wolnej encyklopedii może stać się sprzymierzeńcem nauczyciela, jeśli zostanie wykorzystana do automatycznej oceny prac studenckich. Te same cechy, które pozwalają nieuczciwemu studentowi na dokonanie oszustwa i spreparowanie sensownej kompilacji bez znajomości objętych nią zagadnień, mogą zarazem pozwolić programom komputerowym podążać za łączami Wikipedii w poszukiwaniu źródeł wykorzystanych przez autora danego tekstu. 3. Możliwości automatycznego przeszukiwania Wikipedii Wikipedia jest serwisem internetowym wykorzystującym powszechnie przyjęte obecnie technologie przesyłania i kodowania dokumentów hipertekstowych. Oznacza to, że treść encyklopedii jest zrozumiała dla człowieka, ale także może być w łatwy sposób przetwarzana automatycznie przez program komputerowy, tak jak jest przetwarzana przez przeglądarkę internetową formatującą i wyświetlającą poszczególne strony. Analizując treść dokumentu hipertekstowego stanowiącego artykuł Wikipedii zapisany za pomocą języka znaczników XHTML, można łatwo wyodrębnić dwa główne komponenty takiego artykułu: jego zasadniczy tekst oraz odsyłacze. Tekst zasadniczy ma strukturę linearną i składa się z ciągu akapitów pogrupowanych w sekcje oznaczone adekwatnymi do ich treści tytułami. Pomijając nagłówki.

(5) Możliwości wykorzystania zasobów Wikipedii…. 165. i ewentualne inne dodatki do tekstu, jak na przykład tabele, kody programów, wzory czy ilustracje, otrzymuje się czysty tekst poddający się typowym metodom jego analizy [Lubaszewski 2003]. Odsyłacze znajdujące się w artykule zawierają informacje bardzo przydatne w automatycznej obróbce tekstu i przeszukiwaniu encyklopedii. Zawierają zarówno adres URL strony, na którą odsyłają czytelnika, jak i pełne brzmienie hasła objaśnionego na tej stronie. Pozwala to na przykład na ustalenie powiązanych haseł bez wczytywania dodatkowych stron. Warto też zaznaczyć, że adresy URL stron Wikipedii nie tylko są czytelne dla człowieka, ale także, dzięki tej właściwości, dają się łatwo generować automatycznie na podstawie danego hasła. Odsyłacze do stron kategorii, do jakich należy dany artykuł, są dołączane na końcu jego tekstu w taki sposób, że można je łatwo zidentyfikować na podstawie struktury dokumentu. Same nazwy kategorii również są dostępne w prosty sposób, ze względu na ich specyficzną notację uwzględniającą system przestrzeni nazw Wikipedii. Dzięki przestrzeniom nazw można także uniknąć problemów z odróżnianiem haseł merytorycznych od stron poświęconych samej Wikipedii, jej zasadom redakcyjnym, środowisku użytkowników, portalom tematycznym, szablonom i innym metaartykułom. Szczególne dwa rodzaje odsyłaczy, a mianowicie łącza do stron ujednoznaczniających oraz do równoważnych artykułów w innych językach także dają się w nieskomplikowany sposób odróżnić. Łącza do artykułów obcojęzycznych są zgromadzone w odrębnym, dobrze identyfikowalnym elemencie strukturalnym dokumentu hipertekstowego. Z kolei strony ujednoznaczniające należą do zbiorczej kategorii, przez co można je rozpoznać, analizując zawarte na nich łącza do kategorii. Występujące w niektórych artykułach krótkie odsyłacze ujednoznaczniające można także rozpoznać po strukturze dokumentu XHTML. Przedstawione okoliczności sprawiają, że zautomatyzowane poruszanie się po zasobach Wikipedii wydaje się stosunkowo prostym zadaniem, niewymagającym angażowania metod sztucznej inteligencji do analizy semantycznej treści artykułów. Można wykorzystać tu fakt, że takiej analizy dokonały osoby redagujące teksty, dobierające odsyłacze, kojarzące obcojęzyczne synonimy i rozdzielające hasła wieloznaczne. Jak już wcześniej wspomniano, stwarza to okazję nieuczciwym studentom do pozorowania swojej erudycji bez faktycznego zrozumienia treści znalezionych w Wikipedii, ale równocześnie pozwalają postawić na ich miejscu zupełnie pozbawiony wiedzy program komputerowy, który będzie w stanie gromadzić treści na zadany temat, poprawnie i logicznie wybierając dane tekstowe podczas poruszania się po związanych ze sobą merytorycznie artykułach [Lubaszewski i Gajęcki 2002]. Struktura Wikipedii pozwala także przezwyciężyć dodatkowe problemy analizy tekstu związane ze specyfiką językową artykułów. Ponieważ język polski.

(6) 166. Jacek Wołoszyn. jest językiem fleksyjnym, konieczne jest uwzględnianie różnych form wyrazów podczas analizowania znaczenia słów. Budowa odsyłaczy Wikipedii sprawia, że zawierają one zawsze jednakową formę fleksyjną hasła, w takim brzmieniu, w jakim występuje ono w zasadniczym artykule. Na tej podstawie można z dużym prawdopodobieństwem rozpoznać różne odmiany tej samej frazy jako prowadzące do tego samego artykułu. Automat przeszukujący Wikipedię może także posługiwać się wyszukiwarką dostępną w encyklopedii do znalezienia artykułów prawdopodobnie pasujących do zadanych wyrazów o innych formach fleksyjnych niż w definicji hasła. Wydaje się jednak możliwe zastosowanie tu również podejścia uwzględniającego statystyczną analizę treści artykułów i uczenie się przez program różnych form wyrazów w miarę napotykania ich w odsyłaczach. Można wskazać jeszcze jeden sposób zautomatyzowanego nawigowania wśród artykułów Wikipedii, wykorzystujący odsyłacze obcojęzyczne. Za ich pomocą można trafić na odpowiedniki haseł przede wszystkim w języku angielskim, w którym encyklopedia zawiera najwięcej rozbudowanych artykułów. Poruszając się następnie po obcojęzycznych tekstach, można przejść do pokrewnych haseł, a z nich powrócić do polskiej wersji encyklopedii, wykorzystując ponownie odsyłacze językowe, jeśli tylko będą dla danego artykułu dostępne. Taka forma nawigacji może pomóc rozwiązać niektóre problemy fleksyjne z uwagi na charakter języka angielskiego użytego tutaj jako pośredni język zapisu pojęć. 4. Propozycja ilościowej oceny merytorycznej tekstu Prace tekstowe o charakterze rozprawy lub eseju poświęconego określonemu tematowi z reguły służą ocenie wiedzy studenta, jego orientacji w zadanej dziedzinie i biegłości poruszania się wśród zagadnień. Ocena taka jest trudna do przeprowadzenia tradycyjnymi metodami w sposób ilościowy, wymaga bowiem przyjęcia pewnego rodzaju wzorca wiedzy i subiektywnego porównania treści z owym wzorcem przez nauczyciela oceniającego pracę. Taka metoda jest problematyczna z dwóch względów, po pierwsze ustalenie formalnego i rzetelnego wzorca wymaganej wiedzy byłoby zadaniem żmudnym, jeśli należałoby do każdego nauczyciela indywidualnie i dotyczyło osobno każdego tematu zadawanych prac. Po drugie, ocena stopnia zgodności wiedzy prezentowanej przez studenta w formie tekstu z pożądanym wzorcem ma charakter bardzo subiektywny, nie jest powtarzalna i nie gwarantuje jednakowego traktowania prac różnych autorów. Oba wymienione problemy mogą zostać w pewnym stopniu zredukowane poprzez odwołanie się do zasobów elektronicznych encyklopedii takich jak Wikipedia. Zasoby takie stanowią uniwersalny katalog wiedzy, który można.

(7) Możliwości wykorzystania zasobów Wikipedii…. 167. wykorzystać jako wzorzec oceny. Równocześnie możliwości programistycznego przeszukiwania zasobów encyklopedycznych i użycia algorytmów porównywania tekstów otwierają drogę do automatycznej, obiektywnej i ilościowej oceny zgodności ze wzorcem. Wykorzystanie encyklopedii jako wzorcowego zasobu wiedzy może budzić kilka wątpliwości. Przede wszystkim rozległość i szczegółowość dostępnych encyklopedii może być uznana za niewystarczającą w przypadku bardzo wyspecjalizowanych tematów. Trzeba jednak zwrócić uwagę, że decydujące znaczenie ma tutaj dobór samej encyklopedii. W przypadku Wikipedii założeniem twórców i wolontariuszy rozwijających projekt jest zgromadzenie w jednej encyklopedii sumy całej wiedzy ludzkości. Wobec braku praktycznych ograniczeń objętości Wikipedii, takich jak choćby koszty wydawnicze, ta idea może być zrealizowana w bardzo dużym stopniu, nadając projektowi charakter zarówno klasycznej encyklopedii powszechnej, jak i wysoce specjalistycznej. Anglojęzyczna wersja Wikipedii w chwili redagowania niniejszego tekstu zawiera w przybliżeniu o rząd wielkości więcej artykułów niż aktualna Encyclopaedia Britannica. Jakość i rzetelność Wikipedii są także przedmiotem kontrowersji, wynikających w wielu wypadkach jednak bardziej z przywiązania do tradycji, uprzedzeń bądź obaw przed zmianą stylu budowania kompendium wiedzy niż z obiektywnych badań lub doświadczeń korzystania z wolnej encyklopedii [Szpunar 2007]. Rozwój i funkcjonowanie społeczności wikipedystów (redaktorów i autorów tekstów Wikipedii) świadczą jednak, że katalogowaniem ludzkiej wiedzy zajmuje się bardzo liczne grono rozważnych osób, świadomych odpowiedzialności swoich decyzji, dbających o przestrzeganie podstawowych zasad redakcyjnych, uzupełniających luki merytoryczne i chroniących otwartą encyklopedię przed aktami wandalizmu. Wypracowana w ten sposób treść zasobów może niejednokrotnie konkurować pod względem rzetelności z tradycyjnymi encyklopediami. Ponadto założenia ideowe Wikipedii jako encyklopedii wolnej i otwartej dla każdego sprawiają, że każdy, w tym również egzaminator korzystający z niej jako wzorca wiedzy, może zmieniać treść artykułów lub tworzyć nowe. W przypadku gdy ów nauczyciel trafi na błędy merytoryczne lub braki wiedzy reprezentowanej we wzorcu, może je samodzielnie naprawić i uzupełnić, co przyniesie podwójną korzyść: z jednej strony egzaminator wypracuje w ten sposób odpowiadający mu wzorzec wiedzy, z drugiej zaś przyczyni się do rozwoju samej encyklopedii i udostępni ten wzorzec innym nauczycielom i studentom. W ten również sposób nowo powstały fragment kompendium wiedzy zostanie poddany publicznej ocenie, która może prowadzić do zbiorowej pracy nad jego ulepszeniem czy obiektywizacją. Jeżeli jako wzorzec oceny pracy pisemnej przyjąć treść elektronicznej encyklopedii, można rozważyć użycie programu komputerowego do wygenerowania liczbowych charakterystyk określających związki i podobieństwa między ocenianym.

(8) 168. Jacek Wołoszyn. tekstem a tekstami odpowiadających mu tematycznie artykułów encyklopedii. Charakterystyki te mogą w sposób ilościowy wyrażać odpowiedzi na następujące pytania: – W jakim stopniu praca studenta jest zgodna z wzorcem wiedzy? Tego rodzaju pytanie można ująć bardziej technicznie: Jaka część ocenianego tekstu ma we wzorcu swoje odpowiedniki? Pytanie to dotyczy poprawności tekstu. – Jaki zakres wzorca wiedzy obejmuje praca studenta? To pytanie może przyjąć postać: Ile artykułów wzorca znajduje swoje odpowiedniki w ocenianym tekście i w jaki sposób te artykuły są spokrewnione? Ten aspekt analizy dotyczy rozległości tematycznej pracy. – W jakim stopniu praca studenta wyczerpuje wzorzec wiedzy? Jaka część wzorca objętego zakresem ocenianego tekstu znajduje swoje odpowiedniki w owym tekście? Odpowiedź wyraża stopień szczegółowości ocenianej pracy. Wymienione aspekty oceny pozwalają na przypisanie danej pracy pisemnej szeregu współczynników skalarnych lub całych funkcji rozkładów pewnych wielkości. Te numeryczne charakterystyki powstają w sposób obiektywny i powtarzalny, zależny głównie od przyjętych definicji podobieństwa tekstów i metod ich wyznaczania, niezwiązany natomiast z indywidualnym, osobistym podejściem nauczyciela do problemu merytorycznej oceny pracy tekstowej. Tak sporządzony raport ilościowy wymaga rzecz jasna dalszej obróbki i interpretacji. Określając kryteria i sposób agregacji uzyskanych wyników, można sprowadzić je do pojedynczej wartości liczbowej – co wydaje się jednak zabiegiem zbyt ryzykownym, by można było otrzymaną wielkość uznać za gotową ocenę pracy. Sam raport natomiast może zostać wykorzystany przez nauczyciela jako wskazówka pomocna w ustaleniu ostatecznej oceny. Neutralny i obiektywny charakter ilościowych charakterystyk tekstu pozwala na pewną swobodę ich interpretacji, co zostało opisane w dalszej części niniejszego artykułu. 5. Automatyczne generowanie profilu tematycznego Przedstawiona w poprzednim punkcie propozycja automatycznej oceny poprawności, rozległości i szczegółowości tekstu wymaga komputerowej implementacji metod porównywania zgodności ciągów wyrazów oraz poruszania się wśród zasobów wzorca wiedzy, którego funkcję ma pełnić Wikipedia. Z technicznego punktu widzenia wybór wolnej encyklopedii niesie ze sobą omówione już wcześniej korzyści. Łatwość dostępu do tekstu artykułów i struktury nawigacyjnej Wikipedii sprawia, że nie jest konieczne wykorzystanie specjalistycznego interfejsu programistycznego pozwalającego na odczyt danych z systemu. Wystarczające jest użycie typowego protokołu HTTP do połączenia z serwerem..

(9) Możliwości wykorzystania zasobów Wikipedii…. 169. Trzeba przy okazji podkreślić także wymiar ekonomiczny użycia Wikipedii jako powszechnie dostępnego wzorca wiedzy. Korzystanie z zasobów Wikipedii jest darmowe i nie wymaga rejestrowania, opłacania licencji i uwierzytelniania użytkowników. Jest to także jedyna encyklopedia wielojęzyczna stanowiąca spójny system i niewymagająca użycia odrębnych systemów tłumaczeń oraz wielu encyklopedii. Zasoby Wikipedii są często aktualizowane oraz stanowią bardzo obszerny zbiór danych. Podczas oceny pracy tekstowej potrzebny jest tylko drobny fragment wszystkich zasobów, ale w miarę możliwości najbardziej aktualny. Z tych powodów wydaje się najbardziej wskazane dokonywanie automatycznej oceny tekstów poprzez porównywanie ich online z dostępnymi na bieżąco tekstami artykułów. Poruszaniem się po stronach Wikipedii może zajmować się agent programowy wyspecjalizowany w przeglądaniu struktury artykułów, dostarczaniu ich treści i mapowaniu odsyłaczy. Agent przeszukujący powinien rozpoczynać pracę od artykułu, który najbardziej odpowiada tematyce ocenianego tekstu. Ten punkt początkowy, lub ewentualnie zbiór kilku punktów, może być wskazany przez nauczyciela, który w ten sposób określi główne zagadnienia i problematykę tekstu. Ten etap wymaga bowiem zaangażowania ludzkiej inteligencji i zrozumienia treści pracy. Po zainicjowaniu agenta dalsze jego czynności mogą być wykonywane w pełni automatycznie. Dysponując tekstem artykułu wzorcowego oraz tekstem ocenianej pracy, agent może w pierwszej kolejności zbadać, w jakim stopniu praca jest odzwierciedleniem wzorca. Dokona tego przez porównanie poszczególnych fragmentów tekstu, na przykład pojedynczych zdań, z tekstem wzorcowego artykułu i odszukanie w nim fragmentów najbardziej zbliżonych. Można spodziewać się, że w przypadku nawet najbardziej oryginalnych tekstów ich podobieństwo do wzorca jest nieuniknione, ponieważ jeśli dany tekst ma zawierać poprawne merytorycznie wiadomości, w ich sformułowaniach muszą znajdować się te same pojęcia, które występują we wzorcu. Następnym etapem pracy agenta jest poszukiwanie dalszych pokrewnych artykułów wzorca. W pojedynczym artykule encyklopedii może znajdować się nawet kilkadziesiąt odsyłaczy prowadzących do artykułów o równie dużej liczbie łączy, wobec czego przeszukiwanie wszystkich możliwych połączeń staje się niepraktyczne, zwłaszcza że niektóre odsyłacze są związane jedynie luźnymi skojarzeniami z tematem artykułu. Należy zatem spróbować uszeregować odsyłacze w pewnej kolejności odpowiadającej ich trafności, na podstawie kryteriów, zgodnie z którymi najbardziej trafny jest odsyłacz prowadzący do hasła najczęściej występującego w ocenianym tekście lub występującego we fragmentach mających najlepsze odzwierciedlenie w ocenianym tekście..

(10) 170. Jacek Wołoszyn. Po ustaleniu najbardziej prawdopodobnych trafień agent przeszukujący może podążać do tych właśnie artykułów i dla każdego z nich powtórzyć obie czynności: porównanie z tekstem analizowanym oraz wytypowanie dalszych odsyłaczy. Proces ten prowadzony rekursywnie będzie obejmował coraz rozleglejszy fragment wzorca wiedzy, a podczas poruszania się po artykułach encyklopedii agent będzie kolekcjonować zarówno treści artykułów, jak i strukturę ich odsyłaczy. Zgromadzone w ten sposób dane mogą zostać użyte ponownie w ocenie kolejnego tekstu o tej samej tematyce, dzięki czemu nie ma konieczności wielokrotnego przesyłania stron z serwerów Wikipedii oraz jest tworzony pewien referencyjny obraz wzorca odpornego na dalsze zmiany i aktualizacje w artykułach online. Proces przeglądania wzorca encyklopedycznego należy jednak w odpowiednim momencie przerwać, jest bowiem prawdopodobne, że agent odbiegnie bardzo daleko od początkowego tematu, trafiając na często używane, lecz niezwiązane z dziedziną pracy hasła. Aby temu zapobiec, można ustalić progi ważności odsyłaczy, poniżej których agent zaprzestaje ich eksploracji. Funkcję jednego z progów pełni ranking trafności odsyłaczy zawartych w aktualnie przetwarzanym artykule. Agent może wybierać do dalszych poszukiwań jedynie ograniczoną liczbę łączy, kierując się pewnym minimalnym akceptowanym poziomem trafności. Drugim progiem może być pokrewieństwo samego artykułu z ocenianym tekstem, które również musi przekroczyć zadany próg, by agent w ogóle zaczął analizować zawarte w artykule odsyłacze. Po skompletowaniu wszystkich artykułów pasujących do badanego tekstu można wyznaczyć inne dwie charakterystyki określające rozległość i szczegółowość ocenianej pracy. O rozległości będzie świadczyć liczba i pokrewieństwo artykułów znalezionych przez agenta przeszukującego na podstawie typowania najbardziej adekwatnych odsyłaczy. Wszystkie objęte tym wyszukiwaniem artykuły mogą zostać z kolei sprawdzone pod kątem zgodności z tekstem przy odwróceniu kryterium merytorycznej poprawności. Oznacza to określenie, w jakim stopniu poszczególne fragmenty wzorca znajdują swoje odpowiedniki w tekście. Rozkład zgodności będzie reprezentować stopień szczegółowości, w jakim praca odpowiada rozległości wzorca. Przedstawiona procedura spowoduje wygenerowanie raportu opisującego swoisty profil tematyczny analizowanego tekstu. Proces jego tworzenia nie wymaga od nauczyciela wskazania oczekiwanego zakresu tematycznego, lecz jedynie punktu startowego poszukiwań. Zachowanie agenta eksplorującego wzorzec polega na podążaniu w stronę największej zgodności tekstów, bez dokonywania analizy semantycznej. Można nawet pójść o krok dalej i zaproponować automatyzację także wstępnego etapu tego procesu, poprzez wytypowanie punktu startowego na podstawie wyszukiwania w encyklopedii artykułów najlepiej pasujących na przykład do najczęściej występujących w tekście wyrazów. Niezależnie jednak od.

(11) Możliwości wykorzystania zasobów Wikipedii…. 171. sposobu postępowania uzyskany profil sam w sobie nie może jeszcze zostać przełożony na ocenę tekstu, zanim nie zostanie poddany odpowiedniej interpretacji człowieka. 6. Potencjalne zastosowania w ocenie prac tekstowych Choć wydaje się, że wyręczenie nauczyciela w ocenie prac pisemnych wciąż jest poza zasięgiem obecnych narzędzi informatyki, w tym także angażujących metody sztucznej inteligencji, to jednak udział komputerów we wspomaganiu tego procesu staje się coraz bardziej zauważalny. Jest to nieuniknione także ze względu na rosnący udział technologii informacyjnej po drugiej stronie dydaktycznej interakcji nauczyciel–uczeń. Komputery coraz częściej pomagają studentom w zdobywaniu wiedzy, a także w jej prezentowaniu w postaci różnych prac zadanych przez wykładowców. Efektem działania komputerowego programu wspomagającego ocenę prac pisemnych może być opisywany raport zgodności, rozległości i szczegółowości danej pracy w odniesieniu do internetowej encyklopedii powszechnej pełniącej funkcję wzorca wiedzy. Zadaniem nauczyciela jest zinterpretowanie takiego raportu, sporządzonego w obiektywny i czysto automatyczny sposób bez rozpatrywania znaczenia zdań zawartych w analizowanym tekście. Oczywiste jest, że wobec braku możliwości pełnego zrozumienia treści przez komputer generujący profil tematyczny rezultat takiej analizy może mieć jedynie znaczenie pomocnicze, będąc dodatkową wskazówką dla nauczyciela. Z drugiej jednak strony tego rodzaju raport komputerowy niesie ze sobą informacje niedostępne w inny sposób dla nauczyciela, przede wszystkim z uwagi na pracochłonność procesu analizy. Trudno wyobrazić sobie zliczanie przez nauczyciela wyrazów w tekście i porównywanie ich z odnośnikami w encyklopedii. Komputerowy raport stanowiłby zatem doskonałe uzupełnienie oceny dokonywanej przez człowieka. Informacje zawarte w wynikach analizy tekstu, w ilościowej formie podsumowujące takie aspekty jak poprawność, szczegółowość czy rozległość tematyczna, mogą zostać zinterpretowane w bardziej skomplikowany sposób niż tylko poprzez udział w ważonej sumie składników. Jak już wspomniano we wprowadzeniu, interpretacja ta może mieć charakter negatywny lub pozytywny. Negatywna interpretacja profilu tematycznego związana jest z problemem plagiatów występującym wśród uczniów i studentów, nieograniczającym się tylko do polskich szkół i uczelni. Próby wykorzystania gotowego tekstu artykułów Wikipedii w kompilacji prezentowanej przez nieuczciwego studenta jako praca autorska będą łatwo wykryte, ponieważ zostaną wygenerowane wysokie warto-.

(12) 172. Jacek Wołoszyn. ści podobieństwa niektórych fragmentów tekstu do treści encyklopedii. Pod tym względem omawiany w niniejszym artykule sposób oceny nie stanowi zasadniczej nowości, gdyż istnieje już wiele narzędzi antyplagiatowych, z różnym powodzeniem stosowanych w praktyce akademickiej. Stosowanie wyników analizy tekstu do wykrywania plagiatów ma jednak pewną zasadniczą wadę, skłania bowiem nieuczciwego studenta nie do poprawy jakości własnych prac, lecz do walki z samym systemem antyplagiatowym. Jak każda forma stawiania barier za pomocą technologii informatycznych, również i ta spotyka się z reakcją ze strony użytkowników próbujących, choćby w celach czysto poznawczych, znaleźć lukę w systemie kontroli. Eskalacja środków stosowanych z jednej strony do wykrywania plagiatów, a z drugiej do zapobiegania ich wykryciu nie służy rzecz jasna celom dydaktycznym. Tymczasem można zaproponować przeciwstawną, pozytywną interpretację raportu podobieństwa do encyklopedycznego wzorca wiedzy. W świetle przedstawionej wcześniej metody automatycznej analizy tekstu zgodność z treścią Wikipedii może oznaczać poprawność pracy, kompletność zawartych w niej informacji oraz świadczyć o rozległości poszukiwań wiedzy, jakich podjął się student piszący zadaną pracę. To zdecydowanie różna, a ściślej szersza interpretacja niż wariant negatywny, gdyż obejmuje ona również problem plagiatorstwa – raport zgodności z wzorcem może odróżniać podobne treści od ich identycznych kopii. Niski stopień zgodności ocenianego tekstu z artykułami wzorcowymi przemawia wprawdzie za oryginalnością pracy, ale budzi także pewne wątpliwości dotyczące zbieżności tematycznej i poprawności merytorycznej. Można w ten sposób wykryć prace rozmijające się z zadanym tematem, jeśli będą one odległe od artykułu wyznaczonego jako wzorzec, ale za to bliższe mało spokrewnionym artykułom. Brak zgodności, choćby statystycznej, pomiędzy zdaniami pracy i treścią wzorca sugeruje, że do wyrażenia swoich poglądów autor pracy użył zupełnie innych słów, co zwłaszcza w przypadku nauk ścisłych bywa niemożliwe bez częściowej przynajmniej utraty poprawności merytorycznej. Stopień zawierania się tekstu pracy w encyklopedycznym wzorcu można też interpretować pod kątem weryfikowalności treści. Fragmenty wskazane jako zdecydowanie odmienne od wzorca nauczyciel może sprawdzić osobiście, zwracając uwagę na ich poprawność, ale także na uzasadnienie w przywołanych przez autora źródłach bądź ewentualny brak źródeł. Z kolei stopień zawierania się wzorca w ocenianym tekście stanowi wskazówkę pomagającą nauczycielowi oszacować, jak rozległa tematycznie jest praca i na ile szczegółowo poruszono w niej omawiane tematy. Duża rozległość przy niskim stopniu zawarcia w pracy wzorca może oznaczać jej powierzchowność, obejmowanie tylko niektórych zagadnień zasadniczego tematu i uzupełnianie ich luźną, obcą treścią..

(13) Możliwości wykorzystania zasobów Wikipedii…. 173. Do przedstawionej interpretacji i automatycznie wygenerowanej oceny nauczyciel powinien oczywiście odnosić się z rezerwą. Nie jest bowiem celem osiągnięcie pełnej zgodności prac studenckich z Wikipedią, przeciwnie, byłoby to niewskazane. Jednakże pozytywna interpretacja takiej zgodności stanowi przeciwwagę dla negatywnej, zorientowanej na wykrywanie plagiatów. Sprzyja to unikaniu skrajnych tendencji do upodabniania tekstów lub przeciwnie, zacierania podobieństwa do źródeł internetowych. Z punktu widzenia nauczyciela zadającego studentowi pracę pisemną pożądany jest kompromis między oryginalnością tekstu a jego zgodnością z przyjętym wzorcem oceny. Ani kopiowanie wzorca, ani próba jego unikania lub maskowania podobieństwa nie zasługują na pozytywną ocenę. Obiektywne wskaźniki zgodności pozwalają wykryć obie skrajności, skłaniając studenta do napisania samodzielnego tekstu, który jednak byłby rezultatem rzetelnego zapoznania się z wiedzą zawartą we wzorcu. Oczekiwanym przez nauczyciela wynikiem automatycznej oceny jest zatem pewna pośrednia wartość wygenerowanych wskaźników, niezbyt duża i niezbyt mała, przy czym ustalenie tego pożądanego przedziału leży w kompetencjach nauczyciela i zależy od specyfiki tematu, dostępności źródeł, stawianych wymagań i innych czynników. Z użyciem prostych programów komputerowych, niedysponujących rozbudowaną sztuczną inteligencją, lub nawet nie korzystając z nich, można łatwo stworzyć kompilację artykułów Wikipedii, równie łatwo można tę kompilację zamaskować, natomiast znacznie trudniej jest znaleźć środek między oryginalnością a wiernością wzorcowi. Można osiągnąć taki rezultat poprzez osobiste zapoznanie się ze źródłami wiedzy i samodzielne formułowanie tekstu pracy. Proponowane w niniejszym artykule automatyczne ocenianie prac tekstowych pod kątem merytorycznej poprawności, szczegółowości i rozległości nie stanowi próby zastąpienia nauczyciela, lecz zaoferowania mu pomocniczego narzędzia, którego użycie może przynieść dodatkowy efekt w postaci wymuszenia osobistego wysiłku intelektualnego studentów. Rolą komputera analizującego prace pisemne może więc być nie tylko zdemaskowanie plagiatora i obiektywne wyznaczenie ostatecznej oceny, ale przede wszystkim sprawdzenie, ile trudu zadał sobie student podczas poszukiwania wiadomości i w jakim stopniu wykorzystał je do napisania pracy. Literatura Kawczyński S. [2005], Elektroniczny system antyplagiatowy PLAGIAT.PL jako narzędzie umożliwiające zapobieganie naruszeniom autorstwa w pracach dyplomowych [w:] Raport o zasadach poszanowania autorstwa w pracach dyplomowych oraz doktorskich w instytucjach akademickich i naukowych, Fundacja Rektorów Polskich, Warszawa..

(14) 174. Jacek Wołoszyn. Lubaszewski W. [2003], Automatyczne pozyskiwanie informacji z tekstu. Natura danych a wnioskowanie statystyczne, V Krajowa Konferencja Naukowa – Inżynieria Wiedzy i Systemy Ekspertowe, Wrocław. Lubaszewski W., Gajęcki M. [2002], Automatyczne rozpoznawanie powiązań semantycznych w tekście polskim, „Computer Science”, Informatyka, nr 4, Wydawnictwo AGH, Kraków. Szpunar N. [2007], Internet – medium informacji versus dezinformacji, „e-Mentor”, nr 2(19). Wikipedia, Nasza odpowiedź na krytykę, 10 grudnia 2007, http://pl.wikipedia.org/w/ index.php?title=Wikipedia:Nasza_odpowied%C5%BA_na_krytyk%C4%99&oldid=10563001. Application of the Wikipedia Resources to Automatic Content-related Evaluation of Text Papers Assessment of written students’ essays can be supported by specially designed software system that utilises encyclopaedic contents of the Wikipedia. Due to electronic form of its articles, the encyclopaedia is organised in a mode of a complex structure of categories which are connected mutually by inclusive relations that construct a directed graph. A simplicity of using the Wikipedia can cause abuses that are increasingly committed by students. By easy copy and edit text operations, it is possible to produce quickly any paper composed of the Wikipedia texts, which seemingly displays self-work features. In spite of doubts and objections expressed by many critics, the Wikipedia articles offer a very high level of relevance and reliability, what is mostly evident in its English version, which contains a huge set of terms that are generally edited by professionals. It triggers troubles and difficult situations for academic teachers, who are forced to change approaches to evaluation of students’ written papers. Exclusive application of content-related assessments is insufficient because the correctness and the topicality of information submitted by a student do not reflect the state of his or her honest knowledge, they rather reveal fluency in using the Wikipedia and internet browsers. The article proposes a different approach to the phenomenon of common plagiarisms of the Wikipedia. The same features, which drive students to intellectual abuses, can be utilised in evaluation of students’ text essays. Key words: Wikipedia, plagiarism, terms connection, automation of text evaluation..

(15)

Cytaty

Powiązane dokumenty

Czy projekt przewiduje partnerstwo z podmiotem z Państw-Beneficjentów (poza Polską) lub z państw ościennych i czy wybór Partnera/ Partnerów jest uzasadniony, a jego/ ich rola w

Wykorzystując pakiet Matlab/Simulink zbudować układ automatycznej regulacji, zawierający struktury regulatorów P, PI i PID oraz zbadać wpływ parametrów regulatorów (wzmocnienia i

At the same time it would be a way for the sustainable management of the water environment in the areas of anthropopressure, in industrial and post-industrial areas, for the

Charakteryzując WAWW, zwraca się zazwyczaj uwagę na dwie najbardziej fundamentalne jego cechy (zob. Dzięki zastosowaniu wspólnego formatu dyskusje toczące się na różnych

[r]

As a follow-up of [4], we show that by making use of the property of a “carr´ e du champ” identity, this algebra property holds in a wider range than previously shown.. Let (M, d) be

Program wykonuje operacje na obrazie: są to m.in. progowanie, przekształcenia morfologiczne i inne. W efekcie tych działań otrzymuje się matematyczny opis obiektów

The com plex in ves ti ga tions (li thol ogy and sedimento- logy, bot any, palaeobotany, palaeozoology, mi cro bi ol ogy, ra dio car bon dat ing, sur face and near-sur