• Nie Znaleziono Wyników

Korpus e-commerce

W dokumencie Uczenie ontologii z tekstu (Stron 173-177)

Ekstrakcja relacji

7.1 Korpusy testowe

7.1.2 Korpus e-commerce

Polskoj¦zyczny korpus z dziedziny handlu elektronicznego nie istniaª w chwi-li uruchamiania eksperymentów. Konieczne byªo zatem stworzenie wªasne-go korpusu o charakterze reprezentatywnym. W±ród analizowych problemów biznesowych znacz¡ce miejsce zajmuj¡ dostawcy sprz¦tu IT, np. Komputro-nik lub Centrum Komputerowe Znak. Oba podmioty posiadaj¡ serwisy inter-netowe z opisami produktów, nadaj¡ si¦ wi¦c do zgromadzenie po»¡danego korpusu.

Analiza opisów produktów w serwisie Komputronik2 prowadzi do wnio-sku, »e serwis ten, niestety, nie nadaje si¦ do stworzenia korpusu o odpowied-niej jako±ci, co najmodpowied-niej z nast¦puj¡cych powodów:

• opisy powtarzaj¡ si¦, tj. podobne produkty (ale nie takie same) posia-daj¡ dokªadnie taki sam opis,

• teksty charakteryzuj¡ si¦ albo stylem czysto marketingowym, np. Jest to z pewno±ci¡ przeªomowy moment i proponowana, nowa konsola usta-nowi nowe standardy ª¡cz¡c ogromne mo»liwo±ci z miniaturyzacj¡ . . . , albo zupeªnym brakiem interpunkcji (teksty wielozdaniowe bez kropek, zdania zªo»one bez przecinków, itd.),

• wielko±¢ korpusu jest znacznie mniejsza w porównaniu z serwisem Znak (1445 opisów w Komputronik do 6789 w Znak, co stanowi tylko 21%). Analiza tekstów z serwisu Znak3 nie wykazaªa a» tak znacznych prze-ciwskaza«, chocia» ich jako±¢ nadal pozostawia wiele do »yczenia. Charakter

2http://www.komputronik.pl/

opisów jest cz¦sto zbyt techniczny (np. lista specykacji). Bior¡c jednak pod uwag¦ dziedzin¦, jest to do zaakceptowania.

Korpus e-commerce powstaª wi¦c poprzez zgromadzenie wszystkich do-st¦pnych opisów produktów IT w postaci tekstu w j¦zyku polskim, dnia 23 pa¹dziernika 2007 roku w sklepie komputerowym Centrum Komputero-we Znak4. Operacja ta zostaªa przeprowadzona przy u»yciu opracowanego oprogramowania przy pomocy j¦zyka transformacji XSL, jest powtarzalna i odporna na zmiany struktury witryny. Uzyskany korpus zawiera 6789 do-kumentów, przy czym dokument zawiera kompletny opis jednego produktu. Stan opisów przedstawiony jest na dzie« 23 pa¹dziernika 2007 roku.

Zgromadzony korpus nie posiada »adnej informacji lingwistycznej, ani struktury domy±lnego formatu anotacji. Transformacja do po»¡danego for-matu anotacji wraz z pozyskaniem informacji lingwistycznej jest przedmio-tem anotacji automatycznej.

Anotacja automatyczna

Anotacja automatyczna zostaªa wykonana przy u»yciu narz¦dzia SProuT (Piskorski i in., 2005). Wykorzystano dost¦pne w narz¦dziu standardowe gra-matyki dla j¦zyka polskiego dla anotacji cz¦±ci mowy i morfologii.

Anotacja lingwistyczna SProuT skªada si¦ zestawu informacji morfolo-gicznych dotycz¡cych tokenów. Informacja morfologiczna jest dostosowana dla j¦zyka polskiego i skªada si¦ m.in. z:

• rodzaju cz¦±ci mowy (wyª¡cznie w postaci podstawowej, np. rzeczow-nik, czasowrzeczow-nik, przymiotrzeczow-nik, . . . ),

• deklinacji cz¦±ci mowy (np. dla rzeczownik odmiana przez przypadki, dla czasownika czas),

• liczba (pojedyncza, mnoga), • rodzaj (m¦ski, »e«ski, nijaki).

Zªo»ono±¢ morfologiczna j¦zyka polskiego powoduje, »e wynikowa infor-macja jest znacznie bogatsza ni» wykorzystany domy±lny format anotacji. W celu oszacowania wªa±ciwo±ci anotacji maj¡cych rzeczywisty wpªyw na kla-sykacj¦ terminologii posªu»ono si¦ nast¦puj¡cym eksperymentem.

Przykªadowe dokumenty zaanotowano pod k¡tem klasykacji terminu jednotokenowego. Nast¦pnie zliczono z caªego korpusu oraz z tych tokenów, które zostaªy wskazane jako terminy, nast¦puj¡ce elementy anotacji lingwi-stycznej:

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Wszystkie tokeny Termy (a) Deklinacja 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 1 2 3 Wszystkie tokeny Termy (b) Liczba 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 1 2 3 4 5 6 7 Wszystkie tokeny Termy (c) Rodzaj

Rysunek 7.8: Rozkªad badanych cech dla korpusu e-commerce w zale»no±ci od klasykacji terminologii

• deklinacj¦ przez przypadki, • liczb¦ (pojedyncza/mnoga), • rodzaj.

Dla ka»dej z tych wªa±ciwo±ci sporz¡dzono rozkªad dla caªo±ci korpusu oraz dla próby wskazanych terminów. Oba te rozkªady porównano. Je»eli rozkªady s¡ podobne do siebie, oznacza to, »e obserwowana cecha nie jest wra»liwa na klasykacj¦ terminologii. Oznacza to, »e dany element anotacji lingwistycznej nie jest statystycznie wa»ny dla celów klasykacji i mo»e zo-sta¢ pomini¦ty podczas analizy. Je»eli natomiast rozkªady s¡ znacz¡co ró»ne od siebie, oznacza to, »e rozkªad danej cechy jest wra»liwy na klasykacj¦ terminologii i cecha ta powinna zosta¢ uwzgl¦dniona.

0 20000 40000 60000 80000 100000 120000 -- CC CD IN JJ JJR JJS NN NNP NNS PER PRP PUNCT RB RBR RBS VB

Rysunek 7.9: Rozkªad cz¦±ci mowy korpusu e-commerce

Eksperyment przeprowadzono metod¡ prototypu. Wyniki prototypu wi-doczne s¡ na wykresach przedstawionych na rysunku 7.8. Dotycz¡ one odpo-wiednio deklinacji, liczby oraz rodzaju analizowanych tokenów.

Przedstawione porównania nie wskazuj¡ na znacz¡cy wpªyw jakiejkolwiek z badanych cech na klasykacj¦ terminologii. Tym samym mo»na je pomi-n¡¢. Dla zachowania spójno±ci z przyj¦tym domy±lnym formatem anotacji zdecydowano si¦ zachowa¢ te same klasy cz¦±ci mowy.

W wyniku przeprowadzenia procesów anotacyjnych z wykorzystaniem na-rz¦dzia SProuT powstaª korpus e-commerce zawieraj¡cy 6789 dokumentów, w tym 481455 tokenów. Rozkªad cz¦±ci mowy korpusu przedstawiono na ry-sunku 7.9.

Anotacja terminologii

Anotacj¦ terminologii przeprowadzono metod¡ eksperck¡. Zorganizowane zo-staªy specjalne warsztaty, w których uczestniczyªo trzynastu ekspertów. Ka»-dy z nich dokonywaª anotacji terminologii zgodnie z przyj¦tym schematem zastosowanym w korpusie KMi.

Z ª¡cznej liczby 6789 dokumentów do anotacji wybrano metod¡ losow¡ 1000 dokumentów. Ka»dy ekspert do anotacji otrzymywaª metod¡ losow¡ jeden dokument. Dany dokument mógª zosta¢ wylosowany tylko raz przez

Liczba anotacji Liczba dokumentów 0 90 1 247 2 277 3 226 4 160

Tabela 7.2: Rozkªad liczby anotacji eksperckich w±ród 1000 dokumentów dla korpusu e-commerce

KMi e-commerce Dziedzina uniwersytet produkty IT J¦zyk naturalny angielski polski

Styl narracji swobodny, e-mail specykacje techniczne Liczba dokumentów 273 6789

Liczba tokenów 62303 481455 Anotacja POS GATE/ANNIE SProuT Byty nazwane GATE/ANNIE  Format anotacji OntoLT OntoLT

Anotacja terminologii ekspert grupa ekspertów

Tabela 7.3: Porównanie korpusów KMi i e-commerce

danego eksperta. Ka»dy dokument mógª by¢ zaanotowany maksymalnie przez 4 ekspertów. Strategia taka umo»liwiaªa przeprowadzenie maksymalnie 4000 anotacji.

W wyniku przeprowadzonego warsztatu otrzymano 2183 anotacji eksperc-kich. Rozkªad liczby anotacji eksperckiej w±ród 1000 dokumentów przedsta-wiono w tabeli 7.2. W sumie zaanotowano 910 dokumentów, ±rednio ka»dy z tych dokumentów zostaª zaanotowany przez 2,4 eksperta.

7.1.3 Podsumowanie

Wynikiem przeprowadzonych prac s¡ dwa korpusy o zró»nicowanym charak-terze. Pogl¡dowe porównanie korpusów przedstawiono w tabeli 7.3.

W dokumencie Uczenie ontologii z tekstu (Stron 173-177)