• Nie Znaleziono Wyników

Podobieństwo obiektów opisanych za pomocą języka XML

N/A
N/A
Protected

Academic year: 2021

Share "Podobieństwo obiektów opisanych za pomocą języka XML"

Copied!
8
0
0

Pełen tekst

(1)Zeszyty Naukowe nr. 798. Uniwersytetu Ekonomicznego w Krakowie. 2009. Paweł Lula Katedra Systemów Obliczeniowych. Podobieństwo obiektów opisanych za pomocą języka XML Streszczenie. W artykule przedstawiono koncepcję określania podobieństwa obiektów opisanych za pomocą języka XML. Potrzeba opracowania takiej miary wynika z dużego upowszechnienia formatu XML. Proponowana miara pozwala na uwzględnienie wartości cech wyrażonych za pomocą czterech podstawowych skal pomiarowych oraz cech przyjmujących wartości tekstowe. W trakcie obliczeń brane są również pod uwagę informacje wynikające z hierarchicznej struktury opisu. Wyznaczone miary podobieństwa mogą znaleźć zastosowanie w klasyfikacji i porządkowaniu obiektów. Słowa kluczowe: podobieństwo obiektów, rozszerzalny język znaczników, XML.. 1. Wprowadzenie Język XML jest doskonałym narzędziem służącym do opisu obiektów złożonych. Pozwala na zdefiniowanie struktury danych odpowiedniej do opisania rozważanego obiektu lub zbioru obiektów oraz stanowi narzędzie umożliwiające przechowywanie dotyczących ich informacji. Do opisu danych wykorzystywane są struktury drzewiaste, które w łatwy sposób mogą reprezentować strukturę obiektów złożonych, a przede wszystkim doskonale opisują istniejące zależności hierarchiczne. Do dodatkowych zalet stosowania języka XML należy zaliczyć jego prostotę, intuicyjny charakter i łatwość opanowania przez człowieka, powszechną akceptowalność przez oprogramowanie służące do przechowywania i przetwarzania danych (głównie systemy zarządzania bazami danych) oraz możliwość przeprowadzenia automatycznej weryfikacji poprawności syntaktycznej stworzonego dokumentu [Harold 2000]. Jak już wskazano powyżej, podstawową strukturą danych wykorzystywaną w języku XML jest drzewo, które z jednej strony pozwala na wierny opis rzeczywistego obiektu, z drugiej jednak może powodować znaczne problemy w trakcie.

(2) 210. Paweł Lula. wspomaganej komputerowo analizy danych zapisanych w postaci dokumentów w języku XML, co jest spowodowane trudnością w realizacji prac obliczeniowych na strukturach drzewiastych. Powszechnie stosowanym sposobem ominięcia tego problemu jest przekształcenie struktury drzewiastej na postać tabelaryczną i wykorzystanie utworzonej w ten sposób macierzy w dalszych obliczeniach. Tego typu przekształcenie prowadzi zwykle do utraty informacji wyrażonej przez strukturę wykorzystywanego drzewa i dotyczącej charakteru zależności przyjętych atrybutów obiektów. Z tego powodu lepszym rozwiązaniem byłaby bezpośrednia analiza danych w postaci pierwotnej, zapisanych jako dokument XML, bez ich wcześniejszej transformacji do postaci tabelarycznej. Ten problem badawczy jest obecnie rozpatrywany w wielu ośrodkach, a uzyskane dotychczas rezultaty stanowią istotny krok w kierunku rozwiązania tego zagadnienia. Wszyscy jednak zdają sobie sprawę z konieczności kontynuowania badań i wypracowywania kolejnych propozycji rozwiązań. W trakcie realizacji prac analitycznych jedną z najważniejszych operacji jest określenie podobieństwa analizowanych obiektów. Tego typu informacje pozwalają na sformułowanie wielu wniosków na temat badanego fragmentu rzeczywistości. Mogą też stanowić punkt wyjścia do dalszych analiz. Potrzeba zdefiniowania algorytmu określania podobieństwa obiektów reprezentowanych przez struktury języka XML stanowiła główną przyczynę podjęcia prezentowanych w niniejszej pracy rozważań. Były one ukierunkowane na możliwość zdefiniowania miary podobieństwa pomiędzy obiektami opisanymi w języku XML, która uwzględniałaby zarówno wartości cech, jak i zróżnicowanie struktur reprezentujących badane obiekty. Prezentowana w pracy koncepcja jest wypadkową znanych z literatury propozycji innych autorów oraz wyników badań własnych. Największy wpływ na proponowane w niniejszym artykule rozwiązanie miało podejście zaprezentowane w pracy [Long, Schwarz i Stoecklin 2005]. Zostało ono rozszerzone o możliwość uwzględnienia w trakcie obliczeń wartości cech wyrażonych na wszystkich czterech skalach pomiarowych (rozważania zawarte we wspomnianej pracy dotyczyły wartości nominalnych oraz numerycznych) oraz wartości tekstowych (które nie były brane pod uwagę przez jej autorów. Inne zmiany wprowadzone w stosunku do oryginalnej koncepcji mają drugorzędne znaczenie. W pracy przedstawiono rozważania dotyczące możliwości wykorzystania języka XML w charakterze narzędzia służącego do opisu obiektów złożonych oraz prezentację miernika podobieństwa obiektów. 2. XML jako narzędzie opisu obiektów złożonych Język XML i powiązane z nim technologie są jednym z najpopularniejszych narzędzi współczesnej informatyki. Z powodzeniem wykorzystuje się je do prze-.

(3) Podobieństwo obiektów…. 211. chowywania i przetwarzania danych, pozwalają na integrację systemów komputerowych, stanowią podstawę wielu systemów komunikacji, są stosowane przy tworzeniu dokumentów tradycyjnych i elektronicznych, należą do grona najważniejszych narzędzi zapewniających rozwój gospodarki elektronicznej. Z punktu widzenia rozważań prezentowanych w niniejszej pracy za szczególnie istotne należy uznać te możliwości języka XML, które pozwalają na jego wykorzystanie jako narzędzia opisu obiektów złożonych. W tym kontekście należy zwrócić uwagę na takie jego cechy jak: – możliwość definiowania struktur odpowiednich do opisu obiektów rzeczywistych (za pomocą sekcji definicji struktury dokumentu lub schematów XML), – możliwość weryfikacji poprawności dokumentu zgodnie z przyjętą definicją struktury, – możliwość przechowywania danych różnego typu, w tym wielojęzycznych tekstów, – możliwość umieszczania w dokumencie odwołań do innych dokumentów, – możliwość łatwego dostępu do danych zapisanych w formacie XML z poziomu większości języków programowania realizowana za pomocą interfejsów programowych; – możliwość zapisu w formacie XML definicji modeli obliczeniowych w formacie akceptowanym przez dużą liczbę pakietów obliczeniowych. 3. Pomiar podobieństwa pomiędzy obiektami reprezentowany przez struktury języka XML 3.1. Uwagi ogólne. Dokument XML składa się z elementów, z których każdy ma swoją nazwę pozwalającą na jego identyfikację. Poszczególne elementy służą do opisu wyodrębnionych cech charakteryzujących rzeczywiste obiekty. Elementy mogą opcjonalnie mieć atrybuty, których znaczenie w ogólnym przypadku jest definiowane przez użytkownika, ale w rozpatrywanej sferze zastosowań służące najczęściej do uszczegółowienia przyjętych metod reprezentacji informacji o rzeczywistych obiektach (np. informacja dotycząca zastosowanych jednostek miar lub systemu ważenia cech). Na potrzeby dalszych rozważań dokonano podziału elementów występujących w dokumencie XML na dwie grupy: – elementy proste – odpowiadające jednej cesze i pozwalające na przechowanie pojedynczej wartości (w szczególnym przypadku wartości pustej), – elementy złożone – zawierające zbiór elementów zagnieżdżonych (w szczególnym przypadku może być on zbiorem pustym)..

(4) Paweł Lula. 212. Przyjęto, że podczas wyznaczania podobieństwa pomiędzy obiektami będą uwzględniane nazwy opisujących je elementów oraz wartości lub zbiory elementów zagnieżdżonych, nie będą zaś brane pod uwagę wartości atrybutów (które mogą być przydatne na etapie wstępnego przygotowania dokumentów przeznaczonych do analizy). Podobieństwo pomiędzy obiektami zostanie wyrażone za pomocą miernika podobieństwa (oznaczanego w pracy przez PXML), którego wartość będzie się kształtować od 0 (całkowite zróżnicowanie obiektów) do 1 (identyczność obiektów). Przedstawiona poniżej procedura wyznaczania odległości składa się z dwóch części – pierwsza opisuje sposób wyznaczana podobieństwa pomiędzy elementami prostymi, a druga dotyczy obliczania miernika podobieństwa pomiędzy elementami złożonymi. 3.2. Obliczanie podobieństwa pomiędzy elementami prostymi. Celem rozważań będzie wyznaczenie miernika podobieństwa pomiędzy elementami c oraz el2 = 〈n2, w2 〉. Przyjęto, że podobieństwo pomiędzy elementami o różnych nazwach jest zerowe, czyli:. (. PXML ni , wi , n j , w j. ) = 0, gdy n ≠ n . i. j . Podobieństwo elementów o identycznych nazwach jest uzależnione od przypisanych im wartości wi oraz wj . Sposób wyznaczania miernika zależy od skali pomiarowej wykorzystanej do wyrażenia wartości elementów. W przypadku wartości wyrażonych na skali nominalnej miernik podobieństwa przyjmuje postać:. ⎧⎪1, gdy wi = w j p XML = ⎨ ⎩⎪0, gdy wi ≠ w j. Dysponując wartościami wyrażonymi na skali porządkowej, w celu wyznaczenia wartości miernika należy uporządkować zbiór dopuszczalnych wartości. Jeśli przyjąć, że określona w ten sposób sekwencja wartości mogących wystąpić w elemencie przyjmuje postać w0, w1, …, wn, to podobieństwo pomiędzy elementami eli = 〈ni, wi 〉 oraz elj = 〈nj, wj 〉 wyraża formuła:. p XML = 1 −. i− j . n. Dysponując wartościami wyrażonymi na skali przedziałowej, aby wyznaczyć miernik podobieństwa, należy znać wartości ograniczające dopuszczalny przedział wartości. Do wyznaczania podobieństwa stosowana jest formuła:.

(5) Podobieństwo obiektów…. 213. p XML = 1 −. wi − w j. wmax − wmin. ,. gdzie wmax oraz wmin określają przedział, do którego należą wartości przechowywane w porównywanych elementach. Zbliżoną formułę stosuje się w przypadku wykorzystania wartości wyrażonych na skali ilorazowej. W tym przypadku pXML wyznaczane jest jako: p XML = 1 −. wi − w j wmax. .. W przypadku porównywania elementów przechowujących wartości tekstowe sposób realizacji obliczeń uzależniony jest przede wszystkim od przyjętego sposobu reprezentacji tekstów. Najczęściej spotykanym rozwiązaniem jest wektorowa reprezentacja dokumentu pozwalająca na przechowywanie informacji o częstości występowania poszczególnych wyrazów w tekście. Zaletą takiego podejścia jest prosty i intuicyjny charakter, największą zaś wadę stanowi nieuwzględnienie informacji o kolejności występowania wyrazów i sposobie ich połączenia w zdania. Częstość wystąpień wyrazów jest reprezentowana przez współczynniki wagowe wik informujące o występowaniu k-tego wyrazu w i-tym dokumencie. Spośród wielu formuł pozwalających na obliczenie współczynników wij szczególnie zalecany jest wzór [Salton i Buckley 1987]: wik =. ⎛N⎞ tfik ⋅ log ⎜ ⎟ ⎝ nk ⎠ ti. ⎛ N ⎞⎞ 2 ⎛ tfij ⋅ ⎜ log ⎜ ⎟ ⎟ ⎝ nj ⎠ ⎠ ⎝. 2. ,. ∑( ) j=1. gdzie: wik – współczynnik wagowy dotyczący wystąpienia wyrazu Tk w dokumencie Di; tf ik – częstotliwość wystąpienia wyrazu T k w dokumencie Di; w przypadku wyrazów, które nie występują w dokumencie, tf ik przyjmuje wartość zerową; N – liczba rozpatrywanych dokumentów; nk – liczba dokumentów zawierających wyraz Tk; ti – liczba wyrazów w dokumencie Di. Wyrażenie występujące w mianowniku służy do unormowania uzyskanych współczynników w celu ich uniezależnienia od długości analizowanego tekstu (wyrażonej w liczbie wyrazów)..

(6) Paweł Lula. 214. W celu określenia podobieństwa dokumentów Di oraz Dj należy w pierwszej kolejności wyznaczyć reprezentujące je wektory współczynników wagowych równe odpowiednio: [wi1 wi2 … wit] oraz [wj1 wj2 … wjt], a następnie wyznaczyć współczynnik podobieństwa:. (. ). t. p XML Di , D j = ∑ wik ⋅ w jk .. k =1. Wyznaczony w ten sposób wskaźnik unormowany jest do przedziału [0, 1]. W rozważaniach nad zagadnieniami dotyczącymi podobieństwa elementów prostych należy również uwzględnić możliwość wystąpienia wartości pustych. Oznaczając wartość pustą przez EMPTY, przyjęto, że:. p XML ( ni , EMPTY , ni , EMPTY. )=1. oraz:. p XML ( ni , wi , ni , EMPTY. ) = p ( n , EMPTY XML. i. , ni , wi. )=0. 3.3. Wyznaczenie podobieństwa pomiędzy elementami złożonymi. Rozważania dotyczą podobieństwa pomiędzy elementami: eli = 〈ni, Ei 〉 oraz elj = 〈nj, Ej 〉, gdzie Ei oraz Ej są zbiorami elementów zagnieżdżonych. Podobnie jak w przypadku elementów prostych podobieństwo elementów o różnych nazwach jest zerowe:. (. p XML ni, Ei , n j , E j. ) = 0, gdy n ≠ n . i. j. Natomiast gdy ni = nj , należy rozważyć następujące przypadki:. 1.  Ei = ∅ i Ej = ∅. W przypadku gdy oba zbiory elementów zagnieżdżonych są puste, podobieństwo pomiędzy elementami jest maksymalne, czyli: p XML ( ni ,∅ , ni ,∅ ) = 1. 2.  Ei = ∅ albo Ej = ∅. Przy założeniu, że tylko jeden ze zbiorów Ei oraz Ej jest zbiorem pustym, podobieństwo pXML przyjmuje wartość zerową:. (. p XML ( ni, Ei , ni ,∅ ) = p XML ni ,∅ , ni, E j. )=0.

(7) Podobieństwo obiektów…. 215. 3.  Ei ≠ ∅ i Ej ≠ ∅. W tym przypadku obliczenia należy rozpocząć od wyznaczenia macierzy podobieństwa pomiędzy elementami należącymi do zbiorów Ei oraz Ej . Macierz ta przyjmie postać:. ⎡ p ⎢ XML eli1 , el j1 ⎢ ⎢ p el , el S = ⎢ XML i 2 j1 ⎢ L ⎢ ⎢ ⎢⎣ p XML eli E , el j1. (. ). p XML eli1 , el j 2. (. ). p XML eli 2 , el j 2. (. i. ). L. p XML eli1 , el j E. (. ). L. p XML. L. ). ( ) ⎤⎥⎥ (el , el ) ⎥⎥ ,. (. (. L. p XML eli E , el j 2 i. ). i2. j. j Ej. L. (. p XML eli E , el j E i. j. ). ⎥ ⎥ ⎥ ⎥⎦. gdzie elik jest k-tym elementem zbioru Ei, zaś eljk jest k-tym elementem zbioru Ej . Kolejny krok algorytmu wymaga połączenia elementów zbioru Ei oraz Ej w pary w taki sposób, aby podobieństwo łączonych ze sobą elementów było jak największe. W tym celu można zastosować algorytm węgierski w wersji służącej do maksymalizacji funkcji celu. Pierwszym krokiem wykonywanym w trakcie jego realizacji jest sprowadzenie macierzy S do macierzy kwadratowej (oznaczonej przez S*) poprzez jej uzupełnienie o odpowiednią liczbę dodatkowych wierszy lub kolumn reprezentujących dodatkowe, nieistniejące w rzeczywistości elementy. Powstały w ten sposób fragment macierzy należy wypełnić zerami (dodatkowe elementy są maksymalnie różne od elementów istniejących). Kolejne kroki algorytmu węgierskiego (w wersji ukierunkowanej na maksymalizację funkcji celu) przedstawiają się następująco: 1. Należy wyznaczyć wartość maksymalną dla każdego wiersza macierzy, a następnie odjąć wartości znajdujące się w poszczególnych wierszach od wyznaczonych dla nich wartości maksymalnych. 2. Należy wyznaczyć wartości minimalne dla poszczególnych kolumn macierzy i od wartości znajdujących się w kolejnych kolumnach odjąć wyznaczone dla tych kolumn wartości minimalne. 3. Następnie należy wykreślić z macierzy liniami poziomymi i pionowymi wszystkie elementy zerowe. Operację tę trzeba przeprowadzić w taki sposób, aby liczba linii była jak najmniejsza. Jeżeli liczba linii równa jest liczbie wierszy (lub kolumn), przechodzi się do punktu 5; w przeciwnym wypadku należy wyznaczyć wartość minimalną spośród wartości nieskreślonych, a następnie odjąć ją od wartości nieskreślonych i dodać do wartości skreślonych dwiema liniami (poziomą i pionową). 4. Krok 3 należy powtarzać aż do momentu znalezienia rozwiązania..

(8) Paweł Lula. 216. 5. Zera występujące w macierzy wskazują na sposób łączenia elementów ze zbiorów Ei oraz Ej. Po dokonaniu przyporządkowania wyznaczana jest suma mierników podobieństwa odpowiadających przyporządkowanym sobie elementom S ). (wartość p XML Ostatecznie wartość miernika podobieństwa dana jest wzorem:. (. p XML ni, Ei , ni, E j. )=. (. S + abs Ei − E j p XML. (. max Ei , E j. ). ).. Kończąc rozważania dotyczące wyznaczania podobieństwa pomiędzy elementami, należy jeszcze zwrócić uwagę na sytuację, w której jeden z elementów jest elementem prostym, a drugi – złożonym. W takim przypadku zachodzi:. (. p XML ni , wi , ni , E j. ) = 0.. 4. Wnioski końcowe Zaprezentowany sposób pomiaru podobieństwa może znaleźć różnorodne zastosowania dotyczące klasycznych analiz statystycznych, badań marketingowych, systemów wyszukiwania informacji czy rozwijanej obecnie koncepcji sieci semantycznych. Zaprezentowany algorytm wymaga dalszych badań, które zweryfikują jego poprawność i wskażą kierunki jego ewentualnej modyfikacji. Literatura Harold E.R. [2000], XML. Księga eksperta, Helion, Gliwice. Long J., Schwartz D.G., Stoecklin S. [2005], An XML Distance Measure, http://ww2. cs.fsu.edu/~jidolong/publications/dmin-camera.pdf. Salton G., Buckley C. [1987], Term-weighting Approaches in Automatic Text Retrieval, Technical Report: TR87-881, Cornell University, Ithaca, NY. Similarity of Objects Described with Use of XML Language The paper presents an idea of similarity determination for objects described with utilisation of XML language. The need for developing such a measure has arisen from great dissemination of XML format. The proposed measure allows considering features values that are expressed on four basic measurement scales and features expressed by text values. During computation, information arisen from hierarchical description structure is also taken into account. Obtained similarity measures can be applied to object classification and object sorting..

(9)

Cytaty

Powiązane dokumenty

[r]

Rozwiązania zadań otwartych (zadania 16.–21.) zapisz czytelnie i sta- rannie w karcie rozwiązań zadań otwartych.. Ewentualne poprawki w odpowiedziach nanoś zgodnie

2) W przedmiotowej wycenie określa się ogólny stan pojazdu ustalony na dzień wykonywania oględzin (ustalony na podstawie analizy przedłożonych dokumentów oraz

Nauczyciel pyta uczniów co zapamiętali z przeprowadzonej lekcji oraz podsumowuje wiadomości na temat zasad projektowania oraz budowy i badania

Anna Jagielonka i Stefan Batory Zygmunt III Waza Władysław Waza Jan Kazimierz Waza Michał Korybut Wiśniowiecki Jan III Sobieski Fryderyk August II Wettyn. Stanisław

– Oznacza to, że po tym okresie ilość izotopu C 14 zmniejszy się dokładnie o połowę. – Jeżeli zatem w pewnym momencie ilość C 14 wyniosła 100%, to

Kąt nachylenia przekątnej ściany bocznej graniastosłupa prawidłowego trójkątnego do sąsiedniej ściany bocznej przedstawiono na

Liczba punktów możliwych do uzyskania: 40 Do następnego etapu zakwalifikujesz się, jeżeli uzyskasz co najmniej 32 punkty... Przeczytaj uważnie zamieszczony poniżej utwór