• Nie Znaleziono Wyników

Intuicjonistyczne relacje rozmyte w przeszukiwaniu domen e-commerce

N/A
N/A
Protected

Academic year: 2021

Share "Intuicjonistyczne relacje rozmyte w przeszukiwaniu domen e-commerce"

Copied!
10
0
0

Pełen tekst

(1)

ACTA UNIVERSITATIS LODZIENSIS FOLIA OECONOMICA 157, 2002

Adam Niew iadom ski Piotr S. Szczepaniak

INTUICJONISTYCZNE RELACJE ROZMYTE

W PRZESZUKIW ANIU DOMEN E-COMMERCE

Poniższy referat prezentuje koncepcją wykorzystania intuicjoni- stycznych relacji rozmytych do p rzeszu kiw a n ia domen e-commerce. Zaprezentowana została miara podobieństwa słów i fragmentów tekstów, zakorzeniona w teorii zbiorów rozmytych Zadeha / 7]. Następnie na dwóch przykładach wyjaśnione zostały korzyść i pły­ nące z zastosowania nowej miary podobieństwa w handlu elektro­ nicznym.

This paper focuses on application o f intuitionistic fuzzy rela­ tions applied to services available within the e-commeice domains. Firstly, concepts fo r comparison o f natural language words and sentences rooted in the theory o f fuzzy sets, and in the concept o f intuitionistic fuzzy relation in particular, are presented. Then, on two examples o f application to the e-commerce domain, the aspect o f the user-friendliness o f the approach is demonstrated.

W p ro w a d z e n ie

W projektow aniu i zarządzaniu dom enami e-com m erce ścierają się zasadni­ czo dw ie przeciw ne tendencje: potrzeba standaryzacji i — z drugiej strony w y­ m aganie coraz to większej elastyczności w obsłudze klienta. Jedynym rozsąd­ nym w yjściem z tej sytuacji wydaje się być częściow a standaryzacja lub, innymi słowy, ograniczona elastyczność. Szczególnie widoczne jest to w dom enach z zakresu B usiness-to-C ustom er (B-to-C), gdyż pozostałe dw a um ow ne z resy działalności, B usiness-to-A dm inistration (B-to-A) and Business-to-B usm ess

Instytut Informatyki, Politechnika Łódzka • •

Instytut Informatyki, Politechnika Łódzka

(2)

(B-to-B), posługują się zazwyczaj term inologią oraz proceduram i łatwym i do sform alizow ania.

Poniższa praca skupia się na się na m ożliw ościach w ykorzystania nowej koncepcji określania podobieństw a fragm entów tekstów sporządzonych w ję z y ­ ku naturalnym w utw orzeniu „przyjaznego użytkow nikow i” interfejsu. M etoda ta oparta jest na intuicjonistycznych relacjach rozm ytych. U m ożliw ia ona klien­ towi stosunkow o sprawne orientow anie się pośród olbrzym iej ilości różnych produktów oferow anych poprzez różne usługi w Internecie.

"R ozm ytość” w sensie Zadeha [7] jest w ystarczająco silnym aparatem m a­ tem atycznym , aby przeprow adzić porów nyw anie tekstów częściow o standary­ zow anych. W poniższym opracow aniu została ona jednak rozszerzona o ele­ menty teorii intuicjonistycznych zbiorów rozm ytych [I, 2] z m yślą o jak najw ierniejszym spełnianiu ludzkich intuicji językow ych.

Podstaw ow e definicje

Zbiory rozmyte i intuicjonistyczne zbiory rozmyte

Pojęcie zbioru rozm ytego pochodzi od Zadeha [7] i zasadza się na rozsze­ rzeniu zbioru wartości funkcji charakterystycznej do całego przedziału [0,1]. K oncepcja ta um ożliw ia form alizację potocznej konstrukcji językow ej, iż jak iś elem ent posiada daną własność „w pew nym stopniu”, np. am fibia nie jest tym sam ym co sam ochód, chociaż w pew nym stopniu posiada jeg o cechy” . F orm al­ nie zbiór rozmyty A w niepustej przestrzeni X przedstaw iam y jak o zbiór par uporządkow anych

A = [<x, ц А(х)>\ x e X ) , (2.1) gdzie: p A\ X —» [0,1] - funkcja przynależności do zbioru rozm ytego A.

(3)

W 1984 roku Atanassov wystąpił z propozycją rozszerzenia zbioru rozm y­ tego do intuitionistic fu z z y set — intuicjonistycznego zbioru rozm ytego [1, 2]. Do pary elem ent, stopień przynależności dodana została liczba z zakresu [0,1] oznaczająca stopień nieprzynależnoici danego elem entu do zbioru. A nalogicznie jak w (2.1), intuicjonistycznym zbiorem rozmytym В w niepustej przestrzeni X nazywa się zbiór trójek uporządkowanych

В = (<cc, /JH(x), vH(x)>: x e X } , (2.2) gdzie: p B- X -> [0,1], vB: X -> [0,1] - odpow iednio funkcje przynależ­

ności i nieprzynależności do intuicjonistycznego zbioru rozm y­ tego В , spełniające warunek

0 < juB(x) + vB(x) < 1 dla każdego же X (2.3) Różnica pom iędzy jed n o ścią a sum ą wartości funkcji //д i vA dla dow olnego x e X interpretow ana jest jako „stopień niepew ności” (ang. hesitancy degree, hesitancy m argin) zwany także „indeksem intuicjonistycznym dla elem entu x w Л” (ang. intuitionistic index o f x in A). W skaźnik ten obliczany jest że wzoiu

лл(х) = 1-дл(х)- v A(x) V x e X . (2 -4 ) O czyw iście

0<7Ta(x) < \ V x e X . (2 -5)

Intuicjonistyczne relacje rozmyte

Intuicjonistyczna relacja rozm yta na produkcie niepustych przestrzeni X i Y może być zdefiniow ana na bazie (2.2), zob. [6], jako zbiór tróje uporzą owa- nych postaci

R = {<(x, y), Mr(x, y), vR(y, x ) > : x e X , y e Y } , (2.6) gdzie: p R: X x Y [0,1], vR: X x Y -> [0,1] - jak w (2.2), (2.3).

Zazwyczaj liczba / / interpretowana jest jako „siła pow iązania elem entów x i y, zaś liczba v -jako stopień ich zróżnicowania.

(4)

Intuicjonistyczna relacja rozmyta, która jest a) zw rotna na X wtedy i tylko wtedy, gdy

liR(x, x) = 1 (2.7)

oraz

b) sym etryczna na X wtedy i tylko wtedy, gdy

ци(х, у) = М У . x) л v R(x, y) = v R(y, x) Vx, ye X , (2.8) zw ana jest „relacją sąsiedztw a” i może być interpretow ana jak o model nie- przechodniej relacji podobieństwa.

Podobieństw o tekstów

P orów nyw anie słów

Intuicjonistyczne relacje rozm yte opisane w sekcji 2 posłużyć m ogą do określania podobieństw a fragm entów tekstów języka naturalnego. Określm y w tym celu na S - zbiorze wszystkich słów - intuicjonistyczną relację rozm ytą R S postaci:

gdzie: h(i, j) = \, jeżeli podciąg /-elem entow y liter występujący w słowie .V/ i rozpoczynający się od y-tego m iejsca w słowie s/ występuje conajm niej raz w słowie s2 (w przeciw nym przypadku h(i, j)=0); N(si), N(s2) - liczby liter w słowach s / i s2, odpow iednio, zw ane dalej „długościami słów ” ; N = max{ N(s/), N(s2))\

oraz o funkcji nieprzynależności Vgs- S x S —> [0,1J danej w zorem

Przykład porów nyw ania słów przy pom ocy (3.2) (3.3) opisany został szczegółow o w [4]. W arto w spom nieć, że w ybór funkcji nieprzynależności jest spraw ą subiek ty w n ą podobnie jak i dla funkcji przynależności.

RS ={(<У/, s2>, fjRs(s h s 2) , Vrs{s i, s2) ) : s h s2e S }

o funkcji przynależności ///«: S x S —> [0 ,1 ] danej wzorem:

(3.1)

(3.2)

(5)

Porów nyw anie zdań

R elacje podobne do opisanych w sekcji 3.1 m ożna zastosow ać także do po­ rów nyw ania zdań. Ustalmy na Z - zbiorze wszystkich zdań - intuicjonistyczną relację rozm ytą R Z postaci

gdzie: s, - i-te słow o w zdaniu zľ, Sj - j -te słowo w zdaniu z2',

-fu n k cja podobieństw a słów dana w (2.2);

N(zi), N(z2) - liczba słów odpowiednio w zdaniach zi i z2

(„długości zdań”); N = max{ N(zi), N(z2))\

oraz o funkcji nieprzynależności Vrz- ZxZ —> [0,1] danej wzorem:

V R Z (Z|, Zj)= ( | H r z (Z|, Z2))05 - Ц-RZ (z l> 2г) • (3.6)

Uwaga: Funkcja ц Ж 3.5) nie uwzględnia różnic, które w ystępują po­ między zdaniami złożonymi z tych sam ych, lecz ustaw ionych w różnej kolejności wyrazów. Um ożliwia to porów nyw anie zw łaszcza zbiorów a nie tylko ciągów słów (np. zbiorów słów kluczowych).

Przykłady porów nyw ania zdań - patrz [4].

Obliczony na podstaw ie (2.4) indeks intuicjonistyczny dla dowolnej pary słów lub zdań może nieść inform ację niezwykle w ażną z punktu w idzenia użyt­ kownika Internetu - ma on interpretację „stopnia niepewności dla dokonanego porów nania (lub też stopnia niezgodności wyniku z intuicjami ludzkimi). Innymi słowy jest to określenie marginesu błędu dla porównania.

R Z = {(<2/, Z2> , M r A z i , z 2) , V r 'A z i i Z 2) ) - Z i , z2e z } o funkcji przynależności X —» [0,1] danej wzorem

I 'liii* (3.5)

(6)

Z astosow anie m iar podobieństw a w dom enach

e-commerce

K sięgarnie internetow e

Przykładow e zastosow anie metody określania podobieństw a tekstów doty­ czyć może interfejsu bazy danych księgarni internetowej (ew entualnie interne­ towej bazy danych dużej biblioteki lub dow olnego innego zbioru danych, w którym duża ilość informacji przechow yw ana jest w postaci czysto tekstowej).

Z biór opisów wszystkich książek (czyli tekstów „częściow o standaryzow a­ nych”) dostępnych w sprzedaży w danej księgarni internetow ej m oże być zgro­ m adzony w operacyjnej tekstowej bazie danych o przykładowej postaci przed­ staw ionej w tabeli 1

Tabela I Przykładowa operacyjna baza danych księgarni internelowej.

Tytuł Autor Tytuł serii

Paragraf 22 Namaluj to Cyberiada Joseph Heller Joseph Heller Stanisław Lem

Klub Interesującej Książki Biblioteka Mistrzów

Załóżm y, że użytkow nik poszukujący książki kieruje do bazy danych za­ pytanie postaci: {„Paragraf 22”, „J. H eller”, „Interesująca K siążka” }. Porów ny­ w anie kolejnych pól form ularza z polami poszczególnych rekordów (wierszy) w bazie danych (tabeli) przebiegać m oże według wzoru ( 4 .1):

n

E w.- 'Mi(Zi>rji)

= — --- (4 -U

Z * '-1=1 gdzie: z - zapytanie użytkownika;

Zj - i-te pole zapytania użytkownika (w tym przypadku: 1 - Tytuł, 2 - Autor, 3 - tytuł serii);

rj - j - ty rekord w tabeli bazy danych;

rji - /-te pole y-tego rekordu bazy (analogicznie jak w opisie z.,)\ w, - waga г-tego pola rekordu oraz zapytania;

//, - m iara podobieństw a zawartości /-tych pól form ularza i zapytania (3.2) lub (3.5).

(7)

Porów nanie podanego zapytania użytkownika oraz pierw szego rekordu- wiersza tabeli I r/ przedstaw ia się następująco:

г = { Zi = P aragraf 22, = Józef Heller, z3 = Interesująca książka }

r, = { r ,, = Paragraf 22, r n = Joseph Heller, r,} = Klub Interesującej Książki ( W / =

W2

= W.ł = 1 , a zatem: w, •/*/(*<•*>) Л ' , ) - “ --- j --- = «,831 (4 -2) przyczy n i: M i ( z i , r n ) = 1,0; U2(z2, r /2; = 0,722; r и ) = 0,772.

Stopień nieprzynależności dla tak opisanej pary argum entów relacji wynosi - v i a ( 3 3 ) lub ( 3 .6 ) - 0 ,1 6 7 .

O dpow iedzią na zapytanie użytkownika m oże być np. ranking dziesięciu rekordów z bazy najbardziej podobnych do zapytania.

Frequently A sked Questions

Autorzy pracy [3] problem atykę Frequently A sked Questions stanowiący tytuł tej sekcji. „C zęsto zadaw ane pytania” um ieszczają w obszarze zaintereso­ wania system ów C ase-Based Reasoning. Jest to podejście trafne z tego względu, iż każde pytanie czy wątpliwość pochodzącą od użytkow nika potraktow ać m oż­ na jak o oddzielny przypadek-w ektor i zapisać go przy pom ocy zbioru atry ut w, następnie znaleźć dlań przypadki podobne i w końcu zaaplikować rozwiązanie, zob. [5]. D otychczasow e rozwiązania opierają się jednak o struktury z góiy przew idzianych pytań.

Proponow ane unowocześnienie polega na um ożliwieniu użytkownikowi zadaw ania pytań w zupełnie dowolny - jak najbardziej naturalny - sposó . Po­ traktujm y zatem pytanie od użytkownika jak o zdanie naturalne, nie 'oniecznie sform ułow ane według ścisłych zasad trybu pytającego, np..

„gdzie szukać informacji o HP DeskJet 690 ? albo:

(8)

Integralną częścią systemu FAQ w inna być baza przypadków (analogia do C B R ), w której jednak zaw arte są rekordy nie z danym i num erycznym i bądź sym bolicznym i, ale zwykłe zdania sform ułow ane przy pom ocy naturalnego (nawet potocznego) języka, w yrażające najczęstsze pytania i w ątpliw ości odno­ śnie tem atyki danego serw isu W W W . Poniew aż baza danych przypadków m oże rów nież przechow yw ać inform acje dotyczące rozw iązań stosow anych w w ypad­ ku pojaw ienia się danego problem u, m ożna nadać tym rozw iązaniom form ę odnośnika URL do strony W W W , na której znajdują się stosow ne instruktaże. Szczegółow o rzecz ujm ując pojedynczy zapis w bazie FAQ pow inien mieć po­ stać /i-tki uporządkowanej:

{ <si... JV/>, URL)

gdzie: s ,... s„.i - słowa naturalne opisujące przypadek (problem ); URL - odnośnik (hiperłącze) do strony W W W .

Przykładowa baza często zadawanych pytań może mieć postać jak w tabeli 2:

Tabela 4.2. Przykładowa baza pytań systemu FAQ.

ID Pytanie U RL

1 Blady, niewyraźny wydruk, zamazane www.mvsiie.com /toner.htm litery.

2 Jak ustawić marginesy w dokumencie ? w ww .mvsitc.com /wvdruk.htm 3 Instalacja drukarki Hewlett Packard www.hD.com/first install.asp

System FAQ może pytanie pobrane od użytkow nika porów nyw ać z przy­ padkami w bazie na podstaw ie wzoru:

1 "

M ( { s i , - - , s n } A p l , - - , P k } ) = ~ Y < ™ xk ] 8 ( s i ' P j ) <4.3)

gdzie: s,, .... s„ - zbiór słów opisujących pytanie użytkow nika; p i... p k - zbiór słów opisujących problem zaw arty w bazie; //, - m iara podobieństw a słów i zapytania (3.2)

(9)

Przykładow e porównanie zapylania o postaci { BLADE LITERY, ZAMAZANY WYDRUK } z polem „Pytanie” w pierwszym wierszu tabeli 4.2 przedstaw ia się następująco:

//({*,,.., a-4 }, I />,,.../>,}) = 7 X max: / * » « « ) (, м /'у ) = 0 ’80 (4.4) 4 ,51

Stopień nieprzynależności dla tak opisanej pary argum entów relacji wynosi - via (3.3) lub (3 .6 ) - 0 ,0 9 4 .

G eneralnie, udzielanie odpowiedzi na pytania użytkow ników w system ie FAQ przy zastosow aniu wyżej opisanych m iar podobieństw a przebiegać może według następującego algorytmu:

1. Pobierz od użytkow nika zapytanie - zbiór słów { s ... }.

2. Pobierz od użytkownika wym agany stopień dokładności porów nania //0 . 3. Porównaj zapytanie z polami „Pytanie” w kolejnych rekordach

w ^-elementowej bazie pytań, odnotowując stopnie podobieństwa ///, ц 2, ..., /4. 4. IF przynajm niej jeden rekord w bazie jest podobny

w stopniu Hi> JJo TH IiN przejdź do 5.

E L S E i. prześlij pytanie v ia e-mail do adm inistratora serwisu ii. przejdź do 6 .

5. Zaproponuj odnośniki URL do (np. trzech) stron z odpowiedziam i. 6. ST O P

P o d s u m o w a n i e

Korzyści płynące ze stosowania nowych miar podobieństw a wyrażeń ję z y ­ kowych w system ie FAQ są następujące:

m ożliw ość form ułow ania przez użytkownika pytań bez konieczności uży­ wania term inów technicznych i specjalistycznego słownictwa,

"r używ anie sw obodnego, zbliżonego do naturalnego języka w trakcie w ym ia­ ny inform acji;

> w ygodna i stw arzająca „poczucie bezpieczeństwa form a kierow ania pytań ze strony klienta - interfejs na stronie W W W (form ularze),

У odpow iedzi od system u w przyjaznej dla użytkownika form ie — stiony W W W o nieskom plikow ane strukturze (podobieństwo do tradycyjnych sys­ tem ów pom ocy HELP).

(10)

O pisana m etoda obsługi klienta via Internet jest w dużym stopniu oparta na stylu działania system ów CBR. M a ona duże znaczenie dla handlu elektronicz­ nego, a w szczególności dla usług typu Business-to-C ustom er.

W nioski

Z obserw acji autorów wynika, iż stosow ane dotąd m etody „inteligentnego” przeszukiw ania zbiorów dokum entów tekstow ych opierały się zazw yczaj na m etodzie ścisłego porów nyw ania fragm entów tekstów. Zastosow anie teorii in- tuicjonistycznych zbiorów rozmytych m oże uspraw nić m etody w yszukiw ania inform acji tekstow ych.

Co więcej, porów nyw anie rozm yte sprawia, iż m etoda ta nie jest czuła na błędy gram atyczne i ortograficzne; nie istnieje zatem m ożliw ość w ygenerow ania błędu porów nania tylko z powodu prostej pomyłki przy w pisyw aniu zapytania. Słow a różniące się od siebie zaledwie je d n ą literą sklasyfikow ane zostaną jako bardzo podobne, niem alże identyczne.

C echy te pozw alają autorom żyw ić nadzieję na liczne internetow e i bazo­ danow e zastosow ania metody porów nyw ania tekstów.

Źródła

1. Atanassov К. (1984). Intuitionistic fu zzy sets. Fuzzy Sets and Systems, 20 (1986), ss. 87-96. 2. Atanassov K. (1999). Intuitionistic fu zzy sets, Theory and Applications. Springer Verlag. 3. Lenz M., Hübner A., Kunze M. (1998). Textual CBR . In: Lenz M., Bartsch-Spörl B., Burk­

hard H.-D., Wess S. (Eds.) (1998): Case-Based Reasoning Technology. From Foundations to Applications. Springer Verlag, Berlin, Heidelberg.

4. Niewiadomski A., Szczepaniak P.S.: Intuicjonistyczne relacje rozmyte w przybliżonym porów ­ nywaniu tekstów. W: „Zbiory Rozmyte i Ich Zastosowania”, Praca zbiorowa pod redakcja Jana Ćhojcana i Jacka Łęskiego. Silesian University Press 2001.

5. Pal S.K., Dillon T S., Yeung D.S. (Eds.) (2001): Soft Computing in Case B ased Reasoning. Springer-Verlag, London.

6. Pedrycz W., Gomide F. (1998): An Introduction to Fuzzy Sets; Analysis and Design. A Brad­ ford Book, The MIT Press, Cambridge, M assachusetts and London, England.

Cytaty

Powiązane dokumenty

Przykład: Wzorzec „kawa  cukier” jest nie tylko zamknięty, lecz również maksymalny, gdyż nie istnieje żaden częsty wzorzec, który by go zawierał.. Wzorce zamknięte

OLAP (Online Analytical Processing) – to sposób tworzenia analiz i raportów na podstawie danych zbieranych on-line z różnych serwerów i baz danych oraz ich eksploracji..

• w kierunku środkowej gałęzi, jeśli klucz jest silnie większy od lewej wartości i mniejszy lub równy od prawej wartości klucza.. Dodaj element do liścia w sposób

Jeśli nie, zwraca informację o błędnej nazwie użytkownika i zmienia aktywny element formularza na okno wprowadzania tej nazwy. Jeśli tak, sprawdza, czy wprowadzone hasło jest zgodne

Konstruktor makr zawiera wykaz akcji, które można przeciągać do obszaru projektowego.... KONSTRUKTOR MAKR

Utworzone menu nawigacji możemy ustawić jako formularz startowy dla bazy... Dodawanie przycisków

 W systemach NoSQL powszechnie poświęcana jest spójność (consistency) w celu zagwarantowania wysokiej dostępności danych i szybkości działania systemu bazodanowego.. 

Relacja jest w drugiej postaci normalnej (2NF) wtedy i tylko wtedy, gdy jest w 1NF oraz każdy niekluczowy atrybut tabeli (kolumna) jest w zależny funkcyjnie od całego klucza