• Nie Znaleziono Wyników

Automatyczne grupowanie wyników wyszukiwania w bibliotekach cyfrowych

N/A
N/A
Protected

Academic year: 2021

Share "Automatyczne grupowanie wyników wyszukiwania w bibliotekach cyfrowych"

Copied!
18
0
0

Pełen tekst

(1)

Automatyczne grupowanie

wyników wyszukiwania w

bibliotekach cyfrowych

Adam Dudczak

Poznańskie Centrum Superkomputerowo-Sieciowe

IV Warsztaty “Biblioteki Cyfrowe” Poznań, 2007

(2)

Plan prezentacji

• Problemy związane z wyszukiwaniem informacji • Na czym polega grupowanie wyników ?

• Przykłady zastosowania automatycznego grupowania wyników

(3)

Wyszukiwanie - problemy

• Skąd wiedzieć jak zapytać? • Zapytania bardzo ogólne

– najczęściej 1,2 wyrazy

• Ogólne zapytanie = dużo wyników • Jak sobie z tym poradzić?

(4)

Na czym polega grupowanie?

• Odnaleźć grupy dokumentów o podobnej treści

• Nadać grupom nazwy dobrze charakteryzujące jej elementy składowe

• Jeden dokument może znajdować się w kilku grupach

(5)

Na czym polega grupowanie?

• Każdy dokument to zbiór:

– wyrazów, znaków interpunkcyjnych • Może też zawierać treść nie tekstową:

– zdjęcia, grafiki ...

• Musimy określić jakie cechy dokumentu są dla nas istotne

(6)

Na czym polega grupowanie?

1: Paryż to stolica Francji.

4: Berlin to stolica Niemiec.

3: Bawaria to ważna część Niemiec. 2: Adam Mickiewicz mieszkał we Francji

(7)

Na czym polega grupowanie?

1: Paryż to stolica Francji.

4: Berlin to stolica Niemiec.

3: Bawaria to ważna część Niemiec. 2: Adam Mickiewicz mieszkał we Francji.

(8)

Na czym polega grupowanie?

1: Paryż to stolica Francji.

4: Berlin to stolica Niemiec.

3: Bawaria to ważna część Niemiec.

2: Adam Mickiewicz mieszkał we Francji.

(9)

Na czym polega grupowanie?

1: Paryż to stolica Francji.

4: Berlin to stolica Niemiec.

3: Bawaria to ważna część Niemiec.

2: Adam Mickiewicz mieszkał we Francji.

Francji : 1, 2

Niemiec : 3, 4 stolica: 1, 4

(10)

Na czym polega grupowanie?

• Rodzaje grupowania

– płaskie

(11)

Na czym polega grupowanie?

• Rodzaje grupowania

– płaskie

(12)

Przykłady zastosowania

• Grupowanie wyników wyszukiwarek • Clusty : http://clusty.com

• Carrot2 : http://carrot2.org – produkt polski :)

– wyszukiwarka

– narzędzie do grupowania wyników o otwartym kodzie źródłowym

(13)

Grupowanie wyników w bibliotekach

cyfrowych

• Tworzenie grup na podstawie opisów bibliograficznych

– tylko najważniejsze informacje – kontrolowane słowniki wartości

(14)

Grupowanie wyników w bibliotekach

cyfrowych

• Wyniki pierwszych eksperymentów są obiecujące – wykorzystanie Carrot2

– danych z indeksów portalu FBC • Grupowanie

– w oparciu o jeden atrybut (przykład prosty) – w oparciu o wiele atrybutów

(15)

Problemy, wyzwania, dalsze prace...

• Grupowanie po datach

• Ujednolicenie wartości w opisach bibliograficznych • Dostępność warstwy tekstowej i jej jakość

• Nacisk na zagadnienia związane z przetwarzaniem języka polskiego

(16)

Podsumowanie

• Zastosowanie automatycznego grupowania wyników może znacznie ułatwić wyszukiwanie zasobów

• Dzięki wysokiej jakości opisów bibliograficznych istnieje duża szansa, że algorytmy grupowania sprawdzą się w bibliotekach cyfrowych

• Trzeba jednak pamiętać iż metody automatyczne to „tylko” metody automatyczne

(17)

Podziękowania

Twórcom projektu Carrot2 :

– p. Dawidowi Weissowi

– p. Stanisławowi Osińskiemu

(18)

Cytaty

Powiązane dokumenty

Stosunkowo dużą grupę osób badanych w postępowaniu cywilnym, głównie w spra- wach oceny ich zdolności do czynności prawnych stanowią osoby w wieku powyżej 60

Wzniesiony został w roku 1876 przez Ignacego Więckow- skiego, na gruncie, pochodzącym z przeprowadzonej przez Ep- steinów parcelacji i rozprzedaży majątku Pruszków, przy drodze,

Tak było do 1847, kiedy coraz licz­ niejsza kolonia polskich zesłań­ ców w Tobolsku i guberni, w pły­ nęła na przeniesienie się tam z Tomska ks.. do zbudowania

Нейтрализация границы грамматических значений в разговорной речи 59 Если сравнить отмеченную в разговорной речи информантов конструкцию Ты опять

− brak wymaganego oświetlenia awaryjnego w strefie pożarowej zakwalifikowanej do kategorii zagrożenia ludzi ZL I, II lub V albo na drodze ewakuacyjnej prowadzącej

jest zależna od wartości poszczególnych elementów systemu e-leamingowego (definicja strukturalna) oraz od wartości jednostkowych procesów występują­ cych w

Zakażenia o tej etologii pojawiają się jednak na oddziałach ginekologicznych i położniczych, i powinny podlegać nad- zorowi w ramach kontroli zakażeń ze względu

Zaobserwowano także wpływ badanego preparatu na wzrost masy korzeni rzepaku ozimego, a także lepsze przezimowanie roślin.. Uzyskano 15–19% przyrost plonu rzepaku ozime- go