• Nie Znaleziono Wyników

content/uploads/2017/05

N/A
N/A
Protected

Academic year: 2021

Share "content/uploads/2017/05"

Copied!
63
0
0

Pełen tekst

(1)

WA R S AW D ATA S C I E N C E M E E T U P

(2)

Wykorzystanie

zbiorów rozmytych

w silnikach rekomendacji

Mateusz Grzyb

konsultant technologiczny Microsoft Polska

(3)

O czym będzie ta

prezentacja?

(4)

Plan

prezentacji

1. Zbiory rozmyte. 2. Logika rozmyta.

3. Systemy rekomendacyjne.

4. Przykład silnika rekomendacji wykorzystującego zbiory rozmyte. 5. Pytania do was.

(5)

Logika trójwartościowa - Jan Łukasiewicz 196 5 191 3 197 0 197 3 198 2 Zbiory rozmyte - Lofti Zadeh Niepełna informacja liniowa - Edward Kofler Logika rozmyta - Lorfi Zadeh (A. Tarski, J. Łukasiewic z) Zbiory przybliżone - Zdzisław Pawlak

"Miękkie" modelowanie

-

historia

(6)
(7)

Zbiory rozmyte

Lofti Zadeh - 1965.

Rozszerzenie klasycznego zbioru z teorii zbiorów.

Obiekt matematyczny o zdefiniowanej funkcji przynależności. Każdy element zbioru przyjmuje wartości z przedziału [0,1]. Każdy element zbioru, to dwójka uporządkowana.

Zastępuje logikę dwuwartościową logiką wielowartościową.

Umożliwia wykonywanie klasycznych operacji na zbiorach (suma, iloczyn, dopełnienie, etc.).

(8)

Zbiory rozmyte - zapis

matematyczny

(9)

Czy mężczyzna o wzroście 185 cm jest

wysoki, czy niski?

(10)
(11)

Losowy zbiór mężczyzn

155 160 165 170 175 180 185 190 200 0 0.2 0.4 0.6 0.8 1 1.2 0 0 0.17 0.33 0.5 0.67 0.83 1 1 0 Wzrost w centymetrach S to p ie ń p rz y n a le żn o śc i

(12)
(13)

Losowy zbiór koszykarzy ligi

NBA

175 180 185 190 195 200 205 210 215 0 0.2 0.4 0.6 0.8 1 1.2 0 0 0.17 0.33 0.5 0.67 0.83 1 1 Wzrost w centymetrach S to p ie ń p rz y n a le żn o śc i

(14)

Losowy zbiór koszykarzy ligi

NBA

(15)

Co warto zapamiętać z teorii

zbiorów

(16)

Co warto zapamiętać z teorii

zbiorów

rozmytych

?

• Istnieje wiele pośrednich stopni prawdy.

• Nie istnieją tu pojęcia prawdopodobieństwa i szansy. • Każdy element zbioru to tzw. dwójka uporządkowana.

• Każdy element może przynależeć do zbioru z dowolną wartością stopnia przynależności z przedziału [0,1].

(17)
(18)

Logika rozmyta

Lofti Zadeh - 1973.

Ściśle powiązana z teorią zbiorów rozmytych.

Ogromny wpływ na jej powstanie mieli polscy matematycy/logicy: Jan Łukasiewicz i Alred Tarski.

(19)
(20)
(21)

Silniki

rekomendac

ji

(22)

Content based

filtering

Systemy rekomendacyjne

-

metody

filtrowania

Collaborative

filtering

Rozwiązania

hybrydowe

Filtrowanie w oparciu o indywidualne preferencje użytkownika Filtrowanie w oparciu o preferencje użytkowników o podobnym guście. Filtrowanie łączące obie metody.

(23)

Brak

problemu

"zimnego

startu"

Content based filtering

- wady i

zalety

Szybkość

Daje gorsze

(24)

Przykład silnika

rekomendacji

(25)

Silnik rekomendacji

filmów z

filtrowaniem opartym o

logikę

rozmytą

• 2727 filmów. • 15986 aktorów. • 6563 słów kluczowych. • 1633 reżyserów. • 108 języków. • 92 państw. • 24 gatunków.

(26)
(27)

Filtrowanie filmów lubianych przez daną osobę.

2

1

3

4

Filtrowanie atrybutów filmów. Wyznaczenie stopnia podobieństwa pomiędzy filmami. Wyznaczenie współczynnika wsparcia rekomendacji

Etapy budowania

silnika

(28)

Filtrowanie fimów lubianych przez daną osobę.

2

1

1

3

4

Filtrowanie atrybutów filmów. Wyznaczenie stopnia podobieństwa pomiędzy filmami. Wyznaczenie współczynnika wsparcia rekomendacji

Etapy budowania

silnika

(29)

Kiedy możemy uznać, że

użytkownik

polubił

dany film?

(30)

Kiedy możemy uznać, że

użytkownik

polubił

dany film? - Przykład nr. 1.

W skali 1-5 użytkownik ocenił "film A" na 4.

Stopień przynależności jest większy niż 0.5, a więc film można zaliczyć do zbioru filmów lubianych przez danego użytkownika.

(31)

Kiedy możemy uznać, że

użytkownik

polubił

dany film? - Przykład nr. 2.

W skali 1-5 użytkownik ocenił "film B" na 3.

Stopień przynależności jest równyniż 0.5, a więc filmu nie można zaliczyć do zbioru filmów lubianych przez danego użytkownika.

(32)

Filmy ocenione

przez Dominika

(33)

Filtrowanie fimów lubianych przez daną osobę.

2

3

4

Filtrowanie atrybutów filmów. Wyznaczenie stopnia podobieństwa pomiędzy filmami. Wyznaczenie współczynnika wsparcia rekomendacji

Etapy budowania

silnika

rekomendacji

1

2

1

(34)

Filtrowanie atrybutów

filmów

Obliczenie stopnia przynależności filmu do danego gatunku/aktora/języka/kraju produkcji.

(35)

Filtrowanie atrybutów

filmów - "The

Goodfather"

Tytuł Gatunek

The Godfather Crime

(36)

Filtrowanie atrybutów

filmów - "Goodfellas"

Tytuł Język

Goodfellas English

(37)

Filtrowanie atrybutów

filmów - "Casino"

Tytuł Gatunek

Casino Biography

Casino Crime

(38)

Filtrowanie fimów lubianych przez daną osobę.

4

Filtrowanie atrybutów filmów. Wyznaczenie stopnia podobieństwa pomiędzy filmami. Wyznaczenie współczynnika wsparcia rekomendacji

Etapy budowania

silnika

rekomendacji

(39)

Wyznaczanie

stopnia podobieństwa

pomiędzy filmami

Dwie podstawowe metody: • Fuzzy Set Theoretic

(40)

Wyznaczanie

stopnia podobieństwa

pomiędzy filmami

Ostatecza forma wzoru na stopień podobieństwa pomiędzy filmami miała postać:

(41)

Wyznaczanie

stopnia podobieństwa

pomiędzy filmami - Przykład: "The

Godfather" vs "Casino"

Tytuł Gatunek DoM

The Godfather Crime 0.667

The Godfather Drama 0.333

Casino Biography 0.5

Casino Crime 0.333

(42)

Wyznaczanie

stopnia podobieństwa

pomiędzy filmami - Przykład: "The

Godfather" vs "Casino"

Fuzzy Set Theoretic

(43)

Wyznaczanie

stopnia podobieństwa

pomiędzy filmami

Tytuł Tytuł Stopień podobieństwa

Goodfellas Casino 0.838

Goodfellas The Godfather 0.587

(44)
(45)
(46)

Największe

(47)

Najmniejsze

podobieństwo

(48)

Filtrowanie fimów lubianych przez daną osobę. Filtrowanie atrybutów filmów. Wyznaczenie stopnia podobieństwa pomiędzy filmami. Wyznaczenie współczynnika wsparcia rekomendacji

Etapy budowania

silnika

rekomendacji

(49)

Wyznaczanie

współczynnika wsparcia

(50)
(51)
(52)
(53)

Która para filmów ocenionych przez Dominika

była ze sobą najmocniej skoreowana?

(54)
(55)

Które para filmów z TOP 20 miała najmniejszy

stopień podobieństwa?

(56)
(57)

Który film został zarekomendowany

Dominikowi na pierwszym miejscu?

(58)
(59)

Jakiego pojęcie używamy w teorii zbiorów

rozmytych i logice rozmytej w alternatywie do

(60)
(61)

Jaka jest główna zaleta Content Based

Filtering?

(62)
(63)

Pytania do mnie

Materiały: mateuszgrzyb.pl/WDS

Cytaty

Powiązane dokumenty

Warunkiem uzyskania zaliczenia przedmiotu jest aktywny udział studenta w zajęciach polegający na realizacji wskazanych przez prowadzącego zadań: przygotowanie projektu pozwu,

konstytucyjny a praktyka ustrojowa, red.. przewodnicz¹cego Trybuna³u Stanu i cz³onków – sêdziów TS, pos³ów – cz³onków Krajowej Rady S¹downiczej, na podstawie ustawy

2 Traktatu o funkcjonowaniu Unii Europejskiej (TFUE): „Bez uszczerbku dla postanowieñ artyku³u 223 ustêp 1 i przepisów przyjêtych w celu jego wykonania, ka¿dy obywatel Unii

W przypadku Wrocławia podstawo- wy system powiązań przyrodniczych po raz pierwszy wyznaczony został w „Planie ogól- nym zagospodarowania przestrzennego mia- sta” z roku 1988

Powiększający się asortyment takiej żywności stwarza szansę wielu ludziom, świadomym roli żywienia w profilaktyce wielu chorób, utrzymaniu lub poprawie stanu własnego

Funkcja ta jest definiowana za pomocą trzech parametrów a, b i c, które określają punkty "załamania" tej funkcji:... Gausowska

Każda funkcją booleowska jest wyznaczona przez pewną formułę języka logiki zdań, przy czym w formule tej występują tylko spójniki ¬, ∨,

d) program szpiegujący (ang. spyware) – oprogramowanie, które zbiera informacje na temat działania użytkownika np. śledzi historię przeglądanych stron czy zbiera informację