22lutego2019 drin˙z.JulianSienkiewicz Wykład1-wprowadzenie,metodaLDAFishera StatystycznaEksploracjaDanych

123  Download (0)

Pełen tekst

(1)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Statystyczna Eksploracja Danych

Wykład 1 - wprowadzenie, metoda LDA Fishera

dr in˙z. Julian Sienkiewicz

22 lutego 2019

(2)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Plan wykładu

1 Sprawy organizacyjne Kontakt i forma zaj ˛e´c Literatura

Zasady zaliczania przedmiotu Projekt

2 Wprowadzenie

Główne zadania eksploracji danych

3 Liniowa analiza dyskryminacji Wprowadzenie

Przypadek jednowymiarowy Przypadek dwuwymiarowy Ogólny opis teoretyczny Przykład

(3)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Kontakt i forma zaj ˛e´c

Kontakt

dr in˙z. Julian Sienkiewicz

Pracownia Fizyki w Ekonomii i Naukach Społecznych Gmach Matematyki, pokój 529

tel. 22 234 5808, email:julian.sienkiewicz@pw.edu.pl WWW:www.fizyka.pw.edu.pl/~julas/SED

Konsultacje

Proponowane terminy to:

poniedziałki, godz. 1400- 1500,

Forma zaj ˛e´c wykłady,

projekt (dla ch ˛etnych studentów).

(4)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Kontakt i forma zaj ˛e´c

Kontakt

dr in˙z. Julian Sienkiewicz

Pracownia Fizyki w Ekonomii i Naukach Społecznych Gmach Matematyki, pokój 529

tel. 22 234 5808, email:julian.sienkiewicz@pw.edu.pl WWW:www.fizyka.pw.edu.pl/~julas/SED

Konsultacje

Proponowane terminy to:

poniedziałki, godz. 1400- 1500,

Forma zaj ˛e´c wykłady,

projekt (dla ch ˛etnych studentów).

(5)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Kontakt i forma zaj ˛e´c

Kontakt

dr in˙z. Julian Sienkiewicz

Pracownia Fizyki w Ekonomii i Naukach Społecznych Gmach Matematyki, pokój 529

tel. 22 234 5808, email:julian.sienkiewicz@pw.edu.pl WWW:www.fizyka.pw.edu.pl/~julas/SED

Konsultacje

Proponowane terminy to:

poniedziałki, godz. 1400- 1500,

Forma zaj ˛e´c wykłady,

projekt (dla ch ˛etnych studentów).

(6)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Kontakt i forma zaj ˛e´c

Laboratorium

oddzielny przedmiot (nie jest obowi ˛azkowy do zaliczenia wykładu i w ˙zaden sposób nie wpływa na ocen ˛e z wykładu),

ma na celu praktyczne wykorzystanie wiedzy nabywanej podczas wykładu,

w zamy´sle ma by´c prowadzone w pakiecie R (du˙za liczba dost ˛epnych bibliotek do data mining),

wst ˛epnie: 8 zada ´n + kolokwium ko ´ncowe, .

(7)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Literatura

Istniejebardzo szeroka literatura dotycz ˛aca przedmiotu wy- kładu. Poni˙zej kilka “klasycznych” pozycji dost ˛epnych po pol- sku

J. Koronacki, J. ´Cwik, Statystyczne systemy ucz ˛ace si ˛e, EXIT,

D. Larose, Metody i modele eksploracji danych, PWN, M. Krzy´sko i in. Systemy ucz ˛ace si ˛e, WNT,

T. Morzy, Eksploracja danych, PWN.

Polecam tak˙ze nast ˛epuj ˛ac ˛a pozycj ˛e w j ˛ez. angielskim: T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer

http://www-stat.stanford.edu/~tibs/ElemStatLearn(PDF).

(8)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Literatura

Istniejebardzo szeroka literatura dotycz ˛aca przedmiotu wy- kładu. Poni˙zej kilka “klasycznych” pozycji dost ˛epnych po pol- sku

J. Koronacki, J. ´Cwik, Statystyczne systemy ucz ˛ace si ˛e, EXIT,

D. Larose, Metody i modele eksploracji danych, PWN, M. Krzy´sko i in. Systemy ucz ˛ace si ˛e, WNT,

T. Morzy, Eksploracja danych, PWN.

Polecam tak˙ze nast ˛epuj ˛ac ˛a pozycj ˛e w j ˛ez. angielskim:

T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer

http://www-stat.stanford.edu/~tibs/ElemStatLearn(PDF).

(9)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Literatura

Istniejebardzo szeroka literatura dotycz ˛aca przedmiotu wy- kładu. Poni˙zej kilka “klasycznych” pozycji dost ˛epnych po pol- sku

J. Koronacki, J. ´Cwik, Statystyczne systemy ucz ˛ace si ˛e, EXIT,

D. Larose, Metody i modele eksploracji danych, PWN, M. Krzy´sko i in. Systemy ucz ˛ace si ˛e, WNT,

T. Morzy, Eksploracja danych, PWN.

Polecam tak˙ze nast ˛epuj ˛ac ˛a pozycj ˛e w j ˛ez. angielskim:

T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer

http://www-stat.stanford.edu/~tibs/ElemStatLearn(PDF).

(10)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Zasady zaliczania przedmiotu

Zasady zaliczania przedmiotu

Egzamin(ustny) w sesji (trzy pytania)

Mo˙zliwo´s´c zaliczenia przedmiotu w inny sposób:

po ka˙zdych 3–4 wykładach kolokwium: 10-20 pyta ´n testowych + krótkie “case study”,

z ka˙zdego testu do zdobycia 10 pkt., z “case study” - 5 pkt., oprócz tego ka˙zdy student mo˙ze wykona´cprojekt za 15 pkt.,

razem daje to60 pkt,

osoby, które zdob ˛ed ˛a co najmniej54 pkt s ˛a zwolnione z egzaminu z ocen ˛abdb.

osoby, które zdob ˛ed ˛a co najmniej51 pkt s ˛a zwolnione z egzaminu z ocen ˛adb+.

osoby, które zdob ˛ed ˛a co najmniej48 pkt s ˛a zwolnione z egzaminu z ocen ˛adb.

(11)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Projekt

Zasady projektu

student sam wybiera i zdobywa zbiór danych,

student mo˙ze wykorzysta´c dost ˛epne oprogramowanie (biblioteki) w celu wykonania Projektu (np. R, WEKA, Python etc.),

nale˙zy dokona´c porównania co najmniej dwóch ró˙znych metod klasyfikacyjnych (np. LDA oraz Bayes, etc), odbiór Projektu odbywa si ˛e na ostatnich zaj ˛eciach w formie prezentacji oraz w postaci raportu oddawanego prowadz ˛acemu,

student sam mo˙ze zaproponowa´c temat Projektu, ostateczny termin na wybranie tematu Projektu to27 kwietnia 2018 r..

(12)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Projekt

Przykładowe realizowane projekty

przewidywanie trendu giełdowego (wzrosty, spadki), przewidywanie spadków/wzrostów kursu waluty, przewidywanie pogody,

przewidywanie wyników wyborów (na podstawie danych z PKW),

przewidywanie warto´sci emocjonalnej tekstu na podstawie jego długo´sci, liczby znaków, ilo´sci wykrzykników,

“klasyczny” zbiór Indianek Pima, czyli kwestia zapadalno´sci na cukrzyce,

dane sportowe - przewidywanie wyniku meczu na podstawie jego długo´sci, strat piłki etc.

(13)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Zbieramy i przechowujemy coraz wi ˛ecej danych:

jak je wykorzysta´c?

jak uzyska´c informacje z danych?

Eksploracja danych Inteligentna analiza danych

Równie˙z: Data Mining, Artificial Intelligence, Machine learning (systemy ucz ˛ace si ˛e, sztuczna inteligencja, uczenie

maszynowe)

Definicja wg. Larose’a

Proces odkrywania znacz ˛acych nowych powi ˛aza ´n, wzor- ców i trendów poprzez przeszukiwanie du˙zych ilo ´sci da- nych zgromadzonych w bazach danych przy u˙zyciu metod matematycznych

(14)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Zbieramy i przechowujemy coraz wi ˛ecej danych:

jak je wykorzysta´c?

jak uzyska´c informacje z danych?

Eksploracja danych Inteligentna analiza danych

Równie˙z: Data Mining, Artificial Intelligence, Machine learning (systemy ucz ˛ace si ˛e, sztuczna inteligencja, uczenie

maszynowe)

Definicja wg. Larose’a

Proces odkrywania znacz ˛acych nowych powi ˛aza ´n, wzor- ców i trendów poprzez przeszukiwanie du˙zych ilo ´sci da- nych zgromadzonych w bazach danych przy u˙zyciu metod matematycznych

(15)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Zbieramy i przechowujemy coraz wi ˛ecej danych:

jak je wykorzysta´c?

jak uzyska´c informacje z danych?

Eksploracja danych Inteligentna analiza danych

Równie˙z: Data Mining, Artificial Intelligence, Machine learning (systemy ucz ˛ace si ˛e, sztuczna inteligencja, uczenie

maszynowe)

Definicja wg. Larose’a

Proces odkrywania znacz ˛acych nowych powi ˛aza ´n, wzor- ców i trendów poprzez przeszukiwanie du˙zych ilo ´sci da- nych zgromadzonych w bazach danych przy u˙zyciu metod matematycznych

(16)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Dlaczego teraz?

1 wiele cyfrowych czujników np. sklepy

kamery na ulicy GPS w telefonie

2 wiele baz danych: banki, czasopisma, poł ˛aczenia telefoniczne,

3 du˙ze moce komputerowe,

4 łatwo´s´c przesyłu danych.

Jak z tego pozyska´c u˙zyteczne informacje dla: biznesu, polityki,

nauki, wojska,

sportu, ochrony zdrowia?

(17)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Dlaczego teraz?

1 wiele cyfrowych czujników np.

sklepy

kamery na ulicy GPS w telefonie

2 wiele baz danych: banki, czasopisma, poł ˛aczenia telefoniczne,

3 du˙ze moce komputerowe,

4 łatwo´s´c przesyłu danych.

Jak z tego pozyska´c u˙zyteczne informacje dla: biznesu, polityki,

nauki, wojska,

sportu, ochrony zdrowia?

(18)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Dlaczego teraz?

1 wiele cyfrowych czujników np.

sklepy

kamery na ulicy GPS w telefonie

2 wiele baz danych: banki, czasopisma, poł ˛aczenia telefoniczne,

3 du˙ze moce komputerowe,

4 łatwo´s´c przesyłu danych.

Jak z tego pozyska´c u˙zyteczne informacje dla: biznesu, polityki,

nauki, wojska,

sportu, ochrony zdrowia?

(19)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Dlaczego teraz?

1 wiele cyfrowych czujników np.

sklepy

kamery na ulicy

GPS w telefonie

2 wiele baz danych: banki, czasopisma, poł ˛aczenia telefoniczne,

3 du˙ze moce komputerowe,

4 łatwo´s´c przesyłu danych.

Jak z tego pozyska´c u˙zyteczne informacje dla: biznesu, polityki,

nauki, wojska,

sportu, ochrony zdrowia?

(20)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Dlaczego teraz?

1 wiele cyfrowych czujników np.

sklepy

kamery na ulicy GPS w telefonie

2 wiele baz danych: banki, czasopisma, poł ˛aczenia telefoniczne,

3 du˙ze moce komputerowe,

4 łatwo´s´c przesyłu danych.

Jak z tego pozyska´c u˙zyteczne informacje dla: biznesu, polityki,

nauki, wojska,

sportu, ochrony zdrowia?

(21)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Dlaczego teraz?

1 wiele cyfrowych czujników np.

sklepy

kamery na ulicy GPS w telefonie

2 wiele baz danych: banki, czasopisma, poł ˛aczenia telefoniczne,

3 du˙ze moce komputerowe,

4 łatwo´s´c przesyłu danych.

Jak z tego pozyska´c u˙zyteczne informacje dla: biznesu, polityki,

nauki, wojska,

sportu, ochrony zdrowia?

(22)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Dlaczego teraz?

1 wiele cyfrowych czujników np.

sklepy

kamery na ulicy GPS w telefonie

2 wiele baz danych: banki, czasopisma, poł ˛aczenia telefoniczne,

3 du˙ze moce komputerowe,

4 łatwo´s´c przesyłu danych.

Jak z tego pozyska´c u˙zyteczne informacje dla: biznesu, polityki,

nauki, wojska,

sportu, ochrony zdrowia?

(23)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Dlaczego teraz?

1 wiele cyfrowych czujników np.

sklepy

kamery na ulicy GPS w telefonie

2 wiele baz danych: banki, czasopisma, poł ˛aczenia telefoniczne,

3 du˙ze moce komputerowe,

4 łatwo´s´c przesyłu danych.

Jak z tego pozyska´c u˙zyteczne informacje dla: biznesu, polityki,

nauki, wojska,

sportu, ochrony zdrowia?

(24)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Dlaczego teraz?

1 wiele cyfrowych czujników np.

sklepy

kamery na ulicy GPS w telefonie

2 wiele baz danych: banki, czasopisma, poł ˛aczenia telefoniczne,

3 du˙ze moce komputerowe,

4 łatwo´s´c przesyłu danych.

Jak z tego pozyska´c u˙zyteczne informacje dla:

biznesu, polityki, nauki, wojska,

sportu, ochrony zdrowia?

(25)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Dlaczego teraz?

1 wiele cyfrowych czujników np.

sklepy

kamery na ulicy GPS w telefonie

2 wiele baz danych: banki, czasopisma, poł ˛aczenia telefoniczne,

3 du˙ze moce komputerowe,

4 łatwo´s´c przesyłu danych.

Jak z tego pozyska´c u˙zyteczne informacje dla:

biznesu, polityki,

nauki, wojska,

sportu, ochrony zdrowia?

(26)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Dlaczego teraz?

1 wiele cyfrowych czujników np.

sklepy

kamery na ulicy GPS w telefonie

2 wiele baz danych: banki, czasopisma, poł ˛aczenia telefoniczne,

3 du˙ze moce komputerowe,

4 łatwo´s´c przesyłu danych.

Jak z tego pozyska´c u˙zyteczne informacje dla:

biznesu, polityki, nauki, wojska,

sportu, ochrony zdrowia?

(27)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Dlaczego teraz?

1 wiele cyfrowych czujników np.

sklepy

kamery na ulicy GPS w telefonie

2 wiele baz danych: banki, czasopisma, poł ˛aczenia telefoniczne,

3 du˙ze moce komputerowe,

4 łatwo´s´c przesyłu danych.

Jak z tego pozyska´c u˙zyteczne informacje dla:

biznesu, polityki, nauki, wojska,

sportu, ochrony zdrowia?

(28)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

Główne zadania eksploracji danych

1 opis,

2 szacowanie (estymacja),

3 przewidywanie (predykcja),

4 klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł,

5 grupowanie.

(29)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

Główne zadania eksploracji danych

1 opis,

2 szacowanie (estymacja),

3 przewidywanie (predykcja),

4 klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł,

5 grupowanie.

(30)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

Główne zadania eksploracji danych

1 opis,

2 szacowanie (estymacja),

3 przewidywanie (predykcja),

4 klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł,

5 grupowanie.

(31)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

Główne zadania eksploracji danych

1 opis,

2 szacowanie (estymacja),

3 przewidywanie (predykcja),

4 klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł,

5 grupowanie.

(32)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

Główne zadania eksploracji danych

1 opis,

2 szacowanie (estymacja),

3 przewidywanie (predykcja),

4 klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł,

5 grupowanie.

(33)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

Główne zadania eksploracji danych

1 opis,

2 szacowanie (estymacja),

3 przewidywanie (predykcja),

4 klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł,

5 grupowanie.

(34)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

1. Opis

Znale´z´c metod ˛e do opisu wzorca lub trendu:

analizuj ˛ac dane z kolejnych sonda˙zy wyborczych

stwierdzamy, ˙ze poparcie dla pewnej partiiro ´snie w´sród bezrobotnych,

nie ma wpływu blisko´s´c stacji benzynowej na ilo´s´c nowotworów w´sród mieszka ´nców osiedla,

student, który zdawał wszystkie egzaminy za pierwszym podej´sciemcz ˛e ´sciej wybiera specjalno´s´c “fizyka

komputerowa”,

jakie informacje od farmerów przydaj ˛a si ˛e do

prognozowania tegorocznych zbiorów okre´slonego rodzaju zbo˙za.

(35)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

1. Opis

Znale´z´c metod ˛e do opisu wzorca lub trendu:

analizuj ˛ac dane z kolejnych sonda˙zy wyborczych

stwierdzamy, ˙ze poparcie dla pewnej partiiro ´snie w´sród bezrobotnych,

nie ma wpływu blisko´s´c stacji benzynowej na ilo´s´c nowotworów w´sród mieszka ´nców osiedla,

student, który zdawał wszystkie egzaminy za pierwszym podej´sciemcz ˛e ´sciej wybiera specjalno´s´c “fizyka

komputerowa”,

jakie informacje od farmerów przydaj ˛a si ˛e do

prognozowania tegorocznych zbiorów okre´slonego rodzaju zbo˙za.

(36)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

1. Opis

Znale´z´c metod ˛e do opisu wzorca lub trendu:

analizuj ˛ac dane z kolejnych sonda˙zy wyborczych

stwierdzamy, ˙ze poparcie dla pewnej partiiro ´snie w´sród bezrobotnych,

nie ma wpływu blisko´s´c stacji benzynowej na ilo´s´c nowotworów w´sród mieszka ´nców osiedla,

student, który zdawał wszystkie egzaminy za pierwszym podej´sciemcz ˛e ´sciej wybiera specjalno´s´c “fizyka

komputerowa”,

jakie informacje od farmerów przydaj ˛a si ˛e do

prognozowania tegorocznych zbiorów okre´slonego rodzaju zbo˙za.

(37)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

1. Opis

Znale´z´c metod ˛e do opisu wzorca lub trendu:

analizuj ˛ac dane z kolejnych sonda˙zy wyborczych

stwierdzamy, ˙ze poparcie dla pewnej partiiro ´snie w´sród bezrobotnych,

nie ma wpływu blisko´s´c stacji benzynowej na ilo´s´c nowotworów w´sród mieszka ´nców osiedla,

student, który zdawał wszystkie egzaminy za pierwszym podej´sciemcz ˛e ´sciej wybiera specjalno´s´c “fizyka

komputerowa”,

jakie informacje od farmerów przydaj ˛a si ˛e do

prognozowania tegorocznych zbiorów okre´slonego rodzaju zbo˙za.

(38)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

1. Opis

Znale´z´c metod ˛e do opisu wzorca lub trendu:

analizuj ˛ac dane z kolejnych sonda˙zy wyborczych

stwierdzamy, ˙ze poparcie dla pewnej partiiro ´snie w´sród bezrobotnych,

nie ma wpływu blisko´s´c stacji benzynowej na ilo´s´c nowotworów w´sród mieszka ´nców osiedla,

student, który zdawał wszystkie egzaminy za pierwszym podej´sciemcz ˛e ´sciej wybiera specjalno´s´c “fizyka

komputerowa”,

jakie informacje od farmerów przydaj ˛a si ˛e do

prognozowania tegorocznych zbiorów okre´slonego rodzaju zbo˙za.

(39)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

1. Opis

Znale´z´c metod ˛e do opisu wzorca lub trendu:

analizuj ˛ac dane z kolejnych sonda˙zy wyborczych

stwierdzamy, ˙ze poparcie dla pewnej partiiro ´snie w´sród bezrobotnych,

nie ma wpływu blisko´s´c stacji benzynowej na ilo´s´c nowotworów w´sród mieszka ´nców osiedla,

student, który zdawał wszystkie egzaminy za pierwszym podej´sciemcz ˛e ´sciej wybiera specjalno´s´c “fizyka

komputerowa”,

jakie informacje od farmerów przydaj ˛a si ˛e do

prognozowania tegorocznych zbiorów okre´slonego rodzaju zbo˙za.

(40)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

(41)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

(42)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

2. Szacowanie (estymacja)

Szacujemy funkcj ˛e zwan ˛afunkcj ˛a celu na podstawie zmiennych estymacji. Przykłady

regresja liniowa (logitowa, kwantylowa),

szacowanie wielko´sci towaru, który b ˛edzie sprzedawany w danym dniu tygodnia w hipermarkecie,

szacowanie liczby minut poł ˛acze ´n telefonicznych dla abonenta okre´slonej grupy,

szacowanie spadku ci´snienia t ˛etniczego po podaniu danego leku.

(43)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

2. Szacowanie (estymacja)

Szacujemy funkcj ˛e zwan ˛afunkcj ˛a celu na podstawie zmiennych estymacji. Przykłady

regresja liniowa (logitowa, kwantylowa),

szacowanie wielko´sci towaru, który b ˛edzie sprzedawany w danym dniu tygodnia w hipermarkecie,

szacowanie liczby minut poł ˛acze ´n telefonicznych dla abonenta okre´slonej grupy,

szacowanie spadku ci´snienia t ˛etniczego po podaniu danego leku.

(44)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

2. Szacowanie (estymacja)

Szacujemy funkcj ˛e zwan ˛afunkcj ˛a celu na podstawie zmiennych estymacji. Przykłady

regresja liniowa (logitowa, kwantylowa),

szacowanie wielko´sci towaru, który b ˛edzie sprzedawany w danym dniu tygodnia w hipermarkecie,

szacowanie liczby minut poł ˛acze ´n telefonicznych dla abonenta okre´slonej grupy,

szacowanie spadku ci´snienia t ˛etniczego po podaniu danego leku.

(45)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

2. Szacowanie (estymacja)

Szacujemy funkcj ˛e zwan ˛afunkcj ˛a celu na podstawie zmiennych estymacji. Przykłady

regresja liniowa (logitowa, kwantylowa),

szacowanie wielko´sci towaru, który b ˛edzie sprzedawany w danym dniu tygodnia w hipermarkecie,

szacowanie liczby minut poł ˛acze ´n telefonicznych dla abonenta okre´slonej grupy,

szacowanie spadku ci´snienia t ˛etniczego po podaniu danego leku.

(46)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

2. Szacowanie (estymacja)

Szacujemy funkcj ˛e zwan ˛afunkcj ˛a celu na podstawie zmiennych estymacji. Przykłady

regresja liniowa (logitowa, kwantylowa),

szacowanie wielko´sci towaru, który b ˛edzie sprzedawany w danym dniu tygodnia w hipermarkecie,

szacowanie liczby minut poł ˛acze ´n telefonicznych dla abonenta okre´slonej grupy,

szacowanie spadku ci´snienia t ˛etniczego po podaniu danego leku.

(47)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

2. Szacowanie (estymacja)

Szacujemy funkcj ˛e zwan ˛afunkcj ˛a celu na podstawie zmiennych estymacji. Przykłady

regresja liniowa (logitowa, kwantylowa),

szacowanie wielko´sci towaru, który b ˛edzie sprzedawany w danym dniu tygodnia w hipermarkecie,

szacowanie liczby minut poł ˛acze ´n telefonicznych dla abonenta okre´slonej grupy,

szacowanie spadku ci´snienia t ˛etniczego po podaniu danego leku.

(48)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

3. Przewidywanie (predykcja) Przewidywanie

cen akcji lub kursu waluty w przyszło´sci, wyników przyszłych wyborów,

który zespół wygra mecz,

wysoko´sci nadchodz ˛acej fali powodziowej,

wysoko´sci obrotów firm w nadchodz ˛acym miesi ˛acu (roku), skutków ograniczenia (zwi ˛ekszenia) pr ˛edko´sci,

wielko´sci inflacji jako skutku zmiany stopy procentowej banku centralnego,

wysoko´sci i jako´sci plonów danej uprawy.

(49)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

3. Przewidywanie (predykcja) Przewidywanie

cen akcji lub kursu waluty w przyszło´sci,

wyników przyszłych wyborów, który zespół wygra mecz,

wysoko´sci nadchodz ˛acej fali powodziowej,

wysoko´sci obrotów firm w nadchodz ˛acym miesi ˛acu (roku), skutków ograniczenia (zwi ˛ekszenia) pr ˛edko´sci,

wielko´sci inflacji jako skutku zmiany stopy procentowej banku centralnego,

wysoko´sci i jako´sci plonów danej uprawy.

(50)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

3. Przewidywanie (predykcja) Przewidywanie

cen akcji lub kursu waluty w przyszło´sci, wyników przyszłych wyborów,

który zespół wygra mecz,

wysoko´sci nadchodz ˛acej fali powodziowej,

wysoko´sci obrotów firm w nadchodz ˛acym miesi ˛acu (roku), skutków ograniczenia (zwi ˛ekszenia) pr ˛edko´sci,

wielko´sci inflacji jako skutku zmiany stopy procentowej banku centralnego,

wysoko´sci i jako´sci plonów danej uprawy.

(51)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

3. Przewidywanie (predykcja) Przewidywanie

cen akcji lub kursu waluty w przyszło´sci, wyników przyszłych wyborów,

który zespół wygra mecz,

wysoko´sci nadchodz ˛acej fali powodziowej,

wysoko´sci obrotów firm w nadchodz ˛acym miesi ˛acu (roku), skutków ograniczenia (zwi ˛ekszenia) pr ˛edko´sci,

wielko´sci inflacji jako skutku zmiany stopy procentowej banku centralnego,

wysoko´sci i jako´sci plonów danej uprawy.

(52)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

3. Przewidywanie (predykcja) Przewidywanie

cen akcji lub kursu waluty w przyszło´sci, wyników przyszłych wyborów,

który zespół wygra mecz,

wysoko´sci nadchodz ˛acej fali powodziowej,

wysoko´sci obrotów firm w nadchodz ˛acym miesi ˛acu (roku), skutków ograniczenia (zwi ˛ekszenia) pr ˛edko´sci,

wielko´sci inflacji jako skutku zmiany stopy procentowej banku centralnego,

wysoko´sci i jako´sci plonów danej uprawy.

(53)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

3. Przewidywanie (predykcja) Przewidywanie

cen akcji lub kursu waluty w przyszło´sci, wyników przyszłych wyborów,

który zespół wygra mecz,

wysoko´sci nadchodz ˛acej fali powodziowej,

wysoko´sci obrotów firm w nadchodz ˛acym miesi ˛acu (roku),

skutków ograniczenia (zwi ˛ekszenia) pr ˛edko´sci,

wielko´sci inflacji jako skutku zmiany stopy procentowej banku centralnego,

wysoko´sci i jako´sci plonów danej uprawy.

(54)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

3. Przewidywanie (predykcja) Przewidywanie

cen akcji lub kursu waluty w przyszło´sci, wyników przyszłych wyborów,

który zespół wygra mecz,

wysoko´sci nadchodz ˛acej fali powodziowej,

wysoko´sci obrotów firm w nadchodz ˛acym miesi ˛acu (roku), skutków ograniczenia (zwi ˛ekszenia) pr ˛edko´sci,

wielko´sci inflacji jako skutku zmiany stopy procentowej banku centralnego,

wysoko´sci i jako´sci plonów danej uprawy.

(55)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

3. Przewidywanie (predykcja) Przewidywanie

cen akcji lub kursu waluty w przyszło´sci, wyników przyszłych wyborów,

który zespół wygra mecz,

wysoko´sci nadchodz ˛acej fali powodziowej,

wysoko´sci obrotów firm w nadchodz ˛acym miesi ˛acu (roku), skutków ograniczenia (zwi ˛ekszenia) pr ˛edko´sci,

wielko´sci inflacji jako skutku zmiany stopy procentowej banku centralnego,

wysoko´sci i jako´sci plonów danej uprawy.

(56)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

3. Przewidywanie (predykcja) Przewidywanie

cen akcji lub kursu waluty w przyszło´sci, wyników przyszłych wyborów,

który zespół wygra mecz,

wysoko´sci nadchodz ˛acej fali powodziowej,

wysoko´sci obrotów firm w nadchodz ˛acym miesi ˛acu (roku), skutków ograniczenia (zwi ˛ekszenia) pr ˛edko´sci,

wielko´sci inflacji jako skutku zmiany stopy procentowej banku centralnego,

wysoko´sci i jako´sci plonów danej uprawy.

(57)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

4. Klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł

Do której grupy zaliczy´c (sklasyfikowa´c) dany obiekt? Wcze´sniej musimy posiada´czbiór ucz ˛acy. Przykłady:

je˙zeli klient spełniał nastepuj ˛ace warunki

1 był wła´scicielem firmy,

2 miał ponad 30 lat,

3 miał dzieci,

4 wykazywał dochód ponad 20.000 PLN miesi ˛ecznie to spłacił po˙zyczk˛e,

je˙zeli pacjent ma X lat i ci´snienie t ˛etnicze Y , to u˙zyj leków A, B i C,

je˙zeli e-mail zawiera słowa

1 SEX

2 YOU WON LOTTERY

3 PASSWORD REQUEST przenie´s go do folderu SPAM.

(58)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

4. Klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł Do której grupy zaliczy´c (sklasyfikowa´c) dany obiekt?

Wcze´sniej musimy posiada´czbiór ucz ˛acy. Przykłady:

je˙zeli klient spełniał nastepuj ˛ace warunki

1 był wła´scicielem firmy,

2 miał ponad 30 lat,

3 miał dzieci,

4 wykazywał dochód ponad 20.000 PLN miesi ˛ecznie to spłacił po˙zyczk˛e,

je˙zeli pacjent ma X lat i ci´snienie t ˛etnicze Y , to u˙zyj leków A, B i C,

je˙zeli e-mail zawiera słowa

1 SEX

2 YOU WON LOTTERY

3 PASSWORD REQUEST przenie´s go do folderu SPAM.

(59)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

4. Klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł Do której grupy zaliczy´c (sklasyfikowa´c) dany obiekt?

Wcze´sniej musimy posiada´czbiór ucz ˛acy. Przykłady:

je˙zeli klient spełniał nastepuj ˛ace warunki

1 był wła´scicielem firmy,

2 miał ponad 30 lat,

3 miał dzieci,

4 wykazywał dochód ponad 20.000 PLN miesi ˛ecznie to spłacił po˙zyczk˛e,

je˙zeli pacjent ma X lat i ci´snienie t ˛etnicze Y , to u˙zyj leków A, B i C,

je˙zeli e-mail zawiera słowa

1 SEX

2 YOU WON LOTTERY

3 PASSWORD REQUEST przenie´s go do folderu SPAM.

(60)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

4. Klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł Do której grupy zaliczy´c (sklasyfikowa´c) dany obiekt?

Wcze´sniej musimy posiada´czbiór ucz ˛acy. Przykłady:

je˙zeli klient spełniał nastepuj ˛ace warunki

1 był wła´scicielem firmy,

2 miał ponad 30 lat,

3 miał dzieci,

4 wykazywał dochód ponad 20.000 PLN miesi ˛ecznie to spłacił po˙zyczk˛e,

je˙zeli pacjent ma X lat i ci´snienie t ˛etnicze Y , to u˙zyj leków A, B i C,

je˙zeli e-mail zawiera słowa

1 SEX

2 YOU WON LOTTERY

3 PASSWORD REQUEST przenie´s go do folderu SPAM.

(61)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

4. Klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł Do której grupy zaliczy´c (sklasyfikowa´c) dany obiekt?

Wcze´sniej musimy posiada´czbiór ucz ˛acy. Przykłady:

je˙zeli klient spełniał nastepuj ˛ace warunki

1 był wła´scicielem firmy,

2 miał ponad 30 lat,

3 miał dzieci,

4 wykazywał dochód ponad 20.000 PLN miesi ˛ecznie to spłacił po˙zyczk˛e,

je˙zeli pacjent ma X lat i ci´snienie t ˛etnicze Y , to u˙zyj leków A, B i C,

je˙zeli e-mail zawiera słowa

1 SEX

2 YOU WON LOTTERY

3 PASSWORD REQUEST przenie´s go do folderu SPAM.

(62)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

4. Klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł Do której grupy zaliczy´c (sklasyfikowa´c) dany obiekt?

Wcze´sniej musimy posiada´czbiór ucz ˛acy. Przykłady:

je˙zeli klient spełniał nastepuj ˛ace warunki

1 był wła´scicielem firmy,

2 miał ponad 30 lat,

3 miał dzieci,

4 wykazywał dochód ponad 20.000 PLN miesi ˛ecznie

to spłacił po˙zyczk˛e,

je˙zeli pacjent ma X lat i ci´snienie t ˛etnicze Y , to u˙zyj leków A, B i C,

je˙zeli e-mail zawiera słowa

1 SEX

2 YOU WON LOTTERY

3 PASSWORD REQUEST przenie´s go do folderu SPAM.

(63)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

4. Klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł Do której grupy zaliczy´c (sklasyfikowa´c) dany obiekt?

Wcze´sniej musimy posiada´czbiór ucz ˛acy. Przykłady:

je˙zeli klient spełniał nastepuj ˛ace warunki

1 był wła´scicielem firmy,

2 miał ponad 30 lat,

3 miał dzieci,

4 wykazywał dochód ponad 20.000 PLN miesi ˛ecznie to spłacił po˙zyczk˛e,

je˙zeli pacjent ma X lat i ci´snienie t ˛etnicze Y , to u˙zyj leków A, B i C,

je˙zeli e-mail zawiera słowa

1 SEX

2 YOU WON LOTTERY

3 PASSWORD REQUEST przenie´s go do folderu SPAM.

(64)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

4. Klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł Do której grupy zaliczy´c (sklasyfikowa´c) dany obiekt?

Wcze´sniej musimy posiada´czbiór ucz ˛acy. Przykłady:

je˙zeli klient spełniał nastepuj ˛ace warunki

1 był wła´scicielem firmy,

2 miał ponad 30 lat,

3 miał dzieci,

4 wykazywał dochód ponad 20.000 PLN miesi ˛ecznie to spłacił po˙zyczk˛e,

je˙zeli pacjent ma X lat i ci´snienie t ˛etnicze Y , to u˙zyj leków A, B i C,

je˙zeli e-mail zawiera słowa

1 SEX

2 YOU WON LOTTERY

3 PASSWORD REQUEST przenie´s go do folderu SPAM.

(65)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

4. Klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł Do której grupy zaliczy´c (sklasyfikowa´c) dany obiekt?

Wcze´sniej musimy posiada´czbiór ucz ˛acy. Przykłady:

je˙zeli klient spełniał nastepuj ˛ace warunki

1 był wła´scicielem firmy,

2 miał ponad 30 lat,

3 miał dzieci,

4 wykazywał dochód ponad 20.000 PLN miesi ˛ecznie to spłacił po˙zyczk˛e,

je˙zeli pacjent ma X lat i ci´snienie t ˛etnicze Y , to u˙zyj leków A, B i C,

je˙zeli e-mail zawiera słowa

1 SEX

2 YOU WON LOTTERY

3 PASSWORD REQUEST przenie´s go do folderu SPAM.

(66)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

4. Klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł Do której grupy zaliczy´c (sklasyfikowa´c) dany obiekt?

Wcze´sniej musimy posiada´czbiór ucz ˛acy. Przykłady:

je˙zeli klient spełniał nastepuj ˛ace warunki

1 był wła´scicielem firmy,

2 miał ponad 30 lat,

3 miał dzieci,

4 wykazywał dochód ponad 20.000 PLN miesi ˛ecznie to spłacił po˙zyczk˛e,

je˙zeli pacjent ma X lat i ci´snienie t ˛etnicze Y , to u˙zyj leków A, B i C,

je˙zeli e-mail zawiera słowa

1 SEX

2 YOU WON LOTTERY

3 PASSWORD REQUEST przenie´s go do folderu SPAM.

(67)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

4. Klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł Do której grupy zaliczy´c (sklasyfikowa´c) dany obiekt?

Wcze´sniej musimy posiada´czbiór ucz ˛acy. Przykłady:

je˙zeli klient spełniał nastepuj ˛ace warunki

1 był wła´scicielem firmy,

2 miał ponad 30 lat,

3 miał dzieci,

4 wykazywał dochód ponad 20.000 PLN miesi ˛ecznie to spłacił po˙zyczk˛e,

je˙zeli pacjent ma X lat i ci´snienie t ˛etnicze Y , to u˙zyj leków A, B i C,

je˙zeli e-mail zawiera słowa

1 SEX

2 YOU WON LOTTERY

3 PASSWORD REQUEST przenie´s go do folderu SPAM.

(68)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

4. Klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł Do której grupy zaliczy´c (sklasyfikowa´c) dany obiekt?

Wcze´sniej musimy posiada´czbiór ucz ˛acy. Przykłady:

je˙zeli klient spełniał nastepuj ˛ace warunki

1 był wła´scicielem firmy,

2 miał ponad 30 lat,

3 miał dzieci,

4 wykazywał dochód ponad 20.000 PLN miesi ˛ecznie to spłacił po˙zyczk˛e,

je˙zeli pacjent ma X lat i ci´snienie t ˛etnicze Y , to u˙zyj leków A, B i C,

je˙zeli e-mail zawiera słowa

1 SEX

2 YOU WON LOTTERY

3 PASSWORD REQUEST

przenie´s go do folderu SPAM.

(69)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

4. Klasyfikacja (uczenie pod nadzorem) + odkrywanie reguł Do której grupy zaliczy´c (sklasyfikowa´c) dany obiekt?

Wcze´sniej musimy posiada´czbiór ucz ˛acy. Przykłady:

je˙zeli klient spełniał nastepuj ˛ace warunki

1 był wła´scicielem firmy,

2 miał ponad 30 lat,

3 miał dzieci,

4 wykazywał dochód ponad 20.000 PLN miesi ˛ecznie to spłacił po˙zyczk˛e,

je˙zeli pacjent ma X lat i ci´snienie t ˛etnicze Y , to u˙zyj leków A, B i C,

je˙zeli e-mail zawiera słowa

1 SEX

2 YOU WON LOTTERY

3 PASSWORD REQUEST przenie´s go do folderu SPAM.

(70)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

5. Grupowanie

Algorytm próbuje podzieli´c wszystkie dane na kilka

wewn ˛etrznie podobnych grup, nie wiedz ˛ac, jakie s ˛a kryteria produktu ani te˙z jakie s ˛a grupy (analiza skupie ´n). Przykłady:

samochody firmy X model Y kupuj ˛a ambasadorowie krajów Trzeciego ´Swiata,

biznesmeni z dochodem rocznym 100.000-200.000 dolarów,

arty´sci jazzowi w wieku 50-60 lat zmiany cen akcji firmy X to głównie

spadki o 0.8–1.2 %, wzrosty o 0.9–1.3 %

chorzy w okresie listopad-grudzie ´n cierpi ˛a głównie na gryp ˛e,

przezi ˛ebienia.

(71)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

5. Grupowanie

Algorytm próbuje podzieli´c wszystkie dane na kilka

wewn ˛etrznie podobnych grup, nie wiedz ˛ac, jakie s ˛a kryteria produktu ani te˙z jakie s ˛a grupy (analiza skupie ´n). Przykłady:

samochody firmy X model Y kupuj ˛a ambasadorowie krajów Trzeciego ´Swiata,

biznesmeni z dochodem rocznym 100.000-200.000 dolarów,

arty´sci jazzowi w wieku 50-60 lat zmiany cen akcji firmy X to głównie

spadki o 0.8–1.2 %, wzrosty o 0.9–1.3 %

chorzy w okresie listopad-grudzie ´n cierpi ˛a głównie na gryp ˛e,

przezi ˛ebienia.

(72)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

5. Grupowanie

Algorytm próbuje podzieli´c wszystkie dane na kilka

wewn ˛etrznie podobnych grup, nie wiedz ˛ac, jakie s ˛a kryteria produktu ani te˙z jakie s ˛a grupy (analiza skupie ´n). Przykłady:

samochody firmy X model Y kupuj ˛a

ambasadorowie krajów Trzeciego ´Swiata,

biznesmeni z dochodem rocznym 100.000-200.000 dolarów,

arty´sci jazzowi w wieku 50-60 lat zmiany cen akcji firmy X to głównie

spadki o 0.8–1.2 %, wzrosty o 0.9–1.3 %

chorzy w okresie listopad-grudzie ´n cierpi ˛a głównie na gryp ˛e,

przezi ˛ebienia.

(73)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

5. Grupowanie

Algorytm próbuje podzieli´c wszystkie dane na kilka

wewn ˛etrznie podobnych grup, nie wiedz ˛ac, jakie s ˛a kryteria produktu ani te˙z jakie s ˛a grupy (analiza skupie ´n). Przykłady:

samochody firmy X model Y kupuj ˛a ambasadorowie krajów Trzeciego ´Swiata,

biznesmeni z dochodem rocznym 100.000-200.000 dolarów,

arty´sci jazzowi w wieku 50-60 lat zmiany cen akcji firmy X to głównie

spadki o 0.8–1.2 %, wzrosty o 0.9–1.3 %

chorzy w okresie listopad-grudzie ´n cierpi ˛a głównie na gryp ˛e,

przezi ˛ebienia.

(74)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

5. Grupowanie

Algorytm próbuje podzieli´c wszystkie dane na kilka

wewn ˛etrznie podobnych grup, nie wiedz ˛ac, jakie s ˛a kryteria produktu ani te˙z jakie s ˛a grupy (analiza skupie ´n). Przykłady:

samochody firmy X model Y kupuj ˛a ambasadorowie krajów Trzeciego ´Swiata,

biznesmeni z dochodem rocznym 100.000-200.000 dolarów,

arty´sci jazzowi w wieku 50-60 lat zmiany cen akcji firmy X to głównie

spadki o 0.8–1.2 %, wzrosty o 0.9–1.3 %

chorzy w okresie listopad-grudzie ´n cierpi ˛a głównie na gryp ˛e,

przezi ˛ebienia.

(75)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

5. Grupowanie

Algorytm próbuje podzieli´c wszystkie dane na kilka

wewn ˛etrznie podobnych grup, nie wiedz ˛ac, jakie s ˛a kryteria produktu ani te˙z jakie s ˛a grupy (analiza skupie ´n). Przykłady:

samochody firmy X model Y kupuj ˛a ambasadorowie krajów Trzeciego ´Swiata,

biznesmeni z dochodem rocznym 100.000-200.000 dolarów,

arty´sci jazzowi w wieku 50-60 lat

zmiany cen akcji firmy X to głównie spadki o 0.8–1.2 %,

wzrosty o 0.9–1.3 %

chorzy w okresie listopad-grudzie ´n cierpi ˛a głównie na gryp ˛e,

przezi ˛ebienia.

(76)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

5. Grupowanie

Algorytm próbuje podzieli´c wszystkie dane na kilka

wewn ˛etrznie podobnych grup, nie wiedz ˛ac, jakie s ˛a kryteria produktu ani te˙z jakie s ˛a grupy (analiza skupie ´n). Przykłady:

samochody firmy X model Y kupuj ˛a ambasadorowie krajów Trzeciego ´Swiata,

biznesmeni z dochodem rocznym 100.000-200.000 dolarów,

arty´sci jazzowi w wieku 50-60 lat

zmiany cen akcji firmy X to głównie spadki o 0.8–1.2 %,

wzrosty o 0.9–1.3 %

chorzy w okresie listopad-grudzie ´n cierpi ˛a głównie na gryp ˛e,

przezi ˛ebienia.

(77)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

5. Grupowanie

Algorytm próbuje podzieli´c wszystkie dane na kilka

wewn ˛etrznie podobnych grup, nie wiedz ˛ac, jakie s ˛a kryteria produktu ani te˙z jakie s ˛a grupy (analiza skupie ´n). Przykłady:

samochody firmy X model Y kupuj ˛a ambasadorowie krajów Trzeciego ´Swiata,

biznesmeni z dochodem rocznym 100.000-200.000 dolarów,

arty´sci jazzowi w wieku 50-60 lat zmiany cen akcji firmy X to głównie

spadki o 0.8–1.2 %, wzrosty o 0.9–1.3 %

chorzy w okresie listopad-grudzie ´n cierpi ˛a głównie na gryp ˛e,

przezi ˛ebienia.

(78)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

5. Grupowanie

Algorytm próbuje podzieli´c wszystkie dane na kilka

wewn ˛etrznie podobnych grup, nie wiedz ˛ac, jakie s ˛a kryteria produktu ani te˙z jakie s ˛a grupy (analiza skupie ´n). Przykłady:

samochody firmy X model Y kupuj ˛a ambasadorowie krajów Trzeciego ´Swiata,

biznesmeni z dochodem rocznym 100.000-200.000 dolarów,

arty´sci jazzowi w wieku 50-60 lat zmiany cen akcji firmy X to głównie

spadki o 0.8–1.2 %,

wzrosty o 0.9–1.3 %

chorzy w okresie listopad-grudzie ´n cierpi ˛a głównie na gryp ˛e,

przezi ˛ebienia.

(79)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

5. Grupowanie

Algorytm próbuje podzieli´c wszystkie dane na kilka

wewn ˛etrznie podobnych grup, nie wiedz ˛ac, jakie s ˛a kryteria produktu ani te˙z jakie s ˛a grupy (analiza skupie ´n). Przykłady:

samochody firmy X model Y kupuj ˛a ambasadorowie krajów Trzeciego ´Swiata,

biznesmeni z dochodem rocznym 100.000-200.000 dolarów,

arty´sci jazzowi w wieku 50-60 lat zmiany cen akcji firmy X to głównie

spadki o 0.8–1.2 %, wzrosty o 0.9–1.3 %

chorzy w okresie listopad-grudzie ´n cierpi ˛a głównie na gryp ˛e,

przezi ˛ebienia.

(80)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

5. Grupowanie

Algorytm próbuje podzieli´c wszystkie dane na kilka

wewn ˛etrznie podobnych grup, nie wiedz ˛ac, jakie s ˛a kryteria produktu ani te˙z jakie s ˛a grupy (analiza skupie ´n). Przykłady:

samochody firmy X model Y kupuj ˛a ambasadorowie krajów Trzeciego ´Swiata,

biznesmeni z dochodem rocznym 100.000-200.000 dolarów,

arty´sci jazzowi w wieku 50-60 lat zmiany cen akcji firmy X to głównie

spadki o 0.8–1.2 %, wzrosty o 0.9–1.3 %

chorzy w okresie listopad-grudzie ´n cierpi ˛a głównie na gryp ˛e,

przezi ˛ebienia.

(81)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

5. Grupowanie

Algorytm próbuje podzieli´c wszystkie dane na kilka

wewn ˛etrznie podobnych grup, nie wiedz ˛ac, jakie s ˛a kryteria produktu ani te˙z jakie s ˛a grupy (analiza skupie ´n). Przykłady:

samochody firmy X model Y kupuj ˛a ambasadorowie krajów Trzeciego ´Swiata,

biznesmeni z dochodem rocznym 100.000-200.000 dolarów,

arty´sci jazzowi w wieku 50-60 lat zmiany cen akcji firmy X to głównie

spadki o 0.8–1.2 %, wzrosty o 0.9–1.3 %

chorzy w okresie listopad-grudzie ´n cierpi ˛a głównie na

gryp ˛e, przezi ˛ebienia.

(82)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

5. Grupowanie

Algorytm próbuje podzieli´c wszystkie dane na kilka

wewn ˛etrznie podobnych grup, nie wiedz ˛ac, jakie s ˛a kryteria produktu ani te˙z jakie s ˛a grupy (analiza skupie ´n). Przykłady:

samochody firmy X model Y kupuj ˛a ambasadorowie krajów Trzeciego ´Swiata,

biznesmeni z dochodem rocznym 100.000-200.000 dolarów,

arty´sci jazzowi w wieku 50-60 lat zmiany cen akcji firmy X to głównie

spadki o 0.8–1.2 %, wzrosty o 0.9–1.3 %

chorzy w okresie listopad-grudzie ´n cierpi ˛a głównie na gryp ˛e,

przezi ˛ebienia.

(83)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Główne zadania eksploracji danych

5. Grupowanie

Algorytm próbuje podzieli´c wszystkie dane na kilka

wewn ˛etrznie podobnych grup, nie wiedz ˛ac, jakie s ˛a kryteria produktu ani te˙z jakie s ˛a grupy (analiza skupie ´n). Przykłady:

samochody firmy X model Y kupuj ˛a ambasadorowie krajów Trzeciego ´Swiata,

biznesmeni z dochodem rocznym 100.000-200.000 dolarów,

arty´sci jazzowi w wieku 50-60 lat zmiany cen akcji firmy X to głównie

spadki o 0.8–1.2 %, wzrosty o 0.9–1.3 %

chorzy w okresie listopad-grudzie ´n cierpi ˛a głównie na gryp ˛e,

przezi ˛ebienia.

(84)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Wprowadzenie

Liniowa analiza dyskryminacji

Linear discriminant analysis (LDA) stara si ˛e zredukowa´c wy- miarowo´s´c problemu, zachowuj ˛ac tak wiele informacji o pier- wotnym zbiorze, jak tylko mo˙zna. Metoda, stworzona przezsir Ronalda A. Fishera, polega na rzutowaniu obserwacji na opty- malny kierunek w przestrzeni.

Ronald Fisher 1890 — 1962,

genetyk i statystyk brytyjski, twórca takich poj ˛e´c jak metoda najwi ˛ekszej wiarygodno´sci (ang.

maximum likelihood), analiza wariancji (ANOVA), test Fishera (F-test) czy informacja Fishera.

(85)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Przypadek jednowymiarowy

W skrócie: jak odró˙zni´c, do której klasy nale˙zy dany przypa- dek?

Przypadek jednowymiarowy

Mamy dwie klasy:AiB. Ka˙zda obserwacja i ma warto´s´c xi.

x Klasa A

Klasa A Klasa B Klasa A Klasa B

Liczymy ´sredni ˛a arytmetyczn ˛a w klasachAB Klasa A Klasa B

Liczymy ´sredni ˛a arytmetyczn ˛a w klasachAB Klasa A Klasa B

Liczymy ´sredni ˛a arytmetyczn ˛a w klasachAB

Liczymy ´sredni ˛a arytmetyczn ˛a x = 12( ¯xA+ ¯xB)

Reguła decyzyjna

Pojawia si ˛e nowa obserwacja j. Do której klasy j ˛a zaliczymy? Jezeli

 xj <x =⇒ xj ∈ A xj >x =⇒ xj ∈ B

(86)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Przypadek jednowymiarowy

W skrócie: jak odró˙zni´c, do której klasy nale˙zy dany przypa- dek?

Przypadek jednowymiarowy

Mamy dwie klasy:AiB. Ka˙zda obserwacja i ma warto´s´c xi.

x

Klasa A

Klasa A Klasa B

Klasa A Klasa B

Liczymy ´sredni ˛a arytmetyczn ˛a w klasachAB Klasa A Klasa B

Liczymy ´sredni ˛a arytmetyczn ˛a w klasachAB Klasa A Klasa B

Liczymy ´sredni ˛a arytmetyczn ˛a w klasachAB

Liczymy ´sredni ˛a arytmetyczn ˛a x = 12( ¯xA+ ¯xB)

Reguła decyzyjna

Pojawia si ˛e nowa obserwacja j. Do której klasy j ˛a zaliczymy? Jezeli

 xj <x =⇒ xj ∈ A xj >x =⇒ xj ∈ B

(87)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Przypadek jednowymiarowy

W skrócie: jak odró˙zni´c, do której klasy nale˙zy dany przypa- dek?

Przypadek jednowymiarowy

Mamy dwie klasy:AiB. Ka˙zda obserwacja i ma warto´s´c xi.

x

Klasa A

Klasa A Klasa B

Klasa A Klasa B

Liczymy ´sredni ˛a arytmetyczn ˛a w klasachAB

Klasa A Klasa B

Liczymy ´sredni ˛a arytmetyczn ˛a w klasachAB Klasa A Klasa B

Liczymy ´sredni ˛a arytmetyczn ˛a w klasachAB

Liczymy ´sredni ˛a arytmetyczn ˛a x = 12( ¯xA+ ¯xB)

Reguła decyzyjna

Pojawia si ˛e nowa obserwacja j. Do której klasy j ˛a zaliczymy? Jezeli

 xj <x =⇒ xj ∈ A xj >x =⇒ xj ∈ B

(88)

Sprawy organizacyjne Wprowadzenie Liniowa analiza dyskryminacji

Przypadek jednowymiarowy

W skrócie: jak odró˙zni´c, do której klasy nale˙zy dany przypa- dek?

Przypadek jednowymiarowy

Mamy dwie klasy:AiB. Ka˙zda obserwacja i ma warto´s´c xi.

x

Klasa A

Klasa A Klasa B Klasa A Klasa B

Liczymy ´sredni ˛a arytmetyczn ˛a w klasachAB

Klasa A Klasa B

Liczymy ´sredni ˛a arytmetyczn ˛a w klasachAB

Klasa A Klasa B

Liczymy ´sredni ˛a arytmetyczn ˛a w klasachAB

Liczymy ´sredni ˛a arytmetyczn ˛a x = 12( ¯xA+ ¯xB)

Reguła decyzyjna

Pojawia si ˛e nowa obserwacja j. Do której klasy j ˛a zaliczymy? Jezeli

 xj <x =⇒ xj ∈ A xj >x =⇒ xj ∈ B

Obraz

Updating...

Cytaty

Powiązane tematy :