• Nie Znaleziono Wyników

Wykład 5

N/A
N/A
Protected

Academic year: 2021

Share "Wykład 5"

Copied!
114
0
0

Pełen tekst

(1)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Wprowadzenie do “data science”

Wykład 5 - czyszczenie danych, wypełnianie brakuj ˛

acych

warto´sci, eksploracyjna analiza danych

dr in˙z. Julian Sienkiewicz

(2)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Definicja i konsekwencje

Czyszczenie danych (ang. data cleaning data cleansing, data scrubbing) to proceswykrywania oraz usuwania bł ˛edów oraz niespójno´sci w celu polep-szenia jako´sci danych.

Bł ˛edne lub niespójne dane s ˛a powa˙znym problemem:

przede wszystkim mog ˛a prowadzi´c do bł ˛ednego rozumowania, a co za tym idzie, do marnotrawienia istotnych ´srodków finansowych (zarówno prywatnych jak i publicznych),

mog ˛a tworzy´c fałszywych obraz sytuacji i prowadzi´c do bagatelizacji (lub przypisywania zbytniej istotno´sci) do konkretnych zagro˙ze ´n (np. epidemia grypy),

w przypadku rozwi ˛aza ´n biznesowych nara˙zaj ˛a przedsi ˛ebiorstwo na utrat ˛e klientów,

cz ˛esto s ˛a po˙zywk ˛a dla mediów społeczno´sciowych i polityków, prowadz ˛ac do propagacji fałszywych wniosków.

(3)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Definicja i konsekwencje

Czyszczenie danych (ang. data cleaning data cleansing, data scrubbing) to proceswykrywania oraz usuwania bł ˛edów oraz niespójno´sci w celu polep-szenia jako´sci danych.

Bł ˛edne lub niespójne dane s ˛a powa˙znym problemem:

przede wszystkim mog ˛a prowadzi´c do bł ˛ednego rozumowania, a co za tym idzie, do marnotrawienia istotnych ´srodków finansowych (zarówno prywatnych jak i publicznych),

mog ˛a tworzy´c fałszywych obraz sytuacji i prowadzi´c do bagatelizacji (lub przypisywania zbytniej istotno´sci) do konkretnych zagro˙ze ´n (np. epidemia grypy),

w przypadku rozwi ˛aza ´n biznesowych nara˙zaj ˛a przedsi ˛ebiorstwo na utrat ˛e klientów,

cz ˛esto s ˛a po˙zywk ˛a dla mediów społeczno´sciowych i polityków, prowadz ˛ac do propagacji fałszywych wniosków.

(4)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Definicja i konsekwencje

Czyszczenie danych (ang. data cleaning data cleansing, data scrubbing) to proceswykrywania oraz usuwania bł ˛edów oraz niespójno´sci w celu polep-szenia jako´sci danych.

Bł ˛edne lub niespójne dane s ˛a powa˙znym problemem:

przede wszystkim mog ˛a prowadzi´c do bł ˛ednego rozumowania, a co za tym idzie, do marnotrawienia istotnych ´srodków finansowych (zarówno prywatnych jak i publicznych),

mog ˛a tworzy´c fałszywych obraz sytuacji i prowadzi´c do bagatelizacji (lub przypisywania zbytniej istotno´sci) do konkretnych zagro˙ze ´n (np. epidemia grypy),

w przypadku rozwi ˛aza ´n biznesowych nara˙zaj ˛a przedsi ˛ebiorstwo na utrat ˛e klientów,

cz ˛esto s ˛a po˙zywk ˛a dla mediów społeczno´sciowych i polityków, prowadz ˛ac do propagacji fałszywych wniosków.

(5)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Definicja i konsekwencje

Czyszczenie danych (ang. data cleaning data cleansing, data scrubbing) to proceswykrywania oraz usuwania bł ˛edów oraz niespójno´sci w celu polep-szenia jako´sci danych.

Bł ˛edne lub niespójne dane s ˛a powa˙znym problemem:

przede wszystkim mog ˛a prowadzi´c do bł ˛ednego rozumowania, a co za tym idzie, do marnotrawienia istotnych ´srodków finansowych (zarówno prywatnych jak i publicznych),

mog ˛a tworzy´c fałszywych obraz sytuacji i prowadzi´c do bagatelizacji (lub przypisywania zbytniej istotno´sci) do konkretnych zagro˙ze ´n (np. epidemia grypy),

w przypadku rozwi ˛aza ´n biznesowych nara˙zaj ˛a przedsi ˛ebiorstwo na utrat ˛e klientów,

cz ˛esto s ˛a po˙zywk ˛a dla mediów społeczno´sciowych i polityków, prowadz ˛ac do propagacji fałszywych wniosków.

(6)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Definicja i konsekwencje

Czyszczenie danych (ang. data cleaning data cleansing, data scrubbing) to proceswykrywania oraz usuwania bł ˛edów oraz niespójno´sci w celu polep-szenia jako´sci danych.

Bł ˛edne lub niespójne dane s ˛a powa˙znym problemem:

przede wszystkim mog ˛a prowadzi´c do bł ˛ednego rozumowania, a co za tym idzie, do marnotrawienia istotnych ´srodków finansowych (zarówno prywatnych jak i publicznych),

mog ˛a tworzy´c fałszywych obraz sytuacji i prowadzi´c do bagatelizacji (lub przypisywania zbytniej istotno´sci) do konkretnych zagro˙ze ´n (np. epidemia grypy),

w przypadku rozwi ˛aza ´n biznesowych nara˙zaj ˛a przedsi ˛ebiorstwo na utrat ˛e klientów,

cz ˛esto s ˛a po˙zywk ˛a dla mediów społeczno´sciowych i polityków, prowadz ˛ac do propagacji fałszywych wniosków.

(7)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Udział niepewnych danych

(8)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

problemy z jako ´sci ˛a danych

jedno ´zródło wiele ´zródeł

poziom schematu poziom wpisu poziom schematu poziom wpisu brak spójno´sci, zły projekt jednoznaczno´s´c, integralno´s´c bł ˛edy wprowadzania literówki, duplikaty, sprzeno´sci niejednorodne modele danych i projekty schematów konflikty nazw, sprzeno´sci strukturalne przekrywaj ˛ace si ˛e, sprzeczne lub niespójne dane niespójna agregacja, niespójny czas

(9)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

problemy z jako ´sci ˛a danych

jedno ´zródło wiele ´zródeł poziom schematu poziom wpisu poziom schematu poziom wpisu brak spójno´sci, zły projekt jednoznaczno´s´c, integralno´s´c bł ˛edy wprowadzania literówki, duplikaty, sprzeno´sci niejednorodne modele danych i projekty schematów konflikty nazw, sprzeno´sci strukturalne przekrywaj ˛ace si ˛e, sprzeczne lub niespójne dane niespójna agregacja, niespójny czas

(10)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

problemy z jako ´sci ˛a danych

jedno ´zródło wiele ´zródeł

poziom schematu poziom wpisu poziom schematu poziom wpisu brak spójno´sci, zły projekt jednoznaczno´s´c, integralno´s´c bł ˛edy wprowadzania literówki, duplikaty, sprzeno´sci niejednorodne modele danych i projekty schematów konflikty nazw, sprzeno´sci strukturalne przekrywaj ˛ace si ˛e, sprzeczne lub niespójne dane niespójna agregacja, niespójny czas

(11)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

problemy z jako ´sci ˛a danych

jedno ´zródło wiele ´zródeł

poziom schematu poziom wpisu poziom schematu poziom wpisu brak spójno´sci, zły projekt jednoznaczno´s´c, integralno´s´c bł ˛edy wprowadzania literówki, duplikaty, sprzeno´sci niejednorodne modele danych i projekty schematów konflikty nazw, sprzeno´sci strukturalne przekrywaj ˛ace si ˛e, sprzeczne lub niespójne dane niespójna agregacja, niespójny czas

(12)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

problemy z jako ´sci ˛a danych

jedno ´zródło wiele ´zródeł

poziom schematu poziom wpisu poziom schematu poziom wpisu brak spójno´sci, zły projekt jednoznaczno´s´c, integralno´s´c bł ˛edy wprowadzania literówki, duplikaty, sprzeno´sci niejednorodne modele danych i projekty schematów konflikty nazw, sprzeno´sci strukturalne przekrywaj ˛ace si ˛e, sprzeczne lub niespójne dane niespójna agregacja, niespójny czas

(13)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

problemy z jako ´sci ˛a danych

jedno ´zródło wiele ´zródeł

poziom schematu poziom wpisu poziom schematu poziom wpisu brak spójno´sci, zły projekt jednoznaczno´s´c, integralno´s´c bł ˛edy wprowadzania literówki, duplikaty, sprzeno´sci niejednorodne modele danych i projekty schematów konflikty nazw, sprzeno´sci strukturalne przekrywaj ˛ace si ˛e, sprzeczne lub niespójne dane niespójna agregacja, niespójny czas

(14)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

problemy z jako ´sci ˛a danych

jedno ´zródło wiele ´zródeł

poziom schematu poziom wpisu poziom schematu poziom wpisu brak spójno´sci, zły projekt jednoznaczno´s´c, integralno´s´c bł ˛edy wprowadzania literówki, duplikaty, sprzeno´sci niejednorodne modele danych i projekty schematów konflikty nazw, sprzeno´sci strukturalne przekrywaj ˛ace si ˛e, sprzeczne lub niespójne dane niespójna agregacja, niespójny czas

(15)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

problemy z jako ´sci ˛a danych

jedno ´zródło wiele ´zródeł

poziom schematu poziom wpisu poziom schematu poziom wpisu brak spójno´sci, zły projekt jednoznaczno´s´c, integralno´s´c bł ˛edy wprowadzania literówki, duplikaty, sprzeno´sci niejednorodne modele danych i projekty schematów konflikty nazw, sprzeno´sci strukturalne przekrywaj ˛ace si ˛e, sprzeczne lub niespójne dane niespójna agregacja, niespójny czas

(16)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

problemy z jako ´sci ˛a danych

jedno ´zródło wiele ´zródeł

poziom schematu poziom wpisu poziom schematu poziom wpisu brak spójno´sci, zły projekt jednoznaczno´s´c, integralno´s´c bł ˛edy wprowadzania literówki, duplikaty, sprzeno´sci niejednorodne modele danych i projekty schematów konflikty nazw, sprzeno´sci strukturalne przekrywaj ˛ace si ˛e, sprzeczne lub niespójne dane niespójna agregacja, niespójny czas

(17)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

problemy z jako ´sci ˛a danych

jedno ´zródło wiele ´zródeł

poziom schematu poziom wpisu poziom schematu poziom wpisu brak spójno´sci, zły projekt jednoznaczno´s´c, integralno´s´c bł ˛edy wprowadzania literówki, duplikaty, sprzeno´sci niejednorodne modele danych i projekty schematów konflikty nazw, sprzeno´sci strukturalne przekrywaj ˛ace si ˛e, sprzeczne lub niespójne dane niespójna agregacja, niespójny czas

(18)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

problemy z jako ´sci ˛a danych

jedno ´zródło wiele ´zródeł

poziom schematu poziom wpisu poziom schematu poziom wpisu brak spójno´sci, zły projekt jednoznaczno´s´c, integralno´s´c bł ˛edy wprowadzania literówki, duplikaty, sprzeno´sci niejednorodne modele danych i projekty schematów konflikty nazw, sprzeno´sci strukturalne przekrywaj ˛ace si ˛e, sprzeczne lub niespójne dane niespójna agregacja, niespójny czas

(19)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

problemy z jako ´sci ˛a danych

jedno ´zródło wiele ´zródeł

poziom schematu poziom wpisu poziom schematu poziom wpisu brak spójno´sci, zły projekt jednoznaczno´s´c, integralno´s´c bł ˛edy wprowadzania literówki, duplikaty, sprzeno´sci niejednorodne modele danych i projekty schematów konflikty nazw, sprzeno´sci strukturalne przekrywaj ˛ace si ˛e, sprzeczne lub niespójne dane niespójna agregacja, niespójny czas

(20)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

problemy z jako ´sci ˛a danych

jedno ´zródło wiele ´zródeł

poziom schematu poziom wpisu poziom schematu poziom wpisu brak spójno´sci, zły projekt jednoznaczno´s´c, integralno´s´c bł ˛edy wprowadzania literówki, duplikaty, sprzeno´sci niejednorodne modele danych i projekty schematów konflikty nazw, sprzeno´sci strukturalne przekrywaj ˛ace si ˛e, sprzeczne lub niespójne dane niespójna agregacja, niespójny czas

(21)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

problemy z jako ´sci ˛a danych

jedno ´zródło wiele ´zródeł

poziom schematu poziom wpisu poziom schematu poziom wpisu brak spójno´sci, zły projekt jednoznaczno´s´c, integralno´s´c bł ˛edy wprowadzania literówki, duplikaty, sprzeno´sci niejednorodne modele danych i projekty schematów konflikty nazw, sprzeno´sci strukturalne przekrywaj ˛ace si ˛e, sprzeczne lub niespójne dane niespójna agregacja, niespójny czas

(22)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Pojedyncze ´zródło

Przykłady bł ˛edów schematu

(23)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Pojedyncze ´zródło

Przykłady bł ˛edów schematu

(24)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Wielokrotne ´zródła

Przykład bł ˛edów wielokrotnych ´zródeł

Główny problem: indentifikacja przekrywaj ˛acych si ˛e danych, tzn. upewnienie si ˛e, ˙ze ró˙zne rekordy w ró˙znych ´zródłach dotycz ˛a tego samego bytu (ang. entity), czyli np. klienta.

(25)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Wielokrotne ´zródła

Przykład bł ˛edów wielokrotnych ´zródeł

Główny problem: indentifikacja przekrywaj ˛acych si ˛e danych, tzn. upewnienie si ˛e, ˙ze ró˙zne rekordy w ró˙znych ´zródłach dotycz ˛a tego samego bytu (ang. entity), czyli np. klienta.

(26)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Wielokrotne ´zródła

Przykład

Dane Web of Science

zawieraj ˛a informacje dotycz ˛ace liczby cytowa ´n,

pojedynczy plik CSV, liczba autorów pracy, pełen tytuł oraz abstrakt, identyfikator WOS

Dane PLOS

zawieraj ˛a informacje dotycz ˛ace liczby odsłon (HTML oraz PDF), dedykowane API,

imiona i nazwiska autorów, pełen tytuł, abstrakt i tekst identyfikator DOI

Poł ˛aczenie zbiorów danych na podstawie tytułu - błedy wynikaj ˛ace z parsowa-nia tytułu. Dodatkowy test: liczba autorów (znów mo˙zliwe bł ˛edy parsowaparsowa-nia).

(27)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Wielokrotne ´zródła

Przykład

Dane Web of Science

zawieraj ˛a informacje dotycz ˛ace liczby cytowa ´n,

pojedynczy plik CSV, liczba autorów pracy, pełen tytuł oraz abstrakt, identyfikator WOS

Dane PLOS

zawieraj ˛a informacje dotycz ˛ace liczby odsłon (HTML oraz PDF), dedykowane API,

imiona i nazwiska autorów, pełen tytuł, abstrakt i tekst identyfikator DOI

Poł ˛aczenie zbiorów danych na podstawie tytułu - błedy wynikaj ˛ace z parsowa-nia tytułu. Dodatkowy test: liczba autorów (znów mo˙zliwe bł ˛edy parsowaparsowa-nia).

(28)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Wielokrotne ´zródła

Przykład

Dane Web of Science

zawieraj ˛a informacje dotycz ˛ace liczby cytowa ´n,

pojedynczy plik CSV, liczba autorów pracy, pełen tytuł oraz abstrakt, identyfikator WOS

Dane PLOS

zawieraj ˛a informacje dotycz ˛ace liczby odsłon (HTML oraz PDF), dedykowane API,

imiona i nazwiska autorów, pełen tytuł, abstrakt i tekst identyfikator DOI

Poł ˛aczenie zbiorów danych na podstawie tytułu - błedy wynikaj ˛ace z parsowa-nia tytułu. Dodatkowy test: liczba autorów (znów mo˙zliwe bł ˛edy parsowaparsowa-nia).

(29)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Wielokrotne ´zródła

Przykład

Dane Web of Science

zawieraj ˛a informacje dotycz ˛ace liczby cytowa ´n,

pojedynczy plik CSV, liczba autorów pracy, pełen tytuł oraz abstrakt, identyfikator WOS

Dane PLOS

zawieraj ˛a informacje dotycz ˛ace liczby odsłon (HTML oraz PDF), dedykowane API,

imiona i nazwiska autorów, pełen tytuł, abstrakt i tekst identyfikator DOI

Poł ˛aczenie zbiorów danych na podstawie tytułu - błedy wynikaj ˛ace z parsowa-nia tytułu. Dodatkowy test: liczba autorów (znów mo˙zliwe bł ˛edy parsowaparsowa-nia).

(30)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Wielokrotne ´zródła

Przykład

Dane Web of Science

zawieraj ˛a informacje dotycz ˛ace liczby cytowa ´n,

pojedynczy plik CSV, liczba autorów pracy, pełen tytuł oraz abstrakt, identyfikator WOS

Dane PLOS

zawieraj ˛a informacje dotycz ˛ace liczby odsłon (HTML oraz PDF), dedykowane API,

imiona i nazwiska autorów, pełen tytuł, abstrakt i tekst identyfikator DOI

Poł ˛aczenie zbiorów danych na podstawie tytułu - błedy wynikaj ˛ace z parsowa-nia tytułu. Dodatkowy test: liczba autorów (znów mo˙zliwe bł ˛edy parsowaparsowa-nia).

(31)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Analiza danych

Cz ˛esto potrzebna jest szczegółowa analiza danych: oznacza to, ˙ze nale˙zy wykona´c np. histogramy lub rozkłady prawdopodobie ´nstwa danych numercz-nych, zidentyfikowa´c tzw. obserwacje odstaj ˛ace (ang. outliers).

Zdefiniowanie przepływu pracy (workflow)

Na bazie poprzedniego kroku dokonywana jest automatyzacja reguł w postaci sekwencyjnego zapisu odnosz ˛acego si ˛e do poszczególnych ´zródeł (np. we´z obserwacje ze ´zródła A, dokonaj transformacji, potem ze ´zródła B etc...).

Wykonanie przepływu pracy

Testowanie przepływu, w tym sprawdzanie, czy działa on efektywnie równie˙z dla du˙zych zbiorów danych.

Kontrola + korekta

Mo˙ze sie okaza´c, ˙ze potrzebna jest modyfikacja metod (czasem r ˛eczne sprawdzanie). Ponadto, na tym etapie warto poprawi´c dane ´zródłowe.

(32)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Analiza danych

Cz ˛esto potrzebna jest szczegółowa analiza danych: oznacza to, ˙ze nale˙zy wykona´c np. histogramy lub rozkłady prawdopodobie ´nstwa danych numercz-nych, zidentyfikowa´c tzw. obserwacje odstaj ˛ace (ang. outliers).

Zdefiniowanie przepływu pracy (workflow)

Na bazie poprzedniego kroku dokonywana jest automatyzacja reguł w postaci sekwencyjnego zapisu odnosz ˛acego si ˛e do poszczególnych ´zródeł (np. we´z obserwacje ze ´zródła A, dokonaj transformacji, potem ze ´zródła B etc...).

Wykonanie przepływu pracy

Testowanie przepływu, w tym sprawdzanie, czy działa on efektywnie równie˙z dla du˙zych zbiorów danych.

Kontrola + korekta

Mo˙ze sie okaza´c, ˙ze potrzebna jest modyfikacja metod (czasem r ˛eczne sprawdzanie). Ponadto, na tym etapie warto poprawi´c dane ´zródłowe.

(33)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Analiza danych

Cz ˛esto potrzebna jest szczegółowa analiza danych: oznacza to, ˙ze nale˙zy wykona´c np. histogramy lub rozkłady prawdopodobie ´nstwa danych numercz-nych, zidentyfikowa´c tzw. obserwacje odstaj ˛ace (ang. outliers).

Zdefiniowanie przepływu pracy (workflow)

Na bazie poprzedniego kroku dokonywana jest automatyzacja reguł w postaci sekwencyjnego zapisu odnosz ˛acego si ˛e do poszczególnych ´zródeł (np. we´z obserwacje ze ´zródła A, dokonaj transformacji, potem ze ´zródła B etc...).

Wykonanie przepływu pracy

Testowanie przepływu, w tym sprawdzanie, czy działa on efektywnie równie˙z dla du˙zych zbiorów danych.

Kontrola + korekta

Mo˙ze sie okaza´c, ˙ze potrzebna jest modyfikacja metod (czasem r ˛eczne sprawdzanie). Ponadto, na tym etapie warto poprawi´c dane ´zródłowe.

(34)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Analiza danych

Cz ˛esto potrzebna jest szczegółowa analiza danych: oznacza to, ˙ze nale˙zy wykona´c np. histogramy lub rozkłady prawdopodobie ´nstwa danych numercz-nych, zidentyfikowa´c tzw. obserwacje odstaj ˛ace (ang. outliers).

Zdefiniowanie przepływu pracy (workflow)

Na bazie poprzedniego kroku dokonywana jest automatyzacja reguł w postaci sekwencyjnego zapisu odnosz ˛acego si ˛e do poszczególnych ´zródeł (np. we´z obserwacje ze ´zródła A, dokonaj transformacji, potem ze ´zródła B etc...).

Wykonanie przepływu pracy

Testowanie przepływu, w tym sprawdzanie, czy działa on efektywnie równie˙z dla du˙zych zbiorów danych.

Kontrola + korekta

Mo˙ze sie okaza´c, ˙ze potrzebna jest modyfikacja metod (czasem r ˛eczne sprawdzanie). Ponadto, na tym etapie warto poprawi´c dane ´zródłowe.

(35)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Istniej ˛a dwie główne metody analizy danych:profilowanie oraz uczenie ma-szynowe.

Pierwsza metoda opiera si ˛e na kontrolipojedynczych atrybutów, tzn poje-dynczych kolumn i zastosowaniu odpowiednich narz ˛edzi (np. mediana) do poradzenia sobie z tym problemem.

Drugie podej´scie bierze pod uwag ˛e relacje pomi ˛edzy atrybutami jednocze-´snie, szukaj ˛ac pewnych reguł, za pomoc ˛a których mo˙zna okre´sli´c bł ˛edne dane (np. metody klastrowania, maszyny wektorów podpieraj ˛acych).

(36)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Istniej ˛a dwie główne metody analizy danych:profilowanie oraz uczenie ma-szynowe.

Pierwsza metoda opiera si ˛e na kontrolipojedynczych atrybutów, tzn poje-dynczych kolumn i zastosowaniu odpowiednich narz ˛edzi (np. mediana) do poradzenia sobie z tym problemem.

Drugie podej´scie bierze pod uwag ˛e relacje pomi ˛edzy atrybutami jednocze-´snie, szukaj ˛ac pewnych reguł, za pomoc ˛a których mo˙zna okre´sli´c bł ˛edne dane (np. metody klastrowania, maszyny wektorów podpieraj ˛acych).

(37)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Istniej ˛a dwie główne metody analizy danych:profilowanie oraz uczenie ma-szynowe.

Pierwsza metoda opiera si ˛e na kontrolipojedynczych atrybutów, tzn poje-dynczych kolumn i zastosowaniu odpowiednich narz ˛edzi (np. mediana) do poradzenia sobie z tym problemem.

Drugie podej´scie bierze pod uwag ˛e relacje pomi ˛edzy atrybutami jednocze-´snie, szukaj ˛ac pewnych reguł, za pomoc ˛a których mo˙zna okre´sli´c bł ˛edne dane (np. metody klastrowania, maszyny wektorów podpieraj ˛acych).

(38)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Profilowanie

Przykład obserwacji odstaj ˛acych (outliers) oraz obserwacji podjerza-nych o to, ˙ze s ˛a odstaj ˛acymi na bazie wykresu pudełkowego.

Cz ˛estym przypadkiem jest wyst ˛epo-wanie obserwacji odstaj ˛acych, np. w szeregu 34, 67, 80, 56, 77, 120 ozna-czaj ˛acym wiek pacjenta. U˙zycie war-to´sci ´sredniej i odchylenia standardo-wego mo˙ze nie wychwyci´c tego typu problem, gdy˙z warto´s´c outliera silnie wpływa na warto´s´c ´sredni ˛a.

MAD

W tym wypadku cz ˛esto u˙zywa si ˛e MAD (median absolute deviation)

(39)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Profilowanie

Przykład obserwacji odstaj ˛acych (outliers) oraz obserwacji podjerza-nych o to, ˙ze s ˛a odstaj ˛acymi na bazie wykresu pudełkowego.

Cz ˛estym przypadkiem jest wyst ˛epo-wanie obserwacji odstaj ˛acych, np. w szeregu 34, 67, 80, 56, 77, 120 ozna-czaj ˛acym wiek pacjenta. U˙zycie war-to´sci ´sredniej i odchylenia standardo-wego mo˙ze nie wychwyci´c tego typu problem, gdy˙z warto´s´c outliera silnie wpływa na warto´s´c ´sredni ˛a.

MAD

W tym wypadku cz ˛esto u˙zywa si ˛e MAD (median absolute deviation)

(40)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Profilowanie

Przykład obserwacji odstaj ˛acych (outliers) oraz obserwacji podjerza-nych o to, ˙ze s ˛a odstaj ˛acymi na bazie wykresu pudełkowego.

Cz ˛estym przypadkiem jest wyst ˛epo-wanie obserwacji odstaj ˛acych, np. w szeregu 34, 67, 80, 56, 77, 120 ozna-czaj ˛acym wiek pacjenta. U˙zycie war-to´sci ´sredniej i odchylenia standardo-wego mo˙ze nie wychwyci´c tego typu problem, gdy˙z warto´s´c outliera silnie wpływa na warto´s´c ´sredni ˛a.

MAD

W tym wypadku cz ˛esto u˙zywa si ˛e MAD (median absolute deviation)

(41)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Profilowanie

Przykład obserwacji odstaj ˛acych (outliers) oraz obserwacji podjerza-nych o to, ˙ze s ˛a odstaj ˛acymi na bazie wykresu pudełkowego.

Cz ˛estym przypadkiem jest wyst ˛epo-wanie obserwacji odstaj ˛acych, np. w szeregu 34, 67, 80, 56, 77, 120 ozna-czaj ˛acym wiek pacjenta. U˙zycie war-to´sci ´sredniej i odchylenia standardo-wego mo˙ze nie wychwyci´c tego typu problem, gdy˙z warto´s´c outliera silnie wpływa na warto´s´c ´sredni ˛a.

MAD

W tym wypadku cz ˛esto u˙zywa si ˛e MAD (median absolute deviation)

(42)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Profilowanie

Przykład obserwacji odstaj ˛acych (outliers) oraz obserwacji podjerza-nych o to, ˙ze s ˛a odstaj ˛acymi na bazie wykresu pudełkowego.

Cz ˛estym przypadkiem jest wyst ˛epo-wanie obserwacji odstaj ˛acych, np. w szeregu 34, 67, 80, 56, 77, 120 ozna-czaj ˛acym wiek pacjenta. U˙zycie war-to´sci ´sredniej i odchylenia standardo-wego mo˙ze nie wychwyci´c tego typu problem, gdy˙z warto´s´c outliera silnie wpływa na warto´s´c ´sredni ˛a.

MAD

W tym wypadku cz ˛esto u˙zywa si ˛e MAD (median absolute deviation)

(43)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Brakuj ˛ace dane

Rodzaje brakuj ˛acych danych

Bardzo cz ˛esto (praktycznie zawsze) napotykamy w naszych danych na braku-j ˛ace warto´sci (missing values, missing data).Brak jednak brakowi nierówny. Rozró˙zniamy nast ˛epuj ˛ace typy brakuj ˛acych danych:

MCAR (missing completely at random) – mechanizm znikania danej (np. X ) nie jest zwi ˛azany zjak ˛akolwiek zmienn ˛a w naszym zbiorze (X , Y , Z , ...)

MAR (missing at random) – mechanizm znikania danej nie jest zwi ˛azany z rozpatrywan ˛a zmienn ˛a (X ), ale z jak ˛a´sinn ˛a dost ˛epn ˛a w zbiorze (np. Y ),

NMAR (not missing at random lub informatively missing) – mechanizm znikaniajest zwi ˛azany z warto ´sci ˛a rozwa˙zanej zmiennej

Oczywi´scie, ten ostatni przypadek jest zawsze najtrudniejszy do modelowa-nia.

(44)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Brakuj ˛ace dane

Rodzaje brakuj ˛acych danych

Bardzo cz ˛esto (praktycznie zawsze) napotykamy w naszych danych na braku-j ˛ace warto´sci (missing values, missing data).Brak jednak brakowi nierówny. Rozró˙zniamy nast ˛epuj ˛ace typy brakuj ˛acych danych:

MCAR (missing completely at random) – mechanizm znikania danej (np. X ) nie jest zwi ˛azany zjak ˛akolwiek zmienn ˛a w naszym zbiorze (X , Y , Z , ...)

MAR (missing at random) – mechanizm znikania danej nie jest zwi ˛azany z rozpatrywan ˛a zmienn ˛a (X ), ale z jak ˛a´sinn ˛a dost ˛epn ˛a w zbiorze (np. Y ),

NMAR (not missing at random lub informatively missing) – mechanizm znikaniajest zwi ˛azany z warto ´sci ˛a rozwa˙zanej zmiennej

Oczywi´scie, ten ostatni przypadek jest zawsze najtrudniejszy do modelowa-nia.

(45)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Brakuj ˛ace dane

Rodzaje brakuj ˛acych danych

Bardzo cz ˛esto (praktycznie zawsze) napotykamy w naszych danych na braku-j ˛ace warto´sci (missing values, missing data).Brak jednak brakowi nierówny. Rozró˙zniamy nast ˛epuj ˛ace typy brakuj ˛acych danych:

MCAR (missing completely at random) – mechanizm znikania danej (np. X ) nie jest zwi ˛azany zjak ˛akolwiek zmienn ˛a w naszym zbiorze (X , Y , Z , ...)

MAR (missing at random) – mechanizm znikania danej nie jest zwi ˛azany z rozpatrywan ˛a zmienn ˛a (X ), ale z jak ˛a´sinn ˛a dost ˛epn ˛a w zbiorze (np. Y ),

NMAR (not missing at random lub informatively missing) – mechanizm znikaniajest zwi ˛azany z warto ´sci ˛a rozwa˙zanej zmiennej

Oczywi´scie, ten ostatni przypadek jest zawsze najtrudniejszy do modelowa-nia.

(46)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Brakuj ˛ace dane

Rodzaje brakuj ˛acych danych

Bardzo cz ˛esto (praktycznie zawsze) napotykamy w naszych danych na braku-j ˛ace warto´sci (missing values, missing data).Brak jednak brakowi nierówny. Rozró˙zniamy nast ˛epuj ˛ace typy brakuj ˛acych danych:

MCAR (missing completely at random) – mechanizm znikania danej (np. X ) nie jest zwi ˛azany zjak ˛akolwiek zmienn ˛a w naszym zbiorze (X , Y , Z , ...)

MAR (missing at random) – mechanizm znikania danej nie jest zwi ˛azany z rozpatrywan ˛a zmienn ˛a (X ), ale z jak ˛a´sinn ˛a dost ˛epn ˛a w zbiorze (np. Y ),

NMAR (not missing at random lub informatively missing) – mechanizm znikaniajest zwi ˛azany z warto ´sci ˛a rozwa˙zanej zmiennej

Oczywi´scie, ten ostatni przypadek jest zawsze najtrudniejszy do modelowa-nia.

(47)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Brakuj ˛ace dane

Rodzaje brakuj ˛acych danych

Bardzo cz ˛esto (praktycznie zawsze) napotykamy w naszych danych na braku-j ˛ace warto´sci (missing values, missing data).Brak jednak brakowi nierówny. Rozró˙zniamy nast ˛epuj ˛ace typy brakuj ˛acych danych:

MCAR (missing completely at random) – mechanizm znikania danej (np. X ) nie jest zwi ˛azany zjak ˛akolwiek zmienn ˛a w naszym zbiorze (X , Y , Z , ...)

MAR (missing at random) – mechanizm znikania danej nie jest zwi ˛azany z rozpatrywan ˛a zmienn ˛a (X ), ale z jak ˛a´sinn ˛a dost ˛epn ˛a w zbiorze (np. Y ),

NMAR (not missing at random lub informatively missing) – mechanizm znikaniajest zwi ˛azany z warto ´sci ˛a rozwa˙zanej zmiennej

Oczywi´scie, ten ostatni przypadek jest zawsze najtrudniejszy do modelowa-nia.

(48)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Uzupełnianie danych

Na bazie takich wła´snie wska´zników dokonuje si ˛e cz ˛esto uzpełniania brakuj ˛ a-cych danych. W przypadku, gdy nasz model danych nie przewiduje z jakiego´s powodu mo˙zliwo´sci braku danych (np. w R: NA), musimy dokona´c wyboru:

usun ˛a ´c albo konkretny przypadek (tzn rz ˛ad danych) albo te˙z w ogóle nie bra´c pod uwag ˛e danej zmiennej (czyli kolumny),

wypełni ´c warto´s´c na podstawie rozkładów statystycznych samej zmien-nej tj:

warto ´sci ˛a ´sredni ˛a, w przypadku liczb zmiennoprzecinkowych o dobrze okre´slonym rozkładzie prawdopodobie ´nstwa (rozkład Gaussa) tego typu opcja jest bardzo wygodna,

median ˛a, gdy takiego rozkładu nie obserwujemy,

warto ´sci ˛a najbardziej prawdopodobn ˛a, np dla atrybutów nomi-nalnych,

warto ´sci ˛a losow ˛a z rozkładu dost ˛epnych danych,

wypełni ´c warto´s´c na podstawie zale˙zno´sci rozpatrywanej zmiennej z innymi zmiennymi w zbiorze danych

(49)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Uzupełnianie danych

Na bazie takich wła´snie wska´zników dokonuje si ˛e cz ˛esto uzpełniania brakuj ˛ a-cych danych. W przypadku, gdy nasz model danych nie przewiduje z jakiego´s powodu mo˙zliwo´sci braku danych (np. w R: NA), musimy dokona´c wyboru:

usun ˛a ´c albo konkretny przypadek (tzn rz ˛ad danych) albo te˙z w ogóle nie bra´c pod uwag ˛e danej zmiennej (czyli kolumny),

wypełni ´c warto´s´c na podstawie rozkładów statystycznych samej zmien-nej tj:

warto ´sci ˛a ´sredni ˛a, w przypadku liczb zmiennoprzecinkowych o dobrze okre´slonym rozkładzie prawdopodobie ´nstwa (rozkład Gaussa) tego typu opcja jest bardzo wygodna,

median ˛a, gdy takiego rozkładu nie obserwujemy,

warto ´sci ˛a najbardziej prawdopodobn ˛a, np dla atrybutów nomi-nalnych,

warto ´sci ˛a losow ˛a z rozkładu dost ˛epnych danych,

wypełni ´c warto´s´c na podstawie zale˙zno´sci rozpatrywanej zmiennej z innymi zmiennymi w zbiorze danych

(50)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Uzupełnianie danych

Na bazie takich wła´snie wska´zników dokonuje si ˛e cz ˛esto uzpełniania brakuj ˛ a-cych danych. W przypadku, gdy nasz model danych nie przewiduje z jakiego´s powodu mo˙zliwo´sci braku danych (np. w R: NA), musimy dokona´c wyboru:

usun ˛a ´c albo konkretny przypadek (tzn rz ˛ad danych) albo te˙z w ogóle nie bra´c pod uwag ˛e danej zmiennej (czyli kolumny),

wypełni ´c warto´s´c na podstawie rozkładów statystycznych samej zmien-nej tj:

warto ´sci ˛a ´sredni ˛a, w przypadku liczb zmiennoprzecinkowych o dobrze okre´slonym rozkładzie prawdopodobie ´nstwa (rozkład Gaussa) tego typu opcja jest bardzo wygodna,

median ˛a, gdy takiego rozkładu nie obserwujemy,

warto ´sci ˛a najbardziej prawdopodobn ˛a, np dla atrybutów nomi-nalnych,

warto ´sci ˛a losow ˛a z rozkładu dost ˛epnych danych,

wypełni ´c warto´s´c na podstawie zale˙zno´sci rozpatrywanej zmiennej z innymi zmiennymi w zbiorze danych

(51)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Uzupełnianie danych

Na bazie takich wła´snie wska´zników dokonuje si ˛e cz ˛esto uzpełniania brakuj ˛ a-cych danych. W przypadku, gdy nasz model danych nie przewiduje z jakiego´s powodu mo˙zliwo´sci braku danych (np. w R: NA), musimy dokona´c wyboru:

usun ˛a ´c albo konkretny przypadek (tzn rz ˛ad danych) albo te˙z w ogóle nie bra´c pod uwag ˛e danej zmiennej (czyli kolumny),

wypełni ´c warto´s´c na podstawie rozkładów statystycznych samej zmien-nej tj:

warto ´sci ˛a ´sredni ˛a, w przypadku liczb zmiennoprzecinkowych o dobrze okre´slonym rozkładzie prawdopodobie ´nstwa (rozkład Gaussa) tego typu opcja jest bardzo wygodna,

median ˛a, gdy takiego rozkładu nie obserwujemy,

warto ´sci ˛a najbardziej prawdopodobn ˛a, np dla atrybutów nomi-nalnych,

warto ´sci ˛a losow ˛a z rozkładu dost ˛epnych danych,

wypełni ´c warto´s´c na podstawie zale˙zno´sci rozpatrywanej zmiennej z innymi zmiennymi w zbiorze danych

(52)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Uzupełnianie danych

Na bazie takich wła´snie wska´zników dokonuje si ˛e cz ˛esto uzpełniania brakuj ˛ a-cych danych. W przypadku, gdy nasz model danych nie przewiduje z jakiego´s powodu mo˙zliwo´sci braku danych (np. w R: NA), musimy dokona´c wyboru:

usun ˛a ´c albo konkretny przypadek (tzn rz ˛ad danych) albo te˙z w ogóle nie bra´c pod uwag ˛e danej zmiennej (czyli kolumny),

wypełni ´c warto´s´c na podstawie rozkładów statystycznych samej zmien-nej tj:

warto ´sci ˛a ´sredni ˛a, w przypadku liczb zmiennoprzecinkowych o dobrze okre´slonym rozkładzie prawdopodobie ´nstwa (rozkład Gaussa) tego typu opcja jest bardzo wygodna,

median ˛a, gdy takiego rozkładu nie obserwujemy,

warto ´sci ˛a najbardziej prawdopodobn ˛a, np dla atrybutów nomi-nalnych,

warto ´sci ˛a losow ˛a z rozkładu dost ˛epnych danych,

wypełni ´c warto´s´c na podstawie zale˙zno´sci rozpatrywanej zmiennej z innymi zmiennymi w zbiorze danych

(53)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Uzupełnianie danych

Na bazie takich wła´snie wska´zników dokonuje si ˛e cz ˛esto uzpełniania brakuj ˛ a-cych danych. W przypadku, gdy nasz model danych nie przewiduje z jakiego´s powodu mo˙zliwo´sci braku danych (np. w R: NA), musimy dokona´c wyboru:

usun ˛a ´c albo konkretny przypadek (tzn rz ˛ad danych) albo te˙z w ogóle nie bra´c pod uwag ˛e danej zmiennej (czyli kolumny),

wypełni ´c warto´s´c na podstawie rozkładów statystycznych samej zmien-nej tj:

warto ´sci ˛a ´sredni ˛a, w przypadku liczb zmiennoprzecinkowych o dobrze okre´slonym rozkładzie prawdopodobie ´nstwa (rozkład Gaussa) tego typu opcja jest bardzo wygodna,

median ˛a, gdy takiego rozkładu nie obserwujemy,

warto ´sci ˛a najbardziej prawdopodobn ˛a, np dla atrybutów nomi-nalnych,

warto ´sci ˛a losow ˛a z rozkładu dost ˛epnych danych,

wypełni ´c warto´s´c na podstawie zale˙zno´sci rozpatrywanej zmiennej z innymi zmiennymi w zbiorze danych

(54)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Uzupełnianie danych

Na bazie takich wła´snie wska´zników dokonuje si ˛e cz ˛esto uzpełniania brakuj ˛ a-cych danych. W przypadku, gdy nasz model danych nie przewiduje z jakiego´s powodu mo˙zliwo´sci braku danych (np. w R: NA), musimy dokona´c wyboru:

usun ˛a ´c albo konkretny przypadek (tzn rz ˛ad danych) albo te˙z w ogóle nie bra´c pod uwag ˛e danej zmiennej (czyli kolumny),

wypełni ´c warto´s´c na podstawie rozkładów statystycznych samej zmien-nej tj:

warto ´sci ˛a ´sredni ˛a, w przypadku liczb zmiennoprzecinkowych o dobrze okre´slonym rozkładzie prawdopodobie ´nstwa (rozkład Gaussa) tego typu opcja jest bardzo wygodna,

median ˛a, gdy takiego rozkładu nie obserwujemy,

warto ´sci ˛a najbardziej prawdopodobn ˛a, np dla atrybutów nomi-nalnych,

warto ´sci ˛a losow ˛a z rozkładu dost ˛epnych danych,

wypełni ´c warto´s´c na podstawie zale˙zno´sci rozpatrywanej zmiennej z innymi zmiennymi w zbiorze danych

(55)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Uzupełnianie danych

Na bazie takich wła´snie wska´zników dokonuje si ˛e cz ˛esto uzpełniania brakuj ˛ a-cych danych. W przypadku, gdy nasz model danych nie przewiduje z jakiego´s powodu mo˙zliwo´sci braku danych (np. w R: NA), musimy dokona´c wyboru:

usun ˛a ´c albo konkretny przypadek (tzn rz ˛ad danych) albo te˙z w ogóle nie bra´c pod uwag ˛e danej zmiennej (czyli kolumny),

wypełni ´c warto´s´c na podstawie rozkładów statystycznych samej zmien-nej tj:

warto ´sci ˛a ´sredni ˛a, w przypadku liczb zmiennoprzecinkowych o dobrze okre´slonym rozkładzie prawdopodobie ´nstwa (rozkład Gaussa) tego typu opcja jest bardzo wygodna,

median ˛a, gdy takiego rozkładu nie obserwujemy,

warto ´sci ˛a najbardziej prawdopodobn ˛a, np dla atrybutów nomi-nalnych,

warto ´sci ˛a losow ˛a z rozkładu dost ˛epnych danych,

wypełni ´c warto´s´c na podstawie zale˙zno´sci rozpatrywanej zmiennej z innymi zmiennymi w zbiorze danych

(56)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Uzupełnianie danych

Na bazie takich wła´snie wska´zników dokonuje si ˛e cz ˛esto uzpełniania brakuj ˛ a-cych danych. W przypadku, gdy nasz model danych nie przewiduje z jakiego´s powodu mo˙zliwo´sci braku danych (np. w R: NA), musimy dokona´c wyboru:

usun ˛a ´c albo konkretny przypadek (tzn rz ˛ad danych) albo te˙z w ogóle nie bra´c pod uwag ˛e danej zmiennej (czyli kolumny),

wypełni ´c warto´s´c na podstawie rozkładów statystycznych samej zmien-nej tj:

warto ´sci ˛a ´sredni ˛a, w przypadku liczb zmiennoprzecinkowych o dobrze okre´slonym rozkładzie prawdopodobie ´nstwa (rozkład Gaussa) tego typu opcja jest bardzo wygodna,

median ˛a, gdy takiego rozkładu nie obserwujemy,

warto ´sci ˛a najbardziej prawdopodobn ˛a, np dla atrybutów nomi-nalnych,

warto ´sci ˛a losow ˛a z rozkładu dost ˛epnych danych,

wypełni ´c warto´s´c na podstawie zale˙zno´sci rozpatrywanej zmiennej z innymi zmiennymi w zbiorze danych

(57)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Uzupełnianie danych

Metoda k-nn

Metoda k-nn (k-nearest neighbors - najbli˙z-szych s ˛asiadów) słu˙zy ogólnie do oszacowa-nia nieznanej klasy pewnej obserwacji na ba-zie odległo´sci do najbli˙zszych punktów.

Uzupełnienie (imputation) metod ˛a k-nn

Bierzemy pod uwag ˛e rekordy o podobnych warto´sciach innych zmiennych ni˙z ta, której brakuje, a nast ˛epnie wyznaczamy do jakiej warto´sci jest najbli˙zej w takiej przestrzeni i ni ˛a wypełniamy brakuj ˛ace miejsce.

(58)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Uzupełnianie danych

Metoda k-nn

Metoda k-nn (k-nearest neighbors - najbli˙z-szych s ˛asiadów) słu˙zy ogólnie do oszacowa-nia nieznanej klasy pewnej obserwacji na ba-zie odległo´sci do najbli˙zszych punktów.

Uzupełnienie (imputation) metod ˛a k-nn

Bierzemy pod uwag ˛e rekordy o podobnych warto´sciach innych zmiennych ni˙z ta, której brakuje, a nast ˛epnie wyznaczamy do jakiej warto´sci jest najbli˙zej w takiej przestrzeni i ni ˛a wypełniamy brakuj ˛ace miejsce.

(59)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Uzupełnianie danych

Metoda k-nn

Metoda k-nn (k-nearest neighbors - najbli˙z-szych s ˛asiadów) słu˙zy ogólnie do oszacowa-nia nieznanej klasy pewnej obserwacji na ba-zie odległo´sci do najbli˙zszych punktów.

Uzupełnienie (imputation) metod ˛a k-nn

Bierzemy pod uwag ˛e rekordy o podobnych warto´sciach innych zmiennych ni˙z ta, której brakuje, a nast ˛epnie wyznaczamy do jakiej warto´sci jest najbli˙zej w takiej przestrzeni i ni ˛a wypełniamy brakuj ˛ace miejsce.

(60)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Wró ´cmy do schematu przepływu danych w “data science”...

[ ´Zródło:

(61)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Wró ´cmy do schematu przepływu danych w “data science”...

[ ´Zródło:

(62)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

... i zlokalizujmy na nim temat dzisiejszych zaj ˛e ´c.

[ ´Zródło:

(63)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

... i zlokalizujmy na nim temat dzisiejszych zaj ˛e ´c.

[ ´Zródło:

(64)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Eksploracyjna analiza danych

Na pocz ˛atkowym etapie analizy da-nych zaczyna si ˛e zwykle od najprost-szych metod: jest to eksploracyjna analiza danych (exploratory data ana-lysis - EDA). Składaj ˛a si ˛e na ni ˛a m. in.:

histogramy,

wykresy punktowe (scatterplot), wykresy pudełkowe [skrzynkowe] (box plot),

Ogólna definicja Johna Tukeya z lat 60-tych XX w. okre´sla EDA jako

procedury analizowania danych, metody interpretowania wyników takich pro-cedur, sposoby projektowania zbierania danych w celu uczynienia ich analizy łatwiejsz ˛a lub bardziej dokładn ˛a, oraz wszystkie techniki statystyczne które mog ˛a by´c stosowane w badaniu danych.

(65)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Eksploracyjna analiza danych

Na pocz ˛atkowym etapie analizy da-nych zaczyna si ˛e zwykle od najprost-szych metod: jest to eksploracyjna analiza danych (exploratory data ana-lysis - EDA). Składaj ˛a si ˛e na ni ˛a m. in.:

histogramy,

wykresy punktowe (scatterplot),

wykresy pudełkowe [skrzynkowe] (box plot),

Ogólna definicja Johna Tukeya z lat 60-tych XX w. okre´sla EDA jako

procedury analizowania danych, metody interpretowania wyników takich pro-cedur, sposoby projektowania zbierania danych w celu uczynienia ich analizy łatwiejsz ˛a lub bardziej dokładn ˛a, oraz wszystkie techniki statystyczne które mog ˛a by´c stosowane w badaniu danych.

(66)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Eksploracyjna analiza danych

Na pocz ˛atkowym etapie analizy da-nych zaczyna si ˛e zwykle od najprost-szych metod: jest to eksploracyjna analiza danych (exploratory data ana-lysis - EDA). Składaj ˛a si ˛e na ni ˛a m. in.:

histogramy,

wykresy punktowe (scatterplot), wykresy pudełkowe [skrzynkowe] (box plot),

Ogólna definicja Johna Tukeya z lat 60-tych XX w. okre´sla EDA jako

procedury analizowania danych, metody interpretowania wyników takich pro-cedur, sposoby projektowania zbierania danych w celu uczynienia ich analizy łatwiejsz ˛a lub bardziej dokładn ˛a, oraz wszystkie techniki statystyczne które mog ˛a by´c stosowane w badaniu danych.

(67)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Eksploracyjna analiza danych

Na pocz ˛atkowym etapie analizy da-nych zaczyna si ˛e zwykle od najprost-szych metod: jest to eksploracyjna analiza danych (exploratory data ana-lysis - EDA). Składaj ˛a si ˛e na ni ˛a m. in.:

histogramy,

wykresy punktowe (scatterplot), wykresy pudełkowe [skrzynkowe] (box plot),

Ogólna definicja Johna Tukeya z lat 60-tych XX w. okre´sla EDA jako

procedury analizowania danych, metody interpretowania wyników takich pro-cedur, sposoby projektowania zbierania danych w celu uczynienia ich analizy łatwiejsz ˛a lub bardziej dokładn ˛a, oraz wszystkie techniki statystyczne które mog ˛a by´c stosowane w badaniu danych.

(68)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Eksploracyjna analiza danych

Sens EDA jest szczególnie widoczny, gdynie posiadamy hipotezy ba-dawczej — cz ˛esto jest tak, ˙ze owa hipoteza jest nietrafiona lub te˙z za-w ˛e˙za nasz obszar bada ´n,

EDA jest, kolokwialnie mówi ˛ac,grzebaniem si ˛e w danych w celu wyty-powania istotnych obserwacji, faktów i cech rozpatrywanego układu, zaleca si ˛e, aby w trakcie EDA przy korzystaniu zestatystyk opisowych odchodzi´c od ´sredniej i odchylenia na rzecz statystyk odporno´sciowych (robust statistics), takich jak np. mediana,

Tukey w latach 70-tych XX w. podkre´slał, ˙ze wywierany jest zbyt du˙zy nacisk natestowanie hipotez bezpo´srednio na danych,

postulowane jest wykonanie EDAw celu zaproponowania hipotez ba-dawczych

(69)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Eksploracyjna analiza danych

(70)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Eksploracyjna analiza danych

(71)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Eksploracyjna analiza danych

(72)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Eksploracyjna analiza danych

(73)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody

Eksploracyjna analiza danych

(74)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0. Wektor γ(i)i-tej składowej głównej wektorax

yi ≡ γT(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

(75)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0. Wektor γ(i)i-tej składowej głównej wektorax

yi ≡ γT(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

(76)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0. Wektor γ(i)i-tej składowej głównej wektorax

yi ≡ γT(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

(77)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0.

Wektor γ(i)i-tej składowej głównej wektorax yi ≡ γT(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

(78)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0. Wektor γ(i)i-tej składowej głównej wektorax

yi ≡ γT(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

(79)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0. Wektor γ(i)i-tej składowej głównej wektorax

yi ≡ γT(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

(80)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0. Wektor γ(i)i-tej składowej głównej wektorax

yi ≡ γT(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

(81)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Analiza składowych głównych

Analiza składowych głównych (PCA - principal component analysis) polega ona na znalezieniunowego kierunku, który maksymalizuje wariancj ˛e zrzu-towanych na niego obserwacji. Nast ˛epnie szukamy kolejnego kierunku, rów-nie˙z o jak najwi ˛ekszej wariancji, tyle, ˙zeortogonalnego do poprzedniego etc. Okazuje si ˛e, ˙ze takie cechy odpowiadaj ˛a wektorom własnym zwi ˛azanym z ko-lejnymiwarto ´sciami własnymi (pocz ˛awszy od najwi ˛ekszej).

Twierdzenie o składowych głównych

Niech x b ˛edzie wektorem losowym o wektorze warto´sci oczekiwanych m i macierzy kowariancjiS i nich warto´sci własne tej macierzy, λi, i = 1, . . . , p, spełniaj ˛a warunek:

λ1≥ λ2≥ . . . γp>0. Wektor γ(i)i-tej składowej głównej wektorax

yi ≡ γT(i)(x − m)

i = 1, . . . , p, jest równy i-temu wektorowi własnemu macierzyS, odpowiada-j ˛acemu warto´sci własnej λi.

(82)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Wszystkie p składowe główne tworz ˛a wektory postaci y = ΓT(x − m)

czyli jest to przekształcenie wektora losowegox w wektor y, polegaj ˛ace ko-lejno na

1 przesuni ˛eciu wektorax o jego warto´s´c oczekiwan ˛a (scentrowania

wektora),

2 liniowym przekształceniu scentrowanego wektora za pomoc ˛a macierzy

ortogonalnej ΓT (geometrycznie jest obrócenie oryginalnego układu współprz ˛ednych o pewien k ˛at)

Osie nowego układu współrzednych , wyznaczone przez wektory ładunków γ(i)s ˛a tak dobrane, aby maksymalizowa´c wariancje rzutów oryginalnych wek-torów losowych na te osie, pod warunkiem, ˙ze kolejne rzuty nie s ˛a skorelo-wane z wcze´sniejszymi.

(83)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Wszystkie p składowe główne tworz ˛a wektory postaci y = ΓT(x − m)

czyli jest to przekształcenie wektora losowegox w wektor y, polegaj ˛ace ko-lejno na

1 przesuni ˛eciu wektorax o jego warto´s´c oczekiwan ˛a (scentrowania

wektora),

2 liniowym przekształceniu scentrowanego wektora za pomoc ˛a macierzy

ortogonalnej ΓT (geometrycznie jest obrócenie oryginalnego układu współprz ˛ednych o pewien k ˛at)

Osie nowego układu współrzednych , wyznaczone przez wektory ładunków γ(i)s ˛a tak dobrane, aby maksymalizowa´c wariancje rzutów oryginalnych wek-torów losowych na te osie, pod warunkiem, ˙ze kolejne rzuty nie s ˛a skorelo-wane z wcze´sniejszymi.

(84)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Wszystkie p składowe główne tworz ˛a wektory postaci y = ΓT(x − m)

czyli jest to przekształcenie wektora losowegox w wektor y, polegaj ˛ace ko-lejno na

1 przesuni ˛eciu wektorax o jego warto´s´c oczekiwan ˛a (scentrowania

wektora),

2 liniowym przekształceniu scentrowanego wektora za pomoc ˛a macierzy

ortogonalnej ΓT (geometrycznie jest obrócenie oryginalnego układu współprz ˛ednych o pewien k ˛at)

Osie nowego układu współrzednych , wyznaczone przez wektory ładunków γ(i)s ˛a tak dobrane, aby maksymalizowa´c wariancje rzutów oryginalnych wek-torów losowych na te osie, pod warunkiem, ˙ze kolejne rzuty nie s ˛a skorelo-wane z wcze´sniejszymi.

(85)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Przykład

Prosty, dwuwymiarowy przykład: obserwa-cj ˛a była para punktów zdobytych przez stu-denta w dwóch testach. Wida´c wyra´zn ˛a zale˙zno´s´c pomi ˛edzy jednym a drugim te-stem.

(86)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Przykład

Prosty, dwuwymiarowy przykład: obserwa-cj ˛a była para punktów zdobytych przez stu-denta w dwóch testach. Wida´c wyra´zn ˛a zale˙zno´s´c pomi ˛edzy jednym a drugim te-stem.

(87)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Do czego przydaje si ˛e analiza składowych głównych?

umo˙zliwiaredukcj ˛e wymiaru: w ten sposób jeste´smy w stanie okre´sli´c, które składowe (czylikolumny strukturyzowanych danych) s ˛a nieistotne, kryterium redukcji jest do´s´c proste: suma wszystkich warto´sci własnych macierzy kowariancjiS jest równa wariancji poszczególnych współrz ˛ed-nych wektorax; st ˛ad wielko´s´c

λ1+ . . . + λk λ1+ . . . + λp

100%

k ≤ p wyra˙za procent zmienno ´sci wektora losowego x wyja´sniony przez k pierwszych składowych głównych, gdy przez zmienno´s´c całko-wit ˛a rozumie si ˛e sum ˛e wariancji.

nowe składowe (składowe główne) s ˛a kombinacj ˛a liniow ˛a oryginal-nych kierunków w daoryginal-nych — w ten sposób mo˙zemy okre´sli´c sens (inter-pretacj ˛e) nowego kierunku

(88)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Do czego przydaje si ˛e analiza składowych głównych?

umo˙zliwiaredukcj ˛e wymiaru: w ten sposób jeste´smy w stanie okre´sli´c, które składowe (czylikolumny strukturyzowanych danych) s ˛a nieistotne, kryterium redukcji jest do´s´c proste: suma wszystkich warto´sci własnych macierzy kowariancjiS jest równa wariancji poszczególnych współrz ˛ed-nych wektorax; st ˛ad wielko´s´c

λ1+ . . . + λk λ1+ . . . + λp

100%

k ≤ p wyra˙za procent zmienno ´sci wektora losowego x wyja´sniony przez k pierwszych składowych głównych, gdy przez zmienno´s´c całko-wit ˛a rozumie si ˛e sum ˛e wariancji.

nowe składowe (składowe główne) s ˛a kombinacj ˛a liniow ˛a oryginal-nych kierunków w daoryginal-nych — w ten sposób mo˙zemy okre´sli´c sens (inter-pretacj ˛e) nowego kierunku

(89)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Analiza składowych głównych

Do czego przydaje si ˛e analiza składowych głównych?

umo˙zliwiaredukcj ˛e wymiaru: w ten sposób jeste´smy w stanie okre´sli´c, które składowe (czylikolumny strukturyzowanych danych) s ˛a nieistotne, kryterium redukcji jest do´s´c proste: suma wszystkich warto´sci własnych macierzy kowariancjiS jest równa wariancji poszczególnych współrz ˛ed-nych wektorax; st ˛ad wielko´s´c

λ1+ . . . + λk λ1+ . . . + λp

100%

k ≤ p wyra˙za procent zmienno ´sci wektora losowego x wyja´sniony przez k pierwszych składowych głównych, gdy przez zmienno´s´c całko-wit ˛a rozumie si ˛e sum ˛e wariancji.

nowe składowe (składowe główne) s ˛a kombinacj ˛a liniow ˛a oryginal-nych kierunków w daoryginal-nych — w ten sposób mo˙zemy okre´sli´c sens (inter-pretacj ˛e) nowego kierunku

(90)

Czyszczenie danych Klasyfikacja Przykłady Fazy czyszczenia danych Analiza danych Rola ED EDA Zaawansowane metody Skalowanie wielowymiarowe

Skalowanie wielowymiarowe

Niech dij, i, j, = 1, . . . , n b ˛ed ˛a odległo´sciami euklidesowymi mi ˛edzy obserwa-cjamixi ixj w przestrzeni Rp. Zdanie polega na znalezieniu takiej podprze-strzeni Rr o wymiarze r , by odległo´sci euklidesowe ˆd

ij mi ˛edzy rzutami obser-wacji na t ˛e podprzestrze ´n minimalizowały sum ˛e

V = n X i=1 n X j=1  dij2− ˆd 2 ij 

Okazuje si ˛e, ˙ze przestrze ´n okre´slana przez r pierwszych składowych głów-nych jest rozwi ˛azaniem zadania — czyli podana podprzestrze ´n najlepiej od-twarza oryginaln ˛a konfiguracj ˛e obserwacji.

Odtworzenie konfiguracji punktów w przestrzeni o wymiarze mniejszym od oryginalnego ma wielkie znaczenie, bior ˛ac pod uwag ˛e post ˛ep wizualizacji da-nych dwu- i trójwymiarowych.

Cytaty

Powiązane dokumenty

562, z późniejszymi zmianami) dyrektor Okręgowej Komisji Egzaminacyjnej w Gdańsku ustalił, Ŝe część pisemna egzaminu maturalnego w terminie dodatkowym w czerwcu 2013 roku

W trójkącie równoramiennym wysokość opuszczona na podstawę jest równa 36, a promień okręgu wpisanego w ten trójkąt jest równy 10. Oblicz długości boków tego trójkąta

Oblicz promień okręgu wpisanego w trójkąt ABP, gdzie P jest punktem przecięcia przekątnych tego trapezu.. Więcej arkuszy znajdziesz na

Na pierwszej godzinie ćwiczeń (14:15–15:00) będzie kolokwium z tego samego zakresu materiału, co poprzednio.. Drugą godzinę ćwiczeń zaczniemy od omówienia zadań 55 i 56

PP 4.8) Uczeń szkicuje wykres funkcji kwadratowej, korzysta- jąc z jej wzoru. Wymagania szczegółowe PP 4.10) Uczeń interpretuje współczynniki występujące we

Magda z Anką planowały, że nauczą się grać w golfa, ale Anka jednak zdecydowała się na aerobik, więc Magda poszła na lekcje sama.. E:

No więc, musiałam się uciec do pomocy, zadzwoniłam do kogoś, kto już stał po drugiej stronie, tam to był menedżer pociągu, Belg i on przeprowadził mnie już na peron,

- dodatkowego odpisu dyplomu ukończenia studiów w tłumaczeniu na język obcy (liczba sztuk ______) i odpisu suplementu do dyplomu w tłumaczeniu na język angielski (liczba sztuk