Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Wprowadzenie do “data science”
Wykład 1 - wst ˛ep, wybrane przykłady
dr in˙z. Julian Sienkiewicz
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Plan wykładu
1
Sprawy organizacyjne
Kontakt, zasady zaliczania
Literatura
2
Ramowy program wykładu
3
Wst ˛ep
Pytania o “data science”
Big data
Data science
Data scientist
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Kontakt, zasady zaliczania
Kontakt
dr in˙z. Julian Sienkiewicz
Pracownia Fizyki w Ekonomii i Naukach Społecznych
Gmach Matematyki, pokój 529
tel. 22 234 5808, email:
julian.sienkiewicz@pw.edu.pl
WWW:
www.fizyka.pw.edu.pl/~julas/WDS
Zasady zaliczania przedmiotu
Jedno
kolokwium w semestrze, 20 pkt. do zdobycia:
Cztery pytania otwarte po 2.5 pkt. ka˙zde,
20 pyta ´n zamkni ˛etych (test wyboru) po 0.5 pkt ka˙zde, 11 punktów zalicza kolokwium i zarazem przedmiot.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Kontakt, zasady zaliczania
Kontakt
dr in˙z. Julian Sienkiewicz
Pracownia Fizyki w Ekonomii i Naukach Społecznych
Gmach Matematyki, pokój 529
tel. 22 234 5808, email:
julian.sienkiewicz@pw.edu.pl
WWW:
www.fizyka.pw.edu.pl/~julas/WDS
Zasady zaliczania przedmiotu
Jedno
kolokwium w semestrze, 20 pkt. do zdobycia:
Cztery pytania otwarte po 2.5 pkt. ka˙zde,
20 pyta ´n zamkni ˛etych (test wyboru) po 0.5 pkt ka˙zde, 11 punktów zalicza kolokwium i zarazem przedmiot.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Literatura
Literatura dotycz ˛acadokładnie przedmiotu wykładu jest do´s´c... pro-blematyczna. Poni˙zej trzy pozycje dost ˛epne po polsku
M. Szeliga, Data science i uczenie maszynowe, PWN (2017), G. Trzpiot (red), Statystyka a Data Science, Wydawnictwo UE w Katowicach, (2017)
R. Schutt, C. O’Neil, Badanie danych. Raport z pierwszej linii działa ´n, Helion (2014)
Polecam równie˙z poni˙zsze pozycje w j ˛ez. angielskim:
R. Schutt, C. O’Neil Doing Data Science: Straight Talk from the Frontline, O’Reilly (2013).
H. Wickham, R for Data Science: Import, Tidy, Transform, Visualize, and Model Data, O’Reilly (2017)
J. Grus, Data Science from Scratch: First Principles with Python, O’Reilly (2015).
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Ramowy program wykładu
1 Idea “data science” oraz “big data”, koncepcja 4V: volume,
velocity, variety, veracity.
2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.
4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem
i bez nadzoru, klasyfikacja.
7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.
9 Wizualizacja danych.
10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Ramowy program wykładu
1 Idea “data science” oraz “big data”, koncepcja 4V: volume,
velocity, variety, veracity.
2 Wybrane przykłady zastosowania “data science”.
3 Zdobywanie danych: web-mining, eksploracja tesktu.
4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem
i bez nadzoru, klasyfikacja.
7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.
9 Wizualizacja danych.
10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Ramowy program wykładu
1 Idea “data science” oraz “big data”, koncepcja 4V: volume,
velocity, variety, veracity.
2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.
4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem
i bez nadzoru, klasyfikacja.
7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.
9 Wizualizacja danych.
10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Ramowy program wykładu
1 Idea “data science” oraz “big data”, koncepcja 4V: volume,
velocity, variety, veracity.
2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.
4 Przetwarzanie i obróbka danych. Metody czyszczenia danych.
5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem
i bez nadzoru, klasyfikacja.
7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.
9 Wizualizacja danych.
10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Ramowy program wykładu
1 Idea “data science” oraz “big data”, koncepcja 4V: volume,
velocity, variety, veracity.
2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.
4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL.
6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem
i bez nadzoru, klasyfikacja.
7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.
9 Wizualizacja danych.
10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Ramowy program wykładu
1 Idea “data science” oraz “big data”, koncepcja 4V: volume,
velocity, variety, veracity.
2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.
4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem
i bez nadzoru, klasyfikacja.
7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.
9 Wizualizacja danych.
10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Ramowy program wykładu
1 Idea “data science” oraz “big data”, koncepcja 4V: volume,
velocity, variety, veracity.
2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.
4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem
i bez nadzoru, klasyfikacja.
7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´
8 Modele oparte na danych. 9 Wizualizacja danych.
10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Ramowy program wykładu
1 Idea “data science” oraz “big data”, koncepcja 4V: volume,
velocity, variety, veracity.
2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.
4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem
i bez nadzoru, klasyfikacja.
7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.
9 Wizualizacja danych.
10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Ramowy program wykładu
1 Idea “data science” oraz “big data”, koncepcja 4V: volume,
velocity, variety, veracity.
2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.
4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem
i bez nadzoru, klasyfikacja.
7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.
9 Wizualizacja danych.
10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep
Ramowy program wykładu
1 Idea “data science” oraz “big data”, koncepcja 4V: volume,
velocity, variety, veracity.
2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.
4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem
i bez nadzoru, klasyfikacja.
7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.
9 Wizualizacja danych.
10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Pytania o “data science”
Problemy z terminologi ˛a
Czym jest“data science”? Czy to to samo co “big-data”?
Problemy z uzaniem pracy innych
Przez lata statystycy, informatycy, matematyce, in˙zynierowie i ogólnie wsze-lacy naukowcy pracowali nad podobnymi rzeczami. Czy naprawd ˛e uczenie maszynowe wynalezionowczoraj a dane nie były “wielkie” póki nie zjawił si ˛e Google?
Statystycy
Wydaje si ˛e, ˙ze odpowiedni ˛a grup ˛a, która zajmuje si ˛e “science of data” s ˛a sta-tystycy. Media cz ˛esto opisuj ˛a “data science” jak zwykł ˛a statystyk˛e. Jak to w ko ´ncu jest?
“Nauka”
Mówi ˛a, ˙ze “cokolwiek, co czuje si ˛e w obowi ˛azku by´c nazywanym ‘nauk ˛a’ po prostu ni ˛a nie jest”. Czy w takim razie “data science” mo˙ze by´c np. rzemio-słem?
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Pytania o “data science”
Problemy z terminologi ˛a
Czym jest“data science”? Czy to to samo co “big-data”?
Problemy z uzaniem pracy innych
Przez lata statystycy, informatycy, matematyce, in˙zynierowie i ogólnie wsze-lacy naukowcy pracowali nad podobnymi rzeczami. Czy naprawd ˛e uczenie maszynowe wynalezionowczoraj a dane nie były “wielkie” póki nie zjawił si ˛e Google?
Statystycy
Wydaje si ˛e, ˙ze odpowiedni ˛a grup ˛a, która zajmuje si ˛e “science of data” s ˛a sta-tystycy. Media cz ˛esto opisuj ˛a “data science” jak zwykł ˛a statystyk˛e. Jak to w ko ´ncu jest?
“Nauka”
Mówi ˛a, ˙ze “cokolwiek, co czuje si ˛e w obowi ˛azku by´c nazywanym ‘nauk ˛a’ po prostu ni ˛a nie jest”. Czy w takim razie “data science” mo˙ze by´c np. rzemio-słem?
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Pytania o “data science”
Problemy z terminologi ˛a
Czym jest“data science”? Czy to to samo co “big-data”?
Problemy z uzaniem pracy innych
Przez lata statystycy, informatycy, matematyce, in˙zynierowie i ogólnie wsze-lacy naukowcy pracowali nad podobnymi rzeczami. Czy naprawd ˛e uczenie maszynowe wynalezionowczoraj a dane nie były “wielkie” póki nie zjawił si ˛e Google?
Statystycy
Wydaje si ˛e, ˙ze odpowiedni ˛a grup ˛a, która zajmuje si ˛e “science of data” s ˛a sta-tystycy. Media cz ˛esto opisuj ˛a “data science” jak zwykł ˛a statystyk˛e. Jak to w ko ´ncu jest?
“Nauka”
Mówi ˛a, ˙ze “cokolwiek, co czuje si ˛e w obowi ˛azku by´c nazywanym ‘nauk ˛a’ po prostu ni ˛a nie jest”. Czy w takim razie “data science” mo˙ze by´c np. rzemio-słem?
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Pytania o “data science”
Problemy z terminologi ˛a
Czym jest“data science”? Czy to to samo co “big-data”?
Problemy z uzaniem pracy innych
Przez lata statystycy, informatycy, matematyce, in˙zynierowie i ogólnie wsze-lacy naukowcy pracowali nad podobnymi rzeczami. Czy naprawd ˛e uczenie maszynowe wynalezionowczoraj a dane nie były “wielkie” póki nie zjawił si ˛e Google?
Statystycy
Wydaje si ˛e, ˙ze odpowiedni ˛a grup ˛a, która zajmuje si ˛e “science of data” s ˛a sta-tystycy. Media cz ˛esto opisuj ˛a “data science” jak zwykł ˛a statystyk˛e. Jak to w ko ´ncu jest?
“Nauka”
Mówi ˛a, ˙ze “cokolwiek, co czuje si ˛e w obowi ˛azku by´c nazywanym ‘nauk ˛a’ po prostu ni ˛a nie jest”. Czy w takim razie “data science” mo˙ze by´c np. rzemio-słem?
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Pytania o “data science”
When you’re fundraising, it’s AI When you’re hiring, it’s ML
When you’re implementing, it’s linear regression When you’re debugging, it’s printf()
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Big data: The next frontier for innovation, competition, and productivity, McKinsey 2011
“Big data” refers to datasets whose size isbeyond the ability of typical database software tools to capture, store, manage, and analyze. This definition is inten-tionally subjective and incorporates a moving defini-tion of how big a dataset needs to be in order to be considered big data [...]. We assume that, as tech-nology advances over time,the size of datasets that qualify as big data will also increase [...].
[Grafika pobrana z: https: //skuteczneraporty.pl]
Termin “big data” odnosi si ˛e do zbiorów danych, których rozmiar znajduje si ˛e po zasi ˛egiem typowych narz ˛edzi programistycznych baz danych, słu˙z ˛acych do pobierania, składowania, zarz ˛adzania i analizowania owych zbiorów. De-finicja ta jest celowo subiektywna, we wzgl ˛edny sposób okre´slaj ˛ac jak wielki musi by´c zbiór, aby mógł by´c zaliczony do “big data”. Jednocze´snie, wraz ze post ˛epem technologicznym rozmiar zbiorów okre´slanych jako “big data” b ˛e-dzie si ˛e zwi ˛ekszał.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Big data: The next frontier for innovation, competition, and productivity, McKinsey 2011
“Big data” refers to datasets whose size isbeyond the ability of typical database software tools to capture, store, manage, and analyze. This definition is inten-tionally subjective and incorporates a moving defini-tion of how big a dataset needs to be in order to be considered big data [...]. We assume that, as tech-nology advances over time,the size of datasets that qualify as big data will also increase [...].
[Grafika pobrana z: https: //skuteczneraporty.pl]
Termin “big data” odnosi si ˛e do zbiorów danych, których rozmiar znajduje si ˛e po zasi ˛egiem typowych narz ˛edzi programistycznych baz danych, słu˙z ˛acych do pobierania, składowania, zarz ˛adzania i analizowania owych zbiorów. De-finicja ta jest celowo subiektywna, we wzgl ˛edny sposób okre´slaj ˛ac jak wielki musi by´c zbiór, aby mógł by´c zaliczony do “big data”. Jednocze´snie, wraz ze post ˛epem technologicznym rozmiar zbiorów okre´slanych jako “big data” b ˛e-dzie si ˛e zwi ˛ekszał.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Cz ˛esto, aby uj ˛
a´c cechy “big data” w bardziej obrazowy sposób
u˙zywa si ˛e notacji XX wielkich liter
V, gdzie XX jest liczb ˛
a od
3 do 8 (lub wi ˛ecej). Poszczególne litery
V (w przypadku 4V)
odpowiadaj ˛
a:
VOLUME
rozmiar danych - z definicji jest
wielki i ta cecha była na
po-cz ˛
atku głównym wyró˙znikiem
VELOCITY
szybko´s´c danych - tempo
na-pływu danych z ró˙znych
plat-form (np. Forex) jest olbrzymie
VARIETY
ró˙znorodno´s´c danych - zbiory
danych dotycz ˛
a ró˙znych
proce-sów wi ˛e´c ró˙zne s ˛
a zmienne
VERACITY
niepewno´s´c danych - spora
cz ˛e´s´c
danych
jest
bardzo
“brudna” co rzutuje na wyci ˛
a-gane wnioski
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Cz ˛esto, aby uj ˛
a´c cechy “big data” w bardziej obrazowy sposób
u˙zywa si ˛e notacji XX wielkich liter
V, gdzie XX jest liczb ˛
a od
3 do 8 (lub wi ˛ecej). Poszczególne litery
V (w przypadku 4V)
odpowiadaj ˛
a:
VOLUME
rozmiar danych - z definicji jest
wielki i ta cecha była na
po-cz ˛
atku głównym wyró˙znikiem
VELOCITY
szybko´s´c danych - tempo
na-pływu danych z ró˙znych
plat-form (np. Forex) jest olbrzymie
VARIETY
ró˙znorodno´s´c danych - zbiory
danych dotycz ˛
a ró˙znych
proce-sów wi ˛e´c ró˙zne s ˛
a zmienne
VERACITY
niepewno´s´c danych - spora
cz ˛e´s´c
danych
jest
bardzo
“brudna” co rzutuje na wyci ˛
a-gane wnioski
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Cz ˛esto, aby uj ˛
a´c cechy “big data” w bardziej obrazowy sposób
u˙zywa si ˛e notacji XX wielkich liter
V, gdzie XX jest liczb ˛
a od
3 do 8 (lub wi ˛ecej). Poszczególne litery
V (w przypadku 4V)
odpowiadaj ˛
a:
VOLUME
rozmiar danych - z definicji jest
wielki i ta cecha była na
po-cz ˛
atku głównym wyró˙znikiem
VELOCITY
szybko´s´c danych - tempo
na-pływu danych z ró˙znych
plat-form (np. Forex) jest olbrzymie
VARIETY
ró˙znorodno´s´c danych - zbiory
danych dotycz ˛
a ró˙znych
proce-sów wi ˛e´c ró˙zne s ˛
a zmienne
VERACITY
niepewno´s´c danych - spora
cz ˛e´s´c
danych
jest
bardzo
“brudna” co rzutuje na wyci ˛
a-gane wnioski
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Cz ˛esto, aby uj ˛
a´c cechy “big data” w bardziej obrazowy sposób
u˙zywa si ˛e notacji XX wielkich liter
V, gdzie XX jest liczb ˛
a od
3 do 8 (lub wi ˛ecej). Poszczególne litery
V (w przypadku 4V)
odpowiadaj ˛
a:
VOLUME
rozmiar danych - z definicji jest
wielki i ta cecha była na
po-cz ˛
atku głównym wyró˙znikiem
VELOCITY
szybko´s´c danych - tempo
na-pływu danych z ró˙znych
plat-form (np. Forex) jest olbrzymie
VARIETY
ró˙znorodno´s´c danych - zbiory
danych dotycz ˛
a ró˙znych
proce-sów wi ˛e´c ró˙zne s ˛
a zmienne
VERACITY
niepewno´s´c danych - spora
cz ˛e´s´c
danych
jest
bardzo
“brudna” co rzutuje na wyci ˛
a-gane wnioski
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Cz ˛esto, aby uj ˛
a´c cechy “big data” w bardziej obrazowy sposób
u˙zywa si ˛e notacji XX wielkich liter
V, gdzie XX jest liczb ˛
a od
3 do 8 (lub wi ˛ecej). Poszczególne litery
V (w przypadku 4V)
odpowiadaj ˛
a:
VOLUME
rozmiar danych - z definicji jest
wielki i ta cecha była na
po-cz ˛
atku głównym wyró˙znikiem
VELOCITY
szybko´s´c danych - tempo
na-pływu danych z ró˙znych
plat-form (np. Forex) jest olbrzymie
VARIETY
ró˙znorodno´s´c danych - zbiory
danych dotycz ˛
a ró˙znych
proce-sów wi ˛e´c ró˙zne s ˛
a zmienne
VERACITY
niepewno´s´c danych - spora
cz ˛e´s´c
danych
jest
bardzo
“brudna” co rzutuje na wyci ˛
a-gane wnioski
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
[Grafika pobrana z: https://www.thinkbiganalytics.com/2016/03/29/ big- data- 3vs- fourth- v- implications- not- embracing/]
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science
Spójrzmy na definicje z Wikipedii [https://en.wikipedia.org/ wiki/Data_science]
Data science, also known as data-driven science, is an interdiscipli-nary field about scientific methods, processes, and systems to extract knowledge or insights from data in various forms, either structured or unstructured similar to data mining.
Data science is a “concept to unify statistics, data analysis and their related methods” in order to “understand and analyze actual pheno-mena” with data. It employs techniques and theories drawn from many fields within the broad areas of mathematics, statistics, information science, and computer science, in particular from the subdomains of machine learning, classification, cluster analysis, data mining, databa-ses, and visualization.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science
Spójrzmy na definicje z Wikipedii [https://en.wikipedia.org/ wiki/Data_science]
Data science, also known as data-driven science, is an interdiscipli-nary field about scientific methods, processes, and systems to extract knowledge or insights from data in various forms, either structured or unstructured similar to data mining.
Data science is a “concept to unify statistics, data analysis and their related methods” in order to “understand and analyze actual pheno-mena” with data. It employs techniques and theories drawn from many fields within the broad areas of mathematics, statistics, information science, and computer science, in particular from the subdomains of machine learning, classification, cluster analysis, data mining, databa-ses, and visualization.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science
Spójrzmy na definicje z Wikipedii [https://en.wikipedia.org/ wiki/Data_science]
Data science, also known as data-driven science, is an interdiscipli-nary field about scientific methods, processes, and systems to extract knowledge or insights from data in various forms, either structured or unstructured similar to data mining.
Data science is a “concept to unify statistics, data analysis and their related methods” in order to “understand and analyze actual pheno-mena” with data. It employs techniques and theories drawn from many fields within the broad areas of mathematics, statistics, information science, and computer science, in particular from the subdomains of machine learning, classification, cluster analysis, data mining, databa-ses, and visualization.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science
Aby odpowiedzie´c, czy jest “data science” cz ˛esto u˙zywa si ˛e umówie ´n:
Mike Driscoll, [Schutt & O’Neil, s. 7]
Data science, as it’s practiced, is a blend of Red-Bull-fueled hacking and espresso-inspired statistics.
But data science is not merely hac-king—because when hackers finish debug-ging their Bash one-liners and Pig scripts, few of them care about non-Euclidean di-stance metrics.
And data science is not merely statistics, because when statisticians finish theorizing the perfect model, few could read a tab-delimited file into R if their job depended on it.
Data science is the civil engineering of data. Its acolytes possess a practical knowledge of tools and materials, coupled with a the-oretical understanding of what’s possible.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science
Aby odpowiedzie´c, czy jest “data science” cz ˛esto u˙zywa si ˛e umówie ´n:
Mike Driscoll, [Schutt & O’Neil, s. 7]
Data science, as it’s practiced, is a blend of Red-Bull-fueled hacking and espresso-inspired statistics.
But data science is not merely hac-king—because when hackers finish debug-ging their Bash one-liners and Pig scripts, few of them care about non-Euclidean di-stance metrics.
And data science is not merely statistics, because when statisticians finish theorizing the perfect model, few could read a tab-delimited file into R if their job depended on it.
Data science is the civil engineering of data. Its acolytes possess a practical knowledge of tools and materials, coupled with a the-oretical understanding of what’s possible.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science
Aby odpowiedzie´c, czy jest “data science” cz ˛esto u˙zywa si ˛e umówie ´n:
Mike Driscoll, [Schutt & O’Neil, s. 7]
Data science, as it’s practiced, is a blend of Red-Bull-fueled hacking and espresso-inspired statistics.
But data science is not merely hac-king—because when hackers finish debug-ging their Bash one-liners and Pig scripts, few of them care about non-Euclidean di-stance metrics.
And data science is not merely statistics, because when statisticians finish theorizing the perfect model, few could read a tab-delimited file into R if their job depended on it.
Data science is the civil engineering of data. Its acolytes possess a practical knowledge of tools and materials, coupled with a the-oretical understanding of what’s possible.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science
Wygodnym sposobem jest te˙z u˙zycie schematu przepływu
da-nych
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science
Data science
Termindata science został po raz pierwszy u˙zyty przez Petera Naura w 1960 r., aby okre´sli´c metody automatycznego przetwarzania danych przy u˙zyciu komputerów. Pocz ˛awszy od tego czasu u˙zywa si ˛e go w ´srodowisku naukowym (na pocz ˛atku głównie w´sród statystyków).
Ogólny opis data science [wg. Data science i uczenie maszynowe] Podstawowym zało˙zeniem data science jest uczenie si ˛e, zarówno lu-dzi, jak i maszyn, na podstawie danych. W odró˙znieniu odmetody empirycznej w eksperymentach u˙zywa si ˛e wszelkich danych cyfro-wych, analizowanych za pomoc ˛a komputerów.
Analizy te odbywaj ˛a si ˛e za pomoc ˛a modeli eksploracji danych, które korzystaj ˛ac z konkretnych algorytmów (np. sieci neuronowe) rozpo-znaj ˛a ukryte w danych wzorce i na tej podstawie tworz ˛a ogólne re-guły.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science
Data science
Termindata science został po raz pierwszy u˙zyty przez Petera Naura w 1960 r., aby okre´sli´c metody automatycznego przetwarzania danych przy u˙zyciu komputerów. Pocz ˛awszy od tego czasu u˙zywa si ˛e go w ´srodowisku naukowym (na pocz ˛atku głównie w´sród statystyków). Ogólny opis data science [wg. Data science i uczenie maszynowe] Podstawowym zało˙zeniem data science jest uczenie si ˛e, zarówno lu-dzi, jak i maszyn, na podstawie danych. W odró˙znieniu odmetody empirycznej w eksperymentach u˙zywa si ˛e wszelkich danych cyfro-wych, analizowanych za pomoc ˛a komputerów.
Analizy te odbywaj ˛a si ˛e za pomoc ˛a modeli eksploracji danych, które korzystaj ˛ac z konkretnych algorytmów (np. sieci neuronowe) rozpo-znaj ˛a ukryte w danych wzorce i na tej podstawie tworz ˛a ogólne re-guły.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data scientist
OK, czym jest tak naprawd ˛e “data scientist”? [Schutt & O’Neil, s. 14] Prawda jest taka, ˙ze na uczelni nikt nie nazwie siebie “in˙zynierem da-nych”, no mo˙ze poza przypadkiem, gdy stanowi to dodatkowy tytuł umo˙zliwiaj ˛acy podł ˛aczenie si ˛e do innej jednostki na uczelni (np. “Cen-trum In˙zynierii Danych”) lub te˙z gdy aplikuje o grant i wtedy zaliczenie si ˛e do grupy “data scientists” staje si ˛e bardzo po˙z ˛adane.
De facto In˙zynierem danych jest naukowiec, wyszkolony w czymkol-wiek,pocz ˛awszy od nauk społecznych, a sko ´nczywszy na biolo-gii, który pracuje z du˙zymi ilo ´sciami danych i musi zmierzy´c si ˛e z problemami obliczeniowymi spowodowanymi struktur ˛a, rozmiarem, a tak˙ze zło˙zono´s´c i charakterem danych, równocze´snie rozwi ˛azuj ˛ac rzeczywisty problem.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data scientist
OK, czym jest tak naprawd ˛e “data scientist”? [Schutt & O’Neil, s. 14] Prawda jest taka, ˙ze na uczelni nikt nie nazwie siebie “in˙zynierem da-nych”, no mo˙ze poza przypadkiem, gdy stanowi to dodatkowy tytuł umo˙zliwiaj ˛acy podł ˛aczenie si ˛e do innej jednostki na uczelni (np. “Cen-trum In˙zynierii Danych”) lub te˙z gdy aplikuje o grant i wtedy zaliczenie si ˛e do grupy “data scientists” staje si ˛e bardzo po˙z ˛adane.
De facto In˙zynierem danych jest naukowiec, wyszkolony w czymkol-wiek,pocz ˛awszy od nauk społecznych, a sko ´nczywszy na biolo-gii, który pracuje z du˙zymi ilo ´sciami danych i musi zmierzy´c si ˛e z problemami obliczeniowymi spowodowanymi struktur ˛a, rozmiarem, a tak˙ze zło˙zono´s´c i charakterem danych, równocze´snie rozwi ˛azuj ˛ac rzeczywisty problem.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data scientist
A w przemy´sle? [Schutt & O’Neil, s. 15]
W przypadku przemysłu in˙zynierem danych jest kto´s, kto wie, jak wy-odr ˛ebni ´c znaczenie i interpretowa ´c dane, które wymaga zarówno narz ˛edzi statystyki i uczenia maszynowego, a tak˙ze bycia czło-wiekiem. Sp ˛edza du˙zo czasu podczas zbierania, czyszczenia i nisz-czenia danych, poniewa˙zdane nigdy nie s ˛a czyste. Proces ten wy-maga wytrwało´sci, statystyk i umiej ˛etno´sci in˙zynierii oprogramowania - umiej ˛etno´sci niezb ˛ednych do zrozumienia bł ˛edów w danych oraz do debugowania kodu.
Finalnie istotn ˛a cz ˛e´sci ˛a jest eksploracja danych, która ł ˛aczy w so-bie wizualizacj ˛e i zmysł danych. In˙zynierem danych znajdujewzorce, buduje modele i algorytmy [..]. Mo˙ze projektowa´c eksperymenty i jest stanowi najwa˙zniejszy składnikprocesu podejmowania decyzji. Komunikuje si ˛e z członkami zespołu, in˙zynierów i liderem w jasny spo-sób,wizualizuj ˛ac dane, dzi ˛eki czemu nawet je´sli jego/jej koledzy nie s ˛a zupełnie znaznajomieni z konkretnymi danymi, łatwo zrozumiej ˛a konsekwencje.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data scientist
A w przemy´sle? [Schutt & O’Neil, s. 15]
W przypadku przemysłu in˙zynierem danych jest kto´s, kto wie, jak wy-odr ˛ebni ´c znaczenie i interpretowa ´c dane, które wymaga zarówno narz ˛edzi statystyki i uczenia maszynowego, a tak˙ze bycia czło-wiekiem. Sp ˛edza du˙zo czasu podczas zbierania, czyszczenia i nisz-czenia danych, poniewa˙zdane nigdy nie s ˛a czyste. Proces ten wy-maga wytrwało´sci, statystyk i umiej ˛etno´sci in˙zynierii oprogramowania - umiej ˛etno´sci niezb ˛ednych do zrozumienia bł ˛edów w danych oraz do debugowania kodu.
Finalnie istotn ˛a cz ˛e´sci ˛a jest eksploracja danych, która ł ˛aczy w so-bie wizualizacj ˛e i zmysł danych. In˙zynierem danych znajdujewzorce, buduje modele i algorytmy [..]. Mo˙ze projektowa´c eksperymenty i jest stanowi najwa˙zniejszy składnikprocesu podejmowania decyzji. Komunikuje si ˛e z członkami zespołu, in˙zynierów i liderem w jasny spo-sób,wizualizuj ˛ac dane, dzi ˛eki czemu nawet je´sli jego/jej koledzy nie s ˛a zupełnie znaznajomieni z konkretnymi danymi, łatwo zrozumiej ˛a konsekwencje.
Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data scientist