• Nie Znaleziono Wyników

Wykład 1

N/A
N/A
Protected

Academic year: 2021

Share "Wykład 1"

Copied!
51
0
0

Pełen tekst

(1)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Wprowadzenie do “data science”

Wykład 1 - wst ˛ep, wybrane przykłady

dr in˙z. Julian Sienkiewicz

(2)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Plan wykładu

1

Sprawy organizacyjne

Kontakt, zasady zaliczania

Literatura

2

Ramowy program wykładu

3

Wst ˛ep

Pytania o “data science”

Big data

Data science

Data scientist

(3)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Kontakt, zasady zaliczania

Kontakt

dr in˙z. Julian Sienkiewicz

Pracownia Fizyki w Ekonomii i Naukach Społecznych

Gmach Matematyki, pokój 529

tel. 22 234 5808, email:

julian.sienkiewicz@pw.edu.pl

WWW:

www.fizyka.pw.edu.pl/~julas/WDS

Zasady zaliczania przedmiotu

Jedno

kolokwium w semestrze, 20 pkt. do zdobycia:

Cztery pytania otwarte po 2.5 pkt. ka˙zde,

20 pyta ´n zamkni ˛etych (test wyboru) po 0.5 pkt ka˙zde, 11 punktów zalicza kolokwium i zarazem przedmiot.

(4)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Kontakt, zasady zaliczania

Kontakt

dr in˙z. Julian Sienkiewicz

Pracownia Fizyki w Ekonomii i Naukach Społecznych

Gmach Matematyki, pokój 529

tel. 22 234 5808, email:

julian.sienkiewicz@pw.edu.pl

WWW:

www.fizyka.pw.edu.pl/~julas/WDS

Zasady zaliczania przedmiotu

Jedno

kolokwium w semestrze, 20 pkt. do zdobycia:

Cztery pytania otwarte po 2.5 pkt. ka˙zde,

20 pyta ´n zamkni ˛etych (test wyboru) po 0.5 pkt ka˙zde, 11 punktów zalicza kolokwium i zarazem przedmiot.

(5)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Literatura

Literatura dotycz ˛acadokładnie przedmiotu wykładu jest do´s´c... pro-blematyczna. Poni˙zej trzy pozycje dost ˛epne po polsku

M. Szeliga, Data science i uczenie maszynowe, PWN (2017), G. Trzpiot (red), Statystyka a Data Science, Wydawnictwo UE w Katowicach, (2017)

R. Schutt, C. O’Neil, Badanie danych. Raport z pierwszej linii działa ´n, Helion (2014)

Polecam równie˙z poni˙zsze pozycje w j ˛ez. angielskim:

R. Schutt, C. O’Neil Doing Data Science: Straight Talk from the Frontline, O’Reilly (2013).

H. Wickham, R for Data Science: Import, Tidy, Transform, Visualize, and Model Data, O’Reilly (2017)

J. Grus, Data Science from Scratch: First Principles with Python, O’Reilly (2015).

(6)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Ramowy program wykładu

1 Idea “data science” oraz “big data”, koncepcja 4V: volume,

velocity, variety, veracity.

2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.

4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem

i bez nadzoru, klasyfikacja.

7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.

9 Wizualizacja danych.

10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach

(7)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Ramowy program wykładu

1 Idea “data science” oraz “big data”, koncepcja 4V: volume,

velocity, variety, veracity.

2 Wybrane przykłady zastosowania “data science”.

3 Zdobywanie danych: web-mining, eksploracja tesktu.

4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem

i bez nadzoru, klasyfikacja.

7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.

9 Wizualizacja danych.

10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach

(8)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Ramowy program wykładu

1 Idea “data science” oraz “big data”, koncepcja 4V: volume,

velocity, variety, veracity.

2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.

4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem

i bez nadzoru, klasyfikacja.

7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.

9 Wizualizacja danych.

10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach

(9)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Ramowy program wykładu

1 Idea “data science” oraz “big data”, koncepcja 4V: volume,

velocity, variety, veracity.

2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.

4 Przetwarzanie i obróbka danych. Metody czyszczenia danych.

5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem

i bez nadzoru, klasyfikacja.

7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.

9 Wizualizacja danych.

10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach

(10)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Ramowy program wykładu

1 Idea “data science” oraz “big data”, koncepcja 4V: volume,

velocity, variety, veracity.

2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.

4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL.

6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem

i bez nadzoru, klasyfikacja.

7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.

9 Wizualizacja danych.

10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach

(11)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Ramowy program wykładu

1 Idea “data science” oraz “big data”, koncepcja 4V: volume,

velocity, variety, veracity.

2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.

4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem

i bez nadzoru, klasyfikacja.

7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.

9 Wizualizacja danych.

10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach

(12)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Ramowy program wykładu

1 Idea “data science” oraz “big data”, koncepcja 4V: volume,

velocity, variety, veracity.

2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.

4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem

i bez nadzoru, klasyfikacja.

7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´

8 Modele oparte na danych. 9 Wizualizacja danych.

10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach

(13)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Ramowy program wykładu

1 Idea “data science” oraz “big data”, koncepcja 4V: volume,

velocity, variety, veracity.

2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.

4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem

i bez nadzoru, klasyfikacja.

7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.

9 Wizualizacja danych.

10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach

(14)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Ramowy program wykładu

1 Idea “data science” oraz “big data”, koncepcja 4V: volume,

velocity, variety, veracity.

2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.

4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem

i bez nadzoru, klasyfikacja.

7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.

9 Wizualizacja danych.

10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach

(15)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep

Ramowy program wykładu

1 Idea “data science” oraz “big data”, koncepcja 4V: volume,

velocity, variety, veracity.

2 Wybrane przykłady zastosowania “data science”. 3 Zdobywanie danych: web-mining, eksploracja tesktu.

4 Przetwarzanie i obróbka danych. Metody czyszczenia danych. 5 Przechowywanie danych. Hurtownie danych. SQL i NoSQL. 6 Eksploracja danych — wybrane techniki: uczenie pod nadzorem

i bez nadzoru, klasyfikacja.

7 Srodowiska programistyczne. R, Python, Hadoop, Spark.´ 8 Modele oparte na danych.

9 Wizualizacja danych.

10 Zagro˙zenia zwi ˛azane z danymi. Dane w mediach

(16)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Pytania o “data science”

Problemy z terminologi ˛a

Czym jest“data science”? Czy to to samo co “big-data”?

Problemy z uzaniem pracy innych

Przez lata statystycy, informatycy, matematyce, in˙zynierowie i ogólnie wsze-lacy naukowcy pracowali nad podobnymi rzeczami. Czy naprawd ˛e uczenie maszynowe wynalezionowczoraj a dane nie były “wielkie” póki nie zjawił si ˛e Google?

Statystycy

Wydaje si ˛e, ˙ze odpowiedni ˛a grup ˛a, która zajmuje si ˛e “science of data” s ˛a sta-tystycy. Media cz ˛esto opisuj ˛a “data science” jak zwykł ˛a statystyk˛e. Jak to w ko ´ncu jest?

“Nauka”

Mówi ˛a, ˙ze “cokolwiek, co czuje si ˛e w obowi ˛azku by´c nazywanym ‘nauk ˛a’ po prostu ni ˛a nie jest”. Czy w takim razie “data science” mo˙ze by´c np. rzemio-słem?

(17)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Pytania o “data science”

Problemy z terminologi ˛a

Czym jest“data science”? Czy to to samo co “big-data”?

Problemy z uzaniem pracy innych

Przez lata statystycy, informatycy, matematyce, in˙zynierowie i ogólnie wsze-lacy naukowcy pracowali nad podobnymi rzeczami. Czy naprawd ˛e uczenie maszynowe wynalezionowczoraj a dane nie były “wielkie” póki nie zjawił si ˛e Google?

Statystycy

Wydaje si ˛e, ˙ze odpowiedni ˛a grup ˛a, która zajmuje si ˛e “science of data” s ˛a sta-tystycy. Media cz ˛esto opisuj ˛a “data science” jak zwykł ˛a statystyk˛e. Jak to w ko ´ncu jest?

“Nauka”

Mówi ˛a, ˙ze “cokolwiek, co czuje si ˛e w obowi ˛azku by´c nazywanym ‘nauk ˛a’ po prostu ni ˛a nie jest”. Czy w takim razie “data science” mo˙ze by´c np. rzemio-słem?

(18)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Pytania o “data science”

Problemy z terminologi ˛a

Czym jest“data science”? Czy to to samo co “big-data”?

Problemy z uzaniem pracy innych

Przez lata statystycy, informatycy, matematyce, in˙zynierowie i ogólnie wsze-lacy naukowcy pracowali nad podobnymi rzeczami. Czy naprawd ˛e uczenie maszynowe wynalezionowczoraj a dane nie były “wielkie” póki nie zjawił si ˛e Google?

Statystycy

Wydaje si ˛e, ˙ze odpowiedni ˛a grup ˛a, która zajmuje si ˛e “science of data” s ˛a sta-tystycy. Media cz ˛esto opisuj ˛a “data science” jak zwykł ˛a statystyk˛e. Jak to w ko ´ncu jest?

“Nauka”

Mówi ˛a, ˙ze “cokolwiek, co czuje si ˛e w obowi ˛azku by´c nazywanym ‘nauk ˛a’ po prostu ni ˛a nie jest”. Czy w takim razie “data science” mo˙ze by´c np. rzemio-słem?

(19)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Pytania o “data science”

Problemy z terminologi ˛a

Czym jest“data science”? Czy to to samo co “big-data”?

Problemy z uzaniem pracy innych

Przez lata statystycy, informatycy, matematyce, in˙zynierowie i ogólnie wsze-lacy naukowcy pracowali nad podobnymi rzeczami. Czy naprawd ˛e uczenie maszynowe wynalezionowczoraj a dane nie były “wielkie” póki nie zjawił si ˛e Google?

Statystycy

Wydaje si ˛e, ˙ze odpowiedni ˛a grup ˛a, która zajmuje si ˛e “science of data” s ˛a sta-tystycy. Media cz ˛esto opisuj ˛a “data science” jak zwykł ˛a statystyk˛e. Jak to w ko ´ncu jest?

“Nauka”

Mówi ˛a, ˙ze “cokolwiek, co czuje si ˛e w obowi ˛azku by´c nazywanym ‘nauk ˛a’ po prostu ni ˛a nie jest”. Czy w takim razie “data science” mo˙ze by´c np. rzemio-słem?

(20)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Pytania o “data science”

When you’re fundraising, it’s AI When you’re hiring, it’s ML

When you’re implementing, it’s linear regression When you’re debugging, it’s printf()

(21)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

Big data: The next frontier for innovation, competition, and productivity, McKinsey 2011

“Big data” refers to datasets whose size isbeyond the ability of typical database software tools to capture, store, manage, and analyze. This definition is inten-tionally subjective and incorporates a moving defini-tion of how big a dataset needs to be in order to be considered big data [...]. We assume that, as tech-nology advances over time,the size of datasets that qualify as big data will also increase [...].

[Grafika pobrana z: https: //skuteczneraporty.pl]

Termin “big data” odnosi si ˛e do zbiorów danych, których rozmiar znajduje si ˛e po zasi ˛egiem typowych narz ˛edzi programistycznych baz danych, słu˙z ˛acych do pobierania, składowania, zarz ˛adzania i analizowania owych zbiorów. De-finicja ta jest celowo subiektywna, we wzgl ˛edny sposób okre´slaj ˛ac jak wielki musi by´c zbiór, aby mógł by´c zaliczony do “big data”. Jednocze´snie, wraz ze post ˛epem technologicznym rozmiar zbiorów okre´slanych jako “big data” b ˛e-dzie si ˛e zwi ˛ekszał.

(22)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

Big data: The next frontier for innovation, competition, and productivity, McKinsey 2011

“Big data” refers to datasets whose size isbeyond the ability of typical database software tools to capture, store, manage, and analyze. This definition is inten-tionally subjective and incorporates a moving defini-tion of how big a dataset needs to be in order to be considered big data [...]. We assume that, as tech-nology advances over time,the size of datasets that qualify as big data will also increase [...].

[Grafika pobrana z: https: //skuteczneraporty.pl]

Termin “big data” odnosi si ˛e do zbiorów danych, których rozmiar znajduje si ˛e po zasi ˛egiem typowych narz ˛edzi programistycznych baz danych, słu˙z ˛acych do pobierania, składowania, zarz ˛adzania i analizowania owych zbiorów. De-finicja ta jest celowo subiektywna, we wzgl ˛edny sposób okre´slaj ˛ac jak wielki musi by´c zbiór, aby mógł by´c zaliczony do “big data”. Jednocze´snie, wraz ze post ˛epem technologicznym rozmiar zbiorów okre´slanych jako “big data” b ˛e-dzie si ˛e zwi ˛ekszał.

(23)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

Cz ˛esto, aby uj ˛

a´c cechy “big data” w bardziej obrazowy sposób

u˙zywa si ˛e notacji XX wielkich liter

V, gdzie XX jest liczb ˛

a od

3 do 8 (lub wi ˛ecej). Poszczególne litery

V (w przypadku 4V)

odpowiadaj ˛

a:

VOLUME

rozmiar danych - z definicji jest

wielki i ta cecha była na

po-cz ˛

atku głównym wyró˙znikiem

VELOCITY

szybko´s´c danych - tempo

na-pływu danych z ró˙znych

plat-form (np. Forex) jest olbrzymie

VARIETY

ró˙znorodno´s´c danych - zbiory

danych dotycz ˛

a ró˙znych

proce-sów wi ˛e´c ró˙zne s ˛

a zmienne

VERACITY

niepewno´s´c danych - spora

cz ˛e´s´c

danych

jest

bardzo

“brudna” co rzutuje na wyci ˛

a-gane wnioski

(24)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

Cz ˛esto, aby uj ˛

a´c cechy “big data” w bardziej obrazowy sposób

u˙zywa si ˛e notacji XX wielkich liter

V, gdzie XX jest liczb ˛

a od

3 do 8 (lub wi ˛ecej). Poszczególne litery

V (w przypadku 4V)

odpowiadaj ˛

a:

VOLUME

rozmiar danych - z definicji jest

wielki i ta cecha była na

po-cz ˛

atku głównym wyró˙znikiem

VELOCITY

szybko´s´c danych - tempo

na-pływu danych z ró˙znych

plat-form (np. Forex) jest olbrzymie

VARIETY

ró˙znorodno´s´c danych - zbiory

danych dotycz ˛

a ró˙znych

proce-sów wi ˛e´c ró˙zne s ˛

a zmienne

VERACITY

niepewno´s´c danych - spora

cz ˛e´s´c

danych

jest

bardzo

“brudna” co rzutuje na wyci ˛

a-gane wnioski

(25)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

Cz ˛esto, aby uj ˛

a´c cechy “big data” w bardziej obrazowy sposób

u˙zywa si ˛e notacji XX wielkich liter

V, gdzie XX jest liczb ˛

a od

3 do 8 (lub wi ˛ecej). Poszczególne litery

V (w przypadku 4V)

odpowiadaj ˛

a:

VOLUME

rozmiar danych - z definicji jest

wielki i ta cecha była na

po-cz ˛

atku głównym wyró˙znikiem

VELOCITY

szybko´s´c danych - tempo

na-pływu danych z ró˙znych

plat-form (np. Forex) jest olbrzymie

VARIETY

ró˙znorodno´s´c danych - zbiory

danych dotycz ˛

a ró˙znych

proce-sów wi ˛e´c ró˙zne s ˛

a zmienne

VERACITY

niepewno´s´c danych - spora

cz ˛e´s´c

danych

jest

bardzo

“brudna” co rzutuje na wyci ˛

a-gane wnioski

(26)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

Cz ˛esto, aby uj ˛

a´c cechy “big data” w bardziej obrazowy sposób

u˙zywa si ˛e notacji XX wielkich liter

V, gdzie XX jest liczb ˛

a od

3 do 8 (lub wi ˛ecej). Poszczególne litery

V (w przypadku 4V)

odpowiadaj ˛

a:

VOLUME

rozmiar danych - z definicji jest

wielki i ta cecha była na

po-cz ˛

atku głównym wyró˙znikiem

VELOCITY

szybko´s´c danych - tempo

na-pływu danych z ró˙znych

plat-form (np. Forex) jest olbrzymie

VARIETY

ró˙znorodno´s´c danych - zbiory

danych dotycz ˛

a ró˙znych

proce-sów wi ˛e´c ró˙zne s ˛

a zmienne

VERACITY

niepewno´s´c danych - spora

cz ˛e´s´c

danych

jest

bardzo

“brudna” co rzutuje na wyci ˛

a-gane wnioski

(27)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

Cz ˛esto, aby uj ˛

a´c cechy “big data” w bardziej obrazowy sposób

u˙zywa si ˛e notacji XX wielkich liter

V, gdzie XX jest liczb ˛

a od

3 do 8 (lub wi ˛ecej). Poszczególne litery

V (w przypadku 4V)

odpowiadaj ˛

a:

VOLUME

rozmiar danych - z definicji jest

wielki i ta cecha była na

po-cz ˛

atku głównym wyró˙znikiem

VELOCITY

szybko´s´c danych - tempo

na-pływu danych z ró˙znych

plat-form (np. Forex) jest olbrzymie

VARIETY

ró˙znorodno´s´c danych - zbiory

danych dotycz ˛

a ró˙znych

proce-sów wi ˛e´c ró˙zne s ˛

a zmienne

VERACITY

niepewno´s´c danych - spora

cz ˛e´s´c

danych

jest

bardzo

“brudna” co rzutuje na wyci ˛

a-gane wnioski

(28)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

(29)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

(30)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

(31)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

(32)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

(33)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

[Grafika pobrana z: https://www.thinkbiganalytics.com/2016/03/29/ big- data- 3vs- fourth- v- implications- not- embracing/]

(34)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

(35)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

(36)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

(37)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Big data

(38)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science

Spójrzmy na definicje z Wikipedii [https://en.wikipedia.org/ wiki/Data_science]

Data science, also known as data-driven science, is an interdiscipli-nary field about scientific methods, processes, and systems to extract knowledge or insights from data in various forms, either structured or unstructured similar to data mining.

Data science is a “concept to unify statistics, data analysis and their related methods” in order to “understand and analyze actual pheno-mena” with data. It employs techniques and theories drawn from many fields within the broad areas of mathematics, statistics, information science, and computer science, in particular from the subdomains of machine learning, classification, cluster analysis, data mining, databa-ses, and visualization.

(39)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science

Spójrzmy na definicje z Wikipedii [https://en.wikipedia.org/ wiki/Data_science]

Data science, also known as data-driven science, is an interdiscipli-nary field about scientific methods, processes, and systems to extract knowledge or insights from data in various forms, either structured or unstructured similar to data mining.

Data science is a “concept to unify statistics, data analysis and their related methods” in order to “understand and analyze actual pheno-mena” with data. It employs techniques and theories drawn from many fields within the broad areas of mathematics, statistics, information science, and computer science, in particular from the subdomains of machine learning, classification, cluster analysis, data mining, databa-ses, and visualization.

(40)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science

Spójrzmy na definicje z Wikipedii [https://en.wikipedia.org/ wiki/Data_science]

Data science, also known as data-driven science, is an interdiscipli-nary field about scientific methods, processes, and systems to extract knowledge or insights from data in various forms, either structured or unstructured similar to data mining.

Data science is a “concept to unify statistics, data analysis and their related methods” in order to “understand and analyze actual pheno-mena” with data. It employs techniques and theories drawn from many fields within the broad areas of mathematics, statistics, information science, and computer science, in particular from the subdomains of machine learning, classification, cluster analysis, data mining, databa-ses, and visualization.

(41)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science

Aby odpowiedzie´c, czy jest “data science” cz ˛esto u˙zywa si ˛e umówie ´n:

Mike Driscoll, [Schutt & O’Neil, s. 7]

Data science, as it’s practiced, is a blend of Red-Bull-fueled hacking and espresso-inspired statistics.

But data science is not merely hac-king—because when hackers finish debug-ging their Bash one-liners and Pig scripts, few of them care about non-Euclidean di-stance metrics.

And data science is not merely statistics, because when statisticians finish theorizing the perfect model, few could read a tab-delimited file into R if their job depended on it.

Data science is the civil engineering of data. Its acolytes possess a practical knowledge of tools and materials, coupled with a the-oretical understanding of what’s possible.

(42)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science

Aby odpowiedzie´c, czy jest “data science” cz ˛esto u˙zywa si ˛e umówie ´n:

Mike Driscoll, [Schutt & O’Neil, s. 7]

Data science, as it’s practiced, is a blend of Red-Bull-fueled hacking and espresso-inspired statistics.

But data science is not merely hac-king—because when hackers finish debug-ging their Bash one-liners and Pig scripts, few of them care about non-Euclidean di-stance metrics.

And data science is not merely statistics, because when statisticians finish theorizing the perfect model, few could read a tab-delimited file into R if their job depended on it.

Data science is the civil engineering of data. Its acolytes possess a practical knowledge of tools and materials, coupled with a the-oretical understanding of what’s possible.

(43)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science

Aby odpowiedzie´c, czy jest “data science” cz ˛esto u˙zywa si ˛e umówie ´n:

Mike Driscoll, [Schutt & O’Neil, s. 7]

Data science, as it’s practiced, is a blend of Red-Bull-fueled hacking and espresso-inspired statistics.

But data science is not merely hac-king—because when hackers finish debug-ging their Bash one-liners and Pig scripts, few of them care about non-Euclidean di-stance metrics.

And data science is not merely statistics, because when statisticians finish theorizing the perfect model, few could read a tab-delimited file into R if their job depended on it.

Data science is the civil engineering of data. Its acolytes possess a practical knowledge of tools and materials, coupled with a the-oretical understanding of what’s possible.

(44)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science

Wygodnym sposobem jest te˙z u˙zycie schematu przepływu

da-nych

(45)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science

Data science

Termindata science został po raz pierwszy u˙zyty przez Petera Naura w 1960 r., aby okre´sli´c metody automatycznego przetwarzania danych przy u˙zyciu komputerów. Pocz ˛awszy od tego czasu u˙zywa si ˛e go w ´srodowisku naukowym (na pocz ˛atku głównie w´sród statystyków).

Ogólny opis data science [wg. Data science i uczenie maszynowe] Podstawowym zało˙zeniem data science jest uczenie si ˛e, zarówno lu-dzi, jak i maszyn, na podstawie danych. W odró˙znieniu odmetody empirycznej w eksperymentach u˙zywa si ˛e wszelkich danych cyfro-wych, analizowanych za pomoc ˛a komputerów.

Analizy te odbywaj ˛a si ˛e za pomoc ˛a modeli eksploracji danych, które korzystaj ˛ac z konkretnych algorytmów (np. sieci neuronowe) rozpo-znaj ˛a ukryte w danych wzorce i na tej podstawie tworz ˛a ogólne re-guły.

(46)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data science

Data science

Termindata science został po raz pierwszy u˙zyty przez Petera Naura w 1960 r., aby okre´sli´c metody automatycznego przetwarzania danych przy u˙zyciu komputerów. Pocz ˛awszy od tego czasu u˙zywa si ˛e go w ´srodowisku naukowym (na pocz ˛atku głównie w´sród statystyków). Ogólny opis data science [wg. Data science i uczenie maszynowe] Podstawowym zało˙zeniem data science jest uczenie si ˛e, zarówno lu-dzi, jak i maszyn, na podstawie danych. W odró˙znieniu odmetody empirycznej w eksperymentach u˙zywa si ˛e wszelkich danych cyfro-wych, analizowanych za pomoc ˛a komputerów.

Analizy te odbywaj ˛a si ˛e za pomoc ˛a modeli eksploracji danych, które korzystaj ˛ac z konkretnych algorytmów (np. sieci neuronowe) rozpo-znaj ˛a ukryte w danych wzorce i na tej podstawie tworz ˛a ogólne re-guły.

(47)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data scientist

OK, czym jest tak naprawd ˛e “data scientist”? [Schutt & O’Neil, s. 14] Prawda jest taka, ˙ze na uczelni nikt nie nazwie siebie “in˙zynierem da-nych”, no mo˙ze poza przypadkiem, gdy stanowi to dodatkowy tytuł umo˙zliwiaj ˛acy podł ˛aczenie si ˛e do innej jednostki na uczelni (np. “Cen-trum In˙zynierii Danych”) lub te˙z gdy aplikuje o grant i wtedy zaliczenie si ˛e do grupy “data scientists” staje si ˛e bardzo po˙z ˛adane.

De facto In˙zynierem danych jest naukowiec, wyszkolony w czymkol-wiek,pocz ˛awszy od nauk społecznych, a sko ´nczywszy na biolo-gii, który pracuje z du˙zymi ilo ´sciami danych i musi zmierzy´c si ˛e z problemami obliczeniowymi spowodowanymi struktur ˛a, rozmiarem, a tak˙ze zło˙zono´s´c i charakterem danych, równocze´snie rozwi ˛azuj ˛ac rzeczywisty problem.

(48)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data scientist

OK, czym jest tak naprawd ˛e “data scientist”? [Schutt & O’Neil, s. 14] Prawda jest taka, ˙ze na uczelni nikt nie nazwie siebie “in˙zynierem da-nych”, no mo˙ze poza przypadkiem, gdy stanowi to dodatkowy tytuł umo˙zliwiaj ˛acy podł ˛aczenie si ˛e do innej jednostki na uczelni (np. “Cen-trum In˙zynierii Danych”) lub te˙z gdy aplikuje o grant i wtedy zaliczenie si ˛e do grupy “data scientists” staje si ˛e bardzo po˙z ˛adane.

De facto In˙zynierem danych jest naukowiec, wyszkolony w czymkol-wiek,pocz ˛awszy od nauk społecznych, a sko ´nczywszy na biolo-gii, który pracuje z du˙zymi ilo ´sciami danych i musi zmierzy´c si ˛e z problemami obliczeniowymi spowodowanymi struktur ˛a, rozmiarem, a tak˙ze zło˙zono´s´c i charakterem danych, równocze´snie rozwi ˛azuj ˛ac rzeczywisty problem.

(49)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data scientist

A w przemy´sle? [Schutt & O’Neil, s. 15]

W przypadku przemysłu in˙zynierem danych jest kto´s, kto wie, jak wy-odr ˛ebni ´c znaczenie i interpretowa ´c dane, które wymaga zarówno narz ˛edzi statystyki i uczenia maszynowego, a tak˙ze bycia czło-wiekiem. Sp ˛edza du˙zo czasu podczas zbierania, czyszczenia i nisz-czenia danych, poniewa˙zdane nigdy nie s ˛a czyste. Proces ten wy-maga wytrwało´sci, statystyk i umiej ˛etno´sci in˙zynierii oprogramowania - umiej ˛etno´sci niezb ˛ednych do zrozumienia bł ˛edów w danych oraz do debugowania kodu.

Finalnie istotn ˛a cz ˛e´sci ˛a jest eksploracja danych, która ł ˛aczy w so-bie wizualizacj ˛e i zmysł danych. In˙zynierem danych znajdujewzorce, buduje modele i algorytmy [..]. Mo˙ze projektowa´c eksperymenty i jest stanowi najwa˙zniejszy składnikprocesu podejmowania decyzji. Komunikuje si ˛e z członkami zespołu, in˙zynierów i liderem w jasny spo-sób,wizualizuj ˛ac dane, dzi ˛eki czemu nawet je´sli jego/jej koledzy nie s ˛a zupełnie znaznajomieni z konkretnymi danymi, łatwo zrozumiej ˛a konsekwencje.

(50)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data scientist

A w przemy´sle? [Schutt & O’Neil, s. 15]

W przypadku przemysłu in˙zynierem danych jest kto´s, kto wie, jak wy-odr ˛ebni ´c znaczenie i interpretowa ´c dane, które wymaga zarówno narz ˛edzi statystyki i uczenia maszynowego, a tak˙ze bycia czło-wiekiem. Sp ˛edza du˙zo czasu podczas zbierania, czyszczenia i nisz-czenia danych, poniewa˙zdane nigdy nie s ˛a czyste. Proces ten wy-maga wytrwało´sci, statystyk i umiej ˛etno´sci in˙zynierii oprogramowania - umiej ˛etno´sci niezb ˛ednych do zrozumienia bł ˛edów w danych oraz do debugowania kodu.

Finalnie istotn ˛a cz ˛e´sci ˛a jest eksploracja danych, która ł ˛aczy w so-bie wizualizacj ˛e i zmysł danych. In˙zynierem danych znajdujewzorce, buduje modele i algorytmy [..]. Mo˙ze projektowa´c eksperymenty i jest stanowi najwa˙zniejszy składnikprocesu podejmowania decyzji. Komunikuje si ˛e z członkami zespołu, in˙zynierów i liderem w jasny spo-sób,wizualizuj ˛ac dane, dzi ˛eki czemu nawet je´sli jego/jej koledzy nie s ˛a zupełnie znaznajomieni z konkretnymi danymi, łatwo zrozumiej ˛a konsekwencje.

(51)

Sprawy organizacyjne Ramowy program wykładu Wst ˛ep Data scientist

Jaka dokładnie jest rola “in˙zyniera danych”:

Cytaty

Powiązane dokumenty

W przypadku pewnych teorii jednak nawet tak silne ´srodki dowodowe nie wystarczaj ˛ a: porównajmy w tym kon- tek´scie uwagi Mostowskiego (Mostowski 1967, s. 110; w pierwszym

Jest tak gdy˙z monta˙z teleskopu ustawiony jest wzgl ˛edem powierzchni Ziemi, a to oznacza, ˙ze na skutek ruchu skorupy ziemkiej cały zbiór gwiazd jest przesuwany wzgl

Zbiór rozwiązań układu nierówności liniowych a uwypukleniem zbioru rozwiązań

relacje podzielności, arytmetyka modularna;liniowe równania modularne;chińskie twierdzenie o resztach;rząd elementu:logarytm dyskretny; problem faktoryzacjitwierdzenie Eulera i

→ po tej instrukcji mo˙zna umie´sci´c polecenia dotycz ˛ ace stylu całego dokumentu oraz doł ˛ aczy´c pakiety poszerzaj ˛ ace mo˙zliwo´sci L A TEX ’a za pomoc ˛

się z kilkoma informacjami, począwszy od tej, gdzie na mapie świata leży Opole, czym właściwie jest Uniwersytet Opolski i Wydział Teologiczny, skończywszy na historii na- rodzin

Lewek, stwierdzając, że nowa ewangelizacja jest „odno- wioną w duchu Vaticanum II i dostosowaną do dzisiejszych uwarunkowań społeczno-kul- turowych działalnością

Egzegeza i interpretacja Łk 16 na podstawie metodologii wypracowanej przez retorykę semicką.. 45 Exegesis and Interpretation of Luke 16 Based on the Methodology Developed by