• Nie Znaleziono Wyników

STATYSTYKA MATEMATYCZNA

N/A
N/A
Protected

Academic year: 2022

Share "STATYSTYKA MATEMATYCZNA"

Copied!
40
0
0

Pełen tekst

(1)

STATYSTYKA MATEMATYCZNA

1. Wykład wstępny

2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych

4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne I 6. Najczęściej wykorzystywane testy statystyczne II 7. Regresja liniowa

8. Regresja nieliniowa

9. Określenie jakości dopasowania równania regresji liniowej i nieliniowej 10. Korelacja

11. Elementy statystycznego modelowania danych 12. Porównywanie modeli

13. Analiza wariancji 14. Analiza kowariancji

15. Podsumowanie dotychczasowego materiału, wspólna analiza przykładów, dyskusja

(2)

WSTĘP

1. Konfirmatywna, a eksploratywna analiza danych 2. Przykłady metodyki EDA – wizualizacja danych 3. Przykłady metodyki EDA – analiza danych

Copyright ©2020, Joanna Szyda

(3)

Eksploratywna

analiza danych Konfirmatywna

analiza danych STATYSTYCZNE MODELOWANIE DANYCH

• Exploratory data analysis • Confirmatory data analysis

IND P.0 P.132 P.265 P.397 P.530

346 0.2999 1.3938 4.047 8.9365 14.4663 347 0.4265 1.9578 6.6809 15.9458 27.3269 348 0.4991 2.0284 6.0664 13.7166 22.7103 349 0.1739 1.2515 4.4695 11.0793 18.7735 350 0.3712 1.8365 5.9575 14.4277 23.8408 351 0.2727 1.3336 3.9884 8.7238 14.138 352 1.1542 3.7294 9.8721 20.2459 32.292 353 0.3175 1.7614 5.678 13.824 22.7556 354 0.1726 1.2156 4.464 11.2814 19.679 355 0.6935 2.8703 8.4873 19.1791 30.8544 356 0.5498 2.3433 7.2887 17.2022 28.4123 357 0.7276 2.5778 7.4177 16.2656 25.7423 358 0.5879 2.3876 7.0633 17.2328 28.7312 359 0.4806 2.339 7.7452 18.9444 31.8284 360 0.481 2.2166 7.087 17.0398 27.9577 361 0.2769 1.66 5.6707 14.9897 25.8092 362 0.7281 2.6245 7.3139 16.0735 26.359 363 0.3418 1.6791 5.6198 13.568 22.6985 364 0.3764 1.7024 5.2701 12.5866 21.5353 365 0.5849 2.1908 6.2308 13.3812 21.5758

(4)

0 5 10 15 20

LEPR BTN DGAT LEP LRT

gen

H0: gen nie wykazuje powiązania z cechą  mi= 0

H1: gen wykazuje powiązanie z cechą  mi 0

założone maksymalne prawdopodobieństwo błędu aMAX= 0.01

LRT (LEPR) =0.80

LRT (BTN) =9.65

LRT (DGAT) =27.18

LRT (LEP) =5.-1

aT(LEPR) =0.3996

aT(BTN) =0.0019

aT(DGAT) =0.0000002

aT(LEP) =0.0252

LEPR =H0

BTN =H1

DGAT =H1

LEP =H0

PODEJŚCIE KLASYCZNE

KONFIRMATYWNA ANALIZA DANYCH

• sformułowanie hipotezy

• określenie maksymalnego błędu I-go rodzaju

• wybór i obliczenie testu statystycznego

• obliczenie błędu I-go rodzaju

• decyzja dotycząca hipotezy

Copyright ©2020, Joanna Szyda

(5)

EDA

EKSPLORATYWNA ANALIZA DANYCH

• John Tukey

• brak z góry założonej hipotezy

• wykorzystanie różnych narzędzi

− statystycznych

− graficznych

• eksploracja struktury danych

• data mining

• wyróżnienie najważniejszych zmiennych

• wyróżnienie odstających obserwacji

(6)

PRZYKŁADY ANALIZY GRAFICZNEJ

(7)

5 NUMBER DATA SUMMARY

BOX PLOT - 5 number data summary

(8)

BOX PLOT - 5 number data summary

mediana:

50% danych 1 kwartyl:

25% danych 3 kwartyl:

75% danych

minimum maksimum

obserwacja odstająca

Copyright ©2020, Joanna Szyda

(9)

VIOLIN PLOT – wzbogacony box plot

mediana: 50% danych 1 kwartyl: 25% danych

3 kwartyl: 75% danych

prawdopodobieństwo wystąpienia danej

wartości

(10)

Quantile:Quantile PLOT - porównanie rozkładów

kwantyle rozkładu empirycznego np. masa ciała ryjówki

kwantyle rozkładu 1

np. rozkład normalny N(0,1)

X qp

P  

Copyright ©2020, Joanna Szyda

(11)

Heat map

Heatmap of 1772 deregulated genes in A549 cells subjected to the different treatments

(12)

Venn diagram

Venn diagram of transcripts commonly modulated among treatments

Copyright ©2020, Joanna Szyda

(13)

Circos plot

(14)

Supervised learning – zastosowanie

zbioru treningowego

(15)

METODY KLASYFIKACYJNE - k najbliższych sąsiadów 1. Klasyfikacja obserwacji = przydział obserwacji do

danej grupy

2. Klasyfikacja na podstawie zmierzonych wartości

• treningowy zbiór danych = klasyfikacja znana

• analizowany zbiór danych = klasyfikacja nieznana

3. Np.

• Taksonomia organizmów na podstawie pomiarów

• Klasyfikacja irysów na podstawie kształtu kwiatów

Iris setosa Iris versicolor

(16)

METODY KLASYFIKACYJNE - k najbliższych sąsiadów

treningowy zbiór danych sepal length sepal width species

5.1 3.5 Iris-setosa

4.9 3 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5 3.6 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

5 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

7 3.2 Iris-versicolor

6.4 3.2 Iris-versicolor

6.9 3.1 Iris-versicolor

5.5 2.3 Iris-versicolor

6.5 2.8 Iris-versicolor

5.7 2.8 Iris-versicolor

6.3 3.3 Iris-versicolor

4.9 2.4 Iris-versicolor

6.6 2.9 Iris-versicolor

5.2 2.7 Iris-versicolor

5 2 Iris-versicolor

5.9 3 Iris-versicolor

6 2.2 Iris-versicolor

6.1 2.9 Iris-versicolor

1 2 3 4

4 5 6 7

setosa versicolor

Iris setosa Iris versicolor

Copyright ©2020, Joanna Szyda

(17)

METODY KLASYFIKACYJNE - k najbliższych sąsiadów

Iris setosa Iris versicolor

treningowy zbiór danych sepal length sepal width species

5.1 3.5 Iris-setosa

4.9 3 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5 3.6 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

5 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

7 3.2 Iris-versicolor

6.4 3.2 Iris-versicolor

6.9 3.1 Iris-versicolor

5.5 2.3 Iris-versicolor

6.5 2.8 Iris-versicolor

5.7 2.8 Iris-versicolor

6.3 3.3 Iris-versicolor

4.9 2.4 Iris-versicolor

6.6 2.9 Iris-versicolor

5.2 2.7 Iris-versicolor

5 2 Iris-versicolor

5.9 3 Iris-versicolor

6 2.2 Iris-versicolor

6.1 2.9 Iris-versicolor

analizowanyzbiór danych

5 2.4 ???

4.9 2.6 ???

1 2 3 4

4 5 6 7

setosa versicolor ?

(18)

METODY KLASYFIKACYJNE - k najbliższych sąsiadów

treningowy zbiór danych k=8

sepal length sepal width species dystans najbliżsi sąsiedzi

5.1 3.5 Iris-setosa 1.22

4.9 3 Iris-setosa 0.37 Iris-setosa

4.7 3.2 Iris-setosa 0.73

4.6 3.1 Iris-setosa 0.65

5 3.6 Iris-setosa 1.44

5.4 3.9 Iris-setosa 2.41

4.6 3.4 Iris-setosa 1.16

5 3.4 Iris-setosa 1

4.4 2.9 Iris-setosa 0.61 Iris-setosa

4.9 3.1 Iris-setosa 0.5 Iris-setosa

7 3.2 Iris-versicolor 4.64

6.4 3.2 Iris-versicolor 2.6

6.9 3.1 Iris-versicolor 4.1

5.5 2.3 Iris-versicolor 0.26 Iris-versicolor

6.5 2.8 Iris-versicolor 2.41

5.7 2.8 Iris-versicolor 0.65 Iris-versicolor

6.3 3.3 Iris-versicolor 2.5

4.9 2.4 Iris-versicolor 0.01 Iris-versicolor

6.6 2.9 Iris-versicolor 2.81

5.2 2.7 Iris-versicolor 0.13 Iris-versicolor

5 2 Iris-versicolor 0.16 Iris-versicolor

5.9 3 Iris-versicolor 1.17

6 2.2 Iris-versicolor 1.04

6.1 2.9 Iris-versicolor 1.46

analizowanyzbiór danych

5 2.4 ??? = Iris-versicolor

4.9 2.6 ??? Copyright ©2020, Joanna Szyda

(19)

METODY KLASYFIKACYJNE - k najbliższych sąsiadów

treningowy zbiór danych k=8

sepal length sepal width species dystans najbliżsi sąsiedzi

5.1 3.5 Iris-setosa 0.85

4.9 3 Iris-setosa 0.16 Iris-setosa

4.7 3.2 Iris-setosa 0.4 Iris-setosa

4.6 3.1 Iris-setosa 0.34 Iris-setosa

5 3.6 Iris-setosa 1.01

5.4 3.9 Iris-setosa 1.94

4.6 3.4 Iris-setosa 0.73

5 3.4 Iris-setosa 0.65

4.4 2.9 Iris-setosa 0.34 Iris-setosa

4.9 3.1 Iris-setosa 0.25 Iris-setosa

7 3.2 Iris-versicolor 4.77

6.4 3.2 Iris-versicolor 2.61

6.9 3.1 Iris-versicolor 4.25

5.5 2.3 Iris-versicolor 0.45

6.5 2.8 Iris-versicolor 2.6

5.7 2.8 Iris-versicolor 0.68

6.3 3.3 Iris-versicolor 2.45

4.9 2.4 Iris-versicolor 0.04 Iris-versicolor

6.6 2.9 Iris-versicolor 2.98

5.2 2.7 Iris-versicolor 0.1 Iris-versicolor

5 2 Iris-versicolor 0.37 Iris-versicolor

5.9 3 Iris-versicolor 1.16

6 2.2 Iris-versicolor 1.37

6.1 2.9 Iris-versicolor 1.53

analizowanyzbiór danych

5 2.4 ??? = Iris-versicolor

(20)

METODY KLASYFIKACYJNE - k najbliższych sąsiadów

IRYSY- PEŁNY ZBIÓR DANYCH

• kategorie: I. setosa, I. versicolor, I. virginica

• 150 osobników

• obszary decyzyjne na podstawie petal width i petal length

Copyright ©2020, Joanna Szyda

(21)

METODY KLASYFIKACYJNE – suport vector machines

• SVM

• definiuje obszary decyzyjne w kilku wymiarach >2

• transformuje do 2-D

(22)

METODY KLASYFIKACYJNE – drzewa decyzyjne

• random forests / lasy losowe

• generowanie dużej liczby drzew decyzyjnych na podstawie losowych podzbiorów dostępnych danych treningowych

• ostateczna klasyfikacja analizowanych danych jest podsumowaniem wyników wszystkich drzew

Copyright ©2020, Joanna Szyda

(23)

Unsupervised learning – brak zbioru

treningowego

(24)

ANALIZA SKUPIEŃ

1. Wybór liczby klas np. k=2

2. Losowy przydział obserwacji do klasy

3. Obliczyć koordynaty środków każdej klasy  centroidy 4. Obliczyć odległość każdej obserwacji od środka klasy

5. Nowy przydział obserwacji do klas na podstawie odległości od środków 6. … do pkt. 3

7. … aż do uzyskania zbieżności algorytmu = ustalenie się przydziału do klas

Copyright ©2020, Joanna Szyda

(25)

METODY KLASYFIKACYJNE - k najbliższych sąsiadów

k=2 1 klastry losowe

Data centroid k1 k2 dystans

wybrany klaster

sepal length sepal width species klaster sepal length 5.68 5.38 to k1 to k2

5.1 3.5 Iris-setosa 1 sepal width 3.01 2.98 0.57 0.34 2

4.9 3 Iris-setosa 2 0.60 0.23 2

4.7 3.2 Iris-setosa 1 0.99 0.50 2

4.6 3.1 Iris-setosa 2 1.16 0.61 2

5 3.6 Iris-setosa 1 0.81 0.52 2

5.4 3.9 Iris-setosa 2 0.87 0.84 2

4.6 3.4 Iris-setosa 1 1.31 0.77 2

5 3.4 Iris-setosa 2 0.61 0.31 2

4.4 2.9 Iris-setosa 1 1.64 0.96 2

4.9 3.1 Iris-setosa 2 0.61 0.24 2

7 3.2 Iris-versicolor 1 1.79 2.69 1

6.4 3.2 Iris-versicolor 2 0.56 1.10 1

6.9 3.1 Iris-versicolor 1 1.51 2.34 1

5.5 2.3 Iris-versicolor 2 0.53 0.48 2

6.5 2.8 Iris-versicolor 1 0.72 1.30 1

5.7 2.8 Iris-versicolor 2 0.04 0.14 1

6.3 3.3 Iris-versicolor 1 0.48 0.96 1

4.9 2.4 Iris-versicolor 2 0.97 0.57 2

6.6 2.9 Iris-versicolor 1 0.87 1.51 1

5.2 2.7 Iris-versicolor 2 0.32 0.11 2

5 2 Iris-versicolor 1 1.47 1.11 2

5.9 3 Iris-versicolor 2 0.05 0.28 1

6 2.2 Iris-versicolor 1 0.76 1.00 1

6.1 2.9 Iris-versicolor 2 0.19 0.53 1

(26)

METODY KLASYFIKACYJNE - k najbliższych sąsiadów

k=2 2 klastry losowe

Data centroid k1 k2 dystans

wybrany klaster

sepal length sepal width species klaster sepal length 6.34 4.94 to k1 to k2

5.1 3.5 Iris-setosa 2 sepal width 2.94 3.04 1.85 0.24 2

4.9 3 Iris-setosa 2 2.08 0.00 2

4.7 3.2 Iris-setosa 2 2.76 0.09 2

4.6 3.1 Iris-setosa 2 3.05 0.12 2

5 3.6 Iris-setosa 2 2.23 0.32 2

5.4 3.9 Iris-setosa 2 1.81 0.96 2

4.6 3.4 Iris-setosa 2 3.24 0.25 2

5 3.4 Iris-setosa 2 2.01 0.14 2

4.4 2.9 Iris-setosa 2 3.77 0.31 2

4.9 3.1 Iris-setosa 2 2.10 0.01 2

7 3.2 Iris-versicolor 1 0.50 4.26 1

6.4 3.2 Iris-versicolor 1 0.07 2.15 1

6.9 3.1 Iris-versicolor 1 0.34 3.83 1

5.5 2.3 Iris-versicolor 2 1.12 0.85 2

6.5 2.8 Iris-versicolor 1 0.05 2.48 1

5.7 2.8 Iris-versicolor 1 0.43 0.63 1

6.3 3.3 Iris-versicolor 1 0.13 1.91 1

4.9 2.4 Iris-versicolor 2 2.37 0.41 2

6.6 2.9 Iris-versicolor 1 0.07 2.76 1

5.2 2.7 Iris-versicolor 2 1.36 0.18 2

5 2 Iris-versicolor 2 2.68 1.08 2

5.9 3 Iris-versicolor 1 0.20 0.92 1

6 2.2 Iris-versicolor 1 0.66 1.82 1

6.1 2.9 Iris-versicolor 1 0.06 Copyright ©2020, Joanna Szyda 1.36 1

(27)

METODY KLASYFIKACYJNE - k najbliższych sąsiadów

> head(iris)

> y = iris$Species

> x = iris[,-5]

> kc <- kmeans(x,3)

> table(y,kc$cluster)

> plot(x[c("Sepal.Length", "Sepal.Width")], col=kc$cluster)

> points(kc$centers[,c("Sepal.Length", "Sepal.Width")], col=1:3, pch=23, cex=3)

(28)

Uczenie maszynowe

(29)

Sztuczne sieci neuronowe – artificial neural networks (ANN)

x1 x2 x3 x4

Z Y

w1 w2 w3

w4 0/1

wejściowedane wagi warstwa

ukryta funkcja IO

aktywacja wynik

Perceptron  jednostka budowy ANN

𝒊=𝟏 𝟒

𝒙𝒊𝒘𝒊

z < T → 𝒚 = 𝟎 z ≥ T → 𝒚 = 𝟎

(30)

Sztuczne sieci neuronowe – dane treningowe

treningowy zbiór danych sepal length sepal width species

5.1 3.5 Iris-setosa

4.9 3 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5 3.6 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

5 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

7 3.2 Iris-versicolor

6.4 3.2 Iris-versicolor

6.9 3.1 Iris-versicolor

5.5 2.3 Iris-versicolor

6.5 2.8 Iris-versicolor

5.7 2.8 Iris-versicolor

6.3 3.3 Iris-versicolor

4.9 2.4 Iris-versicolor

6.6 2.9 Iris-versicolor

5.2 2.7 Iris-versicolor

5 2 Iris-versicolor

5.9 3 Iris-versicolor

6 2.2 Iris-versicolor

6.1 2.9 Iris-versicolor

sepal length

sepal width

petal length

petal width

versicolor

w

Z

setosa

𝒘

𝒘

𝒘

𝒘

Copyright ©2020, Joanna Szyda

(31)

Sztuczne sieci neuronowe – dane do klasyfikacji

treningowy zbiór danych sepal length sepal width species

5.1 3.5 Iris-setosa

4.9 3 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5 3.6 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

5 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

7 3.2 Iris-versicolor

6.4 3.2 Iris-versicolor

6.9 3.1 Iris-versicolor

5.5 2.3 Iris-versicolor

6.5 2.8 Iris-versicolor

5.7 2.8 Iris-versicolor

6.3 3.3 Iris-versicolor

4.9 2.4 Iris-versicolor

6.6 2.9 Iris-versicolor

5.2 2.7 Iris-versicolor

5 2 Iris-versicolor

5.9 3 Iris-versicolor

6 2.2 Iris-versicolor

6.1 2.9 Iris-versicolor

analizowanyzbiór danych

5 2.4 ???

4.9 2.6 ???

sepal length

sepal width

petal length

petal width

versicolor

w

Z

setosa

𝒘

𝒘

𝒘

𝒘

(32)

Sztuczne sieci neuronowe – dane do klasyfikacji

treningowy zbiór danych sepal length sepal width species

5.1 3.5 Iris-setosa

4.9 3 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5 3.6 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

5 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

7 3.2 Iris-versicolor

6.4 3.2 Iris-versicolor

6.9 3.1 Iris-versicolor

5.5 2.3 Iris-versicolor

6.5 2.8 Iris-versicolor

5.7 2.8 Iris-versicolor

6.3 3.3 Iris-versicolor

4.9 2.4 Iris-versicolor

6.6 2.9 Iris-versicolor

5.2 2.7 Iris-versicolor

5 2 Iris-versicolor

5.9 3 Iris-versicolor

6 2.2 Iris-versicolor

6.1 2.9 Iris-versicolor

analizowanyzbiór danych

5 2.4 ???

4.9 2.6 ???

sepal length

sepal width

petal length

petal width

versicolor

w

Z

setosa

𝒘

𝒘

𝒘

𝒘

Copyright ©2020, Joanna Szyda

(33)

Uczenie głębokie

(34)

Uczenie głębokie - schemat

Copyright ©2020, Joanna Szyda following F. Chollet „Deep learning with Python”

• Krok 1  wagi losowe

• Krok 2  modyfikacja wag  kryterium = zmniejszenie loss score

• …. Krok n  training loops

• Modyfikacja wag  backpropagation algorithm

(35)

Uczenie głębokie – kod Keras

> from keras import models

> from keras import layers

> network = models.Sequential()

> x_train,x_test,y_train,y_test = train_test_split(X,Y,test_size=0.2,random_state=0)

> model.add(Dense(30, input_shape=(4,), activation='relu'))

> model.add(Dense(10,activation='relu'))

> model.add(Dense(5,activation='relu'))

> model.add(Dense(3,activation='softmax')) 3 gatunki irysa (setosa, versicolor, virginica)

> model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

> model.fit(x_train, y_train, epochs=100)

(36)

Uczenie głębokie – kod Keras

Copyright ©2020, Joanna Szyda following F. Chollet „Deep learning with Python”

Podsumowanie klasyfikacji – confusion matrix

(37)

PRZYKŁADY ZASTOSOWAŃ

(38)

PRZYKŁADY ZASTOSOWAŃ - box plot

Copyright ©2020, Joanna Szyda

(39)

PRZYKŁADY ZASTOSOWAŃ - sieci neuronowe

(40)

1. Konfirmatywna, a eksploratywna analiza danych 2. Przykłady metodyki EDA – wizualizacja danych 3. Przykłady metodyki EDA – analiza danych

Cytaty

Powiązane dokumenty

Skala równomierna (przedziałowa)-stosowania do pomiaru cech ilościowych, zakłada że zbiór wartości cechy składa się z liczb rzeczywistych, jest określona przez wskazanie stałej

Stosowany zwł. dla próbek o liczebności do 30, kiedy jest lepszy niż test zgodności chi- kwadrat.. Test zgodności chi-kwadrat – postać testu. Ogólna

 Klasyczne miary efektywności i ryzyka dla Twojej inwestycji oraz dla rynku, na którym

Rachunek prawdopodobieństwa i statystyka matematyczna 10.. Rodzaje zbieżności

Możliwe jest aby po lewej stronie znaku równości (nierówności, nieostrej równości) była umieszczona para (trójka, itd.) wartości (kolumn). Musi jej odpowiadać liczba kolumn lub

Funkcje zmiennych

Funkcje wektorów

Rodzaje zbieżności zmiennych