STATYSTYKA MATEMATYCZNA

(1)

STATYSTYKA MATEMATYCZNA

1. Wykład wstępny

2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych

4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne I 6. Najczęściej wykorzystywane testy statystyczne II 7. Regresja liniowa

8. Regresja nieliniowa

9. Określenie jakości dopasowania równania regresji liniowej i nieliniowej 10. Korelacja

11. Elementy statystycznego modelowania danych 12. Porównywanie modeli

13. Analiza wariancji 14. Analiza kowariancji

15. Podsumowanie dotychczasowego materiału, wspólna analiza przykładów, dyskusja

(2)

WSTĘP

1. Konfirmatywna, a eksploratywna analiza danych 2. Przykłady metodyki EDA – wizualizacja danych 3. Przykłady metodyki EDA – analiza danych

(3)

Eksploratywna

analiza danych Konfirmatywna

analiza danych STATYSTYCZNE MODELOWANIE DANYCH

• Exploratory data analysis • Confirmatory data analysis

IND P.0 P.132 P.265 P.397 P.530

346 0.2999 1.3938 4.047 8.9365 14.4663 347 0.4265 1.9578 6.6809 15.9458 27.3269 348 0.4991 2.0284 6.0664 13.7166 22.7103 349 0.1739 1.2515 4.4695 11.0793 18.7735 350 0.3712 1.8365 5.9575 14.4277 23.8408 351 0.2727 1.3336 3.9884 8.7238 14.138 352 1.1542 3.7294 9.8721 20.2459 32.292 353 0.3175 1.7614 5.678 13.824 22.7556 354 0.1726 1.2156 4.464 11.2814 19.679 355 0.6935 2.8703 8.4873 19.1791 30.8544 356 0.5498 2.3433 7.2887 17.2022 28.4123 357 0.7276 2.5778 7.4177 16.2656 25.7423 358 0.5879 2.3876 7.0633 17.2328 28.7312 359 0.4806 2.339 7.7452 18.9444 31.8284 360 0.481 2.2166 7.087 17.0398 27.9577 361 0.2769 1.66 5.6707 14.9897 25.8092 362 0.7281 2.6245 7.3139 16.0735 26.359 363 0.3418 1.6791 5.6198 13.568 22.6985 364 0.3764 1.7024 5.2701 12.5866 21.5353 365 0.5849 2.1908 6.2308 13.3812 21.5758

(4)

0 5 10 15 20

LEPR BTN DGAT LEP LRT

gen

• ^H0: gen nie wykazuje powiązania z cechą  m_i= 0

• ^H1: gen wykazuje powiązanie z cechą  m_i 0

• założone maksymalne prawdopodobieństwo błędu a_MAX= 0.01

• LRT (LEPR) =0.80

• ^{LRT (BTN)} ^=9.65

• LRT (DGAT) =27.18

• ^{LRT (LEP)} ^=5.-1

• ^aT(LEPR) =0.3996

• ^aT(BTN) =0.0019

• ^aT(DGAT) =0.0000002

• ^aT(LEP) =0.0252

• ^LEPR ^=H0

• ^BTN ^=H1

• ^DGAT ^=H1

• ^LEP ^=H0

PODEJŚCIE KLASYCZNE

KONFIRMATYWNA ANALIZA DANYCH

• sformułowanie hipotezy

• określenie maksymalnego błędu I-go rodzaju

• wybór i obliczenie testu statystycznego

• obliczenie błędu I-go rodzaju

• decyzja dotycząca hipotezy

(5)

EDA

EKSPLORATYWNA ANALIZA DANYCH

• John Tukey

• brak z góry założonej hipotezy

• wykorzystanie różnych narzędzi

− statystycznych

− graficznych

• eksploracja struktury danych

• data mining

• wyróżnienie najważniejszych zmiennych

• wyróżnienie odstających obserwacji

(6)

PRZYKŁADY ANALIZY GRAFICZNEJ

(7)

5 NUMBER DATA SUMMARY

BOX PLOT - 5 number data summary

(8)

BOX PLOT - 5 number data summary

mediana:

50% danych 1 kwartyl:

25% danych 3 kwartyl:

75% danych

minimum maksimum

obserwacja odstająca

(9)

VIOLIN PLOT – wzbogacony box plot

mediana: 50% danych 1 kwartyl: 25% danych

3 kwartyl: 75% danych

prawdopodobieństwo wystąpienia danej

wartości

(10)

Quantile:Quantile PLOT - porównanie rozkładów

kwantyle rozkładu empirycznego np. masa ciała ryjówki

kwantyle rozkładu 1

np. rozkład normalny N(0,1)

 ^X ^q  ^p

P  

(11)

Heat map

Heatmap of 1772 deregulated genes in A549 cells subjected to the different treatments

(12)

Venn diagram

Venn diagram of transcripts commonly modulated among treatments

(13)

Circos plot

(14)

Supervised learning – zastosowanie

zbioru treningowego

(15)

METODY KLASYFIKACYJNE - k najbliższych sąsiadów 1. Klasyfikacja obserwacji = przydział obserwacji do

danej grupy

2. Klasyfikacja na podstawie zmierzonych wartości

• treningowy zbiór danych = klasyfikacja znana

• analizowany zbiór danych = klasyfikacja nieznana

3. Np.

• Taksonomia organizmów na podstawie pomiarów

• Klasyfikacja irysów na podstawie kształtu kwiatów

Iris setosa Iris versicolor

(16)

METODY KLASYFIKACYJNE - k najbliższych sąsiadów

treningowy zbiór danych sepal length sepal width species

5.1 3.5 Iris-setosa

4.9 3 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5 3.6 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

7 3.2 Iris-versicolor

6.4 3.2 Iris-versicolor

5 2 Iris-versicolor

5.9 3 Iris-versicolor

1 2 3 4

4 5 6 7

setosa versicolor

(17)

treningowy zbiór danych sepal length sepal width species

5.1 3.5 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

analizowanyzbiór danych

5 2.4 ???

4.9 2.6 ???

1 2 3 4

4 5 6 7

setosa versicolor ?

(18)

treningowy zbiór danych k=8

sepal length sepal width species dystans najbliżsi sąsiedzi

5.1 3.5 Iris-setosa 1.22

4.9 3 Iris-setosa 0.37 Iris-setosa

4.7 3.2 Iris-setosa 0.73

4.6 3.1 Iris-setosa 0.65

5 3.6 Iris-setosa 1.44

5.4 3.9 Iris-setosa 2.41

4.6 3.4 Iris-setosa 1.16

5 3.4 Iris-setosa 1

4.4 2.9 Iris-setosa 0.61 Iris-setosa

7 3.2 Iris-versicolor 4.64

6.4 3.2 Iris-versicolor 2.6

6.9 3.1 Iris-versicolor 4.1

5.5 2.3 Iris-versicolor 0.26 Iris-versicolor

6.5 2.8 Iris-versicolor 2.41

6.3 3.3 Iris-versicolor 2.5

6.6 2.9 Iris-versicolor 2.81

5 2 Iris-versicolor 0.16 Iris-versicolor

5.9 3 Iris-versicolor 1.17

6 2.2 Iris-versicolor 1.04

6.1 2.9 Iris-versicolor 1.46

5 2.4 ??? = Iris-versicolor

(19)

treningowy zbiór danych k=8

sepal length sepal width species dystans najbliżsi sąsiedzi

5.1 3.5 Iris-setosa 0.85

4.9 3 Iris-setosa 0.16 Iris-setosa

5 3.6 Iris-setosa 1.01

5.4 3.9 Iris-setosa 1.94

4.6 3.4 Iris-setosa 0.73

5 3.4 Iris-setosa 0.65

7 3.2 Iris-versicolor 4.77

6.4 3.2 Iris-versicolor 2.61

6.9 3.1 Iris-versicolor 4.25

5.5 2.3 Iris-versicolor 0.45

6.5 2.8 Iris-versicolor 2.6

5.7 2.8 Iris-versicolor 0.68

6.3 3.3 Iris-versicolor 2.45

6.6 2.9 Iris-versicolor 2.98

5 2 Iris-versicolor 0.37 Iris-versicolor

5.9 3 Iris-versicolor 1.16

6 2.2 Iris-versicolor 1.37

6.1 2.9 Iris-versicolor 1.53

5 2.4 ??? = Iris-versicolor

(20)

IRYSY- PEŁNY ZBIÓR DANYCH

• kategorie: I. setosa, I. versicolor, I. virginica

• 150 osobników

• obszary decyzyjne na podstawie petal width i petal length

(21)

METODY KLASYFIKACYJNE – suport vector machines

• SVM

• definiuje obszary decyzyjne w kilku wymiarach >2

• transformuje do 2-D

(22)

METODY KLASYFIKACYJNE – drzewa decyzyjne

• random forests / lasy losowe

• generowanie dużej liczby drzew decyzyjnych na podstawie losowych podzbiorów dostępnych danych treningowych

• ostateczna klasyfikacja analizowanych danych jest podsumowaniem wyników wszystkich drzew

(23)

Unsupervised learning – brak zbioru

treningowego

(24)

ANALIZA SKUPIEŃ

1. Wybór liczby klas np. k=2

2. Losowy przydział obserwacji do klasy

3. Obliczyć koordynaty środków każdej klasy  centroidy 4. Obliczyć odległość każdej obserwacji od środka klasy

5. Nowy przydział obserwacji do klas na podstawie odległości od środków 6. … do pkt. 3

7. … aż do uzyskania zbieżności algorytmu = ustalenie się przydziału do klas

(25)

k=2 1 klastry losowe

Data centroid k1 k2 dystans

wybrany klaster

sepal length sepal width species klaster sepal length 5.68 5.38 to k1 to k2

5.1 3.5 Iris-setosa 1 sepal width 3.01 2.98 0.57 0.34 2

4.9 3 Iris-setosa 2 0.60 0.23 2

4.7 3.2 Iris-setosa 1 0.99 0.50 2

4.6 3.1 Iris-setosa 2 1.16 0.61 2

5 3.6 Iris-setosa 1 0.81 0.52 2

5.4 3.9 Iris-setosa 2 0.87 0.84 2

4.6 3.4 Iris-setosa 1 1.31 0.77 2

5 3.4 Iris-setosa 2 0.61 0.31 2

4.4 2.9 Iris-setosa 1 1.64 0.96 2

4.9 3.1 Iris-setosa 2 0.61 0.24 2

7 3.2 Iris-versicolor 1 1.79 2.69 1

6.4 3.2 Iris-versicolor 2 0.56 1.10 1

6.9 3.1 Iris-versicolor 1 1.51 2.34 1

5.5 2.3 Iris-versicolor 2 0.53 0.48 2

6.5 2.8 Iris-versicolor 1 0.72 1.30 1

5.7 2.8 Iris-versicolor 2 0.04 0.14 1

6.3 3.3 Iris-versicolor 1 0.48 0.96 1

4.9 2.4 Iris-versicolor 2 0.97 0.57 2

6.6 2.9 Iris-versicolor 1 0.87 1.51 1

5.2 2.7 Iris-versicolor 2 0.32 0.11 2

5 2 Iris-versicolor 1 1.47 1.11 2

5.9 3 Iris-versicolor 2 0.05 0.28 1

6.1 2.9 Iris-versicolor 2 0.19 0.53 1

(26)

k=2 2 klastry losowe

Data centroid k1 k2 dystans

wybrany klaster

sepal length sepal width species klaster sepal length 6.34 4.94 to k1 to k2

5.1 3.5 Iris-setosa 2 sepal width 2.94 3.04 1.85 0.24 2

4.9 3 Iris-setosa 2 2.08 0.00 2

4.7 3.2 Iris-setosa 2 2.76 0.09 2

4.6 3.1 Iris-setosa 2 3.05 0.12 2

5 3.6 Iris-setosa 2 2.23 0.32 2

5.4 3.9 Iris-setosa 2 1.81 0.96 2

4.6 3.4 Iris-setosa 2 3.24 0.25 2

5 3.4 Iris-setosa 2 2.01 0.14 2

4.4 2.9 Iris-setosa 2 3.77 0.31 2

4.9 3.1 Iris-setosa 2 2.10 0.01 2

6.4 3.2 Iris-versicolor 1 0.07 2.15 1

6.9 3.1 Iris-versicolor 1 0.34 3.83 1

5.5 2.3 Iris-versicolor 2 1.12 0.85 2

6.5 2.8 Iris-versicolor 1 0.05 2.48 1

5.7 2.8 Iris-versicolor 1 0.43 0.63 1

6.3 3.3 Iris-versicolor 1 0.13 1.91 1

4.9 2.4 Iris-versicolor 2 2.37 0.41 2

6.6 2.9 Iris-versicolor 1 0.07 2.76 1

5.2 2.7 Iris-versicolor 2 1.36 0.18 2

5 2 Iris-versicolor 2 2.68 1.08 2

5.9 3 Iris-versicolor 1 0.20 0.92 1

(27)

> head(iris)

> y = iris$Species

> x = iris[,-5]

> kc <- kmeans(x,3)

> table(y,kc$cluster)

> plot(x[c("Sepal.Length", "Sepal.Width")], col=kc$cluster)

> points(kc$centers[,c("Sepal.Length", "Sepal.Width")], col=1:3, pch=23, cex=3)

(28)

Uczenie maszynowe

(29)

Sztuczne sieci neuronowe – artificial neural networks (ANN)

x₁ x₂ x₃ x₄

Z Y

w₁ w₂ w₃

w₄ 0/1

wejściowedane wagi warstwa

ukryta funkcja IO

aktywacja wynik

Perceptron  jednostka budowy ANN

෍

𝒊=𝟏 𝟒

𝒙_𝒊𝒘_𝒊

ቐz < T → 𝒚 = 𝟎 z ≥ T → 𝒚 = 𝟎

(30)

Sztuczne sieci neuronowe – dane treningowe

treningowy zbiór danych sepal length sepal width species

5.1 3.5 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

sepal length

sepal width

petal length

petal width

versicolor

w

Z

setosa

ෝ 𝒘

𝒘ෝ

ෝ 𝒘

(31)

Sztuczne sieci neuronowe – dane do klasyfikacji

5.1 3.5 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

5 2.4 ???

4.9 2.6 ???

sepal length

sepal width

petal length

petal width

versicolor

w

Z

setosa

ෝ 𝒘

𝒘ෝ

ෝ 𝒘

(32)

Sztuczne sieci neuronowe – dane do klasyfikacji

5.1 3.5 Iris-setosa

4.7 3.2 Iris-setosa

4.6 3.1 Iris-setosa

5.4 3.9 Iris-setosa

4.6 3.4 Iris-setosa

4.4 2.9 Iris-setosa

4.9 3.1 Iris-setosa

5 2.4 ???

4.9 2.6 ???

sepal length

sepal width

petal length

petal width

versicolor

w

Z

setosa

ෝ 𝒘

𝒘ෝ

ෝ 𝒘

(33)

Uczenie głębokie

(34)

Uczenie głębokie - schemat

• Krok 1  wagi losowe

• Krok 2  modyfikacja wag  kryterium = zmniejszenie loss score

• …. Krok n  training loops

• Modyfikacja wag  backpropagation algorithm

(35)

Uczenie głębokie – kod Keras

> from keras import models

> from keras import layers

> network = models.Sequential()

> x_train,x_test,y_train,y_test = train_test_split(X,Y,test_size=0.2,random_state=0)

> model.add(Dense(30, input_shape=(4,), activation='relu'))

> model.add(Dense(10,activation='relu'))

> model.add(Dense(5,activation='relu'))

> model.add(Dense(3,activation='softmax')) 3 gatunki irysa (setosa, versicolor, virginica)

> model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

> model.fit(x_train, y_train, epochs=100)

(36)

Uczenie głębokie – kod Keras

Podsumowanie klasyfikacji – confusion matrix

(37)

PRZYKŁADY ZASTOSOWAŃ

(38)

PRZYKŁADY ZASTOSOWAŃ - box plot

(39)

PRZYKŁADY ZASTOSOWAŃ - sieci neuronowe

(40)

1. Konfirmatywna, a eksploratywna analiza danych 2. Przykłady metodyki EDA – wizualizacja danych 3. Przykłady metodyki EDA – analiza danych

STATYSTYKA MATEMATYCZNA