STATYSTYKA MATEMATYCZNA
1. Wykład wstępny
2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych
4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne I 6. Najczęściej wykorzystywane testy statystyczne II 7. Regresja liniowa
8. Regresja nieliniowa
9. Określenie jakości dopasowania równania regresji liniowej i nieliniowej 10. Korelacja
11. Elementy statystycznego modelowania danych 12. Porównywanie modeli
13. Analiza wariancji 14. Analiza kowariancji
15. Podsumowanie dotychczasowego materiału, wspólna analiza przykładów, dyskusja
WSTĘP
1. Konfirmatywna, a eksploratywna analiza danych 2. Przykłady metodyki EDA – wizualizacja danych 3. Przykłady metodyki EDA – analiza danych
Copyright ©2020, Joanna Szyda
Eksploratywna
analiza danych Konfirmatywna
analiza danych STATYSTYCZNE MODELOWANIE DANYCH
• Exploratory data analysis • Confirmatory data analysis
IND P.0 P.132 P.265 P.397 P.530
346 0.2999 1.3938 4.047 8.9365 14.4663 347 0.4265 1.9578 6.6809 15.9458 27.3269 348 0.4991 2.0284 6.0664 13.7166 22.7103 349 0.1739 1.2515 4.4695 11.0793 18.7735 350 0.3712 1.8365 5.9575 14.4277 23.8408 351 0.2727 1.3336 3.9884 8.7238 14.138 352 1.1542 3.7294 9.8721 20.2459 32.292 353 0.3175 1.7614 5.678 13.824 22.7556 354 0.1726 1.2156 4.464 11.2814 19.679 355 0.6935 2.8703 8.4873 19.1791 30.8544 356 0.5498 2.3433 7.2887 17.2022 28.4123 357 0.7276 2.5778 7.4177 16.2656 25.7423 358 0.5879 2.3876 7.0633 17.2328 28.7312 359 0.4806 2.339 7.7452 18.9444 31.8284 360 0.481 2.2166 7.087 17.0398 27.9577 361 0.2769 1.66 5.6707 14.9897 25.8092 362 0.7281 2.6245 7.3139 16.0735 26.359 363 0.3418 1.6791 5.6198 13.568 22.6985 364 0.3764 1.7024 5.2701 12.5866 21.5353 365 0.5849 2.1908 6.2308 13.3812 21.5758
0 5 10 15 20
LEPR BTN DGAT LEP LRT
gen
• H0: gen nie wykazuje powiązania z cechą mi= 0
• H1: gen wykazuje powiązanie z cechą mi 0
• założone maksymalne prawdopodobieństwo błędu aMAX= 0.01
• LRT (LEPR) =0.80
• LRT (BTN) =9.65
• LRT (DGAT) =27.18
• LRT (LEP) =5.-1
• aT(LEPR) =0.3996
• aT(BTN) =0.0019
• aT(DGAT) =0.0000002
• aT(LEP) =0.0252
• LEPR =H0
• BTN =H1
• DGAT =H1
• LEP =H0
PODEJŚCIE KLASYCZNE
KONFIRMATYWNA ANALIZA DANYCH
• sformułowanie hipotezy
• określenie maksymalnego błędu I-go rodzaju
• wybór i obliczenie testu statystycznego
• obliczenie błędu I-go rodzaju
• decyzja dotycząca hipotezy
Copyright ©2020, Joanna Szyda
EDA
EKSPLORATYWNA ANALIZA DANYCH
• John Tukey
• brak z góry założonej hipotezy
• wykorzystanie różnych narzędzi
− statystycznych
− graficznych
• eksploracja struktury danych
• data mining
• wyróżnienie najważniejszych zmiennych
• wyróżnienie odstających obserwacji
PRZYKŁADY ANALIZY GRAFICZNEJ
5 NUMBER DATA SUMMARY
BOX PLOT - 5 number data summary
BOX PLOT - 5 number data summary
mediana:
50% danych 1 kwartyl:
25% danych 3 kwartyl:
75% danych
minimum maksimum
obserwacja odstająca
Copyright ©2020, Joanna Szyda
VIOLIN PLOT – wzbogacony box plot
mediana: 50% danych 1 kwartyl: 25% danych
3 kwartyl: 75% danych
prawdopodobieństwo wystąpienia danej
wartości
Quantile:Quantile PLOT - porównanie rozkładów
kwantyle rozkładu empirycznego np. masa ciała ryjówki
kwantyle rozkładu 1
np. rozkład normalny N(0,1)
X q p
P
Copyright ©2020, Joanna Szyda
Heat map
Heatmap of 1772 deregulated genes in A549 cells subjected to the different treatments
Venn diagram
Venn diagram of transcripts commonly modulated among treatments
Copyright ©2020, Joanna Szyda
Circos plot
Supervised learning – zastosowanie
zbioru treningowego
METODY KLASYFIKACYJNE - k najbliższych sąsiadów 1. Klasyfikacja obserwacji = przydział obserwacji do
danej grupy
2. Klasyfikacja na podstawie zmierzonych wartości
• treningowy zbiór danych = klasyfikacja znana
• analizowany zbiór danych = klasyfikacja nieznana
3. Np.
• Taksonomia organizmów na podstawie pomiarów
• Klasyfikacja irysów na podstawie kształtu kwiatów
Iris setosa Iris versicolor
METODY KLASYFIKACYJNE - k najbliższych sąsiadów
treningowy zbiór danych sepal length sepal width species
5.1 3.5 Iris-setosa
4.9 3 Iris-setosa
4.7 3.2 Iris-setosa
4.6 3.1 Iris-setosa
5 3.6 Iris-setosa
5.4 3.9 Iris-setosa
4.6 3.4 Iris-setosa
5 3.4 Iris-setosa
4.4 2.9 Iris-setosa
4.9 3.1 Iris-setosa
7 3.2 Iris-versicolor
6.4 3.2 Iris-versicolor
6.9 3.1 Iris-versicolor
5.5 2.3 Iris-versicolor
6.5 2.8 Iris-versicolor
5.7 2.8 Iris-versicolor
6.3 3.3 Iris-versicolor
4.9 2.4 Iris-versicolor
6.6 2.9 Iris-versicolor
5.2 2.7 Iris-versicolor
5 2 Iris-versicolor
5.9 3 Iris-versicolor
6 2.2 Iris-versicolor
6.1 2.9 Iris-versicolor
1 2 3 4
4 5 6 7
setosa versicolor
Iris setosa Iris versicolor
Copyright ©2020, Joanna Szyda
METODY KLASYFIKACYJNE - k najbliższych sąsiadów
Iris setosa Iris versicolor
treningowy zbiór danych sepal length sepal width species
5.1 3.5 Iris-setosa
4.9 3 Iris-setosa
4.7 3.2 Iris-setosa
4.6 3.1 Iris-setosa
5 3.6 Iris-setosa
5.4 3.9 Iris-setosa
4.6 3.4 Iris-setosa
5 3.4 Iris-setosa
4.4 2.9 Iris-setosa
4.9 3.1 Iris-setosa
7 3.2 Iris-versicolor
6.4 3.2 Iris-versicolor
6.9 3.1 Iris-versicolor
5.5 2.3 Iris-versicolor
6.5 2.8 Iris-versicolor
5.7 2.8 Iris-versicolor
6.3 3.3 Iris-versicolor
4.9 2.4 Iris-versicolor
6.6 2.9 Iris-versicolor
5.2 2.7 Iris-versicolor
5 2 Iris-versicolor
5.9 3 Iris-versicolor
6 2.2 Iris-versicolor
6.1 2.9 Iris-versicolor
analizowanyzbiór danych
5 2.4 ???
4.9 2.6 ???
1 2 3 4
4 5 6 7
setosa versicolor ?
METODY KLASYFIKACYJNE - k najbliższych sąsiadów
treningowy zbiór danych k=8
sepal length sepal width species dystans najbliżsi sąsiedzi
5.1 3.5 Iris-setosa 1.22
4.9 3 Iris-setosa 0.37 Iris-setosa
4.7 3.2 Iris-setosa 0.73
4.6 3.1 Iris-setosa 0.65
5 3.6 Iris-setosa 1.44
5.4 3.9 Iris-setosa 2.41
4.6 3.4 Iris-setosa 1.16
5 3.4 Iris-setosa 1
4.4 2.9 Iris-setosa 0.61 Iris-setosa
4.9 3.1 Iris-setosa 0.5 Iris-setosa
7 3.2 Iris-versicolor 4.64
6.4 3.2 Iris-versicolor 2.6
6.9 3.1 Iris-versicolor 4.1
5.5 2.3 Iris-versicolor 0.26 Iris-versicolor
6.5 2.8 Iris-versicolor 2.41
5.7 2.8 Iris-versicolor 0.65 Iris-versicolor
6.3 3.3 Iris-versicolor 2.5
4.9 2.4 Iris-versicolor 0.01 Iris-versicolor
6.6 2.9 Iris-versicolor 2.81
5.2 2.7 Iris-versicolor 0.13 Iris-versicolor
5 2 Iris-versicolor 0.16 Iris-versicolor
5.9 3 Iris-versicolor 1.17
6 2.2 Iris-versicolor 1.04
6.1 2.9 Iris-versicolor 1.46
analizowanyzbiór danych
5 2.4 ??? = Iris-versicolor
4.9 2.6 ??? Copyright ©2020, Joanna Szyda
METODY KLASYFIKACYJNE - k najbliższych sąsiadów
treningowy zbiór danych k=8
sepal length sepal width species dystans najbliżsi sąsiedzi
5.1 3.5 Iris-setosa 0.85
4.9 3 Iris-setosa 0.16 Iris-setosa
4.7 3.2 Iris-setosa 0.4 Iris-setosa
4.6 3.1 Iris-setosa 0.34 Iris-setosa
5 3.6 Iris-setosa 1.01
5.4 3.9 Iris-setosa 1.94
4.6 3.4 Iris-setosa 0.73
5 3.4 Iris-setosa 0.65
4.4 2.9 Iris-setosa 0.34 Iris-setosa
4.9 3.1 Iris-setosa 0.25 Iris-setosa
7 3.2 Iris-versicolor 4.77
6.4 3.2 Iris-versicolor 2.61
6.9 3.1 Iris-versicolor 4.25
5.5 2.3 Iris-versicolor 0.45
6.5 2.8 Iris-versicolor 2.6
5.7 2.8 Iris-versicolor 0.68
6.3 3.3 Iris-versicolor 2.45
4.9 2.4 Iris-versicolor 0.04 Iris-versicolor
6.6 2.9 Iris-versicolor 2.98
5.2 2.7 Iris-versicolor 0.1 Iris-versicolor
5 2 Iris-versicolor 0.37 Iris-versicolor
5.9 3 Iris-versicolor 1.16
6 2.2 Iris-versicolor 1.37
6.1 2.9 Iris-versicolor 1.53
analizowanyzbiór danych
5 2.4 ??? = Iris-versicolor
METODY KLASYFIKACYJNE - k najbliższych sąsiadów
IRYSY- PEŁNY ZBIÓR DANYCH
• kategorie: I. setosa, I. versicolor, I. virginica
• 150 osobników
• obszary decyzyjne na podstawie petal width i petal length
Copyright ©2020, Joanna Szyda
METODY KLASYFIKACYJNE – suport vector machines
• SVM
• definiuje obszary decyzyjne w kilku wymiarach >2
• transformuje do 2-D
METODY KLASYFIKACYJNE – drzewa decyzyjne
• random forests / lasy losowe
• generowanie dużej liczby drzew decyzyjnych na podstawie losowych podzbiorów dostępnych danych treningowych
• ostateczna klasyfikacja analizowanych danych jest podsumowaniem wyników wszystkich drzew
Copyright ©2020, Joanna Szyda
Unsupervised learning – brak zbioru
treningowego
ANALIZA SKUPIEŃ
1. Wybór liczby klas np. k=2
2. Losowy przydział obserwacji do klasy
3. Obliczyć koordynaty środków każdej klasy centroidy 4. Obliczyć odległość każdej obserwacji od środka klasy
5. Nowy przydział obserwacji do klas na podstawie odległości od środków 6. … do pkt. 3
7. … aż do uzyskania zbieżności algorytmu = ustalenie się przydziału do klas
Copyright ©2020, Joanna Szyda
METODY KLASYFIKACYJNE - k najbliższych sąsiadów
k=2 1 klastry losowe
Data centroid k1 k2 dystans
wybrany klaster
sepal length sepal width species klaster sepal length 5.68 5.38 to k1 to k2
5.1 3.5 Iris-setosa 1 sepal width 3.01 2.98 0.57 0.34 2
4.9 3 Iris-setosa 2 0.60 0.23 2
4.7 3.2 Iris-setosa 1 0.99 0.50 2
4.6 3.1 Iris-setosa 2 1.16 0.61 2
5 3.6 Iris-setosa 1 0.81 0.52 2
5.4 3.9 Iris-setosa 2 0.87 0.84 2
4.6 3.4 Iris-setosa 1 1.31 0.77 2
5 3.4 Iris-setosa 2 0.61 0.31 2
4.4 2.9 Iris-setosa 1 1.64 0.96 2
4.9 3.1 Iris-setosa 2 0.61 0.24 2
7 3.2 Iris-versicolor 1 1.79 2.69 1
6.4 3.2 Iris-versicolor 2 0.56 1.10 1
6.9 3.1 Iris-versicolor 1 1.51 2.34 1
5.5 2.3 Iris-versicolor 2 0.53 0.48 2
6.5 2.8 Iris-versicolor 1 0.72 1.30 1
5.7 2.8 Iris-versicolor 2 0.04 0.14 1
6.3 3.3 Iris-versicolor 1 0.48 0.96 1
4.9 2.4 Iris-versicolor 2 0.97 0.57 2
6.6 2.9 Iris-versicolor 1 0.87 1.51 1
5.2 2.7 Iris-versicolor 2 0.32 0.11 2
5 2 Iris-versicolor 1 1.47 1.11 2
5.9 3 Iris-versicolor 2 0.05 0.28 1
6 2.2 Iris-versicolor 1 0.76 1.00 1
6.1 2.9 Iris-versicolor 2 0.19 0.53 1
METODY KLASYFIKACYJNE - k najbliższych sąsiadów
k=2 2 klastry losowe
Data centroid k1 k2 dystans
wybrany klaster
sepal length sepal width species klaster sepal length 6.34 4.94 to k1 to k2
5.1 3.5 Iris-setosa 2 sepal width 2.94 3.04 1.85 0.24 2
4.9 3 Iris-setosa 2 2.08 0.00 2
4.7 3.2 Iris-setosa 2 2.76 0.09 2
4.6 3.1 Iris-setosa 2 3.05 0.12 2
5 3.6 Iris-setosa 2 2.23 0.32 2
5.4 3.9 Iris-setosa 2 1.81 0.96 2
4.6 3.4 Iris-setosa 2 3.24 0.25 2
5 3.4 Iris-setosa 2 2.01 0.14 2
4.4 2.9 Iris-setosa 2 3.77 0.31 2
4.9 3.1 Iris-setosa 2 2.10 0.01 2
7 3.2 Iris-versicolor 1 0.50 4.26 1
6.4 3.2 Iris-versicolor 1 0.07 2.15 1
6.9 3.1 Iris-versicolor 1 0.34 3.83 1
5.5 2.3 Iris-versicolor 2 1.12 0.85 2
6.5 2.8 Iris-versicolor 1 0.05 2.48 1
5.7 2.8 Iris-versicolor 1 0.43 0.63 1
6.3 3.3 Iris-versicolor 1 0.13 1.91 1
4.9 2.4 Iris-versicolor 2 2.37 0.41 2
6.6 2.9 Iris-versicolor 1 0.07 2.76 1
5.2 2.7 Iris-versicolor 2 1.36 0.18 2
5 2 Iris-versicolor 2 2.68 1.08 2
5.9 3 Iris-versicolor 1 0.20 0.92 1
6 2.2 Iris-versicolor 1 0.66 1.82 1
6.1 2.9 Iris-versicolor 1 0.06 Copyright ©2020, Joanna Szyda 1.36 1
METODY KLASYFIKACYJNE - k najbliższych sąsiadów
> head(iris)
> y = iris$Species
> x = iris[,-5]
> kc <- kmeans(x,3)
> table(y,kc$cluster)
> plot(x[c("Sepal.Length", "Sepal.Width")], col=kc$cluster)
> points(kc$centers[,c("Sepal.Length", "Sepal.Width")], col=1:3, pch=23, cex=3)
Uczenie maszynowe
Sztuczne sieci neuronowe – artificial neural networks (ANN)
x1 x2 x3 x4
Z Y
w1 w2 w3
w4 0/1
wejściowedane wagi warstwa
ukryta funkcja IO
aktywacja wynik
Perceptron jednostka budowy ANN
𝒊=𝟏 𝟒
𝒙𝒊𝒘𝒊
ቐz < T → 𝒚 = 𝟎 z ≥ T → 𝒚 = 𝟎
Sztuczne sieci neuronowe – dane treningowe
treningowy zbiór danych sepal length sepal width species
5.1 3.5 Iris-setosa
4.9 3 Iris-setosa
4.7 3.2 Iris-setosa
4.6 3.1 Iris-setosa
5 3.6 Iris-setosa
5.4 3.9 Iris-setosa
4.6 3.4 Iris-setosa
5 3.4 Iris-setosa
4.4 2.9 Iris-setosa
4.9 3.1 Iris-setosa
7 3.2 Iris-versicolor
6.4 3.2 Iris-versicolor
6.9 3.1 Iris-versicolor
5.5 2.3 Iris-versicolor
6.5 2.8 Iris-versicolor
5.7 2.8 Iris-versicolor
6.3 3.3 Iris-versicolor
4.9 2.4 Iris-versicolor
6.6 2.9 Iris-versicolor
5.2 2.7 Iris-versicolor
5 2 Iris-versicolor
5.9 3 Iris-versicolor
6 2.2 Iris-versicolor
6.1 2.9 Iris-versicolor
sepal length
sepal width
petal length
petal width
versicolor
w
Z
setosa
ෝ 𝒘
ෝ 𝒘
𝒘ෝ
ෝ 𝒘
Copyright ©2020, Joanna Szyda
Sztuczne sieci neuronowe – dane do klasyfikacji
treningowy zbiór danych sepal length sepal width species
5.1 3.5 Iris-setosa
4.9 3 Iris-setosa
4.7 3.2 Iris-setosa
4.6 3.1 Iris-setosa
5 3.6 Iris-setosa
5.4 3.9 Iris-setosa
4.6 3.4 Iris-setosa
5 3.4 Iris-setosa
4.4 2.9 Iris-setosa
4.9 3.1 Iris-setosa
7 3.2 Iris-versicolor
6.4 3.2 Iris-versicolor
6.9 3.1 Iris-versicolor
5.5 2.3 Iris-versicolor
6.5 2.8 Iris-versicolor
5.7 2.8 Iris-versicolor
6.3 3.3 Iris-versicolor
4.9 2.4 Iris-versicolor
6.6 2.9 Iris-versicolor
5.2 2.7 Iris-versicolor
5 2 Iris-versicolor
5.9 3 Iris-versicolor
6 2.2 Iris-versicolor
6.1 2.9 Iris-versicolor
analizowanyzbiór danych
5 2.4 ???
4.9 2.6 ???
sepal length
sepal width
petal length
petal width
versicolor
w
Z
setosa
ෝ 𝒘
ෝ 𝒘
𝒘ෝ
ෝ 𝒘
Sztuczne sieci neuronowe – dane do klasyfikacji
treningowy zbiór danych sepal length sepal width species
5.1 3.5 Iris-setosa
4.9 3 Iris-setosa
4.7 3.2 Iris-setosa
4.6 3.1 Iris-setosa
5 3.6 Iris-setosa
5.4 3.9 Iris-setosa
4.6 3.4 Iris-setosa
5 3.4 Iris-setosa
4.4 2.9 Iris-setosa
4.9 3.1 Iris-setosa
7 3.2 Iris-versicolor
6.4 3.2 Iris-versicolor
6.9 3.1 Iris-versicolor
5.5 2.3 Iris-versicolor
6.5 2.8 Iris-versicolor
5.7 2.8 Iris-versicolor
6.3 3.3 Iris-versicolor
4.9 2.4 Iris-versicolor
6.6 2.9 Iris-versicolor
5.2 2.7 Iris-versicolor
5 2 Iris-versicolor
5.9 3 Iris-versicolor
6 2.2 Iris-versicolor
6.1 2.9 Iris-versicolor
analizowanyzbiór danych
5 2.4 ???
4.9 2.6 ???
sepal length
sepal width
petal length
petal width
versicolor
w
Z
setosa
ෝ 𝒘
ෝ 𝒘
𝒘ෝ
ෝ 𝒘
Copyright ©2020, Joanna Szyda
Uczenie głębokie
Uczenie głębokie - schemat
Copyright ©2020, Joanna Szyda following F. Chollet „Deep learning with Python”
• Krok 1 wagi losowe
• Krok 2 modyfikacja wag kryterium = zmniejszenie loss score
• …. Krok n training loops
• Modyfikacja wag backpropagation algorithm
Uczenie głębokie – kod Keras
> from keras import models
> from keras import layers
> network = models.Sequential()
> x_train,x_test,y_train,y_test = train_test_split(X,Y,test_size=0.2,random_state=0)
> model.add(Dense(30, input_shape=(4,), activation='relu'))
> model.add(Dense(10,activation='relu'))
> model.add(Dense(5,activation='relu'))
> model.add(Dense(3,activation='softmax')) 3 gatunki irysa (setosa, versicolor, virginica)
> model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])
> model.fit(x_train, y_train, epochs=100)
Uczenie głębokie – kod Keras
Copyright ©2020, Joanna Szyda following F. Chollet „Deep learning with Python”
Podsumowanie klasyfikacji – confusion matrix
PRZYKŁADY ZASTOSOWAŃ
PRZYKŁADY ZASTOSOWAŃ - box plot
Copyright ©2020, Joanna Szyda
PRZYKŁADY ZASTOSOWAŃ - sieci neuronowe
1. Konfirmatywna, a eksploratywna analiza danych 2. Przykłady metodyki EDA – wizualizacja danych 3. Przykłady metodyki EDA – analiza danych