tutaj – w wykazie pytań zaliczeniowych

(1)

Python!

!

1. Zanalizuj działanie funkcji read_fasta() z modułu SW_clean.py. Podaj wykorzystywane mechanizmy języka Python. !

!

2. Zanalizuj działanie funkcji read_blosum() z modułu SW_clean.py. Podaj wykorzystywane mechanizmy języka Python. !

!

3. Zanalizuj działanie funkcji SW_align_simple() z modułu SW_clean.py. Podaj wykorzystywane mechanizmy języka Python. !

!

4. Zanalizuj działanie funkcji SW_align_trace() z modułu SW_clean.py. Podaj wykorzystywane mechanizmy języka Python. !

!

5. Zanalizuj działanie funkcji SW_build_traceback() z modułu SW_clean.py. Podaj wykorzystywane mechanizmy języka Python. !

!

6. Zanalizuj działanie funkcji SW_build_alignment() z modułu SW_clean.py. Podaj wykorzystywane mechanizmy języka Python. !

!

R!

!

7. Wymień i wyjaśnij wartości specjalne obsługiwane przez R. Podaj wartości działania (dodawanie, mnożenie, dzielenie) wartości specjalnych z liczbą 1. !

!

8. Podaj wynik działania: !

> MyVec<-c(1,2,3,4,5)!

> MyVec!

[1] 1 2 3 4 5!

> MyVec*3!

!

9. Podaj wynik działania!

> MyVec<-seq(from=1, length.out=7, by=5) !

> MyVec!

!

10. Podaj wynik działania:!

> MyVec<-c(1,2,3,4,5)!

> MyVec2<-c(10,20)!

> MyVec*MyVec2!

!

11. Wygeneruj za pomocą poleceń języka R na co najmniej 3 sposoby następującą sekwencję liczb:!

[1] 17 16 15 14 13 12 11 10 9 8!

!

12. Utwórz za pomocą poleceń języka R listę, składającą się z dwóch list, każda z list cząstkowych ma zwierać dwa napisy (Imię i Nazwisko) oraz, wzrost w cm, wagę w kg i współczynnik BMI (wzrost podzielony przez kwadrat wagi). !

!

13. Utwórz za pomocą poleceń języka R ramkę danych rozmiaru 3 wiersze i 4 kolumny. Nagłówki kolumn i wierszy powinny być w formacie odpowiednio Hnn, Wnn, gdzie H oznacza Height, W oznacza Width, nn to liczba podana w centymetrach (np W30, H50). Każdy element ramki powinien być powierzchnią prostokąta o wymiarach zapisanych w nagłówkach odpowiedniego wiersza i kolumny. !

!

14. Za pomocą poleceń języka R dodaj do ramki danych kolumnę, w której każdy element jest napisem. !

(2)

!

W R jest standardowo udostępniany zbiór danych Iris o następującej strukturze: !

! !

> str(iris) 

'data.frame':150 obs. of 5 variables:!

$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...!

$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...!

$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...!

$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...!

$ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 …!

> summary(iris)!

Sepal.Length Sepal.Width Petal.Length Petal.Width Species!

Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50!

1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50!

Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50!

Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199!

3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800!

Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500!

! !

15. Podaj polecenie, które utworzy nową kolumnę o nazwie Sepal.Dim zawierającą średnią geometryczną z kolumn Sepal.Length i Sepal.Width. !

!

16. Podaj polecenie, które wyświetli wykres punktowy, na osi odciętych (X) powinna się znaleźć wartość Sepal.Length, na osi rzędnych (Y) wartość Sepal.Width, osie będą odpowiednio podpisane, punkty będą miały kolor zależny od klasy decyzyjnej (kolumna Species). !

!

17. Podaj polecenia, które utworzą ramkę danych MiniIris, zawierającą wiersze podzielne przez 10.!

!

18. Podaj polecenia, które utworzą ramkę danych MiniIris, zawierającą losowo wybrane 15 wierszy ze zbioru Iris. !

!

19. Podaj polecenie, które wyświetli histogram dla kolumny Sepal.Length.!

!

20. Podaj polecenie, które wyświetli wykresy pudełkowe zmiennej Sepal.Length dla trzech klas decyzyjnych (kolumna Species - trzy odmiany irysa) (obok siebie, na jednym wykresie). !

!

21. Podaj polecenie, które obliczy dla każdej kolumny średnią wartość w każdej klasie decyzyjnej (kolumna Species - trzy odmiany irysa). Użyj funkcji z rodziny apply. !

!

22. Podaj polecenia, które spowodują zainstalowanie i załadowanie do środowiska pracy pakietu randomForest. !

!

23. Podaj polecenie, które wczyta do środowiska zawartość pliku data.txt, zawierającego tabelę z danymi, dane w wierszu są rozdzielone średnikami, separator dziesiętny to przecinek, tabela zawiera nagłówki kolumn i wierszy. !

!

24. Opisz ramkę danych z punktu widzenia!

1. statystyka,!

2. użytkownika Excela,!

3. programisty R.!

!

25. Opisz procedurę instalacji pakietu Bioconductor.!

!

26. Opisz klasę Biostrings i uzasadnij czemu jej wprowadzenie jest przydatne - jakie cechy tej odróżniają ją od zwykłych napisów? !

(3)

!

27. Opisz wynik zastosowania funkcji svd na prostokątną tablicę danych. Co znajdzie się w zwracanym wyniku i jak można ten wynik interpretować?!

!

28. Napisz do czego można wykorzystać dane pochodzące z sekwencjonowania - jakie mogą być korzyści w nauce i medycynie.!

!

29. Podaj centralny dogmat biologii molekularnej. Przedyskutuj wyjątki. !

!

30. Wymień poziomy opisu informacji o strukturze białka.!

!

31. Wymień podstawowe klasy aminokwasów.!

!

32. Wyjaśnij na czym polega alternatywny splicing.!

!

33. Wyjaśnij pojęcia: !

• chromatyna!

• histon!

• centromer!

• telomer!

• nucleosom!

!

34. Opisz lokalny algorytm przyrównania sekwencji (algorytm Smitha - Watermana). Podaj złożoność obliczeniową i uzasadnij. !

!

35. Opisz globalny algorytm przyrównania sekwencji (algorytm Needlemana - Wunscha). Podaj złożoność obliczeniową i uzasadnij.!

!

36. Opisz algorytm BLAST. Uzasadnij czemu ! 1. jest niedokładny,!

2. jest szybszy od algorytmu SW?!

!

37. Opisz przykładowe biologiczne zastosowania algorytmów przyrównania sekwencji.!

!

38. W jaki sposób oceniana jest jakość wyników wyszukiwania sekwencji podobnych do zapytania?!

!

39. Wymień przykładowe bazy danych sekwencji biopolimerów dostępne w Internecie.!

!

40. Opisz protokół eksperymentalny prowadzący do uzyskania sekwencji mRNA.!

!

41. Wyjaśnij różnicę między uczeniem nadzorowanym i nienadzorowanym w uczeniu maszynowym!

!

42. Wymień trzy dowolne algorytmy klastrowania i opisz sposób działania jednego z nich.!