• Nie Znaleziono Wyników

Klasyfikacja podjednostek gluteninowych z wykorzystaniem metod uczenia maszynowego

N/A
N/A
Protected

Academic year: 2021

Share "Klasyfikacja podjednostek gluteninowych z wykorzystaniem metod uczenia maszynowego"

Copied!
2
0
0

Pełen tekst

(1)

NR 283 BIULETYN INSTYTUTU HODOWLI I AKLIMATYZACJI ROŚLIN 2018 75 MACIEJ KAŁA MATEUSZ PRZYBOROWSKI SEBASTIAN GASPARIS WACŁAW ORCZYK ANNA NADOLSKA-ORCZYK

Zakład Genomiki Funkcjonalnej, IHAR — PIB Radzików m.kala@ihar.edu.pl

Klasyfikacja podjednostek gluteninowych

z wykorzystaniem metod uczenia maszynowego

Classification of glutenin subunits using machine learning methods

Gluteniny to białka zapasowe występujące w bielmie ziarniaków pszenicy. Są one odpowiedzialne za rozciągliwość i elastyczność ciasta. Informacja o ich składzie jest wykorzystywana w procesie hodowlanym. Najprostszą i dającą najlepsze efekty metodą rozpoznawania podjednostek gluteninowych jest rozdział ekstraktów białkowych na żelu poliakrylamidowym w buforze zawierającym laurylosiarczan sodu (SDS-PAGE). Uzyskany obraz jest stosunkowo łatwy do analizy, jednakże duża ilość prób bardzo wydłuża czas opisywania poszczególnych ścieżek i tym samym zwiększa prawdopodobieństwo popełnienia błędu. Do zwiększenia precyzji i szybkości klasyfikacji podjednostek gluteninowych został napisany skrypt w języku Python 3. Zastosowano w nim algorytmy uczenia maszynowego i zbiór zdjęć z opisanymi wcześniej ścieżkami. Skrypt dzieli się na dwa moduły: w pierwszym następuje rozpoznanie ścieżek ze zdjęć, a w drugim budowanie modelu predykcyjnego. Zdjęcia po załadowaniu są wstępnie ujednolicane przez zastosowanie progowania adaptacyjnego a następnie usuwane są artefakty. Przygotowane w ten sposób obrazy są gotowe do wyodrębnienia ścieżek. W większości przypadków gluteniny wysokocząsteczkowe formują ścieżki równoległe co umożliwia zastosowanie prostego skryptu z wykorzystaniem wartości średnich ze wszystkich kolumn a następnie sum kumulatywnych dzięki czemu ścieżki mogą być od siebie odseparowane. W przypadku zniekształconych żeli zastosowano model DBSCAN (Density-based spatial clustering of applications with noise) do rozpoznania poszczególnych prążków, a następnie algorytm centroidów ( k-means) do znalezienia

 Prace zostały wykonane w ramach programu wieloletniego „Tworzenie naukowych podstaw postępu biologicznego i ochrona roślinnych zasobów genowych źródłem innowacji wsparcia zrównoważonego rolnictwa oraz bezpieczeństwa żywnościowego kraju” koordynowanego przez IHAR-PIB a finansowanego przez MRiRW.

(2)

Maciej Kała ...

76

centrów wyznaczonych uprzednio klastrów i aproksymacje wielomianową do wyznaczenia środków ścieżek. Uzyskany zbiór opisano ręcznie i nadano etykiety, a następnie znormalizowano do wartości w przedziale 0–1. W celu skrócenia czasu obliczeń i zapobiegnięciu przeuczenia zredukowano wymiary ścieżek przez zastosowanie analizy głównych składowych (PCA) i podzielono na część treningową i testową. Do testowania klasyfikacji wybrano cztery modele: lasy losowe (LL), maszynę wektorów nośnych (SVM), regresję logistyczną (RL) i perceptron wielowarstwowy (MLPC). Dopasowanie parametrów poszczególnych modeli zautomatyzowano funkcją GridSearchCV. Do pomiaru jakości predykcji zastosowano dwa mierniki: 1) średnia harmoniczna z precyzji i czułości (F1 score), 2) dokładność — prawdopodobieństwo prawidłowej klasyfikacji. Z wyjątkiem regresji logistycznej pozostałe modele klasyfikowały ścieżki ze zbioru testowego z wysoką dokładnością przy czym SVM i MLPC osiągnęły średni wynik 95%. Powyższy skrypt umożliwia wybór najlepszego modelu do klasyfikacji glutenin HMW w krótkim czasie i z dużą dokładnością. Tym samym może być cennym narzędziem w pracy hodowlanej.

Cytaty

Powiązane dokumenty

Following the performed analyses, a method can be proposed of classification of the engine valve clearance based on vibration signals measured on the cylinder head.. For the

W artykule przedstawiono architekturę platformy chmurowej, której zadaniem jest przetwarzanie danych biomedycznych przy użyciu metod uczenia maszyno- wego.. Platforma

Wpływ relacji społecznych na sposób realizacji określonych działań w organizacji odbywa się więc poprzez:.. – potencjały relacyjne podmiotów, – charakter

Analiza dokładności szacowania wstępnych kosztów budowy boisk W celu analizy utworzono cztery modele: CBR 1, CBR 2, CBR 3 oraz CBR 4.. Model CBR 1 zakłada wnioskowanie

Broken families, higher risk ones, disintegrated, disorganized, dysfunctional and the families of cumulated pathogenic factors influence destruc- tively on the personal development

Thin, horizontal layer of very fine grey sand with small pieces of pottery, plaster and pebbles; in n section firmly packed rubble with fragments of mud bricks

Przete- stowana zostanie przydatno  metod klasyfikacji spektralnej (w tym z wykorzystaniem odleg  o ci GDM) oraz klasycznych metod analizy skupie dla wygenerowanych da- nych

Seminarium Zakładowe IDSS Równoległe obliczenia metaheurystyczne z wykorzystaniem klastra obliczeniowego Krzysztof Kowalczykiewicz Marek Kubiak Dawid Weiss Przemysław