W pracy zaproponowano metodę pozyskiwania wiedzy z dużych zbiorów danych z wykorzystaniem ewolucyjnych procedur generowania zapytań.
Proponowane rozwiązanie stanowi połączenie dwóch dziedzin: odkrywania wiedzy za pomocą reguł asocjacyjnych oraz algorytmów ewolucyjnych, a w szczególności algorytmów programowania genetycznego.
Zasadniczą część pracy stanowią rozdziały poświęcone opisowi metody automatycznego generowania zapytań przy pomocy algorytmów programowania genetycznego.
W tym celu dla modeli reguł asocjacyjnych zastosowano specjalny zapis w języku PMML opartym na standardzie XML oraz język zapytań XQuery.
Kolejnym zadaniem zrealizowanym w niniejszej rozprawie było zdefiniowanie kryterium oceny. W tym celu połączono kryterium subiektywne, definiowane przez użytkownika z kryterium obiektywnym, jakim jest wywodząca się z teorii informacji J-miara. W celu weryfikacji zaproponowanej metody opracowano rozwiązanie aplikacyjne zaimplementowane w języku Java, które składa się z pięciu modułów, do budowy których oprócz darmowych bibliotek programistycznych, wykorzystano szereg zaimplementowanych rozwiązań własnych.
W ostatnim rozdziale pracy przedstawiono opis oraz wyniki badań eksperymentalnych przeprowadzonych na trzech zbiorach danych rzeczywistych: medycznych, elektro-energetycznych oraz wypadków samochodowych.
Knowledge discovery from large data sets with adaptive query generation
The thesis presents a method of knowledge discovery from large databases using an evolutionary algorithm for query generation. The proposed solution is a combination of the association rules method and genetic programming. The XML-based Predictive Model Markup Language (PMML) and XQuery standard have been chosen to store and query the discovered association rule models. In the approach suggested the query is an XQuery program obtained by genetic programming. The query is modified in order to improve the quality of the selected association rules.
The essential part of the thesis presents the proposed fitness function which combines a subjective measure, determined by the user, and the objective measure based on J-measure.
To verify the proposed method the Java application was developed and evaluated for a number of data sets. The results of numerical experiments on the real medical, electrical power consumption and car accidents databases were presented in the final part of the thesis.