W ramach niniejszej rozprawy opracowane zostały dwa nowe algorytmy generowania drzew decyzji: TVR (Tree-Via-Rule) oraz VCF (Varied-Confidence-Factor). Pierw-szy, tworzący drzewo decyzji z uprzednio wygenerowanych quasi-optymalnych reguł składniowych, oraz drugi, wykorzystujący podczas generowania drzewa informację o istotności w procesie klasyfikacji poszczególnych atrybutów opisujących, pobraną z generowanej w tle - dla analizowanych danych - sieci przekonań Bayesa. W korzeniu tak generowanego drzewa, umieszczony zostaje atrybut opisujący, ujawniający największy wpływ marginalnego prawdopodobieństwa na atrybut decyzyjny. Do-datkowo, algorytm TVR został zaprojektowany z uwzględnieniem elementów teorii zbiorów przybliżonych Pawlaka, co pozwoliło na przetwarzanie zbiorów uczących zawierających przypadki sprzeczne. Wspomniane algorytmy zostały zaimplementowane w specjalnie opracowanym systemie analizy danych TreeSEEKER, umożliwiającym m. inn. tworzenie zadanych reprezentacji ana-lizowanych wejściowych zbiorów danych, generowanie drzew decyzji przy pomocy różnych algorytmów (poza wspomnianymi nowo-opracowanymi algorytmami TVR i VCF system pozwala na generowanie drzew algorytmami ID3/C4.5 oraz algorytmem opartym o współczynniki Czerwińskiego), graficzną ich reprezentację oraz testowanie ich skuteczności klasyfikacyjnej. W ramach przeprowadzonych badań, analizie poddano bazy informacyjne zaczerpnięte z repozytorium baz danych do uczenia maszynowego, a także własne dane o znamionach melanocytowych skóry.
A new algorithms for generation decision trees
In the research two new algorithms of decision tree generation has been developed. The first one, called TVR (Tree-Via-Rule), devoted to generation of decision tree basing on previously developed quasi-optimal decision rule set. In turn, the second algorithm, called VCF (Varied-Confidence-Factor), applies information about im-portance of descriptive attributes to generation of decision tree. This information is gathered (in the background) from Bayesian network prepared for the same investi-gated dataset. Thus, attribute with the biggest influence of marginal probability on the decision attribute is situated as the root of the developed decision tree. Additionally, the TVR algorithm was projected using rough set theory. In this way, datasets with contradictory cases could be analyzed. Described algorithms were implemented in form of a new data mining system called TreeSEEKER. This information system enables mainly development of knowledge representation of the input dataset, especially generation of decision trees with using different machine learning algorithm. Without these two described algorithms, TreeSEEKER uses also well-known algorithms like ID3/C4.5 and algorithm based on Czerwinski's parameters. Graphic representation of developed tree is also available and its classification ability could be tested. Furthermore, datasets gathered from machine learning repository and dataset about melanocytic skin lesion were wide-lv investigated and tested.