Zastosowanie Text Mining do analizy struktury treści artykułów polskojęzycznych publikacji "Studia i Materiały" Polskiego Stowarzyszenia Zarządzania Wiedzą

Pełen tekst

(1)ZASTOSOWANIE TEXT MINING DO ANALIZY STRUKTURY TRECI ARTYKUŁÓW POLSKOJZYCZNYCH PUBLIKACJI „STUDIA I MATERIAŁY” POLSKIEGO STOWARZYSZENIA ZARZDZANIA WIEDZ LUDOSŁAW DRELICHOWSKI, DANIEL ZWIERZCHOWSKI. Streszczenie W artykule przedstawiono wykorzystanie narzĊdzi text mining do badaĔ moĪliwoĞci wydobywania wiedzy z artykułów polskojĊzycznych wydawnictwa „Studia i Materiały” Polskiego Stowarzyszenia Zarządzania Wiedzą. Przedstawiono pojĊcie text mining i przybliĪono bazĊ danych wykorzystaną w badaniu. Dokonano analizy klasteryzacji pierwszego i drugiego stopnia, ukazując w ten sposób rezultaty grupowania artykułów poprzez identyfikacjĊ ich treĞci. Słowa kluczowe: zarzdzanie wiedz, text mining, klasteryzacja, statystyka, publikacje naukowe 1. Wprowadzenie Zarzdzanie wiedz doczekało si dziesitek definicji próbujcych przedstawi jej istot. Autorzy definicji kład róny nacisk na aspekty generowania wiedzy. J. O. Paliszkiewicz zespoliła najczstsze aspekty zarzdzania wiedza w jedn definicj. Autorka za zarzdzanie wiedz uznaje „systematyczny i zorganizowany proces lokalizowania, pozyskiwania, transferu, wykorzystywania i zachowywania wiedzy, wykorzystujcy odpowiednie technologie i rodowisko kulturowe, którego celem jest wzrost wyniku działalnoci przedsibiorstwa” [6, 9]. Pozyskiwanie i wydobywanie nowej wiedzy z baz danych tekstowych, które stanowi przedmiot bada stanowi obszerny zakres tworzenia wiedzy. Narzdzia programowe umoliwiaj poddanie procesowi kolejnych faz przetworzenia zbiorów danych tekstowych w taki sposób, by uzyskane wynikowe transformacje baz, umoliwiały efektywne wykorzystanie narzdzi analizy oprogramowanych w danej metodzie [7, 8, 13]. Klasteryzacja polega na grupowaniu rekordów według ich podobiestwa w celu otrzymania zbiorów klas w danej bazie danych. Podstawowym zastosowaniem klasteryzacji jest dostarczenie uytkownikowi pogldu na zawarto baz danych, automatyczne kategoryzowanie obiektów oraz wychwytywanie nieprawidłowoci w analizowanych danych. Ten sposób wyodrbniania struktur odpowiednich grup obiektów identyfikowanych poprzez podobiestwo zawartoci treci dokumentów staje si najbardziej interesujc procedur analizy text mining [4, 5]. Narzdzia do analiz tekstu (text mining) umoliwiaj pozyskiwanie przydatnych informacji z rónych dokumentów. Pomagaj w odkrywaniu wczeniej nieznanych współzalenoci midzy danymi oraz powiza midzy analizowanymi strukturami, które stanowi w pracy artykuły naukowe [1, 2, 3]. Niniejsza praca stanowi kontynuacj bada naukowych opublikowanych w anglojzycznych tomach Studies & Proceedings of Polish Association for Knowledge Management [1, 2, 10]. Prze-.

(2) 46. Ludosław Drelichowski, Daniel Zwierzchowski Zastosowanie Text Mining do analizy struktury treĞci artykułów polskojĊzycznych publikacji „Studia i Materiały” Polskiego Stowarzyszenia Zarządzania Wiedzą. prowadzone badanie w wyej wymienionych artykułach opierało si na analizie 9 tomów anglojzycznych, wykorzystujc w tym celu oprogramowanie Rapid Miner (Rapid-I) [11]. Niniejszy badanie naley traktowa , jako rozwinicie poprzednich publikacji naukowych. Przeprowadzono analiz treci tomów polskojzycznych i zawartych w nich artykułów, wykorzystujc licencjonowane oprogramowanie Enterprise Miner (SAS) sfinansowane w ramach projektu RCI II1. Przeprowadzone badanie text mining pozwala na identyfikacji pewnych zalenoci i rozbienoci wystpujcych pomidzy dwoma lub wieloma rónymi obiektami badawczymi. Istnieje moliwo wykorzystania wielu rónych narzdzi text mining do bada rónych moliwoci wydobywania wiedzy z baz danych tekstowych. Rodzaje danych ródłowych mog stanowi rónego typu specjalizowane i uniwersalne bazy i hurtownie danych analizowane z punktu widzenia okrelonych merytorycznych i metodycznych zastosowa. W artykule przedstawiono ogóln charakterystyk SAS Enterprise Miner, opisano materiał badawczy i metod bada. Zaprezentowano analiz rezultatów zastosowa text mining przedstawiajc statystyk wyrazów oraz interpretacj wyników klasteryzacji I i II stopnia. 2. Charakterystyka oprogramowania SAS Enterprise Miner Program SAS Enterprise Miner słuy do procesu analiz data mining, pozwalajc midzy innymi na opisanie modeli analitycznych bazujcych na duej iloci danych. Oprogramowanie SAS daje si zastosowa do złoonych problemów, dziki zintegrowanemu procesowi wspieranemu przez obszerny zbiór narzdzi. Program wykorzystuje graficzne rodowisko, dziki któremu mona budowa. odpowiednie diagramy procesu przepływu danych. Takie rozwizanie pozwala odpowiednio skróci czas potrzebny na budow modeli i przyspiesza dokonywanie analiz. Program SAS Enterprise Miner jest opracowany w taki sposób by wykorzysta w jak najwikszym zakresie technologie integracji danych, analityki i narzdzi raportujcych [12]. SAS Text Miner nie jest oddzieln aplikacj, stanowi cz programu SAS Enterprise Miner. W najnowszej wersji dostarcza bogatego zestawu narzdzi lingwistycznych oraz modelowania analitycznego słucych do odkrywania, ekstrakcji oraz syntezy wiedzy pochodzcej z wielu dokumentów tekstowych. Po przekształceniu tekstu tematy i kompozycje s identyfikowane, jako wyra ne zwizki. Tak opisane dokumenty mona łczy w stosowne grupy gotowe do analiz eksploracyjnych lub modelowania. Interaktywna eksploracja pozwala na odnajdowanie wczeniej nieznanych wzorców w zbiorach dokumentów i zastosowanie ich bezporednio w modelach predykcyjnych, maksymalizujc w ten sposób warto zdobytej wiedzy ze wszystkich ródeł informacji. Rozwizanie to pozwala na oszczdnoci finansowe i ograniczanie zasobów dziki automatyzacji czasochłonnych zada zwizanych z czytaniem i rozumieniem tekstów. Analiza treci odbywa si przez SAS Text Miner (stanowi rozszerzenie do SAS Enterprise Miner), korzysta on z metod statystycznych i obliczeniowych w nim zaimplementowanych [12]. Analiza text mining w duej mierze zaley od szybkoci przetwarzania danych limitowanej moc obliczeniow jednostki, na której zainstalowane jest oprogramowanie SAS.. 1. Program finansowany ze Ğrodków Europejskiego Funduszu Rozwoju Regionalnego w ramach „Realizacji II etapu Regionalnego Centrum InnowacyjnoĞci”..

(3) 47. Studies & Proceedings of Polish Association for Knowledge Management Nr 64, 2013. Rysunek 1. Okno projektowe programu SAS Enterprise Miner ródło: opracowanie własne. 3. Statystyki ogólne Analizie text mining poddanych zostało 49 tomów polskojzycznych. Wszystkie tomy zostały przyporzdkowane do kolejnej liczby od 1 do 49 (ostatni tom 49 jest tak naprawd 62 wydanym przez Stowarzyszenie). Łczna liczba artykułów ze wszystkich polskojzycznych tomów wynosi 1 010. Mieszcz si one na 12 077 stronach. Całkowita ilo wyrazów wynosi 3 545 833, stanowi to 23 750 391 znaków bez spacji. Najmniejszym objtociowo, biorc pod uwag liczb stron jest: • tom 7 (91 stron), przełoyło si to na 9 artykułów, • tom 28 (98 stron), 9 artykułów, • tom 12 (115 stron), 7 artykułów. Najwikszym z kolei jest: • tom 48, 31 artykułów mieci si na 395 stronach, • tom 37 (390 stron), 30 artykułów, • tom 4 (375 stron), 31 artykułów.

(4) rednio w kadym tomie znajduje si ponad 20 artykułów, kady tom posiada 246 stron, stanowi to 72 363 wyrazów i 484 701 znaków bez spacji. Struktur iloci artykułów wystpujcych w poszczególnych tomach przedstawia poniszy wykres (rys. 2). Zauway mona tutaj pewn zaleno , e z roku na rok liczba artykułów w poszczególnych tomach systematycznie wzrasta..

(5) 48. Ludosław Drelichowski, Daniel Zwierzchowski Zastosowanie Text Mining do analizy struktury treĞci artykułów polskojĊzycznych publikacji „Studia i Materiały” Polskiego Stowarzyszenia Zarządzania Wiedzą. ϰϵ. $ (. ϰϳ. $& $#. ϰϱ. $! &. ϰϯ. $) $$. ϰϭ. $# # #. ϯϵ. ! ϯϳ. $' ((. ϯϱ. $ #. ϯϯ. ) (. ϯϭ. $' $$. Ϯϵ. (' $$. Ϯϳ. $( $&. Ϯϱ. (' $". Ϯϯ. % !. Ϯϭ. (' (. ϭϵ. (' #. ϭϳ. $' $'. ϭϱ. $ $&. ϭϯ. $$ $. ϭϭ ϵ. $ $ # $$ $$. ϳ ! ϱ. % $". ϯ. # ". ϭ. !. Rysunek 2. Struktura liczby artykułów w poszczególnych tomach ródło: opracowanie własne. 4. Najczciej wystpuj ce wyrazy Program SAS Enterprise Miner pozwala na przeprowadzenie pełnej statystyki wyrazów wystpujcych w analizowanych dokumentach. Do przeprowadzenia pełnej statystyki naley dokona : • wstpnej analizy tekstu polegajcej na przetworzeniu zbioru dokumentów w jedn baz danych, • persowania, czyli tworzenie struktury tekstu, • filtrowanie zbioru, usuwanie zbdnych znaków i czci mowy. Do dyspozycji oddano wiele opcji, które mog wpłyn na ostateczne wyniki statystyki wyrazów. Posługujc si stop list mona wykluczy cz niepotrzebnych słów, program pozwala take na okrelenie, z jakich czci mowy naley uzyska wyniki (czasowniki, rzeczowniki, przysłówki). Kocowe wyniki mona sortowa na wiele rónych sposobów, poczwszy od wystpowania wyrazów, przypisania wyrazów do odpowiednich tomów, koczc na odpowiednich atrybutach..

(6) 49. Studies & Proceedings of Polish Association for Knowledge Management Nr 64, 2013. Rysunek 3. Statystyka wyrazów wszystkich artykułów ródło: opracowanie własne. Rezultaty przeprowadzonego badania (rys. 3) ukazuj 10 najczciej wystpujcych wyrazów w 1 010 artykułach, w statystyce brane s pod uwag tylko rzeczowniki. Badanie ukazuje, e najczciej wystpujcym wyrazem jest „system”, słowo to wystpuje a 17 820 razy w 869 artykułach. Drugim najczciej wystpujcym wyrazem jest „proces”, wystpowanie na poziomie 10 679 razy, czyli o ponad 7 000 mniej ni słowo na pierwszym miejscu. Co ciekawe wyraz „proces” wystpuje w 895 tomach, czyli w wikszej iloci ni słowo „system”. 5. Statystyki autorów Statystyka autorów ukazuje jak du baz danych stanowi wszystkie tomy polskojzyczne. Do grona autorów wszystkich artykułów naley zaliczy 894 osób. Naley tutaj zwróci uwag, e bardzo du ilo artykułów pisał wicej ni jeden autor. Zdarzały si artykuły pisane przez dwie, trzy, cztery a nawet pi osób. Najwiksz ilo opublikowanych artykułów w tomach polskojzycznych Polskiego Stowarzyszenia Zarzdzania Wiedz uzyskał L. Drelichowski, 26 publikacji. Na kolejnych miejscach sklasyfikowano J. Studziskiego 18 publikacji, A. Straszaka 16 publikacji, R. Budziskiego 15 publikacji. Autorzy, którzy napisali wicej ni jeden artykuł stanowi 27% grup osób, reszta, czyli 73% to autorzy, którzy opublikowali tylko po jednym artykule w polskojzycznych tomach Polskiego Stowarzyszenia Zarzdzania Wiedz. 6. Klasteryzacja I stopnia W kadym klastrze znajduje si odpowiednia grupa artykułów podobnych do siebie. Pierwsze badanie polegało na wydzieleniu 25 rónych tematycznie klastrów. Klaster 1 – Artykuły z zakresu inynierii zarzdzania wiedz, koncentrujce si midzy innymi na atrakcyjnoci inwestowania w metody zarzdzania wiedz w agrobiznesie. Przedstawienie modeli i systemów zarzdzania wiedz. Zarzdzanie wiedz w pracach badawczo rozwojowych. Zastosowanie analiz data i text mining. Komputerowe wspomaganie zarzdzania projektami badawczymi. Zarzdzanie wiedz w organizacji, jako czynnik zmian modeli biznesowych. Klaster ten jest trzeci pod wzgldem wielkoci, znajduje si w nim 68 artykułów..

(7) 50. Ludosław Drelichowski, Daniel Zwierzchowski Zastosowanie Text Mining do analizy struktury treĞci artykułów polskojĊzycznych publikacji „Studia i Materiały” Polskiego Stowarzyszenia Zarządzania Wiedzą. Klaster 2 – Artykuły z zakresu systemów informatycznych, wykorzystania Internetu czy te dotyczce gospodarki elektronicznej. Ukazanie systemów informatycznych we współczesnych problemach ekologii i ochrony rodowiska wodnego w krajach unii UE. Struktury informacyjne przykładowego procesu montau w zintegrowanym systemie informatycznym IFS Applications. Przedstawienie subiektywnej i obiektywnej oceny systemu informatycznego na przykładzie firmy sprzeday wysyłkowej. Bezpieczestwa w handlu elektronicznym. Integracji kompleksowej karty wyników w systemie informatycznym zarzdzania. Klaster ten jest drugi pod wzgldem wielkoci, znajduj si w nim 104 artykuły. Klaster 3 – Artykuły z zakresu poj matematycznych. Nieparametryczne metody statystycznego sterowania procesami (SPC). Modelowanie zapyta i bazy reguł w regułowym jzyku zapyta z wykorzystaniem logiki rozmytej. Oceny stopnia wykorzystania technologii informatycznych w przedsibiorstwach według województw z zastosowaniem metod statystycznych. Statystyka publiczna w kształtowaniu społeczestwa informacyjnego. Weryfikacja przez symulacj modelu matematycznego systemu produkcyjnego z priorytetami dynamicznymi. Do wyej wymienionego klastra zostało przypisanych 26 artykułów. Klaster 4 – Artykuły z zakresu pracy, gospodarki i zarzdzania jakoci. Identyfikacja procesów przedsibiorstwa odzieowego na potrzeby budowy modelu rachunku kosztów działa. Załoenia do budowy modelu symulacyjnego poday zasobów siły roboczej na rynku pracy. Przegld i ocena mierników rozwoju społeczno-gospodarczego. Badanie dojrzałych systemów zarzdzania jakoci. Systemy informatyczne wspomagajce zarzdzanie rodowiskiem w przedsibiorstwach chemicznych. Rola audytów w systemie zarzdzania jakoci, studium przypadku. Do wyej wymienionego klastra naleało 25 artykułów. Klaster 5 – Artykuły z zakresu zintegrowanych systemów zarzdzania, modelowania systemów i procesów. Dobór kryteriów oceny efektywnoci wdroe systemów zintegrowanych do wspomagania zarzdzania przedsibiorstwami. Model planowania e-działalnoci w małych i rednich przedsibiorstwach. Wybrane aspekty modelowania procesów biznesowych. Mechanizmy funkcjonowania organizacji wirtualnych w ujciu strukturalnym i procesowym. Proefektywnociowe perspektywy spojrzenia na wdroenie zintegrowanego systemu zarzdzania. Do wyej wymienionego klastra naleały 33 artykuły. Klaster 6 – Artykuły z zakresu marketingu. Zastosowanie teorii zbiorów przyblionych do oceny preferencji klientów marketingowej hurtowni danych. Metoda klasyfikacji klientów operatora telefonii komórkowej w analizie zjawiska rezygnacji. Metody analityczne w działaniach marketingowych z wykorzystaniem serwisów wyszukiwawczych. Monitorowanie kanałów dystrybucji komunikatów marketingowych w Internecie. Do wyej wymienionego klastra na naleało 26 artykułów. Klaster 7 – Artykuły z zakresu rolnictwa i agrobiznesu. Zasoby pracy oraz zatrudnienie mieszkaców wsi na Białorusi. Przygotowanie teoretyczne absolwentów studiów rolniczych. Powizania gospodarczo-informacyjne pomidzy rolnikami a organizacjami i podmiotami istotnymi dla gospodarki ywnociowej. Wiedza, jako czynnik rozwoju polskiego agrobiznesu. Diagnoza stanu przedsibiorstw sektora rolno-produkcyjnego w zakresie wykorzystania technik komputerowych. Narzdzia ułatwiajce przygotowanie planów rozwoju gospodarstw w opinii doradców kujawsko-pomorskiego orodka doradztwa rolniczego i współpracujcych z nimi rolników. Do wyej wymienionego klastra naleały 42 artykuły..

(8) 51. Studies & Proceedings of Polish Association for Knowledge Management Nr 64, 2013. Klaster 8 – Artykuły z zakresu techniki informacyjno-komunikacyjnej. System komunikacyjny MHS dla EDI, jako składnik globalnej infrastruktury informacyjnej. Systemy zarzdzania zasobami teleinformatycznymi. Identyfikacja łacucha wartoci biur informacji gospodarczej (BIG) w Polsce. Informacja i wiedza w kształtowaniu racjonalnoci działa przedsibiorstwa poprzez outsourcing. Zarzdzanie informacj w przedsibiorstwach gospodarki opartej na wiedzy. Macierzowa metoda analizy struktury systemu informacyjnego. Do wyej wymienionego klastra naleały 24 artykuły. Klaster 9 – Artykuły z zakresu edukacji i konkurencji. Finansowanie tworzenia i przekazywania wiedzy w systemie edukacji. Strategia przodownictwa kosztowego w walce z konkurencj. Budowa portalu internetowego dla organizacji studenckiej AIESEC Pozna. Komputerowe wspomaganie edukacji personalizowanym e-learningiem. Definicje i standardy repozytorium wiedzy zbudowanego dla potrzeb prowadzenia procesu nauczania. Liniowa realizacja modeli dynamiki stosowanych w komputerowych dynamicznych systemach nauczania. Metody pomiaru edukacyjnej wartoci dodanej. Do wyej wymienionego klastra naleało 35 artykułów. Klaster 10 – Artykuły z zakresu ekonomii i finansów. Zastosowanie metod sztucznej inteligencji do identyfikacji czynników ekonomicznych. Produktywno i efektywno przedsibiorstwa. Kompresja danych a ekonomiczna efektywno systemu przechowywania danych. Aspekty ekonomiczne zarzdzania wiedz w organizacji na bazie „distance seminar”. Przegld zastosowa sztucznych sieci neuronowych w ekonomicznych problemach klasyfikacji. Procesy konwergencji i dywergencji ekonomicznej. Do wyej wymienionego klastra naleało 29 artykułów. Klaster 11 – Artykuły z zakresu procesów zarzdzania produkcj. Model informacyjno-decyzyjny zarzdzania procesem produkcyjnym. Szkolenia w systemie zapewnienia jakoci. Algorytm KANBAN w zintegrowanym systemie zarzdzania produkcj. Systemy informatyczne zarzdzania łacuchami dostaw. System kontrolingu determinant sukcesu przedsibiorstwa. Rynek systemów wspomagajcych zarzdzanie wydajnoci przedsibiorstwa. Innowacyjno przedsibiorstw a system zarzdzania jakoci – wyniki bada. Do wyej wymienionego klastra naleało 18 artykułów. Klaster 12 – Artykuły z zakresu gospodarki wodno-ciekowej i zarzdzania przedsibiorstwami wodocigowo kanalizacyjnymi. Czynniki wpływajce na spadek zuycia wody z wodocigów w Polsce. Zastosowanie analizy skupie do uporzdkowania danych o wielkoci zawiesin wystpujcych w wodach i ciekach. Zastosowanie danych z monitoringu w systemie zarzdzania miejsk sieci wodocigow. Model neuronowy do prognozowania poboru wody w sieci wodocigowej. Optymalizacja i sterowanie miejskiej sieci wodocigowej na podstawie modeli matematycznych. Hybrydowy system klasyfikujcy w inteligentnym wspomaganiu zarzdzania sieci wodocigow. Podejcia stosowane we wspomaganiu sterowania sieci wodocigow. Do wyej wymienionego klastra naleało 28 artykułów. Klaster 13 – Artykuły z zakresy administracji, samorzdów, budetów i problematyki funkcjonowania Unii Europejskiej. Wspomaganie procesu integracji e-urzdu samorzdowego. Metoda podwójnych preferencji w wielokryterialnym problemie decyzyjnym oceny wniosków w ramach programu operacyjnego innowacyjna gospodarka 2007–2013. Wykorzystanie rodków programu operacyjnego kapitał ludzki do rozwoju mechanizmów zarzdzania wiedz w przedsibiorstwie – analiza przypadku. Partnerstwo publiczno-prywatne, jako ródło finansowania przedsiwzi inwestycyjnych jednostek samorzdu terytorialnego. Koncepcja zarzdzania strategicznego w jednostce samorzdu terytorialnego – aspekty finansowe. Do wyej wymienionego klastra naleały 53 artykuły. Klaster 14 – Artykuły z zakresu innowacji. Znaczenie innowacji w rozwoju małych i rednich przedsibiorstw. Technologie informatyczno – łcznociowo – transportowe szans przypieszenia.

(9) 52. Ludosław Drelichowski, Daniel Zwierzchowski Zastosowanie Text Mining do analizy struktury treĞci artykułów polskojĊzycznych publikacji „Studia i Materiały” Polskiego Stowarzyszenia Zarządzania Wiedzą. konkurencyjnoci i innowacyjnoci w Polsce wielkich szybkoci. Zastosowanie programowania dynamicznego i sieci neuronowych dla sektora bada naukowych i rozwoju. Przyspieszenie kreatywnoci i innowacyjnoci w Polsce poprzez zwikszanie zastosowa automatyki, informatyki i cybernetyki. Innowacyjne sposoby wzrostu małych i rednich podmiotów gospodarczych. Współczesne rozwizania w zakresie modelowania systemów nauczania hybrydowego. Zarzdzanie finansami gminy z wykorzystaniem innowacji bankowych. Do wyej wymienionego klastra naleało 31 artykułów. Klaster 15 – Artykuły z zakresu zarzdzania ryzykiem. Zarzdzanie ryzykiem zwizanym z dopasowaniem systemu ERP do organizacji. Zarzdzanie ryzykiem operacyjnym, dowiadczenia sektora bankowego. Analiza technik stosowanych do gromadzenia informacji o ryzyku w przedsiwziciach z brany IT. Analiza moliwoci zastosowania technik wspierajcych zarzdzanie ryzykiem w procesach realizacji projektów informatycznych. Piramida ryzyk w przedsibiorstwie. Pomiar ryzyka IT w przedsibiorstwie. Do wyej wymienionego klastra naleało 13 artykułów. Klaster 16 – Artykuły z zakresu inteligentnych systemów zarzdzania. Metody inteligentne w personalizacji. Interaktywne wspomaganie wielokryterialnego wyboru decyzji. Czynniki determinujce wymogi dla wiedzy stosowanej w dynamicznych inteligentnych systemach nauczania. Dobór struktury modeli matematycznych procesów w bazie wiedzy dynamicznych inteligentnych systemów nauczania. Informatyka i inteligentne zarzdzanie dla potrzeb rodowiska do rozwizywania jego problemów. Informatyka i inteligentne zarzdzanie w globalnym wysoko zinformatyzowanym wiecie ludzi oraz globalnej gospodarce rynkowej opartych na wiedzy. Do wyej wymienionego klastra naleało 11 artykułów. Klaster 17 – Artykuły z zakresu konsumentów i ywnoci. Potrzeby informacyjne młodych konsumentów ywnoci w zarzdzaniu wiedz. Analiza zachowa klientów a wzrost konkurencyjnoci przedsibiorstw. Zasady przebudowy łacucha i sieci dostaw na przykładzie najlepszych praktyk europejskich w obszarze ywnoci. Procesy integracyjne sieci producentów ywnoci w wybranych krajach UE w wietle zaspakajania aspiracji konsumentów. Midzyregionalna sie integracji producentów i dystrybucji ywnociowych produktów ekologicznych. Aktywno zakupowa klientów w sieci i jej determinanty. Do wyej wymienionego klastra naleało 64 artykułów. Klaster 18 – Artykuły z zakresu jakoci systemów informacji. System jakoci a potrzeby informacyjne przedsibiorstwa. Analiza wykorzystania technologii e-learningowej w przedsibiorstwie. Kapitał społeczny – pojcie nowe czy zapomniane. Internet a zmiany poziomu wykorzystania mediów informacyjnych w gospodarstwach indywidualnych w latach 2002 i 2008. Rola semantyki w nowoczesnych systemach informacyjnych e-biznesu. Praktyka zastosowa strategii zarzdzania jakoci w przedsibiorstwach. Do wyej wymienionego klastra naleały 33 artykuły. Klaster 19 – Artykuły z zakresu bankowoci, finansów i rachunkowoci. Problemy oceny witryn bankowoci elektronicznej dla klienta indywidualnego wybranych banków w Polsce. Problemy eksploatacji i kierunki rozwoju systemu informatycznego rachunkowoci w Uniwersytecie Technologiczno-Przyrodniczym w Bydgoszczy. Zarzdzanie kontami bankowymi na przykładzie aplikacji wykorzystujcej standard OFX. Mierniki oceny uytecznoci indywidualnej bankowoci elektronicznej w Polsce w połowie 2008 roku. Uwzgldnienie czynników kryzysu finansowego w ocenie jakoci usług bankowoci elektronicznej. Do wyej wymienionego klastra naleało 50 artykułów. Klaster 20 – Artykuły z zakresu energii, ochrony rodowiska. Model systemu wspomagania decyzji o lokalizacji odnawialnych ródeł energii. Niepewno prognoz w modelowaniu propagacji.

(10) 53. Studies & Proceedings of Polish Association for Knowledge Management Nr 64, 2013. zanieczyszcze atmosferycznych. Metoda wyznaczania strategii redukcji emisji zanieczyszcze gazowych oparta na programowaniu dynamicznym. Wpływ niepewnoci danych emisyjnych na dokładno prognoz zanieczyszcze atmosferycznych. Wspomaganie decyzji rozdziału rodków na redukcj emisji zanieczyszcze gazowych w długim horyzoncie czasowym. Symulacja handlu pozwoleniami na emisje z wykorzystaniem modelu dla systemu wieloagentowego. Do wyej wymienionego klastra naleały 22 artykuły. Klaster 21 – Artykuły z zakresu słuby zdrowia. Wykorzystanie pakietów LIMDEP i GRETL do modelowania wynagrodze personelu słuby zdrowia w powiatach województwa

(11) lskiego. Budet zadaniowy, jako alternatywa budetu tradycyjnego w placówkach ochrony zdrowia. Kształtowanie warunków realizacji strategii e-zdrowie w województwie łódzkim w latach 2007–2013. Przedsibiorczo na rynku usług medycznych w procesie przekształce organizacyjnych i własnociowych w Polsce. Wybrane czynniki majce wpływ na funkcjonowanie podmiotów wiadczcych usługi zdrowotne. Analiza konsumpcji leków w Polsce i wybranych krajach. Wybrane aspekty zarzdzania kapitałem ludzkim w jednostkach słuby zdrowia. Prewencja działa mobbingowych w rodowisku zakładów opieki zdrowotnej. Klaster ten koncentruje 141 artykułów, które dotycz kompleksowej problematyki ekonomiki i organizacji ochrony zdrowia i stanowi najbardziej liczne zgrupowanie artykułów naukowych. Klaster 22 – Artykuły z zakresu macierzy, kwantyfikatorów, zbiorów rozmytych, optymalizacji podejmowanych decyzji. Funkcja przynalenoci zbioru rozmytego – metody konstrukcji i interpretacji. Kontekstowy układ współrzdnych nierównoległych – droga do nieregularnych modeli rozmytych. Wykrywanie rozmytych wzorców w trendach dla potrzeb prognozowania regułowego. Symulacyjna metoda wyznaczania parametrów niezawodnociowych systemu przesyłowego o zalenych elementach. Procesy wspomagania decyzji w zakresie utrzymania ruchu i eksploatacji maszyn. Wspomaganie podejmowania decyzji w zakresie wyboru systemu zarzdzania dokumentami. Do wyej wymienionego klastra naleało 40 artykułów. Klaster 23 – Artykuły z zakresu bezpieczestwa publicznego i kryzysu. Analiza systemowa bezpieczestwa cyberprzestrzeni pastwa. Infrastruktura krytyczna w modelu bezpieczestwa publicznego. Analiza systemowa bezpieczestwa sieci logistycznych. Zarzdzanie regionalnymi zasobami logistycznymi w sytuacjach kryzysowych. Zastosowanie technologii GIS we wspomaganiu zarzdzania bezpieczestwem publicznym z uwzgldnieniem potrzeb. Nowoczesny pakiet oprogramowania zabezpieczajcego komputerowe stacje robocze, jako element strategii bezpieczestwa na wyszych uczelniach w Polsce. Do wyej wymienionego klastra naleało 18 artykułów. Klaster 24 – Artykuły z zakresu logistyki i transportu. System symulacyjny wspomagajcy ocen projektów infrastrukturalnych w transporcie. Modelowanie procesów logistycznych w przedsibiorstwie wirtualnym. Infrastruktura logistyczna na przykładzie firmy transportowo-spedycyjnej. Ocena postrzeganej jakoci pracy słub utrzymania ruchu w ujciu dostawca-klient wewntrzny. Stan techniczny i wyposaenie pojazdów samochodowych a bezpieczestwo ruchu drogowego. Metoda oceny informatycznych systemów wspomagajcych słuby utrzymania ruchu. Elektroniczne procedury przetargowe w polskim systemie zamówie publicznych. Do wyej wymienionego klastra naleało 36 artykułów. Klaster 25 – Artykuły z zakresu mechaniki. Wpływ cech konstrukcyjnych sekcji obudowy zmechanizowanej na sił przesuwu w trakcie dostawiania sekcji i przenonika. Optymalizacja konstrukcji złcza ciernego z klinem oporowym. Wstpna analiza uszkodze elementów górniczej ko-.

(12) 54. Ludosław Drelichowski, Daniel Zwierzchowski Zastosowanie Text Mining do analizy struktury treĞci artykułów polskojĊzycznych publikacji „Studia i Materiały” Polskiego Stowarzyszenia Zarządzania Wiedzą. rytarzowej obudowy podatnej, na podstawie bada ankietowych. Analiza porównawcza optymalnych logicznych drzew decyzyjnych i indukcyjnych drzew systemu DeTreex w optymalizacji dyskretnej układów maszynowych. Badania stanu dynamicznego linii produkcyjnej HOR 6002. Adaptacyjna metoda uczenia maszynowego w systemach klasyfikacji i sortowania przesyłek pocztowych. Komputerowe wspomaganie zarzdzania systemem eksploatacji na przykładzie form produkcyjnych do wibroprasowania prefabrykatów betonowych. Do wyej wymienionego klastra naleało 41 artykułów. Wykres poniej przedstawia kształtowanie si ilo artykułów w poszczególnych klastrach (rys. 4). Wariant klastra. 7. 03. 6 2 Ilo artykułów. 9. 5. 0. 3. 5. 0. 1. 2. 2. 8. 6. 3. 4. 5. 6. 7. 8. 9. 4. 7. 8. 9. 0. 1. 1. 1. 2. 3. 4. 5. 6. 7. 8. 9. 0. 8. 8. 8. 41. 1. 7. 7. 0. Wariant klastra. 8. 04. 6. 5. 3. 6. 2. 4. 5. 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. 0. 1. 2. 3. 4. 5. 9. 8. 8. 3. 1. 3. 1. 4. 3. 0. 2. 41. 0. 8. 6. 1. Ilo artykułów. Wariant klastra. 2. 8. 5. 8. 0. 6. 6. 4. 2. 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. 0. 3. 5. 0. 6. 1. 2. 1. 07. 8. 8. 9. Ilo artykułów. Rysunek 4. Porównanie iloĞci artykułów przy 30, 25 i 20 klastrach ródło: opracowanie własne. W kadym z 25 klastrów znajduje si odpowiednia liczba publikacji podobnych do siebie. Wyej wymienione badanie nie odnosiło si tylko do sprawdzenia iloci artykułów w 25 klastrach. Przeprowadzono te badanie dla 20 i 30 klastrów. Przeprowadzenie badania przy 25 grupach klastrów pozwoliło na uzyskanie bardzo miarodajnych wyników. Przy badaniu na 20 klastrach artykuły zostaj rozłoone bardzo symetrycznie. Z kolei badanie na 30 klastrach powoduje, i artykuły dziel si bardzo nierównomiernie. Zauway mona podział tematyczny klastrów na oddzielne 3 grupy. W pierwszej przedstawione s artykuły z zakresy systemów informacyjnych i zarzdzania wiedz. Druga grupa to artykuły o zrónicowanej tematyce i znacznym podobiestwie metodyki bada. Trzeci grup stanowi artykuły tematyczne zwizane z dziedzinami mechaniki i transportu..

(13) 55. Studies & Proceedings of Polish Association for Knowledge Management Nr 64, 2013. 7. Klasteryzacja II stopnia Klasteryzacji II stopnia poddane zostały 4 najwiksze klastry. Klaster 1 (68 artykułów), klaster 2 (104 artykuły), klaster 17 (64 artykułów), oraz klaster 21 (141 artykułów). Kolejny stopie klasteryzacji pozwala na znalezienie dodatkowych informacji i powiza pomidzy artykułami. Klaster 1: Klaster nr 1 – Jest to klaster grupujcy 19 artykułów z zakresu inynierii zarzdzania wiedz i biznesu. Klaster nr 2 – Klaster grupujcy artykuły z zakresu metod i systemów zarzdzania wiedz. Znajduje si tutaj 15 artykułów. Klaster nr 3 – Wystpiły tu artykuły z zakresu systemów sztucznej inteligencji. Do wyej wymienionego klastra naleało 12 artykułów. Klaster nr 4 – Klaster 4 grupuje artykuły z zakresu agrobiznesu i bada rozwojowych. 14 artykułów składa si na wyej wymieniony klaster. Klaster nr 5 – Artykuły z zakresu systemów informacyjnych zarzdzania. Do klastra naleało 8 artykułów. Klaster 2: Klaster nr 1 – Klaster grupujcy 29 artykułów z zakresu systemów zarzdzania wiedz oraz artykuły zwizane z e-wiedz. Klaster nr 2 – Jest to klaster grupujcy 15 artykułów z zakresu zintegrowanych systemów informacyjnych. Klaster nr 3 – Wystpiły tutaj 25 artykułów z zakresu systemów informatycznych oraz artykuły odnoszce si do baz danych. Klaster nr 4 – Zgrupowane w tym klastrze 22 artykułów z zakresu metodyki zarzdzania i elektroniki. Klaster nr 5 – Wystpiło tu 13 prac z zakresu projektowania systemów zarzdzania, obiegu i przetwarzania informacji. Klaster 17: Klaster nr 1 – Wystpiły tu prace dotyczce badania zachowa konsumentów, problemów konsumpcji ywnoci. Do wyej wymienionego klastra naleało 12 artykułów. Klaster nr 2 – Zgrupowane w tym klastrze 14 artykułów dotyczyło szeroko rozumianego rynku ywnoci, jego wartoci oraz produkcji ywnoci. Klaster nr 3 – Klaster 3 ujmuje problematyk z zakresu prowadzenia przedsibiorstwa i konkurencyjnoci. 16 artykułów składa si na wyej wymieniony klaster. Klaster nr 4 – Klaster grupujcy 13 artykułów z zakresu obsługi internetowej, zarzdzania i przetwarzania informacji. Klaster nr 5–9 artykułów z zakresu zaspokajania potrzeb klientów oraz wykorzystania ekologicznej ywnoci. Omawiany klaster II stopnia grupuje wyra nie problematyk gospodarki ywnociowej Klaster 21: Klaster nr 1 – Klaster grupujcy artykuły z zakresu zarzdzania słub zdrowia i działalnoci szpitali. Do wyej wymienionego klastra zalicza si 25 artykułów. Klaster nr 2 – Wystpiły tu prace (27 artykułów) z zakresu urynkowienia publicznego sektora słuby zdrowia i odnoszce si do wystpujcych konsekwencji iloci personelu..

(14) 56. Ludosław Drelichowski, Daniel Zwierzchowski Zastosowanie Text Mining do analizy struktury treĞci artykułów polskojĊzycznych publikacji „Studia i Materiały” Polskiego Stowarzyszenia Zarządzania Wiedzą. Klaster nr 3 – Zgrupowane w tym klastrze 23 artykuły dotyczyły stanu finansów szpitali, zastosowania systemów budetowania a take strategii szpitali. Klaster nr 4 – Klaster nr 4 grupuje 42 artykuły z zakresu, jakoci opieki zdrowotnej i odpowiedzialnoci słuby zdrowia wobec pacjenta. Klaster nr 5 – Wystpiły tu 24 artykuły z zakresu Human Resource i kształtowania funduszu wynagrodze w szpitalach. Ten najbardziej liczny klaster grupuje artykuły prezentujce róne aspekty ekonomiczne i organizacyjne funkcjonowania i transformacji zakładów opieki zdrowotnej. 8. Podsumowanie Istnieje moliwo wykorzystania wielu rónych narzdzi text mining do bada zapewniajcych wydobywanie wiedzy z baz danych tekstowych. Rodzaje danych ródłowych mog stanowi. rónego typu specjalizowane i uniwersalne bazy i hurtownie danych analizowane z punktu widzenia okrelonych merytorycznych i metodycznych zastosowa. Moe by równie celowe kontynuowanie bada dotyczcych szerszej charakterystyki treci publikacji wydawnictwa „Studia i Materiały” Polskiego Stowarzyszenia Zarzdzania Wiedz. Wykorzystujc licencjonowane oprogramowanie Enterprise Miner (SAS), przeprowadzono analiz treci tomów polskojzycznych i zawartych w nich artykułów. Badanie text mining pozwala na ukazanie pewnych zalenoci polegajcych na wyodrbnianiu klastrów reprezentujcych zblione tematycznie treci publikacji i kolejnych numerów klastrów o rosncej ich rozbienoci tematycznej i metodycznej. Dokonana analiza klasteryzacji ukazuje rezultaty grupowania artykułów poprzez identyfikacj ich treci. Przeprowadzone badania ukazały jak rozległa jest merytorycznie i metodycznie tematyka wszystkich artykułów wchodzcych w skład tomów polskojzycznych Polskiego Stowarzyszenia Zarzdzania Wiedz. W bezie danych stanowicej 1010 artykułów nie wystarczyło przeprowadzi. klasteryzacji I stopnia. Z 25 klastrów wybrano 4 najliczniejsze klastry i poddano je powtórnej klasteryzacji. Dopiero II poziom badania pozwolił na pełn ocen artykułów. Klasteryzacja polega na zestawieniu wystpujcych wyrazów i przyporzdkowanie najbardziej do siebie podobnych artykułów do odpowiednich zbiorów. Podobiestwo treci artykułów wynika z jednorodnoci merytorycznej problematyki badawczej. Przykładem moe by struktura klastra 21 zawierajcego artykuły z zakresu słuby zdrowia. Klasteryzacja II stopnia pozwoliła z kolei na wyodrbnienie klastrów dotyczcych spraw finansowych i budetowych czy problemów jakoci wystpujcych w ochronie zdrowia. Klaster 17 precyzyjnie identyfikuje tematyk artykułów dotyczcych rónych aspektów gospodarki ywnociowej. Naley zwróci uwag na fakt, e poprzez definiowanie rónych parametrów w programie SAS Enterprise Miner wyniki w procesie klasteryzacji mog od siebie bardzo odbiega . Przeprowadzenie klasteryzacji I stopnia wyróniajcych 25 klastrów doprowadziło do niesymetrycznego pogrupowania artykułów, które wymagały wprowadzenia klasteryzacji II stopnia.

(15) wiadczy to o celowoci zastosowania metod dwustopniowej klasteryzacji niezbdnej dla bardziej precyzyjnej identyfikacji struktury analizowanych baz danych..

(16) 57. Studies & Proceedings of Polish Association for Knowledge Management Nr 64, 2013. Dalsze prace badawcze dotyczce moliwoci wydobywania wiedzy z baz danych tekstowych z zastosowaniem narzdzi text mining, powinny ewoluowa w kierunku zapewnienia moliwoci automatycznego wspomagania tworzenia abstraktów przy zrónicowaniu kryteriów ich generowania. 9. Literatura [1] Drelichowski L., Siwiec J., Application of text mining for analysis and knowledge clustering published in scientific journal studies and proceedings of the Polish Association for Knowledge Management, PSZW, z. 58, Bydgoszcz 2012. [2] Drelichowski L., Bobek S., Bojar W., Chsy W., Cilski B., Czechumski W., Feoli E., Fronczak E., Ganis P., Graul C., Gruden T., Gvozdenovi M., Kołodziejski M., Lewandowski R., Łagodziski M., Oszucik G., Siwiec J., Sternad S., Wawrzyniak K., Zarzycki H. (2012), Methodological aspects and case studies of Business Intelligence applications tools in Knowledge Management, PSZW, z. 59 Bydgoszcz 2012. [3] Gaizauskas R., Saggion H., „Multi-Document Summarization by Cluster/Profile Relevance and Redundancy Removal, Proceedings of the HLT/NAACL Document Understanding Workshop”, Boston 2004. [4] Gulczyski M., „Techniki „odkrywania wiedzy” (data mining) oraz ich zastosowania”, Zeszyt nr 2 Studia i Materiały, PSZW, Bydgoszcz 2004. [5] Han J., Fu Y., Wang W., Chiang J., Gong W., Koperski K., Li D., Lu Y., Rajan A., Stefanovic N., Xia B., Zaiane O.R., „DBMiner: A System for Mining Knowledge in Large Relational Databases”, Proc. Int'l Conf. Data Mining and Knowledge Discovery, Portland, Oregon, August 1996. [6] Mikuła B., „Geneza, przesłanki i istota zarzdzania wiedz, [w:] Zarzdzanie wiedz w organizacji”, pod red. nauk. K. Perechudy, PWN, Warszawa 2005. [7] Morzy T., „Eksploracja danych", Nauka 3/2007, Biuro Upowszechniania i Promocji Nauki Kancelarii PAN. [8] Morzy T., „Odkrywanie asocjacji: Algorytmy i struktury danych”, Orodek Wydawnictw Naukowych, 2004. [9] Paliszkiewicz J. O., „Zarzdzanie wiedz w małych i rednich przedsibiorstwach – koncepcja oceny i modele”, Wydawnictwo SGGW, Warszawa 2007. [10] Polskie Stowarzyszenie Zarzdzania Wiedz: http://www.pszw.edu.pl/. [11] Rapid-I: http://rapid-i.com/content/view/181/. [12] SAS Institute: http://www.sas.com/offices/europe/poland/. [13] Winiewski A., „Inferencyjna logika pyta a scenariusze rozwizywania problemów badawczych”, Pozna 2003..

(17) 58. Ludosław Drelichowski, Daniel Zwierzchowski Zastosowanie Text Mining do analizy struktury treĞci artykułów polskojĊzycznych publikacji „Studia i Materiały” Polskiego Stowarzyszenia Zarządzania Wiedzą. APPLICATION OF TEXT MINING TO ANALYSIS THE STRUCTURE OF ARTICLES POLISH-LANGUAGE PUBLICATION OF „STUDIES & PROCEDNINGS” POLISH ASSOCIATION FOR KNOWLEDGE MANAGEMENT Summary This paper presents the use of text mining tools to study the various possibilities of extracting knowledge from the Polish-language articles published in "Studies and Research" Polish Association for Knowledge Management. Discussed the concept of text mining and brought closer to the database used in the study. An analysis of the clustering of first and second degree, thus showing results of grouping articles by identifying their contents. Keywords: knowledge management, text mining, clustering, statistics, scientific publications. Ludosław Drelichowski Daniel Zwierzchowski Wydział Zarzdzania Uniwersytet Tecnologiczno-Przyrodniczy w Bydgoszczy ul. Fordoska 430, 85-790 Bydgoszcz e-mail: lu.drel@utp.edu.pl.

(18)