• Nie Znaleziono Wyników

Podstawowy model NMF pojawiª si¦ po raz pierwszy w pracy «skich naukow-ców: Paatero i Tappera [341], opublikowanej w 1994 roku i pocz¡tkowo wyst¦powaª pod nazw¡ dodatnia faktoryzacja macierzy (PMF  ang. Positive Matrix Facto-rization). Mo»na te» spotka¢ si¦ ze stwierdzeniem [113, 268], »e pierwsze wzmianki o tego rodzaju faktoryzacji pochodz¡ ju» z lat siedemdziesi¡tych XX wieku z nie-publikowanych prac Goluba [154]. Idei NMF mo»na te» doszukiwa¢ si¦ w pracy Lawtona i Sylvestra [256] z 1971 roku. W 1997 roku Paatero [338, 339] usprawniª metod¦ PMF stosuj¡c iteracyjne algorytmy wa»onych najmniejszych kwadratów oraz rozszerzyª metod¦ PMF do modelu PARAFAC z nieujemnymi faktorami. Pocz¡tkowe zastosowanie metody PMF ograniczaªo si¦ gªównie do chemometrii i analizy ±rodowiska naturalnego.

Jednak»e, intensywny rozwój metody NMF rozpocz¡ª si¦ dopiero po ukazaniu si¦ w czasopi±mie Nature w 1999 roku pracy autorów Lee i Seunga [257] na temat zwi¡zku modelu NMF z percepcyjnymi wªa±ciwo±ciami struktury neuronowej mó-zgu. W artykule tym zaproponowano rozwi¡zanie zadania nieujemnej faktoryzacji macierzy przez naprzemienn¡ minimalizacj¦ funkcji celu za pomoc¡ prostych al-gorytmów multiplikatywnych. W kolejnej, bardzo wa»nej pracy na temat metody NMF, któr¡ przedstawiono na konferencji NIPS 2000, Lee i Seung [258] udowod-nili, »e zaproponowane algorytmy multiplikatywne gwarantuj¡ monotoniczno±¢ naprzemiennej minimalizacji odlegªo±ci euklidesowej oraz uogólnionej dywergencji KullbackaLeiblera.

Nale»y jednak zauwa»y¢, »e zarówno algorytm naprzemiennej optymaliza-cji funkoptymaliza-cji celu, jak te» algorytmy multiplikatywne stosowane w pracach Lee i Seunga znane byªy ju» od kilku lat przed ukazaniem si¦ tych prac. Csiszár i Tu-snády [98] w 1984 roku opublikowali dowód zbie»no±ci algorytmu naprzemiennej optymalizacji funkcji celu. Algorytm multiplikatywny minimalizuj¡cy dywergen-cj¦ KullbackaLeiblera stosowany byª ju» w astronomii w latach

siedemdziesi¡-tych XX wieku, a obecnie znany jest pod nazw¡ RLA (ang. RichardsonLucky Algorithm) [296, 379] lub jako EMML (ang. Expectation-Maximization Maximum Likelihood) [43, 248, 400]. Natomiast algorytm multiplikatywny minimalizuj¡cy odlegªo±¢ euklidesow¡ to algorytm ISRA (ang. Image Space Reconstruction Al-gorithm) [100], zaproponowany w 1986 roku przez Daube-Witherspoona i Mueh-llehnera do rekonstrukcji obrazu pozytronowej tomograi emisyjnej. Prace Lee i Seunga nie wniosªy zatem nowych rozwi¡za« do teorii algorytmów, a jedynie pokazaªy, »e zadanie nieujemnej faktoryzacji macierzy mo»na rozwi¡za¢ znacznie pro±ciej ni» dotychczas s¡dzono. Ponadto, ujawniªy ogromny potencjaª metody NMF w uczeniu maszyn i rozwi¡zywaniu problemów sztucznej inteligencji.

W pierwszych latach ubiegªego dziesi¦ciolecia model NMF rozwijaª si¦ gªównie w kierunku nast¦puj¡cych zastosowa«: rozpoznawania i klasykacji obrazów twa-rzy [41, 126, 163166, 267, 454], grupowania danych [457], klasykacji obrazów po-zytronowej tomograi emisyjnej [1, 261], analizy i klasykacji dokumentów teksto-wych [330, 343, 346, 461], separacji widm spektralnych [152, 359, 385387], analizy ekspresji genów [38, 228, 374], a tak»e transkrypcji muzyki [405, 407]. W pracach tych stosowano gªównie algorytmy multiplikatywne, podstawowe lub w wersjach zmodykowanych, np. uwzgl¦dniaj¡cych w funkcji celu dodatkowe czªony kary lub regularyzuj¡ce. W ten sposób uzyskiwano, poza nieujemno±ci¡, równie» inne cechy faktorów, takie jak rzadko±¢, gªadko±¢, ortogonalno±¢ oraz niezale»no±¢. Spo±ród wielu takich modykacji najcz¦±ciej spotyka si¦ w literaturze odwoªania do nast¦-puj¡cych algorytmów: NNSC [194], SCNMF [195], LNMF [126, 267], FNMF [454], DNMF [473], GNMF [47], nsNMF [344] oraz algorytmy Dinga (ONMF, Uni-NMF, Tri-NMF, wypukªy NMF) [110, 113]. Kolejn¡ grup¦ algorytmów multiplikatyw-nych stanowi¡ algorytmy minimalizuj¡ce inne miary rozbie»no±ci, np. dywergencj¦ Csiszára [71, 74, 82, 87], Bregmana [107], β [236] oraz ItakuraSaito [128, 130].

Ró»ne zastosowania modelu NMF oraz wady algorytmów multiplikatywnych staªy si¦ motywacj¡ do powstania licznej grupy algorytmów niemultiplikatywnych. Do najwa»niejszych (wedªug liczby cytowa« w Google Scholar) nale»y zaliczy¢: algorytm Hoyera [195], rzutowania gradientu zaproponowany przez C. Lina [280], quasi-Newtona [495] oraz jego modykacje [220, 497], HALS [84] lub RRI [189], zbiorów aktywnych [223], projekcyjny BarzilaiBorweina [171], BPP [225] oraz CBGP [31].

W kolejnym etapie rozwoju pojawiªy si¦ zªo»one modele NMF, np. splotowy [12, 405, 406], trójczªonowy [110, 113, 344, 469, 470], wielowarstwowy [78, 80], wa»ony [163, 166, 232, 298, 518], j¡drowy [40, 259, 275], aniczny [254], a tak»e

symetryczny [55, 181, 269, 292, 439, 447] jako szczególny przypadek modelu pod-stawowego.

Modelem zªo»onym rozszerzaj¡cym podstawowy model NMF do dekompozy-cji nieujemnego i wielowymiarowego tensora jest NTF, który jest szczególnym przypadkiem modelu PARAFAC lub CANDECOMP [53, 173]. Z kolei, PARA-FAC jest szczególnym przypadkiem dekompozycji Tuckera [435, 436], która znana byªa ju» w latach sze±¢dziesi¡tych XX wieku. Algorytmy multiplikatywne dla me-tody NTF zostaªy zaproponowane przez Shashua, Hanzana i Polaka [176, 397] w pracach, które ukazaªy si¦ w 2005 roku. Podobnie jak NMF, NTF rozwija si¦ równie» bardzo intensywnie, motywowany wieloma istotnymi zastosowaniami [133, 136, 183, 224, 235, 319, 398].

Obszerny przegl¡d algorytmów stosowanych do omawianych fakotryzacji znaj-duje si¦ w [19, 85, 89, 413].

W ostatnich kilku latach mo»na dostrzec jeszcze silniejszy wzrost zaintereso-wania metodami NMF i NTF. Liczba artykuªów dotycz¡cych metody NMF lub NTF, publikowanych w czasopismach i materiaªach znanych konferencji, ro±nie w tempie wykªadniczym, a liczba cytowa« artykuªów Lee i Seunga przekroczyªa 4500 wedªug Google Scholar (stan z marca 2014).

Funkcja celu D(Y ||AX), wyst¦puj¡ca w algorytmie naprzemiennej minima-lizacji, powinna by¢ tak sformuªowana, aby wyra»aªa miar¦ rozbie»no±ci mi¦dzy macierzami Y i AX. Miara ta mo»e by¢ deniowana przez odlegªo±¢ mi¦dzy dwoma obiektami w przestrzeni euklidesowej lub przez ró»nic¦ (dywergencj¦) mi¦dzy rozkªadami prawdopodobie«stw w przestrzeni probabilistycznej. Funk-cja celu w metodzie NMF powinna by¢ nieujemna i osi¡ga¢ warto±¢ zero, gdy

Y = AX. Je±li jest to miara odlegªo±ci, powinna by¢ ponadto symetryczna, tzn.

D(Y||AX) = D(AX||Y ), a tak»e speªnia¢ nierówno±¢ trójk¡ta: D(Y ||Q) ≤ D(Y||Z) + D(Z||Q). Typowymi miarami odlegªo±ci s¡ funkcje odlegªo±ci

eukli-desowej, Mahalanobisa, czy Minkowskiego. Miary dywergencji rozkªadów praw-dopodobie«stwa generuj¡ pewne topologie na przestrzeni uogólnionych rozkªa-dów prawdopodobie«stwa, ale nie s¡ metrykami odlegªo±ci ze wzgl¦du na ich asymetri¦ i niespeªnianie nierówno±ci trójk¡ta. Przykªadowymi statystycznymi miarami rozbie»no±ci s¡ dywergencje: KullbackaLeiblera, Csiszára, Bregmana, JensenaShannona oraz Rényi.

Wybór funkcji celu jest bardzo istotny w praktycznych zastosowaniach, tzn. wtedy gdy posªugujemy si¦ modelem przybli»onej faktoryzacji (1.3). W takim przypadku, kryterium wyboru powinno by¢ przede wszystkim warunkowane roz-kªadem zaburze« modelu, czyli macierz¡ N w (1.3), lub rozroz-kªadem prawdopo-dobie«stwa danych obserwowanych. Inne czynniki decyduj¡ce o wyborze danej funkcji celu to rozmiar i wªa±ciwo±ci faktorów (rzadko±¢, gªadko±¢ i rozkªad g¦-sto±ci prawdopodobie«stwa), zastosowany algorytm optymalizacji, a tak»e koszt wyznaczania gradientu, hesjanu i jego odwrotno±ci.

Krótko scharakteryzowano najwa»niejsze rodziny miar odlegªo±ci lub dywer-gencji statystycznych, które stosuje si¦ w ró»nych zastosowaniach metod NMF i NTF.