W związku z powyższym, opracowano propozycję redukcji czasu indeksacji w sys- temie informatycznym, a tym samym podniesienie sprawności indeksacji w syste- mie ISMBP o 50% opierając rozwiązanie na zastosowaniu technik rozpoznawania obrazów i ekstrakcji informacji w systemach przetwarzania tekstów.
Opisany proces indeksacji można usprawnić poprzez instalację oprogramowa- nia, wykorzystującego technikę rozpoznawania obrazów i ekstrakcji informacji w systemach przetwarzania tekstów, konwertującego pliki PDF na pliki o roz- szerzeniu XLS lub XLSX (charakterystyczne dla programu Microsoft Excel używane-go przez pracowników badaneużywane-go przedsiębiorstwa).
Proponowane rozwiązanie umożliwi stworzenie elektronicznego skoroszy-tu zawierającego listę kodów EAN, który będzie można przesłać do systemu ISMBP. System automatycznie sprawdzi wszystkie kody EAN i przyporządku-je do nich odpowiadające im kody towarowe (indeksy). Na tym etapie procesu pracownik będzie wiedział od razu, które produkty nie mają odpowiadającej im pozycji w systemie i będzie mógł przystąpić do indeksacji o wiele szybciej niż w dotychczasowej formie procesu.
Podczas rozpatrywania dostępnych rozwiązań pozwalających na wprowadze- nie ulepszenia przetestowano ogólnodostępne programy do celów konwersji pli-ków PDF.
Kryteria selekcji, jakim poddano dostępne na rynku programy to: • koszty eksploatacji,
• bezbłędna konwersja danych, • czas.
Po wstępnej selekcji wg kryterium kosztów eksploatacji wytypowano 5 pro- gramów do testowania – tabela 3. Odrzucono te, które wymagają comiesięcznej opła-ty abonamentowej i zgodnie z zaleceniem najwyższego kierownictwa pod uwagę wzięto tylko programy, które wymagają opłacenia jednorazowej opłaty licencyjnej.
Irena Jałmużna, Damian Jasiaczyk, Jan Królikowski
Każdy z przedstawionych w tabeli 3 programów, wykorzystujących technikę rozpoznawania obrazów i ekstrakcji informacji w systemach przetwarzania tek-stów, konwertował dokumenty dostawców na pliki XLS/XLSX bez błędów.
W związku z tym poddano analizie czas konwersji. Z danych przedstawionych w tabeli 3 wynika, że jest on wręcz taki sam i nie ma podstaw do traktowania tego parametru, jako kluczowego w doborze oprogramowania.
Tabela 3. Czasy konwersji analizowanych programów wykorzystujących technikę rozpoznawania obrazów i ekstrakcji informacji w systemach przetwarzania tekstów
Nazwa programu Czas konwersji
PDF to Excel Converter 3.0.2 Mniej niż 15 sek.
ABBYY PDF Transformer+ Mniej niż 15 sek.
PDF Grabber 8.0 Mniej niż 15 sek.
PDFelement Mniej niż 15 sek.
Adobe Acrobat DC Mniej niż 15 sek.
Źródło: opracowanie własne na podstawie źródeł internetowych.
W związku z powyższym, za jedyne kryterium wyboru najlepszego programu na potrzeby firmy ustalono koszty eksploatacji. Powód: wszystkie z wymienionych programów konwertują pliki PDF do formy akceptowalnej z punktu widzenia usprawnienia do jakiego dążono, a czasy są praktycznie identyczne.
W związku z powyższym, ostatecznego doboru oprogramowania dokonano w oparciu o kryterium kosztów eksploatacji i w tabeli 4 przedstawiono ceny zakupu licencji obowiązujące w okresie realizacji projektu.
157
Techniki rozpoznawania obrazów i ekstrakcji informacji a podniesienie sprawności identyfikacji towarów – studium przypadku
Tabela 4. Koszty analizowanych programów wykorzystujących technikę rozpoznawania obrazów i ekstrakcji informacji w systemach przetwarzania tekstów
Nazwa programu Cena
Adept PDF to Excel Converter 3.0.2
1 licencja - $39.95 USD
2–4 licencje – $37.95 USD za każdą 5–9 licencji – $34.95 USD za każdą >10 licencji – $32.95 USD za każdą
ABBYY PDF Transformer+
1 licencja – € 69
W przypadku większej ilości licencji należy wysłać zapytanie do firmy przez formularz na stronie.
PDF Grabber 8.0 1 licencja – € 79
Wondershare PDFelement 1 licencja – $139,95 USD 2–5 licencji – $485,95 USD Adobe Acrobat DC 1 licencja – € 141,45 Źródło: opracowanie własne na podstawie źródeł internetowych.
Na tej podstawie wybrano program PDF to Excel Converter 3.0.2. Przy usprawnianiu procesu indeksacji towarów w systemie ISMBP należy uwzględnić kluczowy problem jakim jest układ danych na dokumentach. W celu sprawnej kon-wersji danych dokumenty powinny zawierać tabele z kluczowymi danymi, jakimi jest “Nazwa towaru” i “kod EAN”. Dane te powinny być w oddzielnych komórkach, aby skonwertowany plik XLS/XLSX był jak najwygodniejszy do przesłania do syste-mu ISMBP.
Zastosowanie programu wykorzystującego technikę rozpoznawania obrazów i ekstrakcji informacji w systemach przetwarzania tekstów pozwoliło na tworzenie przejściowej bazy danych kodów EAN, które są gotowe do skopiowania do od-dzielnego pliku i przesłania ich do systemu ISMBP. Sam proces przesyłania pole-ga już tylko i wyłącznie na wstawieniu prostego pliku XLS/XLSX do systemu ISM-BP, gdzie następuje sprawdzenie, które kody EAN widnieją w bazie produktów, a których brak i dla których należy założyć nowe indeksy. Pracownik działu Data
Irena Jałmużna, Damian Jasiaczyk, Jan Królikowski
Team otrzymuje w nowym rozwiązaniu informację zwrotną, na której wyszcze-gólnione są kody nieistniejące w systemie. Dzięki temu może on od razu przy-stąpić do wprowadzania tylko tych pozycji do systemu ISMBP, które nie po-siadają kodu EAN, oszczędzając czas na żmudne sprawdzanie każdej pozycji z osobna.
Podczas testowania implementowanego rozwiązania okazało się, że nie wszyst-kie dane były wprowadzane prawidłowo. Z analizy dokumentów otrzymywanych przez badane przedsiębiorstwo od dostawców wynika, że dostarczane dokumenty zawierają dane przedstawione w różnej postaci graficznej, np.: dokumenty jedne- go z dostawców nie posiadają formy tabelarycznej, co powodowało, że w trakcie konwersji taka struktura danych plasowała je w jednej komórce arkusza XLS/XLSX, w której oprócz kodu EAN pojawiało się więcej informacji. W tym przypadku otrzyma-na w wyniku konwersji struktura danych nie miała wpływu otrzyma-na zmiany aotrzyma-nalizowanych wskaźników sprawności indeksacji, ponieważ by utworzyć oddzielny plik z kodami EAN do sprawdzenia czy takowy indeks istnieje w systemie ISMBP, należało usuwać ręcznie pojawiające się niepotrzebne znaki w komórkach, co w tym konkretnym przypadku, proponowane rozwiązanie nie skracało czasu procesu indeksacji.