• Nie Znaleziono Wyników

DATAS 2009 (Digital Analysis Tests and Statistics)

z największych ekspertów zajmujących się prawem Benforda. Od kilkunastu lat zajmuje się on analizą zbiorów danych oraz wpływu ich przekształceń i zachowań na uzyskiwane wyniki w oparciu o rozbudowane analizy. Infor-macje na temat jego działalności i opublikowanych prac można znaleźć na jego stronie internetowej.

Nazwa programu oznacza cyfrowe testy analizy i statystyki, a sam pro-gram został wdrożony w 2009 roku. Zawiera on 3 odrębne arkusze kal-kulacyjne z wbudowanymi poleceniami makro do obliczeń statystycznych, a wyniki prezentowane są w formie tabelarycznej i graficznej.

Jego największą zaletą jest fakt, że został on zaprojektowany do bada-nia właściwości zbiorów tylko za pomocą rozkładu Benforda, dzięki czemu program jest ciekawym narzędziem do analizy danych poprzez wgląd na częstotliwość występowania cyfr.

Program nie jest udostępniany na licencji freeware, a jego koszt to wy-datek rzędu 39 dolarów.

Arkusz BenfordsLawFirstSecondFirstTwo

W zależności od liczności badanych liczb program krok po kroku oblicza następujące mierniki:

‚ ogólny profil danych, ‚ rozkład F1,

‚ rozkład F2, ‚ rozkład D2,

‚ wykresy dla poszczególnych rozkładów,

‚ różnice między wartościami teoretycznymi, a badanymi,

‚ granice pokazujące limit odchyleń dla poszczególnych rozkładów na po-ziomie istotności 0,05.

Arkusz zawiera 6 zakładek: Profile, Tables, Bounds, FirstDigits,

SecondDi-gits, FirstTwoDigits.

Profil danych w pierwszej zakładce oblicza sumę oraz wartość dla ba-danych liczb oraz określa przedziały ich zakresu. Wiąże się to z przekaza-niem podstawowych informacji na temat badanego zbioru. Autor określił tę funkcję jako „lepsze poznanie swoich liczb”.

Oprócz wyświetlania danych w grupach, profil danych służy również ce-lom kontroli i zasadności badanego zbioru. Określa liczebność wystąpień w przedziałach:

114

Rozdział 3 Narzędzia wspomagające analizę rozkładów częstości cyfr

‚ liczby większe lub równe 10; ‚ liczby z przedziału od 0,01 do 9,99, ‚ liczby równe 0,

‚ liczby z przedziału od –0,01 do –9,99, ‚ liczby mniejsze lub równe –10,

Dodatkowo system sprawdza liczebność wystąpień w przedziałach: ‚ od 0,01 do 50, oraz

‚ liczb większych od 100 000.

Rys. 3.8. Określony profil danych w programie DATAS 2009

Ostatnie dwie pozycje sprawdzane są pod względem użyteczności dla kont płatniczych, gdzie zachodzi wiele operacji na kwoty w tych przedziałach, uczu-lając audytorów na wartości oraz liczebność niskich i wysokich transakcji.

Sumowanie badanego zbioru ma za zadanie porównanie badanych liczb np. z dokumentacją finansową, a zestawienie liczb w sekcji Low/High-value

numbers ma pokazać odsetek liczb o niskiej wartości, często spotykanych

w przypadku kart płatniczych i transakcji zawieranych przez pracowników na rzecz firmy.

Ustalanie liczby zerowych transakcji wiąże się natomiast z określeniem roszczeń gwarancyjnych, które często przetwarzane są jako normalne zaku-py. Dodatkowo makro sprawdza liczbę wystąpień liczb ujemnych w bada-nym zbiorze, w którym takie dane nie powinny się znajdować.

115

Narzędzia wspomagające analizę rozkładów częstości cyfr

Zakładka Tables przedstawia mierniki dla analizowanych rozkładów oraz porównuje uzyskane wyniki z wartościami teoretycznymi.

Rys. 3.9. Główny raport analizy w programie DATAS 2009

Ujęcie wartości w formie tabelarycznej oraz umieszczenie podstawowych mierników na jednej stronie pozwala szybko sprawdzić zależności pomiędzy badanymi liczbami.

Zakładka Bounds ma za zadanie wskazanie przedziału granicznego, w którym audytor, analizując swoje dane, powinien się poruszać. Dodatko-wo przedstawiany jest wynik dla testu z.

Rys. 3.10. Analiza przedziałów granicznych w programie DATAS 2009

Kolejne zakładki stanowią interpretację graficzną wartości obliczonych w powyższych tabelach.

116

Rozdział 3 Narzędzia wspomagające analizę rozkładów częstości cyfr

Rys. 3.11. Rozkład F1 w ujęciu graficznym wraz z jednostkami granicznymi

98

Rys. 3. 11. Rozkład F1 w ujęciu graficznym wraz z jednostkami granicznymi

Powyższy rysunek przedstawia jeden z trzech wykresów, które są tworzone podczas sprawdzania rozkładu Benforda. Dodatkowe wykresy prezentują rozkład F2 oraz D2.

Arkusz NumberFrequencies

Arkusz ten w prosty i przystępny sposób oblicza ilość wystąpień poszczególnych liczb w zbiorze. Test ten stanowi interesujące źródło informacji w przypadku, gdy na wykresie pojawiają się duże skoki. Dzięki niemu jesteśmy w stanie określić, jakie liczby powodują anomalie, co z kolei określi konkretne wartości faktur, które w pierwszej kolejności powinny zostać poddane dogłębniejszej analizie.

Powyższy rysunek przedstawia jeden z trzech wykresów, które są tworzo-ne podczas sprawdzania rozkładu Benforda. Dodatkowe wykresy prezentu-ją rozkład F2 oraz D2.

Arkusz NumberFrequencies

Arkusz ten w prosty i przystępny sposób oblicza liczebność wystąpień poszczególnych liczb w zbiorze. Test ten stanowi interesujące źródło infor-macji w przypadku, gdy na wykresie pojawiają się duże skoki. Dzięki niemu jesteśmy w stanie określić, jakie liczby powodują anomalie, co z kolei okre-śli konkretne wartości faktur, które w pierwszej kolejności powinny zostać poddane dogłębniejszej analizie.

Dzięki zastosowanej metodzie, analityk sprawdzający zbiór będzie przede wszystkim zainteresowany liczbami, które:

‚ występują zbyt często w badanym zbiorze,

‚ powodują znaczne odchylenia od wartości teoretycznych, ‚ posiadają zaokrąglone wartości dziesiętne, np. 1,99; 1,49; 0,45,

‚ najprawdopodobniej zostały zaokrąglone na rzecz większych transakcji czy darowizn,

‚ liczby, które nie pasują do pozostałych, np. badane liczby są wartościami całkowitymi, a w zbiorze pojawiają się pojedyncze przypadki wystąpień liczb dziesiętnych,

117

Narzędzia wspomagające analizę rozkładów częstości cyfr

Rys. 3.12. Liczebność wystąpień liczb z analizowanego zbioru

Zaleta tego testu polega na tym, że można go używać dla każdej walu-ty na świecie. Może być wykorzyswalu-tywany również do sprawdzenia między innymi:

‚ zapasów,

‚ odczytów temperatury, ‚ roszczeń zdrowotnych, ‚ zwrotów biletów lotniczych,

‚ ilości sprzedawanego alkoholu na pokładzie, ‚ odczytów liczników energii elektrycznej.

Test ten został użyty przez audytorów z linii lotniczych dla danych za-wierających zebrane przez stałych klientów punkty milowe. Po przeanali-zowaniu danych, audytorzy doszli do wniosku, że najczęściej występującą liczbą jest 500 mil na pasażera. To jednak nie dziwi, ponieważ ta wartość przypisywana jest każdemu zarejestrowanemu pasażerowi jako minimalna wartość za każdy zakupiony przez niego lot.

Dużą częstością wystąpień była również liczba 817 mil, która zostawała przyznawana pasażerom podróżującym na jednej z głównych linii przewoź-nika. Jak się okazało, większa częstość występowania tej liczby wynikała z dużej liczby lotów na tej trasie.

118

Rozdział 3 Narzędzia wspomagające analizę rozkładów częstości cyfr

Kolejnym przykładem wykorzystania tego testu jest przypadek firmy z Tennessee, która użyła go do poszukiwania fikcyjnych pracowników. Au-dytor użył tego testu do sprawdzenia listy płac w poszukiwaniu powielo-nych numerów rachunków bankowych. Więcej niż jeden rachunek, na który mają wpłynąć wynagrodzenia, może być wskaźnikiem oszustwa.

Audytor odnalazł 2 przypadki, w których na liście kont istniały takie same rachunki. W pierwszym przypadku było to małżeństwo, a w drugim młodzi pracownicy, którzy wspólnie wynajmowali mieszkanie i korzystali z jednego konta. Sytuację tę pracownicy wyjaśnili niemożnością założenia rachunku bankowego dla jednego z mieszkańców4.

Arkusz BenfordLawSecondOrderTests

Funkcjonalność i prezentacja danych tego arkusza bazuje na tym samym wzorcu, co pierwszy z opisywanych. Różnica polega na tym, że badane dane sprawdzane są za pomocą zmodyfikowanego testu D2.

Nowy test diagnozuje relacje i wzorce znalezione w danych transakcyj-nych i opiera się na różnicy w cyfrach pomiędzy wartościami posortowany-mi od najmniejszej do największej. M. Nigrini wykorzystał te badania do: ‚ analizy kwot zobowiązań,

‚ analizy księgi wpływów,

‚ analizy rocznych kosztów i przychodów.

Dzięki przeprowadzonym analizom zauważone zostały anomalie w po-bieranych kwotach, zaokrąglanie danych, czy wykorzystanie danych wyge-nerowanych statystycznie, zamiast rzeczywistych danych transakcyjnych. Powyższe przykłady, powołując się na słowa autora, nie zostałyby wykryte, gdyby nie wprowadzenie testu porządkowego D2.

Definicja tego prawa opisana jest w sposób następujący:

Niech x1, …, xN będzie zestawem danych zawierającym obserwa-cje z danego zbioru, i niech y1, …, yN będzie posortowanym rem xi w porządku rosnącym. Następnie, dla wielu naturalnych zbio-rów danych, dużej wartości dla N, cyfry różnic pomiędzy obserwacjami (yi+1 – yi) powinny być bliskie rozkładowi Benforda. W przypadku wystąpień dużych odchyleń dane, dla których pojawiły się nieprawidłowości, powinny

zo-stać zbadane bardziej szczegółowo5.

4 M. Nigrini, “Program_Details_2009.doc”, DATAS 2009.

5

M. Nigrini, S. Miller, W. College, Data diagnostics using second order tests of Benford`s Law, A Journal of Practice and Theory, 2009.

119

Narzędzia wspomagające analizę rozkładów częstości cyfr

Powołując się na słowa autora, wyniki badania tego testu powinny zmierzać do wyników przedstawionych na wykresach poniżej.

Rys. 3.13. Wykres rozkładu dla posortowanego D26

101

odchyleń, dane, dla których pojawiły się nieprawidłowości, powinny zostać zbadane bardziej szczegółowo.42

Powołując się na słowa autora, wyniki badania tego testu powinny zmierzać do wyników przedstawionych na wykresach poniżej.

Rys. 3. 13. Wykres rozkładu dla posortowanego D243 Accounts Payable First-Two Digits 20 40 60 80 100 P ropor ti on 0.00 0.05 0.10 0.15 0.20

Food Cost Numbers

First-Two Digits 20 40 60 80 100 P ropor ti on 0.00 0.01 0.02 0.03 0.04 0.05

Powiązane dokumenty