Przegląd Teleinformatyczny = Teleinformatics Review. T. 3, 2015, nr 1/2

(1)

TOM 3 (21) Nr 1-2 (39) ISSN 2300-5149

PRZEGLĄD TELEINFORMATYCZNY

Dawniej: Biuletyn Instytutu Automatyki i Robotyki WAT ISSN 1427-3578

T. Malinowski, K. Piersa

Raport z badań symulacyjnych protokołów trasowania w sieciach ad-hoc .... 3 F. Darnowski, A. Chojnacki

Selected Methods of File Carving and Analysis of Digital Storage Media in Computer Forensics ... 25 D. Mazur

Metoda pomiaru parametrów jakości transmisji audio-wideo ... 41 Informacje dla autorów ... 65

(2)

TELEINFORMATICS REVIEW

Dawniej: BIULETYN INSTYTUTU AUTOMATYKI I ROBOTYKI WAT (ISSN 1427-3578)

Ukazuje się od 1995 r.

RADA NAUKOWA Lt. Col. Janos Balogh MSc

dr hab. inż. Antoni M. Donigiewicz – przewodniczący Hacene Fouchal, PhD

prof. dr hab. inż. Włodzimierz Kwiatkowski prof. dr hab. inż. Bohdan Macukow

Lt. Col. Lajos Mucha PhD prof. ing. Vladimír Olej, CSc.

KOLEGIUM RECENZENTÓW dr hab. inż. Marek Cieciura dr hab. inż. Andrzej B. Chojnacki

prof. dr hab. inż. Marian Chudy dr hab. inż. Leszek Jung prof. dr hab. inż. Stanisław Paszkowski

ADRES REDAKCJI

Redakcja Przeglądu Teleinformatycznego 00-908 Warszawa 49, ul. Gen. S. Kaliskiego 2

tel. 261 83 95 52, fax. 261 83 71 44 e-mail: pt [at] ita.wat.edu.pl WWW: http://przeglad.ita.wat.edu.pl/

Wersją pierwotną czasopisma jest wersja elektroniczna

REDAKTOR NACZELNY:

Antoni Donigiewicz

REDAKTOR WYDANIA Antoni Donigiewicz

OPRACOWANIE STYLISTYCZNE Renata Borkowska

PROJEKT OKŁADKI Barbara Chruszczyk

WYDAWCA: Instytut Teleinformatyki i Automatyki WAT

(3)

Raport z badań symulacyjnych protokołów trasowania w sieciach ad-hoc

Tomasz MALINOWSKI¹, Kamil PIERSA²

Instytut Teleinformatyki i Automatyki WAT, ul. Gen. S. Kaliskiego 2, 00-908 Warszawa

1 tomasz.malinowski@wat.edu.pl, ²geniek69@gmail.com

STRESZCZENIE: W artykule przedstawiono wyniki symulacyjnych badań porównawczych protokołów trasowania, stosowanych w sieciach ad-hoc. Uzyskane wyniki ilustrują wpływ protokołów trasowania na funkcjonowanie sieci i pozwalają wskazać preferowany protokół dla sieci o określonej wielkości i szybkości przemieszczania się bezprzewodowych węzłów.

SŁOWA KLUCZOWE: badania symulacyjne, sieci ad-hoc, protokoły routingu dynamicznego dla sieci ad-hoc

1. Wprowadzenie

Niniejszy raport stanowi kontynuację rozważań nad przydatnością i zasadnością stosowania w określonych warunkach funkcjonowania sieci ad-hoc, wybranych protokołów routingu dynamicznego. Teoretyczne podstawy rutowania pakietów w sieci mobilnych węzłów przedstawione zostały w pracy [10], natomiast metodyka, zgodnie z którą przeprowadzone zostały badania protokołów routingu, omówiona jest w artykule [5].

Sieci mobilne stawiają przed projektantami technicznych środków komunikacji wymaganie zapewnienia wysokiej dostępności przemieszczających się węzłów i niezawodności transmisji. Ważnym elementem systemu transmisji jest podsystem trasowania pakietów, umożliwiający efektywne przekazywanie pakietów z mobilnego węzła źródłowego, poprzez szereg węzłów pośredniczących w transmisji, do mobilnego węzła docelowego. Ponieważ opracowane dla sieci przewodowych protokoły routingu nie sprawdzają się

(4)

w sieciach o szybko zmieniającej się (często w sposób nieprzewidywalny) topologii, poszukuje się rozwiązań, które w specyficznych warunkach funkcjonowania sieci ad-hoc umożliwią szybkie osiąganie stanu konwergencji (stanu ustalonego tablic trasowania węzłów). Ponadto, protokół powinien charakteryzować się jak najmniejszym zapotrzebowaniem na pasmo transmisyjne i zasoby sprzętowe węzła sieciowego [6], [8], [10].

Porównywane były proaktywne i reaktywne protokoły trasowania, dostępne przy modelowaniu sieci ad-hoc w środowisku do prowadzenia badań symulacyjnych, jakim jest OPNET. Badania prowadzone były w szczególnych warunkach (różna liczba i szybkość poruszania się węzłów), ustalonych na etapie opracowywania scenariuszy symulacyjnych [5], [10]. Badania natury i zachowania protokołu routingu dynamicznego w określonych warunkach funkcjonowania sieci ad-hoc, z wykorzystaniem pakietu OPNET przedstawiane są w wielu publikacjach, np. [3], [4], [11], [12]. Co istotne, badania symulacyjne pozwalają rewidować zachowanie protokołu i identyfikować odstępstwa od reguł (teoretycznych podstaw) w szczególnych warunkach, łatwo określanych w trakcie modelowania sieci.

Mechanizmy stosowane w protokołach routingu dla sieci ad-hoc są szeroko opisywane w literaturze i nie będą tutaj omawiane [1], [2], [6], [7], [9].

2. Hipotezy badawcze

Przedmiotem badań były najczęściej stosowane w sieciach ad-hoc implementacje protokołów routingu dynamicznego: proaktywny protokół OLSR i dwa protokoły z grupy protokołów reaktywnych – AODV i DSR. Wybór protokołów podyktowany został bezpośrednią dostępnością w pakiecie OPNET modeli węzłów z tymi protokołami i tym, że stosowane w nich różne algorytmy rozgłaszania dostępności węzłów sieci ad-hoc stanowią po modyfikacji podstawę nowych, eksperymentalnych rozwiązań [3], [4], [12].

Celem badań było porównanie wpływu wymienionych protokołów na funkcjonowanie sieci ad-hoc, w zależności od liczby oraz szybkości przemieszczania się węzłów sieciowych. Pierwsza grupa scenariuszy symulacyjnych (nazwana „Liczba węzłów”) zakładała stacjonarność, natomiast druga (o nazwie „Mobilność”) – mobilność węzłów sieciowych.

W scenariuszach z ruchomymi węzłami, wszystkie węzły – za wyjątkiem serwera, z którym węzły komunikowały się – podlegały losowemu przemieszczaniu (sposób przemieszczania był zgodny z modelem Random Mobility Model¹).

1 Random Mobility Model – dostępny w OPNET model losowego przemieszczania się

(5)

Ocenie podlegały [5], [10]:

• prawdopodobieństwo dostarczenia pakietu do odbiorcy (ang. packet delivery fraction – PDF), mierzone stosunkiem liczby odebranych pakietów przez wszystkie węzły sieciowe do liczby wysłanych pakietów przez wszystkie węzły źródłowe;

• obciążenie sieci wprowadzane przez proces routingu (ang. normalized routing load – NRL), wyrażane stosunkiem średniej liczby wysłanych pakietów przez proces routingu do średniej liczby odebranych pakietów danych przez węzły sieci ad-hoc;

• liczba odrzuconych przez węzły sieciowe pakietów (ang. packets dropped), nie wliczając pakietów kontrolnych (generowanych przez proces routingu);

• średni czas transmisji pakietów (ang. end-to-end delay);

• średnia szybkość przesyłania danych w sieci (szybkość transmisji).

Wyniki badań porównawczych miały potwierdzić lub obalić ogólne, wynikające bezpośrednio z założeń teoretycznych dotyczących funkcjonowania węzłów z danym protokołem routingu, hipotezy [5], [10]:

• wraz ze wzrostem liczby węzłów, niezależnie od wybranego protokołu routingu w sieciach ad-hoc:

zmniejsza się prawdopodobieństwo dostarczenia pakietów,

zwiększa się obciążenie sieci przez proces routingu oraz opóźnienie w dostarczaniu pakietów;

• wraz z przyrostem szybkości poruszania się węzłów w sieci ad-hoc, niezależnie od wybranego protokołu routingu:

zmniejsza się prawdopodobieństwo dostarczenia pakietów oraz szybkość przesyłania danych,

zwiększa się obciążenie sieci przez proces routingu, liczba odrzucanych pakietów oraz opóźnienie w dostarczaniu pakietów;

• w sieciach z protokołami reaktywnymi, w porównaniu z sieciami z protokołem proaktywnym, występują większe opóźnienia ze względu na wymianę wiadomości kontrolnych przed wysyłaniem pakietów;

• obciążenie sieci wprowadzane przez protokół proaktywny jest większe w porównaniu z obciążeniem sieci pakietami kontrolnymi generowanymi przez protokoły reaktywne (w związku z okresową aktualizacją informacji o topologii sieci);

• w sieciach z protokołem proaktywnym szybkość przesyłania danych jest większa ze względu na zastosowanie charakterystycznego dla protokołów stanu łącza mechanizmu utrzymywania tablic routingu.

Obalenie którejkolwiek z hipotez oznaczałoby, że istnieje granica (związana np. z szybkością przemieszczania się węzła sieciowego), po przekroczeniu której należy rozważyć zmianę protokołu routingu, lub też tyle, że

(6)

popełniono zasadniczy błąd przy opracowywaniu modelu symulacyjnego.

Założenia eksperymentu symulacyjnego i wszystkie scenariusze symulacyjne zostały szczegółowo omówione w pracy [5].

3. Wyniki badań symulacyjnych

Kolejne podpunkty przedstawiają wyniki uzyskane po przeprowadzeniu badań protokołów routingu: OLSR, DSR i AODV pod kątem liczby odrzucanych pakietów, prawdopodobieństwa dostarczenia pakietu, obciążenia sieci przez proces routingu, opóźnień w dostarczeniu pakietów oraz szybkości przesyłania danych w sieci ad-hoc. Zakładając wcześniejsze zaznajomienie się Czytelnika z podstawami teoretycznymi funkcjonowania węzłów z danym protokołem, po każdym badaniu uzyskane wyniki są krótko komentowane.

3.1. Wyniki uzyskane dla scenariuszy „Liczba węzłów”

W trakcie badań symulacyjnych opartych o scenariusze o nazwie „Liczba węzłów” [5], [10] testowano efektywność działania wybranych protokołów routingu w sieci ad-hoc o zwiększającej się liczbie węzłów o charakterze stacjonarnym.

3.1.1. Liczba odrzuconych pakietów

Rysunek 1 ilustruje średnią liczbę odrzuconych pakietów w sieciach ad-hoc w zależności od liczby węzłów. W sieciach o małej liczbie węzłów (od 25 do 50) korzystających z protokołu OLSR nie odnotowano utraty pakietów.

W sieciach większych (liczba węzłów od 75 do 100) z zaimplementowanymi protokołami OLSR i DSR liczba odrzucanych pakietów jest zbliżona.

Największa utrata pakietów występuje w sieciach wykorzystujących protokół AODV, prawdopodobnie ze względu na przekraczanie limitu nieudanych prób transmisji.

3.1.2. Prawdopodobieństwo dostarczenia pakietu

Prawdopodobieństwo PDF dostarczenia pakietu związane jest bezpośrednio z liczbą traconych (odrzucanych) przez węzły pakietów i wyznaczane było zgodnie ze wzorem:

(7)

Rys. 1. Średnia liczba odrzuconych pakietów w sieci ad-hoc w zależności od liczby węzłów

= ℎ ó ę ł

ł ℎ ó ℎ ę łó ź ó ł ℎ

Rysunek 2 ilustruje średnią liczbę odebranych, natomiast rysunek 3 średnią liczbę pakietów wysłanych w sieciach o różnej wielkości (25, 50, 75 i 100 węzłów).

Rys. 2. Średnia liczba odebranych pakietów danych w sieci ad-hoc w zależności od liczby węzłów

Jak widać, w małych sieciach (25 węzłów), niezależnie od zaimplementowanego protokołu routingu, liczba odebranych pakietów danych jest równa liczbie pakietów wysłanych. Sytuacja ulega zmianie, gdy w sieci pojawia się więcej węzłów, obciążających sieć wysyłanymi aktualizacjami tras.

0 1020 4200

12660

60 2760

8280

14400

0 0

5160

12060

0 5000 10000 15000 20000

25 50 75 100

Liczba pakietów

Liczba węzłów

Liczba odrzuconych pakietów

DSR AODV OLSR

4500 6180

4800 4200

4500

6600 5640

4440 3960

9300 9000

6000

0 2000 4000 6000 8000 10000

25 50 75 100

Liczba pakietów

Średnia liczba odebranych pakietów danych

DSR AODV OSLR

(8)

Rys. 3. Średnia liczba wysłanych pakietów danych w zależności od liczby węzłów

Najwięcej pakietów danych w sieciach dużych (więcej niż 50 węzłów) odbieranych jest podczas stosowania protokołu OLSR.

Prawdopodobieństwo dostarczenia pakietu dla sieci o różnych wielkościach i z różnymi protokołami routingu przedstawia rysunek 4.

Rys. 4. Prawdopodobieństwo dostarczenia pakietu w zależności od liczby węzłów

Widoczne jest, że niezależnie od zastosowanego protokołu routingu, prawdopodobieństwo dostarczenia pakietu maleje wraz ze wzrostem liczby węzłów. Jest to naturalne, gdyż przy większej liczbie węzłów częściej zdarza się przepełnienie bufora warstwy MAC węzłów (ustalona w planie eksperymentu wielkość tego bufora to 64000 bitów) i bufora serwera (1024000 bitów), co skutkuje częstszym odrzucaniem pakietów.

4500

7200 9000

16860

4560

9360

13920

18360

4440

9300 14160

18060

0 5000 10000 15000 20000

25 50 75 100

Liczba pakietów

Średnia liczba wysłanych pakietów danych

DSR AODV OLSR

1,0 0,9

0,5

0,2 1,0

0,7

0,4

0,2

1,0 1,0

0,6

0,3 0,0

0,2 0,4 0,6 0,8 1,0

25 50 75 100

Prawdopodobieństwo

Prawdopodobieństwo dostarczenia pakietu

DSR AODV OLSR

(9)

Widać jednak, że prawdopodobieństwo dostarczenia pakietu w sieciach z proaktywnym protokołem OLSR jest średnio 10-20% wyższe niż w sieciach z protokołami reaktywnymi AODV i DSR. Można tutaj wnioskować, że otrzymane dobre wyniki dla protokołu OLSR są skutkiem utrzymywania (przechowywania bez zbędnego cyklicznego wymazywania) aktualnej tablicy routingu.

3.1.3. Obciążenie sieci ad-hoc powodowane przez proces routingu

Obciążenie sieci ad-hoc powodowane wysyłaniem przez węzły pakietów aktualizacyjnych i sygnalizacyjnych protokołów routingu (zwanych dalej pakietami routingu) wyznaczane było zgodnie ze wzorem:

= ℎ ł ℎ ó

ℎ ℎ ó ℎ

Wykres przedstawiony na rysunku 5 ilustruje uśrednioną liczbę wysyłanych pakietów routingu.

Wraz ze wzrostem liczby węzłów w sieci ad-hoc, niezależnie od zastosowanego protokołu, zwiększa się liczba przesyłanych pakietów routingu, a mianowicie:

• w przypadku protokołu proaktywnego OLSR zwiększa się liczba okresowych aktualizacji tablic i liczba przekazywanych pakietów kontrolnych Hello i Topology Control,

• w przypadku protokołów reaktywnych AODV i DSR większa liczba węzłów z mechanizmami odkrywania i utrzymania ścieżek generuje większą ilość pakietów kontrolnych RREQ i RREP (co zostało zilustrowane na rysunkach 6 i 7).

Wartość wskaźnika NRL zilustrowana została na rysunku 8 (procentowe obciążenie sieci przez proces routingu).

Warto zauważyć, że obciążenie sieci przez proces routingu w przypadku protokołów reaktywnych jest do pewnego momentu (25-50 węzłów sieciowych) zbliżone. To proaktywny protokół OLSR generuje więcej pakietów routingu o charakterze sygnalizacyjnym i informacyjnym niż protokoły AODV i DSR.

(10)

Rys. 6. Średnia liczba wysłanych pakietów RREQ w zależności od liczby węzłów

Rys. 7. Średnia liczba wysłanych pakietów RREP w zależności od liczby węzłów Rys. 5. Średnia liczba wysłanych pakietów routingu w zależności od liczby węzłów

Wyniki uzyskane dla poszczególnych protokołów routingu dynamicznego w sieciach ad-hoc potwierdziły, że wraz z przyrostem liczby węzłów w sieci, bez względu na wykorzystany protokół, zwiększa się obciążenie sieci przez proces routingu. W badanych warunkach OLSR z mechanizmem multipoint relays wykazuje najmniej efektywne działanie. Okazuje się tutaj, że okresowa aktualizacja tablic routingu, wysyłanie wiadomości kontrolnych Topology Control (TC) oraz komunikacja między węzłami MPRs skutkują większym obciążeniem sieci niż przy wysyłaniu pakietów kontrolnych RREQ i RREP protokołów DSR i AODV.

2760

24720

39540 47700

4620 22620 23160

55380 15240

51360

66300

83100

0 20000 40000 60000 80000 100000

25 50 75 100

Liczba pakietów

Średnia liczba wysłanych pakietów routingu

DSR AODV OLSR

0 1000 2000

25 50 75 100

Liczba pakietów

Średnia liczba wysłanych pakietów RREQ

DSR

AODV 0

10000 20000

25 50 75 100

Liczba pakietów

Średnia liczba wysłanych pakietów RREP

DSR AODV

(11)

Rys. 8. Obciążenie sieci przez proces routingu w sieci ad-hoc w zależności od liczby węzłów

3.1.4. Opóźnienia w dostarczaniu pakietów

Rysunki 9-11 obrazują średnie opóźnienia w dostarczaniu pakietów w sieciach ad-hoc z badanymi protokołami w każdej sekundzie trwania symulacji. Kolorem niebieskim oznaczono średnie opóźnienie w dostarczaniu pakietów w każdej sekundzie trwania symulacji w sieci liczącej 25 węzłów, czerwonym w sieci z 50 węzłami, niebieskim w sieci 75 węzłów, a błękitnym w sieci 100 węzłów.

Rys. 9. Średnie opóźnienia

w dostarczaniu pakietów przy zastosowaniu protokołu AODV

0,6 4,0

8,2 11,4

1,0 3,4 4,1

14,0

3,4

5,5 7,4

14,5

0,0 5,0 10,0 15,0 20,0

25 50 75 100

Obciążenie sieci [%]

Obciążenie sieci przez proces routingu

DSR AODV OLSR

Rys. 10. Średnie opóźnienia przy zastosowaniu protokołu DSR

(12)

Wraz z postępem symulacji, opóźnienia w sieci rosły niezależnie od liczby węzłów oraz wybranego protokołu. Wartości opóźnień z rysunków 9-11 posłużyły obliczeniu średniego opóźnienia w dostarczaniu pakietów w zależności od liczby węzłów (rysunek 12).

Rys. 12. Średnie opóźnienie w dostarczaniu pakietów w obecności różnych protokołów routingu dynamicznego w zależności od liczby węzłów

Jak widać, w sieciach z małą liczbą węzłów średnie opóźnienia w dostarczaniu pakietów są znikome – na poziomie 0,002 sekundy dla każdego

0,002

1,8

4,3

5

0,002

0,7 1,5

3,7

0,002

0,003 0,3 0,5

0 1 2 3 4 5 6

25 50 75 100

Opóźnienie [sekundy]

Opóźnienia w dostarczaniu pakietów

DSR AODV OLSR Rys. 11. Średnie opóźnienia w dostarczaniu pakietów

w czasie trwania symulacji z protokołem OLSR

(13)

protokołu. Największe opóźnienia, przy zwiększającej się liczbie węzłów w sieci, występują przy wykorzystaniu protokołu DSR. W większych sieciach, z liczbą węzłów 50, 75 i 100, średnie opóźnienia w przekazywaniu pakietów w obecności protokołu DSR są wysokie i wynoszą odpowiednio 1,8, 4,3 oraz 5 sekund. Nieco niższe opóźnienia uzyskuje się w sieciach z zaimplementowanym protokołem AODV. Najlepsze wyniki odnotowano dla sieci z protokołem OLSR, co wynika z tego, że węzły korzystające z protokołu OLSR dzięki okresowemu wysyłaniu wiadomości kontrolnych posiadają zawsze aktualną informację o topologii sieci, w której funkcjonują. Skutkuje to oczywiście szybkim odnalezieniem węzła następnego skoku na drodze do węzła docelowego. W przypadku protokołów DSR i AODV, przed wysłaniem pakietu do węzła docelowego konieczna jest wymiana wiadomości RREQ i RREP, co znacznie wydłuża czas dostarczenia pakietu. Największe opóźnienia przy wykorzystaniu protokołu DSR są prawdopodobnie spowodowane retransmisjami danych. Retransmisje te wynikają z przekazywania pakietów zgodnie z wpisami w tablicy route cache, w której mogą znajdować się wpisy chwilowo nieaktualne (ang. stale routes).

3.1.5. Szybkość przesyłania danych w sieci ad-hoc

Rysunek 13 obrazuje średnią szybkość przesyłania danych przy zastosowaniu badanych protokołów w zależności od liczby węzłów.

Rys. 13. Uśredniona szybkość przesyłania danych w sieci ad-hoc w zależności od liczby węzłów

0,13 0,30 0,43 0,63

0,44 2,19 2,02

2,74 0,44

2,37

6,20

10,35

0 2 4 6 8 10 12

25 50 75 100

Szybkość przesyłania danych [Mbit/s]

Średnia szybkość przesyłania danych w sieci ad-hoc

DSR AODV OLSR

(14)

W sieciach małych (liczących 25 węzłów), bez względu na wykorzystany protokół routingu, szybkość przesyłania danych jest zbliżona i dla protokołów DSR oraz OLSR równa 0,44 Mbit/s i 0,13 Mbit/s. Szybkość przesyłania danych wraz ze wzrostem liczby węzłów w sieciach z protokołem DSR i AODV nieznacznie się zwiększa i wynosi odpowiednio od 0,13 do 0,63 Mbit/s oraz 0,44 do 2,74 Mbit/s. Największe szybkości w przekazywaniu danych w dużych sieciach otrzymano dzięki zastosowaniu protokołu OLSR: dla sieci o liczbie węzłów 75 – 6,2 Mbit/s, dla sieci o liczbie węzłów 100 – 10,35 Mbit/s.

Uzyskane wyniki potwierdzają założenie, że w sieciach z proaktywnym protokołem OLSR szybkość przesyłania danych będzie największa ze względu na wysoki stopień aktualności tablic routingu węzłów i tym samym mniejszą liczbę retransmisji pakietów danych.

3.2. Wyniki uzyskane dla scenariuszy „Mobilność”

W trakcie badań symulacyjnych opartych o scenariusze „Mobilność”

testowano efektywność działania wybranych protokołów routingu w sieci ad-hoc z 50 węzłami, w zależności od szybkości przemieszczania się węzłów.

3.2.1. Liczba odrzuconych pakietów

Rysunek 14 przedstawia średnią liczbę odrzuconych pakietów dla badanych protokołów w zależności od szybkości poruszania się węzłów.

Rys. 14. Średnia liczba odrzuconych pakietów w sieci w zależności od szybkości 1200 1320

2520

3180 3480

2760

3180 3480 4020

4620

0 120

540

2280

3300

0 1000 2000 3000 4000 5000

0 1 5 10 15

Liczba pakietów

Szybkość poruszania się węzłów [m/s]

Średnia liczba odrzuconych pakietów

DSR AODV OLSR

(15)

Zgodnie z oczekiwaniami, wraz ze wzrostem szybkości przemieszczania się węzłów w sieci, niezależnie od stosowanego protokołu, zwiększa się liczba odrzucanych pakietów. Na taką sytuację mają wpływ duża liczba nieudanych transmisji, przekraczanie maksymalnej wielkości bufora danych warstwy WLAN MAC i prawdopodobnie również fluktuacje mocy sygnału docierającego do odbiorników węzłów docelowych przy stałej czułości odbiornika.

Również w przypadku tego badania należy podkreślić dużą skuteczność mechanizmu wyznaczania i utrzymywania tras, stosowanego przez proaktywny protokół OLSR.

3.2.2. Prawdopodobieństwo dostarczenia pakietu

Prawdopodobieństwo dostarczenia pakietu wyznaczono w sposób taki sam jak w punkcie 2.1.2. Rysunek 15 przedstawia prawdopodobieństwo dostarczenia pakietu w sieci ad-hoc w zależności od szybkości poruszania się węzłów.

Najwyższe prawdopodobieństwo dostarczenia pakietu, niezależnie od szybkości poruszania się węzłów, odnotowano dla sieci ad-hoc z zaimplementowanym proaktywnym protokołem OLSR. W sieci, w której węzły nie ulegały przemieszczeniu, dostarczanie pakietów jest na poziomie 100%. Ruch węzłów z szybkością 1 m/s nie spowodował spadku prawdopodobieństwa dostarczenia pakietu.

Rys. 15. Prawdopodobieństwo dostarczenia pakietu w zależności od szybkości przemieszczania się węzłów

0,9 0,9

0,7 0,7 0,7 0,6

0,7 0,6

0,6 0,5

1 1

0,9

0,7

0,6

0 0,2 0,4 0,6 0,8 1

0 1 5 10 15

Prawdopodobieństwo

Szybkość przemieszczania się węzłów [m/s]

Prawdopodobieństwo dostarczenia pakietu

DSR AODV OLSR

(16)

Najgorsze wyniki w dostarczaniu pakietów odnotowano w sieci wykorzystującej protokół AODV. Gdy węzły nie przemieszczały się, dostarczonych zostało 70% pakietów.

Ruch węzłów z szybkością 15 m/s spowodował największą utratę pakietów, bez względu na wykorzystany protokół routingu. Przy takiej szybkości, prawdopodobieństwo dostarczenia pakietu dla protokołów DSR, OLSR i AODV wyniosło odpowiednio 0,6, 0,6 oraz 0,5.

Wyniki uzyskane dla poszczególnych protokołów potwierdziły założenie, że wraz ze wzrostem szybkości poruszania się węzłów w sieci, bez względu na wykorzystany protokół routingu, prawdopodobieństwo dostarczenia pakietu będzie malało. Najbardziej niezawodnym protokołem okazał się protokół OLSR.

Należy domniemywać, że zgodnie z teorią, najwyższe prawdopodobieństwo dostarczania pakietów w sieci wykorzystującej ten protokół otrzymano na skutek:

• wysokiego stopnia aktualności tras do węzłów docelowych,

• transportowania pakietów do węzłów docelowych z wykorzystaniem metody hop by hop,

• wykorzystania węzłów MPR, zmniejszających liczbę retransmisji pakietów.

Najgorsze wyniki pod względem dostarczenia pakietu odnotowano w sieci wykorzystującej protokół AODV i pozwala to wnioskować o niższej (w badanych warunkach) efektywności działania mechanizmu wykrywania ścieżek, stosowanego w tym protokole.

3.2.3. Obciążenie sieci ad-hoc przez proces routingu węzłów mobilnych

Obciążenie sieci ad-hoc przez procesu routingu mobilnych węzłów wyznaczono w sposób taki sam jak w punkcie 2.1.3. Rysunek 16 ilustruje średnie obciążenie sieci ad-hoc przez proces routingu w zależności szybkości poruszania się węzłów.

Obciążenie sieci przez proces routingu zwiększa się wraz ze wzrostem szybkości węzłów niezależnie od zaimplementowanego protokołu routingu.

Najmniejsze obciążenie sieci otrzymuje się przy wykorzystaniu protokołu reaktywnego DSR (od 0,6% gdy węzły nie ulegały przemieszczeniu do 4% gdy poruszały się z szybkością 15 m/s). Największe obciążenia sieci przez proces routingu odnotowano przy wykorzystaniu protokołu AODV i OLSR. Obciążenia sieci przy wykorzystaniu tych protokołów, w której szybkość przemieszczania się węzłów zwiększała się od 0 m/s do 15 m/s, wzrosły odpowiednio z 3,4% do

(17)

5,7% i 3,5% do 6,8%. Oznacza to, że protokoły te przesłały znacznie więcej pakietów kontrolnych niż protokół DSR.

Rys. 16. Średnie obciążenie sieci ad-hoc przez proces routingu przy wzroście szybkości przemieszczania się węzłów

W celu porównania liczby wysłanych pakietów kontrolnych RREQ i RREP protokołów reaktywnych opracowano wykresy przedstawione na rysunkach 17 i 18.

0,6 1,5

2,6

4,0

4,0 3,4

3,4 3,8

4,3

5,7

3,5 3,6 4,0

5,1

6,8

0 1 2 3 4 5 6 7 8

0 1 5 10 15

Obciążenie sieci [%]

Obciążenie sieci ad-hoc przez proces routingu

DSR AODV OLSR

Rys. 17. Średnia liczba wysłanych pakietów RREQ w zależności od liczby

węzłów

0 5000 10000 15000

0 1 5 10 15

Liczba pakietów

Szybkość poruszania się węzłów [m/s]

Średnia liczba wysłanych pakietów RREP

DSR AODV 0

1000 2000

0 1 5 10 15

Liczba pakietów

Szybkość poruszania się węzłów [m/s]

Średnia liczba wysłanych pakietów RREQ

DSR AODV

Rys. 18. Średnia liczba wysłanych pakietów RREP w zależności od liczby węzłów

(18)

Protokół AODV wysyła więcej żądań RREQ niż DSR przy wzroście szybkości węzłów. Odwrotna sytuacja występuje przy wysyłaniu odpowiedzi RREP. Im szybciej węzły się przemieszczają, tym mniej przesyłanych jest wiadomości RREP, co będzie skutkować wydłużaniem czasu wyznaczania prawidłowych ścieżek do węzłów docelowych i wzrostem liczby odrzuconych pakietów.

Na rysunku 19 zilustrowano średni czas wyznaczania przez węzeł mobilny ścieżek do węzłów docelowych. Czas odkrywania ścieżek w sieciach o małej ruchliwości węzłów jest mniejszy z protokołem AODV. Sytuacja ulega zmianie, gdy węzły poruszają się szybciej. W sieciach, gdzie szybkość przemieszczania się węzłów wynosi 10 m/s i 15 m/s, protokół DSR wykrywa ścieżki o odpowiednio 4,8 i 6 sekund szybciej.

Rys. 19. Szybkość odkrywania ścieżek w całej sieci ad-hoc w zależności od szybkości poruszania się węzłów

Podsumowując uzyskane wyniki, stwierdzono, że wraz ze wzrostem szybkości poruszania się węzłów w sieci, bez względu na wykorzystany protokół, zwiększa się obciążenie sieci przez proces routingu. Mechanizmy ustanawiania i utrzymywania ścieżek protokołu DSR powodują mniejsze od wprowadzanych przez AODV i OLSR obciążenie. Dodatkowo, potwierdzono przypuszczenie, że w sieciach o dużej ruchliwości węzłów mechanizm wykrywania ścieżek protokołu DSR jest efektywniejszy od stosowanego w AODV.

18,6 21

30,6

33

40,8

19,2 19,2 21,6

37,8 46,8

0 10 20 30 40 50

0 1 5 10 15

Sekundy

Czas odkrywania ścieżek w całej sieci

DSR AODV

(19)

3.2.4. Opóźnienia w dostarczaniu pakietów w sieci węzłów mobilnych

Diagram z rysunku 20 ilustruje średnie opóźnienia w dostarczaniu pakietu w sieci ad-hoc w zależności od szybkości poruszania się węzłów.

Rys. 20. Średnie opóźnienia w dostarczaniu pakietów w sieci ad-hoc w zależności od szybkości przemieszczania się węzłów

Najmniejsze opóźnienia w dostarczaniu pakietów, bez względu na szybkość przemieszczania się węzłów, odnotowano w sieci z zaimplementowanym protokołem OLSR. Opóźnienia te nieznacznie rosną wraz z szybkością poruszania się węzłów i wynoszą 0,003 sekundy, gdy węzły nie przemieszczały się oraz 0,15 sekundy podczas ruchu o szybkości 15 m/s.

W przypadku sieci implementujących protokoły reaktywne DSR i AODV wartości opóźnień nie ulegają stałemu przyrostowi podczas wzrastającej szybkości poruszania się węzłów.

Wyniki uzyskane dla poszczególnych protokołów routingu dynamicznego w sieciach ad-hoc mobilnych węzłów potwierdziły hipotezy badawcze.

W wybranych warunkach funkcjonowania sieci, wraz ze wzrostem szybkości poruszania się węzłów w sieci z zaimplementowanym protokołem OLSR zwiększa się obciążenie sieci przez proces routingu. Niemniej jednak, w sieci implementującej ten protokół otrzymano najmniejsze opóźnienia. Jak wspomniano wcześniej, tablice routingu węzłów z protokołem OLSR charakteryzuje wysoki stopień aktualności, osiągany przez okresowe wysyłanie wiadomości kontrolnych. W przypadku DSR i AODV wysłanie pakietu do celu poprzedzone jest wymianą wiadomości RREQ i RREP, co znacznie wydłuża

1,8

0,4

1,4

0,8 1

0,7

0,5 0,8 0,5 0,6

0,003 0,006 0,03 0,09 0,15

0 0,5 1 1,5 2

0 1 5 10 15

Opóźnienie [sekundy]

Opóźnienia w dostarczaniu pakietów

DSR AODV OLSR

(20)

czas dostarczenia pakietu. Opóźnienia przy wykorzystaniu protokołu DSR są dodatkowo powodowane licznymi retransmisjami, wynikającymi z prób przekazywania pakietów przez często zdezaktualizowane trasy (ang. stale routes) z tablicy route cache.

3.2.5. Szybkość przesyłania danych w sieci ad-hoc

Średnia szybkość przesyłania danych w sieciach ad-hoc w zależności od szybkości przemieszczania się węzłów zilustrowana została na rysunku 21.

Rys. 21. Uśredniona szybkość przesyłania danych w sieci ad-hoc w zależności od szybkości poruszania się węzłów

Największą szybkość przesyłania danych, bez względu na szybkość poruszania się węzłów, otrzymuje się w sieciach implementujących protokół OLSR, najmniejszą – dla protokołu DSR. Największy spadek szybkości przesyłania danych w zależności od szybkości węzłów zanotowano dla protokołu AODV. Średnia szybkość przesyłania danych protokołu DSR jest bardzo niska w porównaniu do protokołu AODV i OLSR. Pomimo stosunkowo dużego obciążenia sieci przez proaktywny protokół routingu (punkt 2.2.3), najniższe opóźnienia w przekazywaniu pakietów (punkt 2.2.4) i tym samym najwyższą szybkość przesyłania danych uzyskuje się, stosując proaktywny protokół OLSR.

0,30 0,31 0,32 0,31 0,29

2,19 2,12 1,89 1,73

1,64

2,37 2,48 2,45 2,39

2,20

0 0,5 1 1,5 2 2,5 3

0 1 5 10 15

Szybkość przesyłania danych [Mb/s]

Średnia szybkość przesyłania danych w sieci

DSR AODV OLSR

(21)

4. Podsumowanie

Celem eksperymentu symulacyjnego była ocena wpływu zastosowanego protokołu routingu dynamicznego na działanie sieci ad-hoc w określonych warunkach. Biorąc pod uwagę znaczenie problemu skutecznego integrowania usług sieciowych przy zachowaniu pożądanej jakości usług (QoS), również w sieciach mobilnych węzłów, problematyka doboru odpowiedniego protokołu trasowania wydaje się ważna i nadal aktualna.

Wyniki cząstkowe poszczególnych symulacji zilustrowano na rysunku 22.

Potwierdzają one hipotezy badawcze, dotyczące wpływu zastosowanego protokołu routingu na efektywność przekazywania pakietów. Wartości najważniejszych wskaźników, a więc prawdopodobieństwa dostarczenia pakietów i średniej szybkości transmisji uzyskiwanej przez węzły sieciowe wskazują, że w badanych warunkach zasadne jest stosowanie proaktywnego protokołu OLSR. W sieciach z protokołem OLSR odnotowano również najmniejsze opóźnienia w dostarczaniu danych. Oznacza to, że stosowanie protokołów proaktywnych może być rozważane w przypadku wykorzystywania aplikacji wymagających odpowiedniego poziomu jakości usług.

Przeprowadzone badania wykazały również, że zasadnicze znaczenie dla wydajności sieci ad-hoc ma jej wielkość. Przy zwiększającej się liczbie węzłów, niezależnie od stosowanego protokołu routingu, prawdopodobieństwo

Rys. 22. Porównanie wydajności protokołów DSR, AODV i OLSR 0,0

20,0 40,0 60,0 80,0 100,0

P-stwo dostarczenia pakietu

Obciążenie sieci

Opóźnienie w dostarczaniu

pakietów Odrzucanie pakietów

Szybkość przesyłania danych

DSR AODV OLSR

(22)

dostarczenia pakietu drastycznie maleje, być może do nieakceptowanego poziomu. Na podstawie uzyskanych wyników nie daje się wskazać granicy stosowalności danego protokołu.

Literatura

[1] B^ASAGNI S., CONTI M., GIORDANO S., STOJMENOVIC I., Mobile Ad Hoc Networking, IEEE Press, New Jersey, 2004, pp. 275-300.

[2] B^OUKERCHE A., Handbook of Algorithms for Wireless Networking and Mobile Computinng, Chapman & Hall, 2006.

[3] G^UPTA S.K., SADAWARTI H., VERMA A.K., Performance Analysis of AODV, DSR

& TORA Routing Protocols, IACSIT International Journal of Engineering and Technology, Vol. 2, No. 2, April, 2010, pp. 226-231.

[4] M^AKKAR A., BHUSHAN B., TANEJA S., Behavioral Study of MANET Routing Protocols, International Journal of Innovation, Management and Technology, Vol. 2, No. 3, June, 2011, pp. 210-216.

[5] M^ALINOWSKI T., Metodyka badań protokołów trasowania dla sieci ad-hoc, Biuletyn Instytutu Automatyki i Robotyki, Nr 33, 2012, s. 71-90.

[6] M^ISRA S., MISRA S. C., WOUNGANG I., Guide to Wireless Ad Hoc Networks, Springer-Verlag, London, 2009.

[7] M^OHAPATRA P., KRISHNAMURTHY S. V., Ad Hoc networks (Technologies and Protocols), Springer, 2005.

[8] Awareness of Emerging Wireless Technologies: Ad-hoc and Personal Area Networks Standards and Emerging Technologies, NATO RTO Technical Report – RTO-TR-IST-035, 2007, https://www.cso.nato.int/pubs/rdp.asp?RDP=RTO-TR- IST-035 (dostęp 17.10.2013).

[9] P^IERRE S., BARBEAU M., KRANAKIS E., Ad Hoc, Mobile and Wireless Networks, Springer, Montreal, 2003.

[10] P^IERSAK., Badania symulacyjne protokołów routingu dynamicznego w sieciach ad hoc. Praca magisterska, Wydział Cybernetyki, Wojskowa Akademia Techniczna, Warszawa, 2012.

[11] S^AJJAD A., ASAD A., Performance Analysis of AODV, DSR and OLSR in MANET, Department of Electrical Engineering with emphasis on Telecommunication Blekinge Institute of Technology, Sweden, 2009.

[12] S^RIKANTH T.,NARSIMHA V. B., Simulation-based approach to performance study of routing protocols in MANETs and ad-hoc Networks, IJCSNS International Journal of Computer Science and Network Security, Vol. 11 No. 9, September, 2011, pp. 111-115.

(23)

Report of simulation studies of routing protocols in ad-hoc networks

ABSTRACT: The paper presents results of comparative studies for dynamic routing protocols used in ad-hoc networks. The impact of routing protocols on networks functionality is shown.

Obtained results allow to indicate a preferred mode of updating routes in routing tables in a network of a certain size and speeds of moving nodes, what is specified in simulation scenarios.

KEYWORDS: simulation studies, ad-hoc networks, dynamic routing protocols for ad-hoc networks

Praca wpłynęła do redakcji: 20.07.2015 r.

(24)

(25)

25

Selected Methods of File Carving and Analysis of Digital Storage Media in

Computer Forensics

Fryderyk DARNOWSKI¹, Andrzej CHOJNACKI²

1 Doctoral student of Cybernetics Faculty Military University of Technology Gen. S. Kaliski 2 St., 00-908 Warsaw, Poland

doktorro@gmail.com

2 Cybernetics Faculty Military University of Technology Gen. S. Kaliski 2 St., 00-908 Warsaw, Poland

andrzej.chojnacki@wat.edu.pl

ABSTRACT: Article describes the most common methods of data recovery in modern forensic science. Typical file carving problems are explained. The methods are compared and their advantages and disadvantages explained. Proposition of new file carving method for NTFS is presented and explained.

KEYWORDS: computer forensics, data recovery, file carving, NTFS, MFT

1. Introduction

Computer (or digital) forensics (CF or DF) is an overall term for actions aimed at securing and examining digital storage media. Computer forensics investigations are usually summarized in the form of a report describing the disclosed material which was of interest to the person or institution ordering the analysis. Nowadays, people are surrounded by electronic devices at an unprecedented scale. Smartphones now resemble computers more than phones.

Most of the information is produced and processed digitally, which leads to the increasing importance of digital evidence. Computer forensics tools are also used in civil proceedings. CF science is most frequently used to:

(26)

• to provide evidence of crime, to identify perpetrators based on the data found in computers, mailboxes, instant messengers, etc. (digital evidence to use in court),

• to provide evidence of data theft by disloyal employees, to detect sabotage, to evaluate system security, e.g. after hacker attacks (business purposes)

• to recover lost data (personal purposes).

• Overall, CF investigations can be divided into three basic stages [1]:

• acquisition,

• analysis,

• reporting.

The days when one man could search an entire digital storage device (e.g.

a 1.44 MB floppy disk) are gone forever. Nowadays, specialist software is used to analyze digital media storage content, with EnCase [2] and FTK [3] as the most commonly used programs. X-Ways [4] The SANS Investigative Forensic Toolkit (SIFT) [5] and The Sleuth Kit (+ Autopsy) [6] are especially noteworthy. Sleuth Kit is a set of tools for analysis (operating on Windows and Linux) and SIFT is an operating system based on Linux (Ubuntu) with tools for analysis installed. The basic levels of analysis are presented below [7]:

• media analysis – used to analyze data stored on a data storage device assuming the absence of a hierarchy or a file system – as in some recorders (continuous recording),

• media management analysis – used especially to analyze RAID arrays and the contents of FLASH memory drives,

• file system analysis – used to analyze disk partitioning in order to extract files, even the deleted ones,

• application analysis – used to analyze the data inside the file, it draws from the fact that every file format is specific; it is a large enough category so it can be divided into the following subcategories:

o analysis of the operating system – the system settings, network settings, installed software, authorization, etc.,

o analysis of programs – applies to both data generated by the application as well as logs recorded by the system; it is especially useful in post break-in analysis,

o analysis of the multimedia – for example, a disclosed image in itself can constitute evidence (e.g. photo of a document).

The rest of this article outlines the most commonly used methods of analysis at the level of the file or application system. The analysis can be performed on the original data storage device, however, the time required to carry out the analysis (days), and the waiting time before the start of the analysis (weeks, months) make it seem reasonable to produce a copy and send it for analysis whereas the original storage device is returned to the owner.

(27)

Verification of the hash is always the first step in the analysis performed on a binary copy. Further steps may vary in order depending on the software used, but usually these are:

a) File signature analysis – search of specific file headers.

b) Hash analysis – when the exact content of the file in question is known, its hash can be calculated and the storage device can be searched in order to identify areas with the same hash value.

c) Keywords analysis – useful when analyzing text documents with known content.

d) Statistical method – search based on statistical analysis.

e) Content analysis – when the exact structure of certain files is known, the storage device can be searched for known patterns.

The above mentioned methods of analysis are the most popular ones (especially signature analysis and hash analysis which are the fastest). There are so many methods of analysis and software solutions that nowadays we often talk of the end of the golden age of computer forensics [8]. The reason for this is the plethora of types of storage devices and file types, which makes many methods of analysis valid only for specific file types. The purpose of this article is to provide information about the current state of the field of methods of analysis.

These methods will be outlined and the problems that specialists in computer forensics encounter will be discussed. Later in this article we will refer to drives with NTFS (New Technology File System), however, general assumptions are made regardless of the file system.

1.1. Signature analysis

A file signature is a sequence of bytes in the header at the beginning of each file. It is not obligatory, for instance text files do not have it. Most common files used in computer systems may consist of a header, content data and a footer. The header and the footer are not obligatory. Customarily, the header stores information specific to the file format immediately after the signature.

Metadata can indicate parameters such as file size, data format, software version that was used to generate the file, and the like. The most frequently analyzed file types such as jpg, doc, rtf, bmp and their signatures are shown in Table 1. The comparison of a signature with file extension allows to quickly identify files with an invalid (changed) extension. For example, while downloading files a web browser first creates a temporary file, such files can go unnoticed if we take into account only file extensions.

(28)

Tab. 1. Some of the most frequently analyzed file type signatures [9]

File format Signature (hex) jpg

doc rtf pdf bmp avi

FF D8 FF D0 CF 11 E0 7B 5C 72 74 66 31 25 50 44 46 42 4D 52 49 46 46

In case of deletion in NTFS partition and the loss of the corresponding

$MFT information (Master File Table), the deleted file is no longer visible to the system. The file data can be 100% complete, however, they are stored in the unallocated space. One method for retrieving a file in this case is to look for its signature. This involves searching the entire unallocated space. In order to retrieve the file, the moment the signature is found, it should be extracted with some data following it. Unfortunately, in many cases the header files do not store information about the file size. Therefore, the amount of data to extract is determined arbitrarily by a specialist before starting the retrieval procedure. File fragmentation is yet another issue. If you find a fragmented file signature you will find its first block and the remaining parts will be lost (Figure 1). Since the size of the fragments is not known, we do not know how many clusters after signature need to be recovered. In this case, it is not known whether the clusters 4-7, belongs to the analyzed file or not.

1 2 3 4 5 6 7 8 9

signature DATA1 DATA2 X X X X DATA3 DATA4

fragment 1 other data fragment 2

Fig. 1. File fragmentation

The analysis of the unallocated space for signature causes a number of other problems. The most serious problem are the so-called false positives. Since the signature is short, there is a high probability that during the search an array of bytes will be found which has the value of the signature in question, but which is not the signature itself. In addition, many different types of files with different content have the same signature. The types of files with a signature identical to MS Word files are presented in Table 2.

The figure below shows the result search for PDF and Office files in unallocated space. EnCase v7 identified 1,200 files. In the case of the files for which EnCase was unable to find the end of the file, the file size was assumed at 4 096 000B. Extraction of a smaller file was not synonymous with finding the end of the file by the program. It is possible that the recovered file was on the

(29)

border of the unallocated space and the program simply could not export more data. This meant the need to manually browse each file for its readability. In this case, out of 1,200 files only one file was correct.

Tab. 2. Types of files with the same signature [9]

File format Name of the program

DOC, DOT, PPS, PPT, XLS DB

MSC MSI OPT VSD

MS Office 2003 MS Works Database

Microsoft Common Console Document Microsoft Installer Package

Developer Studio File Visio File

Fig. 2. Retrieving files from the unallocated space

One solution in such a situation is to make use of the characteristic structure of a header and information stored in it (e.g. software version) and thus to “artificially” increase the header length. Such an operation requires tracking changes in each new version of the program, as later distributions may differ in information stored in the headers.

1.2. Hash analysis

Hash values are used in computer science as a method to verify data integrity and authenticity. The most commonly used are MD5 and SHA1 hash values. In general, the hash value is a form of function, which converts the data

(30)

into a sequence of bytes. The size of this string is constant for each function and it is, for example, 32B for MD5 and 40B for SHA1. Changing one bit in the input data will generate a different hash value. We can scan any file on the storage device in order to detect known files using hash values, thus we are able to greatly narrow the scope of the analysis. The same method can be used to reveal dangerous or illegal files. A database of software and known system files can be obtained, for example from the internet in the form of downloadable libraries ready to be imported into Encase and FTK [10].

The algorithm for calculating hashes for data blocks is an extension of this method [11]. The author suggests dividing the selected file into fragments (usually the size of 1 cluster, but the size is arbitrary) and then to calculate hash values for each of the fragments separately. The hash value of each element and its location in the file will be saved in a special database. Then you should proceed with scanning the whole unallocated disk space. The search process consists of loading the information about the size of a single file fragment, reading the unallocated area in blocks and then calculating it’s the hash value and checking whether the database contains such hash value. As the hash values for all fragments of the file in question are known, the method allows to retrieve all data, regardless of whether the file had been fragmented or not. It is also possible to retrieve partially overwritten files (Figure 3).

Fig. 3. File Block hash analysis

File

1 2

3 4 5

6

DIV MD5

DB

unallocated area of disk

1

2 5

FIND

JOIN

x 5 6

1 2 x

1 2

5 6

6

file fragments found partially recovered file

(31)

The basic requirement for hash analysis is the availability of hash values for the file in question. You cannot find the file that is not known, which significantly narrows the usefulness of this method. If the file in question has been changed (e.g. a JPG image was scaled or the range of colours was changed), this method will not provide satisfactory results. Even if the change to a text in a MS Office 2007 document (these are compressed files) was very little this method will fail.

1.3. Keyword analysis

The quality of the results of such an analysis depends on the quality of keywords. It is advisable to avoid keywords such as, e.g. user name or the name of the computer, because this generates thousands of hits both in documents as well as in the system registry as system continuously adds and deletes items.

Inappropriate choice of keywords results in a large number of hits in the files and in the unallocated space. It is much better to enter search patterns in the form of whole sentences, but then you must know the content of the document (e.g. its printed version). Previous search methods treated each file as a text file.

Such an approach was insufficient in the case of document scans and non-textual documents in general. Compressed files were also excluded from the search process. This was a big problem, because the latest MS Office documents and OpenOffice documents are, in fact, compressed XML files. Current versions of EnCase and FTK can analyze documents (MS Office, OpenOffice and Adobe PDF) not on the basis binary data (which can be compressed), but based on the actual content (text). Moreover, FTK can find keywords among photos using a built-in OCR module. Keywords search is useful in the case of deleted files with lost signatures. Retrieving the desired file boils down to the analysis of the vicinity of keywords. Due to the considerable narrowing of the search scope file recovery can be performed manually.

1.4. Statistical analysis

The method is based on a statistical analysis of data, usually the size of a sector or a cluster. The simplest method of analysis is to measure the frequency of occurrence of characters in the file. The possible results of such an analysis are presented in a confusion matrix (Table 3). The results of a statistical analysis are given with certain values of the likelihood of error. Rows present the actual file format and columns present file format to which given data was classified.

The matrix shows the frequency of the recognition of the file formats in rows to file formats in columns. Ideally, the algorithm would show the value of 1 for the