AnalizaautomatówBoyera-Moore’a WydziałMatematyki,InformatykiiMechaniki UniwersytetWarszawski

(1)

Uniwersytet Warszawski

Wydział Matematyki, Informatyki i Mechaniki

Wojciech Tyczyński

Nr albumu: 237242

Analiza automatów Boyera-Moore’a

Praca magisterska

na kierunku INFORMATYKA

Praca wykonana pod kierunkiem prof. dr hab. Wojciecha Ryttera

Kwiecień 2011

(2)

Oświadczenie kierującego pracą

Potwierdzam, że niniejsza praca została przygotowana pod moim kierunkiem i kwa- lifikuje się do przedstawienia jej w postępowaniu o nadanie tytułu zawodowego.

Data Podpis kierującego pracą

Oświadczenie autora (autorów) pracy

Świadom odpowiedzialności prawnej oświadczam, że niniejsza praca dyplomowa została napisana przeze mnie samodzielnie i nie zawiera treści uzyskanych w sposób niezgodny z obowiązującymi przepisami.

Oświadczam również, że przedstawiona praca nie była wcześniej przedmiotem procedur związanych z uzyskaniem tytułu zawodowego w wyższej uczelni.

Oświadczam ponadto, że niniejsza wersja pracy jest identyczna z załączoną wersją elektroniczną.

Data Podpis autora (autorów) pracy

(3)

Streszczenie

Tematem niniejszej pracy magisterskiej jest analiza automatów Boyera-Moore’a. Zaprezen- towany został w niej pełny i formalny dowód dolnego ograniczenia na maksymalną ilość stanów rzędu Θ(m³). Nowym wynikiem tej pracy jest analiza struktury automatów dla klasy wzorców, dla których oszacowanie to zostało uzyskane. Ponadto w ramach pracy zostały za- implementowane algorytmy generowania automatów Boyera-Moore’a oraz wykonane zostały liczne eksperymenty prowadzące do nowych hipotez, których opis również zawarty jest w niniejszej pracy. Poza tym praca ma charakter przeglądowy i zawiera opis znanych obserwacji związanych z automatami Boyera-Moore’a.

Słowa kluczowe

Automat Boyera-Moore’a, automaty skończone, wyszukiwanie wzorców

Dziedzina pracy (kody wg programu Socrates-Erasmus) 11.3 Informatyka

Klasyfikacja tematyczna F. Theory of Computation

F.2 Analysis of Algorithms and Problem Complexity

F.2.2. Nonnumerical Algorithms and Problems - Pattern matching

Tytuł pracy w języku angielskim Boyer-Moore automata analysis

(4)

(5)

Spis treści

Wprowadzenie . . . . 5

1. Postawienie problemu - pojęcie automatu Boyera-Moore’a . . . . 7

1.1. Definicja automatu Boyera-Moore’a . . . 7

1.2. Ogólna postać stanów w automatach Boyera-Moore’a . . . 9

1.3. Własności ogólnej postaci stanów automatu Boyera-Moore’a . . . 10

2. Budowa automatu Boyera-Moore’a . . . . 13

2.1. Ogólna metoda konstrukcji automatu . . . 13

2.2. Generowanie następników w czasie O(m) . . . . 14

2.3. Dalsze udoskonalenia . . . 15

2.4. Wnioski . . . 16

3. Rozmiar alfabetu a rozmiar automatów . . . . 17

3.1. Uwagi wstępne . . . 17

3.2. Twierdzenie 1 . . . 17

3.3. Twierdzenie 2 . . . 18

4. Ograniczenia na ilość stanów . . . . 23

4.1. Automaty o rozmiarze Θ(m³) . . . 23

4.2. Automaty o rozmiarze Ω(m⁵) . . . 26

5. Struktura automatów dla wzorców postaci aⁱ¹baⁱ² . . . 29

5.1. Struktura stanów na przykładzie wzorca a³ba⁶ . . . 29

5.2. Struktura funkcji przejścia na przykładzie wzorca a³ba⁶ . . . 31

5.2.1. Przejścia po wczytaniu litery a . . . . 32

5.2.2. Przejścia po wczytaniu litery b . . . . 33

6. Rozmiary automatów dla krótkich wzorców . . . 39

6.1. Dokładne rozmiary automatów dla krótkich wzorców . . . 39

6.2. Klasa wzorców niezawierających podsłowa aa . . . . 40

6.3. Ograniczenie klasy B1 . . . . 41

6.4. Klasa wzorców „prawie-palindromicznych” . . . 43

6.5. Klasa C4 . . . . 46

6.6. Długość reprezentacji wzorca a rozmiar automatu . . . 48

6.7. Średni rozmiar automatu . . . 50

7. Podsumowanie . . . . 53

(6)

Bibliografia . . . . 55

(7)

Wprowadzenie

Pojęcie automatu Boyera-Moore’a będące centralnym i tytułowym pojęciem niniejszej pracy magisterskiej po raz pierwszy pojawiło się w pracy Donalda Knutha, Jamesa Morrisa i Vo- ughana Pratta „Fast pattern matching in strings” opublikowanej w 1977 roku. Obiekt ten zostanie w sposób formalny zdefiniowany w pierwszym rozdziale poniższej pracy.

Wprowadzenie automatu było swoistą próbą udoskonalenia opublikowanego kilka miesię- cy wcześniej przez Roberta Moore’a oraz J Boyera algorytmu wyszukiwania wzorca w tekscie.

Zmodyfikowana wersja tej metody jest obecnie znana właśnie pod nazwą algorytmu Boyera- Moore’a, natomiast wprowadzona modyfikacja poprawiała pesymistyczną złożoność czasową z kwadratowej w oryginalnej pracy na liniową (przy założeniu, że szukamy pierwszego wystą- pienia wzorca lub stwierdzamy, że w ogóle on tam nie występuje).

Motywacją do stworzenia pojęcia automatu Boyera-Moore’a była próba wykorzystania wiedzy, którą zdobyliśmy podczas wykonywania wcześniejszych operacji, gdyż sam algorytm jest „pozbawiony pamięci”. Stany automatu pozwalają na zapamiętanie wyników wcześniej- szych operacji, które mogę być przydatne w dalszych obliczeniach. Dzięki temu nie musimy wykonywać porównań, które w algorytmie Boyera-Moore’a są wykonywane, a których wynik można wydedukować na podstawie wcześniejszych obliczeń.

We wspomnianej na początku pracy autorzy stwierdzają, iż ilość stanów automatu Boyera- Moore’a można ograniczyć przez 2^m, gdzie m jest długością wzorca dla którego budujemy automat. Sugerują również istnienie znacznie lepszego ograniczenia. Niestety nie wiadomo jednak jakie miało by ono być. Co więcej, nie jest wcale jasne dla jakich wzorców zadanej długości automaty Boyera-Moore’a będą miały najwięcej stanów oraz czy będzie ich wykład- niczo wiele.

Niniejsza praca magisterska służy przynajmniej częściowej odpowiedzi na te pytania. Mi- mo iż najważniejsze z nich - czy istnieją wzorce dla których automaty Boyera-Moore’a mają wykładniczo wiele stanów względem ich długości - pozostaje w dalszym ciągu otwarte, to analiza i eksperymenty przeprowadzone w ramach tej pracy magisterskiej znacznie przybliżają nas do zrozumienia struktury tych obiektów.

W pierwszym rozdziale niniejszej pracy podaję formalną definicję automatu Boyera- Moore’a oraz dowodzę pewnej silnej charakteryzacji jego stanów. Drugi rozdział zawiera opis i analizę optymalnego algorytmu konstrukcji automatów. Ponieważ w ramach eksperymen- tów generowane były automaty posiadające nawet kilkadziesiąt milinów stanów, to rozdział ten wydaje się być pod tym względem kluczowy. Trzeci rozdział zawiera twierdzenie, które podaje zależność pomiędzy rozmiarem alfabetu a maksymalnym rozmiarem automatu.

Czwarty rozdział zawiera pewne dolne ograniczenia na maksymalną ilość stanów. W pierwszej części prezentuję klasę wzorców, dla której automaty Boyera-Moore’a posiadają Θ(m³) stanów oraz przedstawiam dowód tego faktu. Druga część zawiera wynik eksperymen- tu, który empirycznie dowodzi dolnego ograniczenia postaci Ω(m⁵).

W piątym rozdziale pokazuję jak regularną strukturę mają automaty dla wzorców z klasy rozważanej w rozdziale czwartym. Natomiast w szóstym rozdziale prezentuję wyniki swoich

(8)

eksperymentów przeprowadzonych w ramach pracy magisterskiej. Pokazują one złożoność problematyki związanej z automatami Boyera-Moore’a oraz wskazują na hipotezy wzmacnia- jące ograniczenia z rozdziału czwartego.

(9)

Rozdział 1

Postawienie problemu - pojęcie automatu Boyera-Moore’a

Centralnym pojęciem poniższej pracy magisterskiej jest pojęcie automatu Boyera-Moore’a.

Rozpocznijmy zatem od wprowadzenia formalnej definicji tego obiektu.

1.1. Definicja automatu Boyera-Moore’a

Na początek przypomnijmy ogólną definicję automatu skończonego, w oparciu o którą zdefi- niujemy automat Boyera-Moore’a.

Definicja 1.1 Automatem nazywamy piątkę uporządkowaną A = (Q, Σ, δ, q₀, F ), gdzie:

• Q - skończony zbiór stanów automatu

• Σ - skończony zbiór symboli wejściowych (alfabet)

• δ - funkcja przejścia, która jako argumenty przyjmuje stan oraz symbol wejściowy i zwraca stan

• q₀ - stan początkowy (q₀∈ Q)

• F - zbiór stanów akceptujących (F ⊂ Q)

Mając już pojęcie automatu skończonego, możemy formalnie zdefiniować wprowadzony po raz pierwszy w pracy [2] automat Boyera-Moore’a.

Definicja 1.2 Automatem Boyera-Moore’a dla słowa w ∈ Σ^∗ (|w| = m) nazywamy automat skończony A = (Q, Σ, δ, q₀, F ), w którym:

• stanami q ∈ Q są słowa długości m, spełniające warunek:

∀_1¬i¬m q[i] = w[i] lub q[i] = #

definiujemy również funkcję P : Q → {1, . . . , m}, która dla danego stanu zwraca numer pozycji najbardziej prawego znaku #

• Σ - alfabet nad którym zostało zbudowane słowo w

(10)

• δ - funkcja przejścia δ : Q × Σ → Q zdefiniowana w następujący sposób:

Niech q ∈ Q, a ∈ Σ i niech i = P (q). Wówczas: q = q₁q[i]q2, gdzie q[i] = # natomiast q₁, q₂ ∈ (Σ ∪ {#})^∗. Niech r = q₁w[i]q₂.

Jeżeli a = w[i] to δ(q, a) = r. W przeciwnym przypadku niech:

s = min{j : ∀k∈{j+1,···,m} (r[k] 6= # ⇒ r[k] = w[k − j])}

Wówczas δ(q, a) = q⁰, gdzie q⁰ spełnia warunki:

1. ∀_1¬k¬m−s q⁰[k] = r[k + s]

2. ∀_m−s<k¬m q⁰[k] = #

Operację utworzenia stanu q⁰ ze stanu q nazywamy przesunięciem, zaś wartość s wiel- kością tego przesunięcia.

• stanem początkowym q₀ jest słowo #^m

• jedynym stanem akceptującym q_A jest słowo w

Po wprowadzeniu formalnej definicji warto przyjrzeć się intuicji, która za nią stoi. Po pierwsze symbol # pełni rolę „niewiadomej”. Tym samym jest on „zgodny” z dowolnym innym symbolem. Drugą kwestią wartą wyjaśnienia jest funkcja P - jej wartość odpowiada numerowi pozycji, z której wczytujemy symbol wejściowy. Na koniec przyjrzyjmy się jeszcze definicji funkcji przejścia. Najłatwiej zrozumieć ją patrząc na poniższy rysunek.

W przypadku niezgodności symbolu a z symbolem w[i], szukamy minimalnej wielkości przesunięcia s takiej, żeby zaznaczone fragmenty słów w i r były zgodne. Następnie stan q⁰ tworzymy poprzez wzięcie zaznaczonej części ze stanu r i „dopełnieniu” go znakami #.

Jako że głównym tematem pracy jest analiza możliwych rozmiarów automatów Boyera- Moore’a, od tej pory będziemy zakładać, że stan akceptujący q_A (któremu odpowiada słowo w) jest stanem pochłaniającym (czyli ∀_a∈Σ δ(q_A, a) = q_A) oraz będziemy rozważać tylko sta- ny automatu osiągalne ze stanu początkowego (a zatem od teraz przez zbiór Q rozumiemy zbiór {q ∈ Q : ∃_a₁_,...,a_n∃_q₁_,...,q_n∀i={1,...,n}qi = δ(q_i−1, ai) oraz q_n= q}

Po wprowadzeniu formalnej definicji warto zilustrować ją na przykładzie. W tym celu poniżej prezentuję automat dla słowa w = aba.

(11)

Warto wspomnieć również, że czasami rozważa się też „rozszerzone automaty Boyera- Moore’a”. Różnią się one tylko definicją funkcji P , która zwraca numer pozycji pewnego znaku

# (niekoniecznie najbardziej prawego, jak to ma miejsce w standardowych automatach).

W szczególności jeśli funkcja P zwraca numer pozycji najbardziej lewego znaku #, to taki automat symuluje algorytm Knutha-Morrisa-Pratta.

1.2. Ogólna postać stanów w automatach Boyera-Moore’a

W poprzednim podrozdziale utożsamiliśmy stany automatu ze słowami długości m nad alfa- betem Σ ∪ {#}. Przedstawię teraz jak w ogólności wygląda postać pojedynczego stanu. Mimo iż poniższe twierdzenie ją wprowadzające wydaje się być oczywiste, to jednak jest ono tylko wstępem do pokazania bardzo silnej charakteryzacji tej właśnie postaci.

Twierdzenie 1.3 Każdy stan automatu Boyera-Moore’a jest postaci:

#ⁱ⁰w1#ⁱ¹· · · w_k−1#ⁱ^k−1wk (1.1) gdzie k > 0, i₀  0, ∀_1¬s¬k−1 is> 0, w1, . . . w_k−1∈ Σ⁺ oraz w_k∈ Σ^∗.

Dowód:

Skorzystamy z zasady indukcji matematycznej względem długości najkrótszej ścieżki od sta- nu początkowego q₀ do rozważanego stanu q. Podstawa indukcji (czyli uzasadnienie faktu dla stanu początkowego q₀ = #^m) jest oczywista. Przejdźmy zatem od razu do kroku indukcyjnego.

Na początek zauważmy, że jeżeli mamy słowo q postaci 1.1, to również dowolne jego prze- sunięcie (w sensie operacji wprowadzonej przy okazji definicji automatu Boyera-Moore’a) jest również takiej postaci. Istotnie, załóżmy bowiem że q = #ⁱ⁰w₁#ⁱ¹· · · w_k−1#ⁱ^k−1w_k. Wówczas przesunięcie słowa q ma jedną z trzech poniższych postaci:

• #^m

Do takiego stanu prowadzi przesunięcie o wielkości s m w przypadku w_k 6= oraz s m − i_k−1 gdy w_k = 

• #^j⁰z1#^j¹· · · z_r−1#^j^r−1zr#^j^r, j₀> 0

Tutaj musimy rozważyć dwa przypadki. Jeżeli w_k 6= to r ¬ k, z_s = w_k−r+s dla

(12)

s = 1, . . . , r, j₀ ¬ i_k−r, j_s = i_k−r+s dla s = 1, . . . , r − 1, zaś j_r jest równe wielkości przesunięcia. Jeżeli natomiast w_k= to mamy r < k, z_s= w_k−1−r+s dla s = 1, . . . , r, j₀ ¬ i_k−1−r, j_s = i_k−1−r+s dla s = 1, . . . , r − 1 oraz j_r = i_k−1+ t, gdzie t > 0 i t jest wielkością przesunięcia w tym przypadku.

• z₁#^j¹· · · z_r−1#^j^r−1z_r#^j^r

Tutaj również mamy analogiczne przypadki. Jeżeli w_k 6= to r ¬ k, z_s = w_k−r+s dla s = 2, . . . , r, z1 = s_k−r+1, gdzie w_k−r+1 = xs_k−r+1 dla x ∈ Σ^∗ (s_k−r+1 jest sufixem, niekoniecznie właściwym, słowa w_k−r+1), j_s = i_k−r+s dla s = 1, . . . , r − 1 zaś j_r jest równe wielkości przesunięcia. Natomiast gdy w_k = mamy r < k, z_s = w_k−1−r+s dla s = 2, . . . , r, z1 = s_k−r, gdzie w_k−r= xs_k−rdla x ∈ Σ^∗, j_s= i_k−1−r+sdla s = 1, . . . , r−1 oraz j_r = i_k−1+ t gdzie t > 0 i t jest wielkością przesunięcia.

Jednakże wszystkie trzy powyższe formy są w istocie przypadkami szczególnymi postaci 1.1.

Na mocy tej uwagi wystarczy zatem pokazać,że dla danego stanu q postaci 1.1, wczytanie symbolu zgodnego z wzorcem prowadzi do stanu tej samej postaci.

Załóżmy więc, że mamy stan q zadanej postaci, q nie jest stanem akceptującym (czyli ik−1> 0) oraz wczytujemy symbol a zgodny z wzorcem na odpowiedniej pozycji. Rozważmy trzy przypadki:

1. k = 1

Ponieważ q nie jest stanem akceptującym i₀ > 0. A zatem stan q jest równy albo #^m i wtedy δ(q, a) jest równy #^m−1z1 dla z₁ = a, albo q = #ⁱ⁰w1 (i₀ < m) i wówczas q⁰ jest równe #^j⁰z₁, gdzie j₀ = i₀− 1 oraz z₁ = aw₁. W dalszej części rozumowania będę zakładał, że k > 1.

2. w_k6=

Jeżeli i_k−1 = 1, to stan q⁰ = δ(q, a) jest równy #^j⁰z₁#^j¹· · · z_k−1, gdzie z_s = w_s dla s = 1, . . . , k − 2, zk−1 = w_k−1awk oraz j_s = i_s dla s = 0, . . . , k − 2. W przeciwnym przypadku (i_k−1 > 1) stan q⁰ jest równy #^j⁰z₁#^j¹· · · z_k−1#^j^k−1z_k, gdzie z_s = w_s dla s = 1, . . . , k − 1, z_k= aw_k, j_s = i_s dla s = 0, . . . , k − 2 oraz j_k−1= i_k−1− 1.

3. w_k=

Tym razem jeżeli i_k−1 = 1, to stan q⁰ = δ(q, a) jest równy #^j⁰z₁#^j¹· · · z_k−1, gdzie zs = w_s dla s = 1, . . . , k − 2 oraz z_k−1 = w_k−1a i js = i_s dla s = 0, . . . , k − 2.

Jeśli zaś i_k−1 > 1 to stan q⁰ jest równy #^j⁰z₁#^j¹· · · z_k−1#^j^k−1z_k, gdzie z_s = w_s dla s = 1, . . . , k − 1, z_k= a, j_s= i_s dla s = 0, . . . , k − 2 oraz j_k−1 = i_k−1− 1.

A zatem na mocy zasady indukcji matematycznej zapostulowana postać stanów automatu Boyera-Moore’a jest rzeczywiście poprawna. ♦

1.3. Własności ogólnej postaci stanów automatu Boyera-Moore’a

Powyższe twierdzenie samo w sobie nie jest godne uwagi. Jednakże dzięki niemu jesteśmy w stanie podać bardzo silną charakteryzację stanów. Przedstawia ją poniższe twierdzenie.

Twierdzenie 1.4 Jeżeli q = #ⁱ⁰w1#ⁱ¹· · · w_k−1#ⁱ^k−1w_kjest stanem automatu Boyera-Moore’a to prawdziwe są stwierdzenia:

1. ∀_2¬s¬k−1 istnieje dokładnie jedno l_s takie, że 1 ¬ l_s¬ |w_s|, dla którego

ws[l_s] 6= w[m − |w_s| + l_s] (czyli w_s są niezgodne z sufixem w długości |w_s| na dokładnie jednej pozycji).

(13)

2. jeżeli i₀ > 0 i k > 1, powyższą własność ma również w₁

3. jeżeli i₀ = 0 i k > 1, w₁ jest niezgodne z sufixem w długości |w₁| na dokładnie jednej pozycji albo jest w pełni zgodne z tym sufixem.

Dowód:

Dowód przeprowadzamy korzystając z zasady indukcji matematycznej względem długości d najkrótszej ścieżki ze stanu początkowego #^m do stanu q.

Baza indukcji dla d = 0 jest trywialna i nie wymaga uzasadnienia. Przejdźmy zatem do kroku indukcyjnego. Załóżmy, że teza spełniona jest dla wszystkich stanów odległych od q₀ o nie więcej niż d − 1 i niech q będzie stanem odległymo d od stanu początkowego. Niech q⁰ będzie poprzednikiem q na najkrótszej ścieżce z #^m do q. Ponadto niech q = δ(q⁰, a) oraz niech q⁰ = #ⁱ⁰w1#ⁱ¹· · · w_k−1#ⁱ^k−1wk. Oczywiście zakładamy też, że q⁰ nie jest stanem akceptującym, a zatem i_k−1 > 0. Wówczas musimy rozważyć dwa przypadki:

1. a = w[P (q⁰)] (po wczytaniu a nie następuje przesunięcie) Musimy rozważyć tutaj trzy podprzypadki, a mianowicie:

• k = 1

Z założenia, że q⁰ nie jest akceptujący i₀> 0. A zatem stan q⁰ jest równy albo #^m i wtedy q jest równy #^m−1z1 dla z₁ = a, albo q⁰ = #ⁱ⁰w1 (i0 < m) i wówczas q jest równe #^j⁰z1, gdzie j0 = i₀ − 1 oraz z₁ = aw₁. Teza jest zatem spełniona w sposób trywialny. W dalszej części dowodu zakładam, że k > 1.

• w_k6=

Jeżeli i_k−1 = 1, to stan q = δ(q⁰, a) jest równy #^j⁰z₁#^j¹· · · z_k−1, gdzie z_s= w_s dla s = 1, . . . , k − 2, z_k−1= w_k−1aw_k oraz j_s= i_s dla s = 0, . . . , k − 2. W przeciwnym przypadku (i_k−1 > 1) stan q⁰ jest równy #^j⁰z1#^j¹· · · z_k−1#^j^k−1z_k, gdzie z_s = w_s dla s = 1, . . . , k − 1, z_k = aw_k, j_s= i_s dla s = 0, . . . , k − 2 oraz j_k−1 = i_k−1− 1. W obu sytuacjach teza jest spełniona na mocy prawdziwości założenia indukcyjnego.

• w_k=

Tym razem jeżeli i_k−1= 1, to stan q = δ(q⁰, a) jest równy #^j⁰z₁#^j¹· · · z_k−1, gdzie zs = w_s dla s = 1, . . . , k − 2, z_k−1 = w_k−1a oraz js = i_s dla s = 0, . . . , k − 2.

Jeśli zaś i_k−1 > 1 to stan q⁰ jest równy #^j⁰z₁#^j¹· · · z_k−1#^j^k−1z_k, gdzie z_s = w_s dla s = 1, . . . , k − 1, z_k= a, j_s= i_s dla s = 0, . . . , k − 2 oraz j_k−1= i_k−1− 1. Jak wyżej teza wynika w sposób oczywisty z założenia indukcyjnego.

2. a 6= w[P (q⁰)] (po wczytaniu a nastepuje przesunięcie)

Zauważmy, że możemy teraz w dużej mierze wykorzystać poprzedni przypadek. Tutaj bowiem tworzymy dokładnie takie same słowa jak powyżej, ale następnie zostają one odpowiednio przesunięte w celu osiągnięcia zgodności z wzorcem. Na mocy poprzedniego przypadku wiemy, że zanim dokonamy przesunięcia, po wczytaniu symbolu a dostajemy słowo postaci: #^j⁰z1#^j¹· · · z_k−1#^j^k−1zk, gdzie k > 0, j₀  0, j_s> 0 dla s = 1, . . . , k − 1 oraz z_s∈ Σ⁺ dla s = 1, . . . , k. Wiemy również, że:

• z₁, . . . , z_k−1 spełniają tezę twierdzenia

• z_k jest niezgodne z sufixem w długości |z_k| na dokładnie jednej pozycji (jest o pozycja wczytanego właśnie symbolu a). Gdyby z_k było zgodne z odpowiednim sufixem nie następowałoby bowiem przesunięcie.

Oznaczmy powyższę uwagę przez (∗).

(14)

Teraz pozostaje już tylko zauważyć, że dowolne przesunięcie takiego słowa jest jednej z następujących postaci:

• #^m

Do takiego stanu prowadzi przesunięcie o wielkości s = m. W tym przypadku teza twierdzenia jest spełniona w sposób trywialny.

• #^l⁰v₁#^l¹· · · v_r−1#^l^r−1v_r#^l^r, l₀ > 0

W tym przypadku r ¬ k, v_s = z_k−r+s dla s = 1, . . . , r oraz l_s = j_k−r+s dla s = 1, . . . , r − 1 oraz l₀ ¬ j_k−r. Ponadto l_r jest równe wielkości przesunięcia. Na mocy uwagi (∗) wiemy, że v_sjest niezgodne z sufixem w długości |v_s| na dokładnie jednej pozycji dla s = 2, . . . , r. Ponadto jeżeli v₁ = z_e dla e > 1 to na mocy tej samej uwagi v₁ jest niezgodne z odpowiednim sufixem w na dokładniej jednej pozycji. Jeżeli zaś v₁ = z₁, to korzystając z faktu, że wielkość przesunięcia musi być liczbą dodatnią dostajemy j₀ > 0, co na mocy uwagi (∗) daje nam również niezgodność v₁ z sufixem w długości v₁ na dokładnie jednej pozycji. To kończy dowód tego przypadku.

• v₁#^l¹· · · v_r−1#^l^r−1vr#^l^r, Teraz r ¬ k, v_s = z_k−r+s dla s = 2, . . . , r, v₁ = s_k−r+1, gdzie z_k−r+1 = xs_k−r+1 dla x ∈ Σ^∗ (s_k−r+1 jest sufixem, niekoniecznie właści- wym, słowa z_k−r+1), l_s = j_k−r+s dla s = 1, . . . , r − 1, zaś j_r jest równe wielkości przesunięcia. Na mocy uwagi (∗) dostajemy prawdziwość pierwszego punktu tezy.

Pozostaje pokazać jeszcze punkt trzeci. Ale v₁ jest sufixem z_k−r+1 niezgodnego z sufixem w odpowiedniej długości na co najwyżej jednej pozycji. Ponadto oczywisty jest fakt, że biorac sufixy równej długości dwóch słów niezgodnych na co najwyżej jednej pozycji, dostajemy również słowa niezgodne na co najwyżej jednej pozycji.

A zatem v₁ jest niezgodne z sufixem w długości |v₁| na co najwyżej jednej pozycji.

Powyższe rozważania kończą dowód twierdzenia w tym przypadku.

A zatem na mocy zasady indukcji matematycznej, twierdzenie to jest prawdziwe dla wszystkich osiągalnych stanów w automacie Boyera-Moore’a. ♦

(15)

Rozdział 2

Budowa automatu Boyera-Moore’a

Głównym punktem prezentowanej pracy jest analiza możliwych rozmiarów automatów Boyera- Moore’a. Aby ją wykonać niezbędne było przeprowadzenie eksperymentów. Nie byłoby to jednak możliwe, gdybyśmy nie umieli w efektywny sposób kontruować automatów, gdyż roz- ważane przeze mnie klasy wzorców, prowadzą do automatów posiadających setki tysięcy stanów już dla słów o stosunkowo małej długości.

W tym rozdziale opiszę zastosowany przeze mnie algorytm konstrukcji automatów Boyera- Moore’a oraz zanalizuję jego złożoność. Po raz pierwszy prezentowana tutaj metoda została opisana w pracy [4].

2.1. Ogólna metoda konstrukcji automatu

Patrząc na definicję automatu (wprowadzoną w poprzednim rozdziale) możemy z łatwością podać rekurencyjny algorytm konstrukcji automatu.

1. Rozpoczynamy od stanu początkowego #^m.

2. Dla każdego nie przetworzonego jeszcze stanu q i dla każdego możliwego symbolu a ∈ Σ:

• Niech i = P (q), q = q₁q[i]q₂ (q[i] = #, q₁, q₂ ∈ (Σ + #)^∗) oraz r = q₁w[i]q₂.

• Jeżeli w[i] = a to następnikiem q⁰ stanu q po wczytaniu symbolu a jest słowo r.

• W przeciwnym przypadku szukamy minimalnej wielkości przesunięcia s z definicji funkcji przejścia i zgodnie z nią tworzymy następnik q⁰.

• Jeżeli stan q⁰ nie był wcześniej wygenerowany, dodajemy go do zbioru stanów jeszcze nieprzetworzonych.

Widać zatem, że ogólna idea algorytmu jest bardzo prosta. Jednakże naiwna implementacja tego podejścia jest zbyt kosztowna czasowo. Jeżeli przez |Q| oznaczymy łączną liczbę stanów automatu, to taki algorytm ma wówczas złożoność czasową O(|Q| · |Σ| · (m²+ m log |Q|)) (znalezienie przesuniecia s kosztuje bowiem O(m²) operacji (naiwna metoda dopasowania wzorca), zaś sprawdzenie czy dany stan został już wcześniej rozważony przy zastosowaniu zrównoważonych drzew binarnych generuje koszt O(m · log |Q|) operacji).

W dalszej części tego rozdziału pokażemy jak udoskonalić powyższą metodę, aby uzyskać złożoność czasową: O(m · |Σ| · |Q|).

(16)

2.2. Generowanie następników w czasie O(m)

Jako pierwsze udoskonalenie pokażemy, jak kosztem co najwyżej dwukrotnego zwiększenia zużycia pamięci generować następniki w czasie proporcjonalnym do długości wzorca.

Niech q będzie rozważanym przez nas stanem oraz niech i = P (q) (zakładam że funkcja P zwraca pozycję najbardziej prawego wystąpienia symbolu #, poniższe udoskonalenie nie jest poprawne w przypadku rozszerzonych automatów Boyera-Moore’a). Załóżmy teraz, że z każdym stanem q ∈ Q mamy związaną kolejkę Shif t zawierającą wszystkie dozwolone niezerowe przesunięcia posortowane w sposób rosnący. Formalniej:

s ∈ Shif t(q) ⇐⇒ 1 ¬ s ¬ m oraz ∀k∈{s+1,···,m} (q[k] 6= # ⇒ q[k] = w[k − s]) Wówczas w przypadku niezgodności wczytanego symbolu a z wzorcem (a 6= w[i]) musimy (zgodnie z definicją) znaleźć wartość s:

s = min{j : ∀k∈{j+1,···,m} (r[k] 6= # ⇒ r[k] = w[k − j])}

Ale teraz jedynymi kandydatami na wartość s są elementy należące do kolejki Shif t(q), co wynika bezpośrednio z definicji tej struktury. Natomiast sprawdzenie kandydata k ∈ Shif t(q) sprowadza się tylko do wykonania pojedynczego testu: (s i lub a = w[i − s]), gdyż zgod- ność pozostałych symboli zapewnia nam ponownie definicja kolejki Shif t(q). Ponieważ ilość elementów kolejki Shif t(q) jest niewiększa od m, a sprawdzenie jednego kandydata wykonu- jemy już w czasie O(1), znalezienie poszukiwanej wartości s kosztuje nas w tym przypadku czas O(m).

Posiadając zatem związaną z każdym stanem q wyżej zdefiniowaną strukturę Shif t(q) możemy generować następnik q⁰ stanu q w czasie O(m). Musimy jednak pokazać jeszcze, że umiemy również w czasie O(m) obliczać kolejkę Shif t(q⁰) dla następnika stanu q.

Niech Shif t⁰ będzie kolejką związaną ze stanem q⁰. W poniższych pseudokodach będę korzystał ze standardowych procedur EnQueue dodającej element do kolejki oraz DeQueue zwracającej pierwszy element kolejki i usuwającej go z niej. Rozważmy dwa przypadki:

1. a = w[i]: wówczas Shif t⁰ uzyskujemy z listy Shif t biorąc elemety zgodne z wczytanym symbolem a.

w h i l e ( NotEmpty ( S h i f t ) ) do { s = DeQueue ( S h i f t )

i f ( s >= i o r a = w [ i − s ] ) Enqueue ( s , S h i f t ’ ) ;

}

2. a 6= w[i]: niech min będzie najmniejszym elementem kolejki Shif t zgodnym z wczyta- nym symbolem a (min i lub a = w[i − min]). Ponieważ, zgodnie z definicją, kolejka Shif t jest posortowana, podzielmy kolejkę Shif t⁰ na trzy „podkolejki”:

• Shif t1⁰ = {s ∈ Shif t⁰: 1 ¬ s < i − min}

• Shif t2⁰ = {s ∈ Shif t⁰: i − min ¬ s < m − min}

• Shif t3⁰ = {s ∈ Shif t⁰: m − min ¬ s ¬ m}

Teraz pokażemy jak skonstruować wyżej zdefiniowane „podkolejki”.

• Element s (1 ¬ s < i − min) należy do Shif t1⁰ ⇐⇒ a = w[i − s − min] oraz s + min ∈ Shif t

(17)

• Element s (i − min ¬ s < m − min) należy do Shif t2⁰ ⇐⇒ s + min ∈ Shif t

• Element s należy do Shif t3⁰ ⇐⇒ m − min ¬ s ¬ m

Prowadzi to zatem do następującego pseudokodu generującego kolejkę Shif t⁰ w tym przypadku.

r e p e a t

min = DeQueue ( S h i f t )

u n t i l ( min >= i o r a = w [ i − min ] ) i f ( NotEmpty ( S h i f t ) ) {

s = DeQueue ( S h i f t ) w h i l e ( s < i ) {

i f (w [ i − s ] = a )

EnQueue ( s − min , S h i f t ’ ) s = DeQueue ( S h i f t )

} // S h i f t 1 ’ w h i l e ( s < m) {

EnQueue ( s − min , S h i f t ’ ) s = DeQueue ( S h i f t )

} // S h i f t 2 ’ }

s = m − min w h i l e ( s <= m) {

EnQueue ( s , S h i f t ’ ) s++

} // S h i f t 3 ’

Warto zauważyć, że wykonując operacje DeQueue nie musimy sprawdzać czy kolejka Shif t jest pusta, gdyż zawsze m ∈ Shif t.

W obu powyższych przypadkach generowanie kolejki Shif t⁰ zajmuje czas O(m), gdyż kolejka Shif t zawiera co najwyżej m elementów.

Pokazaliśmy zatem, że umiemy (kosztem wzbogacenia struktury stanów o dodatkowe informacje przechowywane w kolejce Shif t) generować następniki w czasie O(m). Jednakże wzbogacenie to nie zmienia asymptotycznej złożoności pamięciowej struktury automatu.

2.3. Dalsze udoskonalenia

Pokażemy teraz jeszcze jedno proste udoskonalenie, które pozwoli nam pozbyć się czynni- ka log |Q| z wyrażenia opisującego złożoność czasową algorytmu budowy automatu Boyera- Moore’a.

Oczywiście czynnik log |Q| pojawia się, gdyż po wygenerowaniu następnika musimy spraw- dzić czy stan ten został już wcześniej wygenerowany, a koszt takiego sprawdzenia w przy- padku zastosowania drzew binarnych wynosi właśnie O(m log |Q|). Jednakże zamiast drzew binarnych możemy wykorzystać drzewa typu TRIE (opis struktury można znaleźć np. w [7]).

Dzięki temu sprawdzenie czy dany stan (reprezentowany przez słowo długości m) został już wcześniej wygenerowany można wykonać w czasie O(m) (zauważmy, że alfabet nad którym budowane jest drzewo TRIE jest niejako dwuliterowy - i-ty symbol może być albo nieznany (równy #) albo znany (wówczas jednoznacznie zdefiniowany równy w[i]). Również operacje dodawania i usuwania elementów do drzew typu TRIE wykonujemy w czasie O(m).

(18)

2.4. Wnioski

Wykorzystując powyższe podrozdziały, możemy zmodyfikować wprowadzony na początku rozdziału algorytm generowania automatu Boyera-Moore’a.

Modyfikujemy strukturę reprezentującą stan automatu, która dodatkowo zawierać będzie (oprócz słowa reprezentującego stan oraz pozycji P (q)) kolejkę Shif t. Ponieważ słowo jest długości m, a struktura Shif t zawiera co najwyżej m elementów, nie prowadzi to do zmiany asymptotycznej złożoności pamięciowej.

Algorytm budowy automatu ma teraz postać:

1. Rozpoczynamy od stanu początkowego #^m (kolejka Shif t dla tego stanu jest postaci {1, 2, · · · , m})

2. Dla każdego nie przetworzonego jeszcze stanu q i dla każdego możliwego symbolu a ∈ Σ:

• Generujemy następnik stanu q oraz kolejkę Shif t dla niego w czasie O(m) (zgodnie z podrozdziałem 2.2). Oznaczmy go przez q⁰.

• Sprawdzamy czy stan q⁰został już wcześniej wygenerowany w czasie O(m) (zgodnie z podrozdziałem 2.3).

• Jeżeli stan q⁰ nie był wcześniej wygenerowany, dodajemy go do do drzewa TRIE oraz do listy stanów jeszcze nieprzetworzonych.

Na podstawie powyższych rozważań dostajemy:

Twierdzenie 2.1 Automat Boyera-Moore’a posiadający |Q| stanów możemy skonstruować (korzystając z powyższego algorytmu) w czasie O(m · |Σ| · |Q|) oraz w pamięci O(m · |Q|).

Na koniec zauważmy jeszcze, iż ponieważ sam rozmiar automatu jest rzędu O(m · |Q|), algorytm ten jest optymalny pamięciowo (oczywiście przy założeniu, że chcemy trzymać w pamięci cały automat). Ponadto w pracy [4] autorzy stwierdzają , że algorytm ten jest również optymalny jeżeli chodzi o złożoność czasową argumentując to stwierdzeniem, że dla każdego stanu oraz każdego możliwego symbolu wejściowego musimy obliczyć następnik składający się z m liter, a zatem potrzebujemy na to co najmniej O(m) czasu.

(19)

Rozdział 3

Rozmiar alfabetu a rozmiar automatów

W poniższym rozdziale pokażę, że w pewnym sensie w naszych rozważaniach możemy się ograniczyć do alfabetów dwuliterowych. Twierdzenie, które poniżej zaprezentuję zostało udowodnione przez V. Bruyere i O. Delgrange’a. Przedstawiony tutaj dowód został w większości zaczerpnięty z dodatku do pracy [3].

3.1. Uwagi wstępne

Na początek musimy wyraźnie zaznaczyć, że drugie twierdzenie, które zostanie zaprezento- wane w tym rozdziale zostanie udowodnione tylko dla „rozszerzonych automatów Boyera- Moore’a”. Ani ja ani autorzy oryginalnego dowodu nie potrafią pokazać poniższych faktów dla automatów standardowych, mimo iż wydaje się, że dla nich również jest ono prawdziwe.

Po drugie muszę uściślić (na razie w sposób intuicyjny) co rozumiem przez stwierdzenie, iż w pewnym sensie alfabet dwuliterowy jest wystarczający. Mianowicie w poniższych dwóch twierdzeniach pokażemy, że rozmiar alfabetu Σ nie wpływa na typ (czy to wielomianowy czy wykładniczy) funkcji zwracającej maksymalny rozmiar rozszerzonego automatu Boyera- Moore’a dla wzorców o danej długości m. Konkretniej, jeżeli umielibyśmy wskazać klasę wzorców nad alfabetem Σ, dla których rozmiar automatu jest wykładniczą funkcją długości słowa, to umielibyśmy również skonstruować klasę wzorców nad alfabetem dwuliterowym, dla których automaty Boyera-Moore’a są również wykładnicze względem długości wzorców.

Ścisłe sformułowanie zostanie przedstawione w twierdzeniu.

3.2. Twierdzenie 1

Rozpoczniemy jednak od bardzo prostego twierdzenia, żeby całościowo pokazać implikacje w obie strony.

Twierdzenie 3.1 Niech w będzie słowem nad dwuliterowym alfabetem {a, b} oraz niech Aw

będzie rozszerzonym automatem Boyera-Moore’a dla tego słowa. Wówczas dla każdego alfabetu Σ takiego, że |Σ| 2 istnieją słowo w⁰ nad alfabetem Σ i rozszerzony automat Boyera-Moore’a Aw⁰ odpowiadający słowu w⁰ takie, że |w| = |w⁰| oraz |A_w| ¬ |A_w⁰|.

Dowód:

Wystarczy wziąć dowolną funkcję różnowartościową f : {a, b} → Σ oraz w⁰ = f (w). Wówczas

(20)

rozszerzony automat Boyera-Moore’a dla w⁰ konstruujemy z A_w używając tej samej funkcji P oraz dodając odpowiednie przejścia dla liter z Σ różnych od f(a) i f(b). Wówczas A_w⁰ posiada co najmniej te same stany co A_w. ♦

3.3. Twierdzenie 2

Przedstawimy teraz główne twierdzenie tego rozdziału (wspomniane we wstępie), które „od- wraca” sytuację z poprzedniego twierdzenia.

Twierdzenie 3.2 Niech w będzie słowem nad alfabetem Σ (|Σ| 2) i niech c = |Σ|. Niech A_w będzie rozszerzonym automatem Boyera-Moore’a skojarzonym ze słowem w. Wówczas ist- nieją: słowo w⁰ nad dwuliterowym alfabetem {a, b} oraz rozszerzony automat Boyera-Moore’a A_w⁰ dla słowa w⁰ takie, że w⁰ = (c + 3)|w| oraz |A_w| ¬ |A_w⁰|.

Dowód:

Rozpocznijmy od pokazania jak dla danego słowa w zdefiniować odpowiednie słowo w⁰ nad dwuliterowym alfabetem {a, b}. W tym celu będziemy potrzebowali pewnych podstaw z teorii kodów. Będziemy bowiem kodowali wzorzec w we wzorcu w⁰.

W naszym przypadku kodowaniem nazywamy funkcję φ zastępującą dowolny symbol z alfabetu Σ przez słowo-kod nad alfabetem {a, b} w taki sposób, że dowolne zakodowane słowo możemy w sposób jednoznaczny odkodować. Oznaczmy przez X zbiór słów-kodów kodujących symbole z Σ - wówczas X nazywamy kodem.

W naszym dowodzie wykorzystamy dwie własności kodu (dowody, iż dowolny kod posiada obie te własności można znaleźć w [8]). Każdy kod jest:

1. (1,1)-ograniczony ((1,1)-limited)

∀u,v,w∈{a,b}^∗ uv, vw ∈ X^∗ ⇒ v ∈ X^∗ 2. bezprzecinkowy (comma-free)

∀_x∈X+∀_u,v∈{a,b}∗ uxv ∈ X^∗ ⇒ u, v ∈ X^∗ Kodem, który wykorzystamy w poniższym dowodzie jest:

X = {bbaⁱba^ja | i + j + 1 = c (= |Σ|)}

Dzięki wykorzystaniu takiego kodowania, wszystkie słowa z X są tej samej długości równej l = c + 3. Ponadto pozycja litery b znajdującej się pomiędzy aⁱ i a^j w słowie kodującym jednoznacznie określa, który symbol z Σ kodujemy. Zdefiniujmy zatem funkcję φ : Σ → X jako kodowanie. Wówczas szukanym przez nas wzorcem w⁰ z treści twierdzenia jest w⁰ = φ(w).

Pokażemy teraz jak dla uzyskanego przez nas słowa w⁰ zbudować rozszerzony automat Boyera-Moore’a tak, aby posiadał wymaganą w treści twierdzenia własność.

Niech A_w = (Q, Σ, δ, q₀, F ) będzie rozszerzonym automatem Boyera-Moore’a dla słowa w oraz niech P będzie funkcją z definicji z pierwszego rozdziału dla automata A_w. Definiujemy teraz nowy rozszerzony automat Boyera-Moore’a A_w⁰ = (Q⁰, {a, b}, δ⁰, q₀⁰, F⁰) wraz z funkcją P⁰. Pokażemy w jaki sposób możemy „zakodować” w tym automacie automat A_w.

Rozpocznijmy od pokazania jak skonstruować włożenie z Q w Q⁰. Dla dowolnego stanu q ∈ Q, oznaczmy przez φ(q) stan powstały z q poprzez zastąpienie każdego symbolu σ ∈ Σ z q przez słowo kodowe φ(σ), oraz każdego symbolu # przez słowo #^l, gdzie l = |Σ| + 3. W ten

(21)

sposób każdy symbol ze słowa odpowiadającego q zostaje zastąpiony przez słowo długości l ze zbioru X ∪ {#^l}.

Teraz możemy przedstawić już konstrukcję automatu A_w⁰ bazując na konstrukcji auto- matu A_w i w sposób indukcyjny pokazać, że rodzina stanów {φ(q)|q ∈ Q} jest podzbiorem Q⁰.

Baza indukcji jest oczywista - stan q⁰₀ = φ(q₀) = #^|q⁰^|·l jest oczywiście stanem początko- wym automatu A_w⁰.

Krok indukcyjny jest już znacznie trudniejszy do pokazania. Naszym celem jest udo- wodnienie, że jeżeli stan φ(q) ∈ Q⁰ to wówczas ∀_σ∈Σ φ(δ(q, σ)) ∈ Q⁰ (czyli wszystkie stany będące następnikami q w automacie A_w mają swoje odpowiedniki w automacie A_w⁰). Oznacz- my: k = P (q) oraz ρ = w_k (czyli litera w słowie w na aktualnie rozważanej pozycji). Musimy teraz rozważyć dwa przypadki.

• σ = ρ (brak przesunięcia)

W tym przypadku w wyjściowym automacie A_w wczytujemy symbol ρ. Zatem w auto- macie A_w⁰ musimy teraz wczytać słowo φ(ρ) występujące w φ(w) na pozycjach:

(k − 1) · l + 1, (k − 1) · l + 2, . . . , k · l. Jednakże dzięki możliwości definicji funkcji P⁰ możemy dowolnie zdefiniować kolejność wczytywania symboli znajdujących się na tych pozycjach. Niech φ(ρ) = bbaⁱba^c−i−1a. Wówczas funkcję P⁰ dla kolejnych stanów definiujemy tak, aby kolejność wczytywanych symboli była następująca:

1. dwie pierwsze litery b - pozycje: (k − 1) · l + 1, (k − 1) · l + 2 2. ostatnia litera a - pozycja: k · l

3. pozostałe litery a - pozycje: (k − 1) · l + 3, (k − 1) · l + 4, . . . , (k − 1) · l + i + 2, (k − 1) · l + i + 4, (k − 1) · l + i + 5, . . . k · l − 1

Tutaj dla poprawności dowodu nie ma znaczenia dokładna kolejność pozycji, dla- tego bez straty ogólności zakładamy, że będziemy je wczytywać od lewej do prawej (czyli w kolejności podanej powyżej).

4. środkowa litera b - pozycja (k − 1) · l + i + 3.

Oczywiście rozpoczynając od stanu φ(q) i przechodząc po ścieżce zdefiniowanej przez słowo bba^cb dochodzimy do stanu φ(δ(q, ρ)).

• σ 6= ρ (następuje przesunięcie)

W tym przypadku w wyjściowym automacie A_w wczytujemy symbol σ. W naszym automacie A_w⁰ musimy wczytać zatem słowo φ(σ), ale litery tego słowa wczytujemy zgodnie z kolejnością zdefiniowaną w poprzednim punkcie (oczywiście dopóty, dopóki są one tam zdefiniowane).

Zauważmy, że słowa φ(ρ) i φ(σ) różnią się tylko na dwóch pozycjach („środkowe” b jest zamienione z pewnym a). Oznaczmy zatem przez n pozycję, dla której φ(ρ)[n] = a oraz φ(σ)[n] = b (jest ona jednoznacznie zdefiniowana oraz oczywiście nie jest równa żadnej z liczb (k − 1) · l + 1, (k − 1) · l + 2, k · l). Zatem wczytywanie słowa φ(σ) obrazuje poniższy rysunek. Trzeba zaznaczyć, że stan p jest różny dla różnych σ ∈ Σ, co w sposób oczywisty wynika z jednoznaczności kodowania.

(22)

Funkcja przejść w automacie A_w⁰ w momencie niezgodności

Naszym celem jest teraz pokazanie, że stan r z powyższego rysunku różni się od stanu φ(δ(q, σ)) tylko tym, że jeszcze niewczytane symbole a z φ(σ) są w nim zastąpione przez symbole #. Wprowadźmy zatem następujące oznaczenia: q = u#v, gdzie u, v ∈ (Σ∪{#})^∗oraz |u| = k−1. Oczywiście przejście δ(q, σ) oznacza, że # zostaje zastąpiony przez σ co prowadzi do przesunięcia, które jest jednej z dwóch postaci:

– δ(q, σ) = u⁰σv#^s, gdzie u⁰ - sufix u

– δ(q, σ) = v⁰#^s, gdzie v⁰ - sufix v (niekoniecznie właściwy)

Ponieważ oba przypadki dowodzi się w sposób identyczny, pokażemy tylko pierwszy z nich (drugi jest tak naprawdę powtórzeniem tych samych przejść).

Załóżmy bez straty ogólności, że φ(σ) = bbaⁱ⁰ba^j⁰b. Podczas wczytywania symboli słowa φ(σ) (w kolejności zdefiniowanej w poprzednim przypadku), pierwsza niezgodność wy- stąpi, kiedy znajdziemy się w stanie p oraz wczytamy symbol b (powyższy rysunek). Ze wszystkich poprzednich rozważań wiemy, że p = φ(u)bbx#yaφ(v), gdzie x, y ∈ {a, #}^∗,

|x| = i⁰ oraz |y| = j⁰. Ponieważ w tle mamy ciągle nasz wyściowy automat A_woczywiste jest, że poprawnym przesunięciem jest przesunięcie s⁰⁰ = l · s. Zatem szukane przez nas przesunięcie w automacie A_w⁰ w stanie p jest równe s⁰ ¬ l ·s (przesunięcie przy przejściu δ⁰(p, b)). Pokażemy, że jest ono równe dokładnie l · s.

Załóżmy nie wprost, że s⁰ < l · s. Oczywiście stan r możemy zapisać w postaci:

r = z1 #ⁱ¹ z2 #ⁱ². . . zα#ⁱ^α bbxbya #ⁱ^α+1 zα+1 #^α+2. . . #ⁱ^β z_β #^s⁰

gdzie β 0, z₁, z_β ∈ {a, b}^∗, z₂, z₃, . . . z_β−1 ∈ {a, b}⁺, i₁, . . . i_α−1, i_α+2, . . . i_β > 0, iα, iα+1 0.

Wprowadźmy następującą notację: jeżeli X jest zbiorem słów, to przez X^∗ oznaczmy zbiór wszystkich możliwych konkatenacji słów z X, włącznie z „pustą” konkatenacją oznaczaną przez . Ponadto niech X⁺= X^∗\{}. Dodatkowo przez F (X^∗), P (X^∗) oraz S(X^∗) oznaczmy odpowiednio zbiory podsłow, prefixów oraz sufików słów ze zbioru X^∗ (przypomnijmy, że podsłowem nazywamy spójny podciąg znaków danego słowa).

Korzystając teraz z faktu, że stan r powstaje z φ(q) przez przesunięcie o s⁰ oraz wyko- rzystując założenie indukcyjne możemy napisać, że

z₁∈ S(X^∗), z₂, . . . z_β ∈ X^∗ (3.1) Z drugiej strony wiemy jednak, że w rozszerzonym automatacie Boyera-Moore’a dla słowa w, w dowolnym stanie q i-tym symbolem jest albo w[i] albo #. Zatem na tej podstawie możemy również napisać:

z₁ ∈ P (X^∗), z₂, . . . z_β ∈ F (X^∗), bbxbya ∈ (F (X^∗) ∪ {#})^∗ (3.2)

(23)

Teraz właśnie skorzystamy z własności kodów, o których wspomniałem na początku dowodu. Po pierwsze korzystając faktu, że z₁ ∈ S(X^∗) ∩ P (X^∗) oraz wiedząc, że X jest (1,1)-ograniczony, dostajemy że z₁∈ X^∗. (W ogólności, gdy nie jest spełnione założenie o (1,1)-ograniczoności nie jest to zawsze prawdziwe.)

Teraz zajmiemy się zmiennymi z_i dla 2 ¬ i ¬ β. Ponieważ z_i ∈ F (X^∗) to możemy napisać, że z_i = s_ixipi, gdzie s_i ∈ S(X^∗)\X^∗, x_i ∈ X^∗ oraz p_i ∈ P (X^∗)\X^∗. Ale na mocy 3.1 wiemy też, że z_i ∈ X^∗. Jeżeli teraz x_i = to s_ip_i ∈ X^∗ i z postaci słów-kodów dostajemy od razu s_i = p_i = . Jeżeli zaś x_i 6= to z bezprzecinkowości kodowania X dostajemy, że pi = s_i = czyli z_i = x_i. To samo rozumowanie zachodzi również dla słowa bbxbya, które musi „zgadzać się” z φ(σ) (własność bezprzecinkowości stosuje się tu dzięki temu, iż znamy dwie początkowe litery b oraz słowo to ma odpowiednią długość).

Podsumowując, jeżeli zapiszemy φ(w) jako:

φ(w) = φ(σ1)φ(σ₂) . . . φ(σ_m) to każde z_i zapisuje się jako:

z_i= φ(σ_j_i)φ(σ_j_i₊₁) . . . φ(σ_j_i_+l_i)

oraz bbxbya pojawia się dokładnie w miejscu φ(σ). Pokazaliśmy zatem, że s⁰ musi byc zgodne z dekompozycją na słowa ze zbioru X ∪ {#}^l - a zatem jest s⁰ = l · s⁰⁰⁰, czyli s⁰⁰⁰ < s.

Wracając spowrotem do wyjściowego automatu A_w oznacza to, że przesunięcie s nie jest najmniejszym możliwym przejściem - możliwe jest przejście s⁰⁰⁰. Oczywiście jest to sprzeczność, a zatem nasze założenie, że s⁰ < l · s było nieprawdziwe. Zachodzi zatem s⁰ = l · s.

Odpowiednia definicja funkcji P⁰w „dolnym łańcuchu” stanów z rysunku, kończy dowód tego punktu.

Na koniec trzeba jeszcze zauważyć, że dla dwóch różnych stanów p i q φ(p) 6= φ(q), co wynika wprost z definicji kodowania.

A zatem na mocy zasady indukcji matematycznej automat A_w⁰ posiada „zakodowany” w sobie automat A_w, a tym samym |A_w| ¬ A_w⁰. ♦

(24)

(25)

Rozdział 4

Ograniczenia na ilość stanów

W tym rozdziale zaprezentuję przekrój wyników związanych z ograniczeniami na ilość stanów automatów Boyera-Moore’a. Dla porządku rozpocznę od trywialnego faktu nie wymagającego uzasadnienia.

Twierdzenie 4.1 Niech w będzie m-literowym słowem nad alfabetem Σ (w ∈ Σ^m). Wówczas automat Boyera-Moore’a dla słowa w posiada |Q| stanów, przy czym:

m + 1 ¬ |Q| ¬ 2^m

4.1. Automaty o rozmiarze Θ(m

³

)

W poniższym podrozdziale pokażemy, że dla alfabetu o rozmiarze |Σ| 2 umiemy podać wzorzec długości m, dla którego automat Boyera-Moore’a posiada Ω(m³) stanów.

Powyższe ograniczenie pokażemy dla |Σ| = 2 (oczywiście ten sam rezultat stosuje się w sposób trywialny dla alfabetów |Σ| > 2 poprzez wykorzystanie tylko dwóch liter.

Rozważmy wzorzec postaci:

w = aⁱ¹baⁱ² a, b ∈ Σ, i₂ > i₁ > 0

Poniżej przedstawię wszystkie osiągalne stany, podzielone na grupy wraz z opisem przejść pomiędzy nimi.

1. stan początkowy: #^m

Po wczytaniu symbolu a przechodzimi do grupy 2, bo wczytaniu b do grupy 3.

2. stany: #⁺a^j (1 ¬ j ¬ i₂)

Jeżeli j < i₂ to po wczytaniu a zostajemy w tej grupie, po wczytaniu b przechodzimy do grupy 3. Jeżeli zaś j = i₂ to po wczytaniu a przechodzimy do stanu z grupy 4 (z j = i1), zaś po wczytaniu b do grupy 3.

3. stany: #⁺ba^j#ⁱ²^−j (0 ¬ j ¬ i₂)

Jeżeli j < i₂to po wczytaniu a przechodzimy do grupy 5 lub (dla j = i₂−1) pozostajemy w grupie 3, po wczytaniu b przechodzimy do grupy 7 (j i₂− i₁) lub pozostajemy w grupie w 3 z j = 0 (o ile j < i₂− i₁). W przeciwnym przypadku (j = i₂) po wczytaniu a przechodzimy do grupy 6, zaś po wczytaniu b przechodzimy do stanu z grupy 4.

4. stan: a^j#⁺ (min(i₁, i₂− i₁) ¬ j ¬ i₁)

Po wczytaniu a przechodzimy do grupy 9, zaś po wczytaniu b przechodzimy do grupy 3 (z j = 0).