Referencje w Perlu Narz

(1)

Referencje w Perlu

Narzedzia informatyczne w j_֒ ezykoznawstwie_֒

Marcin Junczys-Dowmunt 21 lutego 2008

1 Wprowadzenie do referencji

Referencje to tak naprawde nazwy zmiennych. Mo˙zemy traktować zmienne jako przedmioty_֒ rzeczywiste, a referencje jako ich oznaczenia. Tak jak w ´swiecie rzeczywistym, istnieje tylko jeden konkretny obiekt, niemniej mo˙ze on mieć wiele nazw. Referencje to trzeci typ danych skalarnych (a nie z lo˙zonych) w Perlu obok zmiennych liczbowych i lańcuchów znakowych.

1.1 Referencje do podstawowych typ´ow zmiennych

Referencje do dowolnych zmiennych tworzymy za pomoca \. Poniewa˙z referencje to dane_֒ skalarne, przechowujemy je w zmiennych skalarnych, tak jak liczby lub la´ncuchy znakowe.

1 use s t r i c t;

my @ a r r a y = (1 , 2 , 3);

my % hash = ( jeden = > 1 , dwa = > 2 , trzy = > 3);

5 my $ s c a l a r = " Taki sobie s k a l a r"; my $aref = \ @ a r r a y;

my $href = \% hash ; my $sref = \ $ s c a l a r;

1.2 Anonimowe listy i hasze

Powy˙zej zdeﬁniowali´smy konkretne zmienne skalarne, tablicowe i haszowe, a nastepnie stwo-_֒ rzyli´smy referencje do nich. W przypadku tablic i hasz´ow mo˙zna sie obej´sc bez tego kroku_֒ po´sredniego, tworzac anonimowe tablice i hasze._֒

1 use s t r i c t;

my $aref = [ 1 , 2 , 3 ];

my $href = { jeden = > 1 , dwa = > 2 , trzy = > 3 };

Operator [...] tworzy liste (mo˙ze by´c pusta) i zwraca automatycznie referencj_֒ e do tej_֒ tablicy. Podobnie {...} tworzy hasz (tak˙ze mo˙ze by´c pusty) i zwraca odpowiednia referencj_֒ e._֒ Wewnatrz tych operator´_֒ ow zachodza odpowiednio konteksty listowe i haszowe._֒

1

(2)

1.3 Sposoby dost epu֒

1 use s t r i c t;

my @ a r r a y = (1 , 2 , 3);

my % hash = ( jeden = > 1 , dwa = > 2 , trzy = > 3);

5 my $ s c a l a r = " Taki sobie s k a l a r"; my $aref = \ @ a r r a y;

my $href = \% hash ; my $sref = \ $ s c a l a r;

10

print " T a b l i c a r e f e r o w a n a przez \ $aref ma "; print s c a l a r @ { $aref } . " e l e m e n t o w\ n \ n "; print " Hash r e f e r o w a n y przez \ $href ma ";

15 print s c a l a r keys %{ $href } . " k l u c z y\ n \ n ";

print " K a n o n i c z n y s p o s o b d o s t e p u: \ n ";

print " $ { $aref }[0] == $ a r r a y [0]\ n ";

print " $ { $href }{ jeden } == $hash { jeden }\ n ";

20 print " $ { $ref } == $ s c a l a r"

print " S k r o c o n y s p o s o b dostepu , gdy nie ma w i e l o z n a c z n o s c i : \ n ";

print " $ $ a r e f [0] == $ a r r a y [0]\ n ";

print " $ $ h r e f{ jeden } == $hash { jeden }\ n ";

25 print " $$ref == $ s c a l a r"

print " N o t a c j a ’ s t r z a l k o w a ’: \ n ";

print " $aref - >[0] == $ a r r a y [0]\ n ";

print " $href - >{ jeden } == $hash { jeden }\ n ";

2

(3)

1.4 Wygodne wy´swietlanie

Funkcja Data::Dumper pozwala na wygodne i przejrzyste wy´swietlanie z lo˙zonych struktur danych. Radzi sobie nawet z cyklicznymi strukturami.

1 use s t r i c t;

use Data :: D u m p e r;

my $test = {

5 l i c z b o w o = > [1 , 2 , 3] ,

s l o w n i e = > [’ jeden ’, ’ dwa ’, ’ trzy ’] , cykl = > $test ,

};

10 print D u m p e r( $test );

1.5 Uwaga!

1 use s t r i c t;

use Data :: D u m p e r;

my @ a r r a y = (1 , 2 , 3);

5

my $ a r e f 1 = \ @ a r r a y; # r e f e r e n c j a do @ a r r a y

my $ a r e f 2 = [ @ a r r a y ] # r e f e r e n c j a do k o p i i @ a r r a y

$aref1 - >[0] = 4;

10 $aref2 - >[1] = 5;

print D u m p e r (\ @ a r r a y );

3

(4)

2 Tablica tablic

W perlu nie ma prawdziwych tablic wielowymiarowych. Mo˙zna uzyskać ten sam efekt budujac_֒ tablice tablic, które nie ró´znia si_֒ e pod wzgl_֒ edem funkcji i wydajno´sci od prawdziwych tablic_֒ wielowymiarowych. W zale˙zno´sci od liczby zagnie˙zd˙zeń mo˙zna w ten sposób otrzymac tablice_֒ n-wymiarowe.

2.1 Przyk lad: Indeksowany tekst

1 my @ t e k s t;

while( < >) { chomp;

push( @tekst , [ split(/[\s. ,;:\ -?!)(]+/ , $_ ) ]);

5 }

print " W y r a z e m na p o z y c j i (3 ,5) jest : " . w y r a z _ n _ m (3 ,5 ,\ @ t e k s t) . " \ n "; print " W y r a z e m na p o z y c j i (10 ,2) jest : " . w y r a z _ n _ m (10 ,2 ,\ @ t e k s t) . " \ n ";

10 sub w y r a z _ n _ m {

my ( $n , $m , $ t e k s t) = @_ ;

if( $n -1 < @ $ t e k s t and $m -1 < @ { $tekst - >[ $n -1]}) { r e t u r n $tekst - >[$n -1] - >[$m -1];

}

15 r e t u r n " Nie ma t a k i e g o w y r a z u";

}

4

(5)

3 Tablica hasz´ ow

Np. reprezentacja grafów za pomoca takiej struktury jest bardzo wygodna i oszcz_֒ edna. Np._֒ gdy wierzcho lki maja reprezentacj_֒ e liczbow_֒ a, mo˙zna je traktować jak indeksy tablicy. Gdy_֒ taki graf ma ma lo krawedzi nie op laca si_֒ e kodować wierzcho lków po l_֒ aczonych za pomoc_֒ a_֒ tablicy, poniewa˙z tablica ma tyle elementów ile wyno´sci jej najwiekszy indeks (plus jeden)._֒ Hasz bedzie mia l tylko tyle element´_֒ ow ile bedzie kraw_֒ edzi wychodz_֒ acych._֒

Nie moge akurat wymy´sleć prostego przyk ladu. Korzysta lem ju˙z nie raz z takiej re-_֒ prezentacji, ale by ly to z lo˙zone problemy (np. zliczanie kookurencji wyrazów w korpusach równoleg lych).

5

(6)

4 Hasz tablic

Hasz tablic jest idealna struktur_֒ a danych, gdy jednemu kluczowi odpowiada wiele warto´sci._֒ Mo˙zemy je wtedy umie´sci´c w tablicy, a referencje do tablicy jako warto´s´c w haszu._֒

4.1 Przyk lad: Lemmatyzator

1 use s t r i c t;

my $ l e x i c o n = {

a n a l i t y k = > [ ’ a n a l i t y k a _ R ’, ’ a n a l i t y k _ R ’ ] ,

5 a n a l i t y k a = > [ ’ a n a l i t y k a _ R ’, ’ a n a l i t y k _ R ’ ] , a n a l i t y k a c h = > [ ’ a n a l i t y k a _ R ’, ’ a n a l i t y k _ R ’ ] , a n a l i t y k a m i = > [ ’ a n a l i t y k a _ R ’, ’ a n a l i t y k _ R ’ ] , a n a l i t y k i = > [ ’ a n a l i t y k a _ R ’ ] ,

a n a l i t y k i e m = > [ ’ a n a l i t y k _ R ’ ] ,

10 a n a l i t y k o = > [ ’ a n a l i t y k a _ R ’ ] ,

a n a l i t y k o m = > [ ’ a n a l i t y k a _ R ’, ’ a n a l i t y k _ R ’ ] , a n a l i t y k o w i = > [ ’ a n a l i t y k _ R ’ ] ,

a n a l i t y k u = > [ ’ a n a l i t y k _ R ’ ] , a n a l i t y k\ ow = > [ ’ a n a l i t y k _ R ’ ] ,

15 a n a l i t y k\ a = > [ ’ a n a l i t y k a _ R ’ , ’ a n a l i t y k _ R ’ ] , a n a l i t y k\ e = > [ ’ a n a l i t y k a _ R ’ ] ,

# . . . d a l s z e w p i s y }

20 while( < >) { chomp;

print " L e m a t y z u j e z d a n i e: $_ \ n ";

my @ t o k e n s = split(/[\s. ,;:\ -?!)(]+/ , $_ );

25 f o r e a c h my $ t o k e n ( @ t o k e n s) {

print " $ t o k e n : " . join(" | ", @ { $lexicon - >{lc( $ t o k e n )}}) ." \ n "; }

}

Wyrazy tekstowe nie zawsze mo˙zna jednoznacznie przyporzadkowa´c do jednego lematu._֒ Gdy uwzglednimy synktretyzm i inne informacje jak np. przypadek, liczba itp., to mamy_֒ jeszcze wiecej wieloznaczno´sci, czyli d lu˙zsze listy._֒

6

(7)

5 Hasz hasz´ ow

Hasze zawierajace hasze to kolejna bardzo przydatna struktura danych. Jest ona wolniejsza_֒ od struktury wykorzystujaca tablice, ale zawiera tylko dokladnie tyle element´_֒ ow ile trzeba.

5.1 Przyk lad: Wyszukiwanie bigram´ow czerwony krzyz

czerwony baron klucz zapadkowy klucz udarowy klucz dekodujacy program dekodujacy program rozwoju ...

Tablica 1: Przyk ladowe kolokacje bigramowe

1 use s t r i c t;

my % b i g r a m y = ( c z e r w o n y = > {

5 krzyz = > 1 , baron = > 1 , } ,

klucz = > {

z a p a d k o w y = > 1 ,

10 u d a r o w y = > 1 , d e k o d u j a c y = > 1 , } ,

p r o g r a m = > {

d e k o d u j a c y = > 1 ,

15 r o z w o j u = > 1 , } ,

);

while( < >) {

20 my @ t o k e n s = split(/[\s. ,;:\ -?!)(]+/ , $_ );

for(my $i = 0; $i +1 < @ t o k e n s; $i ++) {

if( $ b i g r a m y{ $ t o k e n s[ $i ]} - >{ $ t o k e n s[ $j ]}) {

print " Z n a l e z i o n o b i g r a m : $ t o k e n s[ $i ] $ t o k e n s[ $i +1] ";

}

25 }

}

Przyk lad mo˙zna oczwi´scie rozszerzyć do kolokacji o dowolnej liczbie wyrazów. Wtedy trzeba jednak stosować np. rekurencje w celu przegl_֒ adania struktury danych. Jest to przy_֒ okazji przyk lad na prosty automat skończony lub proste drzewo o dowolnej liczbie rozga lezie´_֒ n.

7

(8)

6 Inne struktury danych

Za pomoca referencji do tablic i hasz´_֒ ow mo˙zna tworzyć struktury danych o dowolnej liczbie zagnie˙zd˙zeń. Jedynie rozmiar dostepniej pami_֒ eci nas ogranicza. Mo˙zemy zbudować drzewa,_֒ automaty skończone lub inne rodzaje grafów, traktować hasze jako rekordy, tablice jako n-tki itp. Nale˙zy te˙z pamietać, ˙ze jedn_֒ a referencj_֒ e mo˙zna wykorzystać wi_֒ ecej ni˙z raz, tworz_֒ ac w_֒ ten sposób strukture, nie powielaj_֒ ac dane._֒

1 my $ r o d z i c e = [ qw( Antek Berta ) ];

my $ b r a c i a = { Juzek = > {

r o d z i c e = > $rodzice ,

5 wiek = > 20 , } ,

Benek = > {

r o d z i c e = > $rodzcie , wiek = > 25 ,

10 } ,

};

print D u m p e r( $ b r a c i a );

Takie struktury przydaja si_֒ e przy tworzeniu automat´_֒ ow skończonych, za pomoca których_֒ mo˙zna wydajnie zapamietać i wyszukiwać np. dowolne kolokacje o dowolnej d lugo´sci._֒

8