• Nie Znaleziono Wyników

Bibliotekarze najprawdopodobniej od wieków prowadzą badania nad względnym po-pytem na książki i inne materiały tekstowe. Już w średniowieczu były one podstawą do organizowania procesów produkcji, zakupu i przechowywania książek i innych treści. Można więc przypuszczać, że starożytni bibliotekarze sporządzali wykazy książek i in-nych przedmiotów, sortując je w zależności od popytu, na początku umieszczając pozycje, o które najczęściej pytano. Niektóre z takich rejestrów mogły przetrwać w bibliotecznych archiwach do dziś. Jeśli tak, byłyby one pierwszymi znanymi przypadkami badań nad roz-kładem zainteresowania. Wydaje się jednak, że modelowanie matematyczne podobnych rozkładów pojawiło się w innych dziedzinach. Pod koniec XIX wieku włoski ekonomista Viledo Pareto sformułował zasadę nazwaną od jego nazwiska, w myśl której liczba ludzi, którzy maja więcej bogactwa (posiadają większy areał, zarabiają wyższe sumy) niż podana wartość jest odwrotnie proporcjonalna do podniesionego do charakterystycznej potęgi o stałym wykładniku. Odpowiedni rozkład popularności można opisać następująco:

P [X > x]∝ [m x]

k,

gdzie to bogactwo przedmiotowej osoby, zaś to poziom bogactwa najbiedniejszej oso-by. W tym dodatku, po którym następuje wyrażenie w nawiasach kwadratowych, oznacza „prawdopodobieństwo, że [wyrażenie w nawiasach] jest prawdziwe”, zaś symbol ozna-cza „wprost proporcjonalny do”. Gdy współczynnikkwynosi nieco mniej niż1, to20% populacji jest w posiadaniu80% bogactwa, co znane jest pod nazwą zasady Pareto. Jak to często bywa, ta ogólna zasada stała się dobrze znana, lecz niezbyt znane jest odpowia-dające jej prawo, a ludzie dodatkowo zapominają, że w tym prawie występuje parametr. Rysunek A. pokazuje, że jeśli k przybiera wartości od0.5 do1,5, udział ogółu dóbr w posiadaniu20% najbogatszych jednostek waha się od99% do55%. Pełna zasada Pa-reto tak naprawdę mówi dwie rzeczy: że rozkład majętności odpowiada prawu PaPa-reto i że

²²⁴prawo Zipfa — patrzen.wikipedia.org/wiki/Zipf%27s_law.

w niektórych zaobserwowanych przypadkach współczynnik zawarty w prawie jest bliski

1.

Rysunek A. — udział ogółu dóbr w posiadaniu % najbogatszych obywateli, w zależności od parametru prawa Pareto. Jeśli rozkład majętności określonej grupy jest

opisany prawem Pareto z parametrem, wykres pokazuje część ogółu zasobów w posiadaniu % najbogatszych obywateli, zależnie od wartości.

Prawo Pareto opisuje rodzinę funkcji będących przykładem szerszej klasy rozkładów potęgowych. Ich nazwa pochodzi od faktu, że ich funkcje gęstości prawdopodobień-stwa²²⁵ odpowiadają prawom potęgowym, czyli wykazują proporcjonalne zachowanie do ujemnej potęgi zmiennej. W przypadku prawa Pareto funkcja gęstości prawdopodobień-stwa wygląda następująco:

f (x) = km

k

xx+1

Prawo Pareto jest więc rozkładem potęgowym o indeksiek + 1Rozkłady potęgowe są w naturze bardzo rozpowszechnione, wyrastając z procesów niemających preferowanej skali. Często pojawiają się też, co jest istotne z punktu widzenia tej książki, w badaniach nad rozkładami zmiennych rangowanych, czyli nad rozkładami wyników ułożonych ma-lejąco według wartości.

Gwóźdź programu

Dla wygody dalszych rozważań dobrze byłoby scharakteryzować stopień zróżnicowa-nia uwagi skupionej na dziełach kultury za pomocą jednej wartości. Najlepszym rozwią-zaniem jest zbudowanie modelu rozkładu rangowanego, pokazującego ile razy pojawił się dostęp do danego dzieła, z wykorzystaniem prawa Zipfa, które — jak się okazuje — często odpowiada rangowanym rozkładom popularności dzieł kultury w świecie rzeczy-wistym.

²²⁵Funkcja gęstości prawdopodobieństwa to funkcja matematyczna, którą całkuje się w określonym prze-dziale, uzyskując przez to prawdopodobieństwo, z którym określona część ogółu zainteresowania zawiera się w owym przedziale:P [a ¬ \textlessb] =b

af (x)dx. Całkowanie w przedziale od zadanej wartości do a nieskończoności pozwala wyliczyć prawdopodobieństwo, z którym dana część ogółu zainteresowania prze-kracza graniczną wartość, co znane jest jako dystrybuanta:P [X\textgreaterx] =

x f (x0)dx0. Można

tez wykonać działanie odwrotne i X różniczkując dystrybuantę otrzymać funkcję gęstości prawdopodobieństwa.

George Kinsgsley Zipf był lingwistą na uniwersytecie Harvarda, studiującym częstość występowania poszczególnych słów w różnych językach. Prawo nazwane od jego nazwi-ska sformułował w roku , choć same prawidłowości zauważono już o wiele wcześniej, najprawdopodobniej w roku , czego dokonał ancuski stenograf Jean-Baptiste Esto-up (Petruszewycz, ). EstoEsto-up napisał podręcznik stenografii, wielokrotnie wznawiany, wykorzystując swoją analizę częstości występowania słów do opracowania własnej meto-dy, nie kształtując jej jednak tak systematycznie, jak zrobił to Zipf.

Zipf wyszedł od tego, że jeśli nadać rangę ilości występowania poszczególnych słów w obszernym tekście, zaczynając od słów najczęściej występujących i przechodząc do rza-dziej spotykanych, to liczba wystąpień każdego słowaO jest odwrotnie proporcjonalna do jej rangikpodniesionej do potęgiαo stałym wykładniku:

O(k)∝ 1 kα

Zipf zauważył też, że parametrαtej funkcji (to jest wykładnik potęgi) zbliżony był do1, więc setny najpopularniejszy wyraz jest około100razy rzadszy niż słowo najczęściej spotykane. Podobnie jak w przypadku prawa Pareto, do powszechnego użytku wszedł ten wariant prawa, zaś komentatorzy często zapominają o tym, że parametr funkcji może przyjmować rozmaite wartości.

Rysunek A. — liczba wystąpień poszczególnych słów we ancuskim tekście zawierającym około  tysięcy wyrazów, dane za Estoupem, podane przez

Petruszewycza, .

Wykorzystywanie „prawa Zipfa z parametrem bliskim ” stało się wręcz częścią folk-loru kilku dziedzin nauki — oczywiście językoznawstwa i bibliotekoznawstwa, lecz nie-dawno również badań nad internetem (Shirky, b) i kulturą. W tej ostatniej dziedzi-nie prawo Zipfa wykorzystywano do badań nad rozkładem dostępu do poszczególnych dzieł w bibliotekach, w systemach sprzedaży i w internecie. Jak zostanie pokazane niżej, rozkład popularności dzieł nie odzwierciedla dokładnie prawa Zipfa w ujęciu statystycz-nym. Można jednak dostosować parametr funkcji tak, by jak najściślej odpowiadała ona

rzeczywistemu rozkładowi. Końcowe dopasowanie wykresu jest czasami tak dokładne, że wartość parametruαdająca taki właśnie wykres może zostać w praktyce użyta jako wyłączna wartość liczbowa charakteryzująca stopień zróżnicowania uwagi poświęconej dziełom. W innych sytuacjach należy wykazać ostrożność, gdyż aproksymacja wykresu wykorzystująca prawo Zipfa staje się zbyt rozbieżna z rzeczywistymi danymi.

Gdy zróżnicowanie uwagi modelowane jest za pomocą prawa Zipfa, zmiany w jego parametrze prowadzą do znacznych zmian stopnia, w którym uwaga odbiorców koncen-truje się na ograniczonym repertuarze dzieł, czy w którym sprzedaż obejmuje ograniczo-ny katalog tytułów. Dla przykładu rozważmy populację tysiąca dzieł. Jeśli dostęp do nich da się opisać prawem Zipfa z parametrem równym0.5, to5% najpopularniejszych dzieł skupia na sobie20% uwagi ogółu odbiorców. Jeśli ten sam parametr wynosić będzie1,5, to te same5% dzieł skupi na sobie92% ogółu dostępu. Może to się wydawać zaskaku-jące, ale tak silne rozbieżności da się zauważyć w odniesieniu do różnych form dostępu do dóbr kultury.