Źródła danych i metody ich pozyskiwania - CHARAKTERYSTYKA BADANYCH SZEREGÓW I ZASTOSOWANE

ROZDZIAŁ 3 CHARAKTERYSTYKA BADANYCH SZEREGÓW I ZASTOSOWANE

3.1 Źródła danych i metody ich pozyskiwania

Prowadzone w tej pracy analizy szeregów ukierunkowane są na przetwarzanie ogólno dostępnych danych finansowych z giełd światowych i europejskich. Finansowe szeregi czasowe zawierają informację o kształtowaniu się różnorodnych walorów (najczęściej notowań giełdowych firm) w różnych momentach czasu, będących odzwierciedleniem m.in. sytuacji rynkowej danej spółki, grupy spółek, wartości walut, cen surowców, stanu gospodarki w ujęciu lokalnym oraz globalnym. Stanowią one interesujący obiekt badań naukowych i komercyjnych z uwagi na istotne znaczenie informacyjne (m.in. opisują koniunkturę gospodarczą), finansowe (zastosowanie ilościowych i jakościowych metod predykcji), a także względną łatwość pozyskania dużych, heterogenicznych zbiorów danych.

Światowe indeksy są dostępne długoterminowo (dla indeksów DJI czy SP500 możliwe jest uzyskanie danych obejmujących kilkadziesiąt lat), podobnie jak ceny niektórych surowców. Dane lokalne cechuje większa zmienność, będąca odzwierciedleniem wpływu zewnętrznych czynników lokalnych, szybkozmiennych. Dostępność danych oraz wielkość zbiorów umożliwiają prowadzenie analiz retrospektywnych. Algorytmiczne przetwarzanie szeregów finansowych wymaga pozyskania zbiorów danych głównie ze źródeł internetowych, cechujących się odpowiednio wysokim stopniem zaufania otoczenia (dane pewne). Szeregi takie udostępniane są (płatnie lub darmowo) przede wszystkim poprzez witryny giełd, organizacji finansowych oraz analitycznych mających siedzibę w różnych krajach.

Posiadają określoną długość, zawartość, częstotliwość próbkowania (np. notowania godzinne, dzienne, tygodniowe) oraz kompletność. Konkretne dane mogą być pobierane w czasie rzeczywistym bądź okresowo.

W ostatnich latach obserwowana jest rosnąca tendencja zwiększania się odsetka danych płatnych, co związane jest z wciąż rosnącą wartością gotowych zbiorów danych¹⁰ o dużej objętości. Pozyskanie stosunkowo kompletnych, odpowiednio długich, heterogenicznych zbiorów jest stosunkowo trudnym zadaniem z uwagi na konieczność korzystania z wielu źródeł oraz obecność niejednolitych sposobów wyszukiwania oraz udostępniania danych (co jest znacznym utrudnieniem w pozyskiwaniu danych bezpłatnych). Wiąże się to z potrzebą wykorzystania różnorodnych narzędzi pozyskiwania zbiorów oraz zastosowania ich wstępnej obróbki, ukierunkowanej na zestandaryzowanie formatów danych, usunięcie informacji nieistotnej itp.

Dane mogą być pobieranie z internetowych witryn poszczególnych polskich oraz

światowych giełd¹¹, co jest zadaniem czasochłonnym z uwagi na udostępnianie krótkich zbiorów (o określonej długości serii; konieczność tworzenia wielokrotnych zapytań), możliwość pobrania danych jedynie obejmujących notowania na danej giełdzie oraz konieczność konwertowania formatów danych. Pozyskiwanie informacji udostępnianych przez polskie branżowe organizacje finansowe¹² dotyczy przede wszystkim krajowych spółek oraz giełd, a dane dotyczące indeksów międzynarodowych prezentowane są zazwyczaj w postaci niewielkich zestawów, w skład których wchodzą jedynie największe indeksy „silnych” giełd światowych. Szczegółowe dane dotyczące gospodarki światowej udostępniane są przede wszystkim przez międzynarodowe witryny agregujące informacje¹³. Obejmują głównie notowania najważniejszych giełd

światowych, spółek oraz rynków dynamicznie rozwijających się (m.in. giełdy azjatyckie). Nie zawierają informacji o polskich indeksach oraz spółkach z uwagi na fakt, że w chwili obecnej nie mają one istotnego wpływu na gospodarkę światową. Z punktu widzenia wiarygodności analiz, konieczne jest zatem pozyskiwanie szeregów ze źródeł heterogenicznych, co wymaga stosowania odpowiednich narzędzi

Duża wartość zbiorów danych wymusiła powstanie przepisów chroniących takie zbiory. W Polsce jest to Ustawa z dnia 27 lipca 2001 r. o ochronie baz danych (Dz.U. 2001 nr 128 poz. 1402).

11 Przykładowe ważne źródła światowe: http://www.nyse.com/, http://www.amex.com/, http://www.nasdaq.com/, http://www.londonstockexchange.com/, www.lme.co.uk/, http://www.nymex.com/.

12 Przykładowe polskie źródła: http://www.gpw.pl/, http://www.bossa.pl, http://www.bankier.pl, http://www.parkiet.com, http://www.metale24.pl/.

informatycznych, umożliwiających zautomatyzowanie procesu pozyskiwania danych ilościowych. W tym przypadku z reguły zbiory pobiera się bezpośrednio z danej witryny internetowej (zazwyczaj w formacie .csv¹⁴, często skompresowanych), bądź pobierane są dane jednostkowe (wielokrotne połączenia z danym adresem), przez co zachodzi konieczność stałego aktualizowania istniejącego zestawu szeregów.

Powyższe zadania realizowane są poprzez wykorzystanie:

− Mechanizmów wbudowanych w dostępne aplikacje, np. pakiety biurowe¹⁵ (rozwiązanie atrakcyjne z uwagi na łatwość konfiguracji oraz niewielki koszt; główne wady: niewielka elastyczność, ograniczona możliwość tworzenia złożonych zapytań, konieczność konwersji różnych formatów).

− Dedykowanych aplikacji¹⁶, kodów¹⁷ lub własnych narzędzi, działających na zasadzie wielokrotnego tworzenia zapytań do baz udostępnianych poprzez portale finansowe (zalety: możliwość uzyskania długich ciągów¹⁸ oraz danych o różnym okresie próbkowania; wady – niemożność uzyskania danych regionalnych, niezbędna jest znajomość identyfikatorów szeregów stosowanych w danym portalu).

− Wykorzystanie lub budowę własnych narzędzi pobierających dane prezentowane statycznie w Internecie zgodnie z predefiniowanym formatem (zastosowanie parserów; wadą rozwiązania jest konieczność modyfikacji kodu wraz ze zmianą sposobu prezentacji danych, struktury strony WWW itp.). W przypadku konstruowania własnych narzędzi konieczna jest znajomość oraz stałe monitorowanie sposobu dostępu do danych oraz ich prezentacji. Dla danych udostępnianych w postaci graficznej konieczna jest znajomość formatu prezentacji oraz konwertowanie danych na postać tekstową.

Do przeprowadzenia analiz wykorzystane mogą być tzw. dane incydentalne, dostępne na stronach internetowych organizacji finansowych, gazet codziennych, periodyków czy stron rządowych. Wspomagają one analizę jakościową oraz ułatwiają ocenę

Ang. Comma Separated Values – wartości oddzielone przecinkiem.

Np. Microsoft Excel czy Open Office Calc.

16 Np. Yahoo & Google Historical Quotes Downloader (http://www.tradery.com/), Historical Stock Quotes Downloader (http://www.islindia.com), Stock Spy (http://www.stock-spy.com/).

Przykładowy ogólnodostępny kod (m-plik): Historical Stock Data downloader (http://www.mathworks.com).

18 Dla dużych spółek globalnych (głównie amerykańskich) możliwe jest uzyskanie danych obejmujących okres kilkudziesięciu lat. Przykładowo, dla International Business Machines Corp. czy Hewlett Packard

uzyskiwanych rozwiązań. Trudnością związaną z ich pozyskaniem jest subiektywny charakter klasyfikacji takiej informacji jako zdarzeń istotnych w świetle prowadzonych analiz¹⁹, a także brak spójnych źródeł. Automatyczne pozyskiwanie danych jakościowych związane jest z zastosowaniem narzędzi przeszukujących udostępnianą treść²⁰, dlatego eksplorowane są systemy automatycznej ekstrakcji, analizy oraz reprezentacji tekstu²¹, przy czym wykorzystanie takich narzędzi wymaga określenia wzorców wyszukiwania.

W dokumencie Index of /rozprawy2/10161 (Stron 33-36)