Schemat relacyjnej bazy danych (LBS) - systemu oceny jakości w nauce

Aby móc przetwarzać dane bibliograﬁczne pobrane z serwisu Scopus, należy wpierw zaprojektować schemat komputerowej bazy danych, w której będą przechowywane informacje o źródłach (ang. sources), dokumentach (ang. do-cuments) i autorach (ang. authors).

Na rys. 6.1 przedstawiamy używany w pakiecie CITAN schemat tabel

LBS

i związków między nimi. Do stworzenia schematu takiej relacyjnej bazy da-nych, zwanej danej w skrócie LBS (ang. local bibliometric storage), używany jest kod SQL zamieszczony w listingach 6.1–6.5.

Ważną cechą LBS jest możliwość grupowania dokumentów w tzw. ba-dania (ang. surveys; niekoniecznie rozłączne) tak, że nie ma potrzeby two-rzenia oddzielnych baz w przypadku przeprowadzania analizy różnych prób.

Dzięki temu można w prosty sposób aktualizować informacje o dokumentach (np. o liczbie ich cytowań). Dane te będą dostępne we wszystkich badaniach.

Utwórzmy zatem LBS na potrzeby przeprowadzanej przez nas analizy.

Najpierw należy załadować bibliotekę CITAN w środowisku R.

> library("CITAN"); # ładowanie biblioteki Loading required package: DBI

Loading required package: RSQLite Loading required package: RGtk2 Loading required package: hash

hash-2.1.0 provided by Decision Patterns Loading required package: ADGofTest

Połączmy się z bazą danych SQLite, która będzie przechowywać wszelkie ^Połączenie

z bazą danych

informacje w pliku lokalnym Scopus-dr.db.

> conn <- lbsConnect("Scopus-dr.db"); # połączenie z bazą danych Od tej pory obiekt conn reprezentuje nawiązane połączenie i będzie służył do komunikacji z RDBMS.

Aby utworzyć omówiony wyżej schemat tabel oraz widoków pomocni- Tworzenie LBS

czych (ang. views), wywołujemy następującą funkcję.

> lbsCreate(conn); # tworzenie LBS

Creating table ’Biblio_Categories’... DONE.

ANALIZAEMPIRYCZNADANYCHBIBLIOMETRYCZNYCH6.2

Rysunek 6.1: Schemat bazy danych tworzonej przez funkcję lbsCreate().

Proces tworzenia LBS zakończył się powodzeniem. W następnym podroz-dziale omówimy próbę, na której przeprowadzimy przykładowe badanie bi-bliometryczne. Pokażemy także, jak w pakiecie CITAN zaimportować i wstęp-nie przetworzyć dane pobrane z serwisu Scopus.

6.3 Próba badawcza

Próba badawcza, którą poddamy analizie składa się z publikacji w dziedzinie naukometrii i webometrii. Badając taki zbiór prac, rzecz jasna, nie otrzy-mamy pełnego obrazu dorobku autorów, zwłaszcza gdy nie jest to ich pod-stawowy obszar badawczy. Załóżmy jednak, że naszym celem jest określenie grupy osób, które będą kandydatami do uzyskania nagrody za zasługi właśnie w tych dziedzinach. Innymi słowy, w naszym badaniu nie oceniamy całego dorobku osób, które mają jakikolwiek wkład w rozwój naukometrii, lecz tylko naukometryczny podzbiór tego dorobku.

Użyliśmy następujących zapytań (kwerend w wyszukiwarce Scopus): ^Zapytania

• TITLE(index quantify individual scientific research output)

— 3 publikacje, w tym praca [107],

• 795 publikacji cytujących pracę [107],

• TITLE-ABS-KEY(bibliometric*) OR TITLE-ABS-KEY(scientometric*)

OR TITLE-ABS-KEY(webometric*) — 6870 publikacji; wyszukiwanie na podstawie słów kluczowych,

• SRCTITLE(Scientometrics) OR SRCTITLE(Informetrics) OR SRCTITLE(Cybermetrics) OR SRCTITLE("Annual Review of Information Science and Technology")

OR SRCTITLE("Journal of the American Society

for Information Science") — 5969 publikacji; wyszukiwanie na podstawie źródeł, uwzględniające m.in. takie wiodące czasopisma, jak Scientometrics, Journal of Informetrics, Journal of the American So-ciety for Information Science and Technology.

Analizowane przez nas dane bibliograﬁczne zostały pobrane 27 marca 2011 r. w godz. 13:33–14:05. Dostęp do serwisu Scopus uzyskaliśmy z kom-putera Biblioteki Głównej Politechniki Warszawskiej.

Ze względu na to, iż nasza licencja ogranicza liczbę wyświetlanych re-kordów do 2000, zapytania musiały zostać podzielone na części za pomocą

dyrektywy PUBYEAR. Do eksportowania rezultatów używaliśmy następują-cych ustawień: Export format = "Comma separated file, .csv (e.g.

Excel)"i Output = "Complete format". W wyniku otrzymaliśmy 10 plików CSV o łącznym rozmiarze 77 MB. Zwróćmy uwagę, że powyższe zapytania nie zwracają rozłącznych zbiorów dokumentów. Nie jest to jednak dla nas przeszkodą, ponieważ biblioteka CITAN uwzględnia taką ewentualność.

6.3.1 Importowanie danych pobranych z bazy Scopus

Jako że nasze dane bibliograﬁczne pochodzą z serwisu Scopus, zaimportujmy

Importowanie źródeł indeksowanych przez Scopus

informacje o źródłach pokrywanych przez tę bazę. Następująca funkcja umieszcza je w LBS.

> Scopus_ImportSources(conn); # importowanie źródeł (Scopus)

Importing Scopus ASJC codes... OK, 334 records added.

Importing country list... OK, 112 records added.

Importing Scopus source list... OK, 29913 of 30017 records added;

53762 ASJC codes processed.

[1] TRUE

Niektóre tytuły (dotyczy to przede wszystkim materiałów konferencyjnych) nie zostały wprowadzone z powodu braku informacji o numerach ISSN. Je-steśmy gotowi do wczytania pobranych plików CSV oraz zaimportowania ich do LBS⁶.

Importowanie plików CSV

> data <- Scopus_ReadCSV("Hirsch.csv"); # wczytanie pliku (1)

> lbsImportDocuments(conn, data, "DR"); # importowanie do LBS