• Nie Znaleziono Wyników

cytowania a tekst

N/A
N/A
Protected

Academic year: 2021

Share "cytowania a tekst"

Copied!
21
0
0

Pełen tekst

(1)

Analiza i modelowanie wpływu czynników

leksykalnych na popularno ´s ´c prac naukowych

JULIAN

SIENKIEWICZ

Wydział Fizyki Politechniki Warszawskiej

(2)

MOTYWACJA

M

OTYWACJA

1

Powszechnie uznaje si ˛e, ˙ze liczba cytowa ´n zebranych przez

artykuł mo˙ze by´c traktowana jako

miara uwagi (lub popularno´s´c)

uzyskanej w ´srodowisku naukowym.

2

Istotnym jest wi ˛ec zbadanie jak

wła ´sciwo ´sci tekstu publikacji

naukowych wi ˛

a˙z ˛

a si ˛e z rozpowszechnianiem wyników naukowych

w postaci liczby uzyskanych cytowa ´n

3

Wreszcie: odniesienie si ˛e do wyników otrzymanych przez

Letchforda i in. (R Soc Open Sci 2, 150266) sugeruj ˛

acych, i˙z

istnieje

ujemna korelacja pomi ˛edzy długo´sci ˛

a tytułu oraz liczb ˛

a

cytowa ´n (tzn. im krótszy tytuł, tym wi ˛ecej cytowa ´n).

(3)
(4)

MOTYWACJA

S

ZCZEGÓLOWE CELE

GŁÓWNE CZYNNIKI

Ilo´sciowe zbadanie jak poszczególne

cechy tekstu publikacji

naukowych, takie jak

- długo´s´c tekstu,

- zło˙zono´s´c tekstu,

- emocje w tek´scie

s ˛

a zwi ˛

azane z

liczb ˛

a cytowa ´

n.

W ten sposób mam zamiar zidentifikowa´c

kluczowe czynniki

wpływaj ˛

ace na popularno´s´c naukow ˛

a.

RÓ ˙ZNICE W CYTOWANIU

Wskazanie

ró˙znic w sposobie cytowania najpoczytniejszych oraz

typowych publikacji. W tym celu zostanie u˙zyte podej´scie regresji

kwantylowej.

(5)

MOTYWACJA

S

ZCZEGÓLOWE CELE

GŁÓWNE CZYNNIKI

Ilo´sciowe zbadanie jak poszczególne

cechy tekstu publikacji

naukowych, takie jak

- długo´s´c tekstu,

- zło˙zono´s´c tekstu,

- emocje w tek´scie

s ˛

a zwi ˛

azane z

liczb ˛

a cytowa ´

n.

W ten sposób mam zamiar zidentifikowa´c

kluczowe czynniki

wpływaj ˛

ace na popularno´s´c naukow ˛

a.

RÓ ˙ZNICE W CYTOWANIU

Wskazanie

ró˙znic w sposobie cytowania najpoczytniejszych oraz

typowych publikacji. W tym celu zostanie u˙zyte podej´scie regresji

kwantylowej.

(6)

DANE

D

ANE

Portal

Web of Science

WST ˛EPNA OBRÓBKA DANYCH

Prace okre´slone jako artykuły, opublikowane w okresie

1995—2004,

spełniaj ˛

ace nast ˛epuj ˛

ace dwa warunki:

1

czasopisma

nieprzerwanie aktywne w ww. okresie (np.

eliminacja czasopism PLOS)

2

w podanym okresie czasopismo musiało opublikowa´c co najmniej

1.000 artykułów (np. eliminacja Rev Mod Phys)

ZBIÓR DANYCH

ponad

4.300.000 artykułów z ok. 1.500 ró˙znych czasopism,

dane dotycz ˛

ace

tytułu

, liczby

autorów

, zawarto´sci

streszczenia

oraz dyscypliny naukowej,

(7)

DANE

D

ANE

Portal

Web of Science

WST ˛EPNA OBRÓBKA DANYCH

Prace okre´slone jako artykuły, opublikowane w okresie

1995—2004,

spełniaj ˛

ace nast ˛epuj ˛

ace dwa warunki:

1

czasopisma

nieprzerwanie aktywne w ww. okresie (np.

eliminacja czasopism PLOS)

2

w podanym okresie czasopismo musiało opublikowa´c co najmniej

1.000 artykułów (np. eliminacja Rev Mod Phys)

ZBIÓR DANYCH

ponad

4.300.000 artykułów z ok. 1.500 ró˙znych czasopism,

dane dotycz ˛

ace

tytułu

, liczby

autorów

, zawarto´sci

streszczenia

oraz dyscypliny naukowej,

(8)

DANE

UZYTE ZMIENNE˙

cecha tytuł streszczenie

długo´s´c liczba znaków liczba słów

zło˙zono´s´c — indeks czytelno´sci FOG F wska´znik z wska´znik z

C Herdana C Herdana

emocje walencja walencja pobudzenie pobudzenie liczba autorów 1 indeks FOG: F =  #slow #zdan+100 #slow zlozonych #slow 

2 miara C Herdana: C = log N

log M



M − dlugosc tekstu N − liczba unikalnych slow



3 wska´znik z: zM,N =N−µ(M)

σ(M)

4 Walencja — emocjonalny znak (ładunek) tekstu (dodatni - 9, oboj ˛etny - 5,

ujemny - 1)

(9)

NARZ ˛EDZIA — REGRESJA KWANTYLOWA

R

EGRESJA KWANTYLOWA

(

QUANTILE REGRESSION

- QR)

ZAŁO ˙ZENIE

Znale´z´c współczynniki α i β prostej

Y = α(τ ) + β(τ )X , która dzieli zbiór tak, aby ułamek τ punktów le˙zało poni˙zej linii a (1 − τ ) poni˙zej.

KORZY ´SCI PODEJ ´SCIA

- mo˙zemy rozpatrywa´c ró˙zne przedziały zmiennej Y , - logarytm p-ego kwantyla jest równy p-emu kwantylowi zlogarytmowanej zmiennej Y

(10)

NARZ ˛EDZIA — REGRESJA KWANTYLOWA

R

EGRESJA KWANTYLOWA

(

QUANTILE REGRESSION

- QR)

ZAŁO ˙ZENIE

Znale´z´c współczynniki α i β prostej

Y = α(τ ) + β(τ )X , która dzieli zbiór tak, aby ułamek τ punktów le˙zało poni˙zej linii a (1 − τ ) poni˙zej.

KORZY ´SCI PODEJ ´SCIA

- mo˙zemy rozpatrywa´c ró˙zne przedziały zmiennej Y , - logarytm p-ego kwantyla jest równy p-emu kwantylowi zlogarytmowanej zmiennej Y

(11)

WYNIKI

W

YNIKI

QR

du˙zy rozrzut punktów — nie mo˙zna rozró˙zni´c, czy relacja pomi ˛edzy X oraz Y jest rosn ˛aca czy malej ˛aca,

warto´s´c współczynnika korelacji Pearsona r wynosi: r = 0.02 ± 0.01 dla długo´sci tytułu (Science) oraz r = −0.21 ± 0.03 dla walencji (Nature Genetics),

jednoznaczna sugestia, i˙z analiza nie mo˙ze opiera´c si ˛e na wykorzystaniu liniowych narz ˛edzi, bazuj ˛acych na zało˙zeniu

homoskedastyczno´sci (jednakowe odchyłki dla ró˙znych warto´sci X ).

(12)

WYNIKI

(13)

WYNIKI

W

YNIKI

-

PORÓWNANIE CZYNNIKÓW

Wpływ poszczególnych czynników jest do´s´c słaby - |β| < 0.5 (β = ln 2 oznacza, ˙ze liczba cytowa ´n Y podwaja si ˛e przy przesuni ˛eciu X o jedno odch. stand.). Najsilniejszymi czynnikami s ˛a (i) liczba słów w streszczeniu, (ii) liczba autorów, oraz (iii) wska´znik z w streszczeniu (ponad 75% of czasopism — czyli całe “skrzynia” znajduje si ˛e powy˙zej zera).

(14)

WYNIKI

W

YNIKI

-

RÓ ˙ZNICA POMI ˛EDZY TYPOWYMI ORAZ NAJLEPSZYMI

cecha czynnik βtop> βhalf βtop< βhalf βtop6= βhalf

długo´s´c liczba znaków (tytuł) 2.6% 44.4% 47.0% liczba słów (streszczenie) 8.3% 29.4% 36.7%

´srednia 41.9% zło˙zono´s´c C Herdana (tytuł) 18.7% 8.5% 27.2% C Herdana (streszczenie) 34.9% 6.5% 41.4% wska´znik z (tytuł) 8.3% 16.7% 25.0%

wska´znik z (streszczenie) 24.6% 7.7% 32.3% indeks FOG (streszczenie) 26.4% 8.0% 34.4%

´srednia 32.0% emocje pobudzenie (tytuł) 11.0% 13.5% 24.5% pobudzenie (streszczenie) 15.7% 13.7% 29.4% walencja (tytuł) 16.1% 11.3% 27.4% walencja (streszczenie) 29.2% 5.7% 34.9% ´srednia 29.1% liczba autorów 4.0% 39.6% 43.6% ogólna ´srednia 33.7%

(15)

WYNIKI

W

YNIKI

-

PORÓWNANIE CZASOPISM

(

ZNAKI W TYTULE

)

Wyznaczaj ˛ac exp(β∆X ) mo˙zna łatwo porówna´c siły czynników — w ten sposób bezpo´srednio mierzymy ile ´srednio cytowa ´n zyskuje si ˛e (lub traci) przesuwaj ˛ac si ˛e o ∆X odchylenia standardowego na zmiennej X ):

- dla czasopisma Lancet βhalf=0.33, wi ˛ec zwi ˛ekszaj ˛ac liczb ˛e znaków o 1 odch.

stand. daje prawie 40% zysku w cytowaniach

(16)

WYNIKI

W

YNIKI

-

PORÓWNANIE CZASOPISM

(

WALENCJA W STRESZCZENIU

)

Zróznicowanie w´sród czasopism daje si ˛e cz ˛e´sciowo wytłumaczy´c poprzez przynale˙zno´s´c do odr ˛ebnych dyscyplin naukowych, np. dla medycyny klinicznej wszystkie warto´sci współczynnika β s ˛a poni˙zej zera, podczas gdy dla nauk fizycznych wi ˛ekszo´s´c jest dodatnia.

(17)

DALSZE BADANIA

D

ALSZE BADANIA

1

Jakie zale˙zno´s´c istniej ˛

a pomi ˛edzy ró˙znymi miarami działania (tj.

czytaniem, pobraniem dokumentu etc)?

2

Jak odr ˛ebne cz ˛e´sci strktury dokumentu (tytuł, streszczenie etc)

wpływaj ˛

a na działanie?

3

Swietny “poligon do´swiadczalny”: baza PLOS (pełny tekst).

´

0.0 0.2 0.4 0.6 0.8 2006 2007 2008 2009 2010 2011 2012 2013 year r Actions HTML-CIT HTML-PDF PDF-CIT depth length

length complexitycomplexity sentimentsentiment authorsauthors

action features views downloads citations title abstract full text

(18)

DALSZE BADANIA

(19)

DALSZE BADANIA

(20)

PODSUMOWANIE

PODSUMOWANIE

1

Badanie zale˙zno´sci pomi ˛edzy wła´sciwo´sciami tekstu publikacji

naukowych oraz liczb ˛

a cytowan, któr ˛

a otrzymuj ˛

a,

2

Główne wnioski: korelacje s ˛

a

nieliniowe i w ró˙zny sposób

ujawniaj ˛

a si ˛e w przypadku

najlepiej cytowanych i typowych

prac,

3

W przypadku wi ˛ekszo´sci czasopism

krótkie tytuły s ˛

a

dodatnio

skorelowane z liczb ˛

a cytowa ´n jedynie dla

najpoczytniejszych

prac,

4

Korelecje s ˛

a widoczone dla wi ˛ekszo´sci badanych czynników lecz

efekt zwykle jest do´s´c

słaby (|β| < 0.5),

5

du˙zy rozrzut w´sród czasopism.

szczegóły oraz niektóre dane:

(21)

PODZI ˛EKOWANIA

PODZI ˛EKOWANIA

Eduardo G. Altmann

@ Max Planck Institute for the Physics of Complex Systems, Dresden, Germany (obecnie Univ. Sydney, Australia)

Cytaty

Powiązane dokumenty

Utrzymanie i eksploatacja (HelpDesk - infolinia oraz KAM, obsługa cyklu życia stacji ładowania zgodnie z umową SLA, przeglądy techniczne, wykonywanie pomiarów

Spółka, członkowie jej organów oraz kadry zarządzającej jak również akcjonariusze, doradcy, przedstawiciele Spółki nie składają żadnych wyraźnych ani dorozumianych

Każda ze strategii kształcenia pociąga za sobą odpowiednią strategię dokonywania ewaluacji: • wkształceniu opartym nastrategii nizania koralikówewaluacja tokońcowy etapw

Tu˙z przy brzegu blatu tarcie nie wyst˛epuje (tam, gdzie zagina si˛e

[r]

To oznacza, ˙ze T nie jest epimorfizmem i kolumny jego macierzy s¸ a liniowo zale˙zne... W´ owczas, macierz F w tej bazie ma wszystkie elementy w diagonale r´

Zak ladaj ac, ˙ze ciep lo przemiany nie zale˙zy od tempera- , tury oraz, ˙ze par e wodn , a mo˙zna opisa´c r´owaniem stanu gazu doskona lego, znale´z´c , zale˙zno´s´c

Sze´scian z lo˙zony jest z warstw dw´och materia l´ow o ro˙znych wsp´o lczynikach prze- wodno´sci cieplnej.. Pokaza´c, ˙ze przewodnictwo cieplne sze´scianu w kierunku r´ownoleg