Sémantique lexicale et corpus : l’étude du lexique transdisciplinaire des écrits scientifiques

(1)

Agnès Tutin

Sémantique lexicale et corpus :

l’étude du lexique transdisciplinaire

des écrits scientifiques

Lublin Studies in Modern Languages and Literature 32, 242-260

(2)

LITERATURE 32, 2008, h t t p://w w w.l s m l l.u m c s.l u b l i n.p l

Agnès Tutin

University of Grenoble,

Grenoble, France

Sémantique lexicale et corpus : l’étude du lexique

transdisciplinaire des écrits scientifiques1

1. I n tro d u c tio n

L a lin g u is tiq u e d e c o r p u s e s t u n e d is c ip lin e q u i a le v e n t e n p o u p e , m a is la fa ç o n d o n t le s c o r p u s s o n t e x p lo ité s n ’e s t p a s to u jo u r s r a p p o r té e d e f a ç o n e x p lic ite d a n s le s é c rits d e lin g u is tiq u e . N o u s s o u h a ito n s r e la te r ic i u n e e x p é r im e n ta tio n - e n c o re e n c o u r s - b a s é e s u r c o r p u s a u to u r d u le x iq u e tr a n s d is c ip lin a ire d e s é c r its s c ie n tifiq u e s , ce le x iq u e e n p a rtie in v a ria n t q u i r e n v o ie a u x p r o c é d u re s d é c r ite s p a r le s c h e r c h e u r s , a u ra is o n n e m e n t e t a u m é ta te x te . A p r è s a v o ir d é f in i n o tr e o b je t, n o u s m o n tr e r o n s c o m m e n t l ’o n p e u t e x p lo ite r u n c o r p u s p o u r c irc o n s c r ir e p lu s f in e m e n t l ’o b je t q u i n o u s in té r e s s e e t e n e x tra ir e u n le x iq u e d e b a s e d e m o ts s im p le s . N o u s m o n tr e ro n s e n s u ite c o m m e n t n o u s a v o n s c o m m e n c é à c a r a c té r is e r c e le x iq u e s u r le p la n s é m a n tiq u e e t c o m m e n t le s te c h n iq u e s is s u e s d u tr a ite m e n t a u to m a tiq u e d u la n g a g e p e u v e n t fa c ilite r la tâ c h e d u lin g u is te .

1 Cette étude a été effectuée dans le cadre du projet ANR Scientext « Etude des marques de positionnement et de raisonnement dans les écrits scientifiques » piloté par le LIDILEM.

(3)

2. N o tre o b je t : le le x iq u e tr a n s d is c ip lin a ir e d e s é c r its s c ie n tif iq u e s L e le x iq u e q u i n o u s in té r e s s e e s t u n le x iq u e d e g e n r e p lu tô t q u ’u n e te r m in o lo g ie : il c o m p re n d le s m o ts q u i s o n t s p é c if iq u e s a u x é c r its s c ie n tif iq u e s e t c o m m u n s , j u s q u ’à u n c e r ta in p o in t, à u n la rg e é v e n ta il d e d is c ip lin e s . Il in tè g r e le le x iq u e m é ta s c ie n tif iq u e , q u i p a rle d e la s c ie n c e (o b je ts e t p r o c é d u r e s s c ie n tifiq u e s ) : p a r e x e m p le ,

collecter

des données, analyser des résultats,

m a is il r e n v o ie a u s s i a u m é ta d is c o u r s s c ie n tifiq u e , a u s e n s d e H y la n d (2 0 0 5 ), c ’e s t-à - d ir e a u x m a r q u e s lin g u is tiq u e s q u i n e r e n v o ie n t p a s a u s e n s p ro p o s itio n n e l, m a is a u x in te r a c tio n s a u s e n s la rg e e n tre u n a u te u r e t s o n d e s tin a ta ir e d a n s u n e m ê m e c o m m u n a u té , e t r e n v o ie n t à d e s r e la tio n s in te r n e s a u d is c o u rs : p a r e x e m p le ,

méthode prometteuse, chapitre suivant, voir

supra

(T u tin 2 0 0 7 c ) . C e le x iq u e a fa it l ’o b je t d e p lu s ie u r s é tu d e s , to u t p a r tic u liè r e m e n t e n la n g u e a n g la is e ( C o x h e a d 2 0 0 0 ; C o h e a d & H ir s h 2 0 0 7 ; P e c m a n 2 0 0 4 p a r e x e m p le ), m a is p o u r le f ra n ç a is , le s tr a v a u x d e r é f é r e n c e r e s te n t c e u x d e P h a l (1 9 7 2 ) q u i m é r ite n t d ’ê tre a c tu a lis é s .

N o tr e o b je c ti f à p lu s lo n g te rm e e s t l ’é tu d e d e s s p é c if ic ité s d u d is c o u r s s c ie n tifiq u e s , e n p a r tic u lie r d e s m a r q u e s lin g u is tiq u e s q u i in d iq u e n t le p o s itio n n e m e n t e t le ra is o n n e m e n t d e l ’a u te u r , d a n s le c a d re d u p r o je t A N R S c ie n te x t. N o u s s o u h a ito n s é g a le m e n t p r o p o s e r u n le x iq u e d e b a s e q u i p e r m e ttr a it d ’é l a b o r e r d e s a c tiv ité s d id a c tiq u e s u tilis a b le s e n F ra n ç a is L a n g u e E tr a n g è r e e t S e c o n d e .

D é f in ir c la ir e m e n t la n o tio n d e le x iq u e tr a n s d is c ip lin a ire d e s é c r its s c ie n tif iq u e s n ’e s t c e p e n d a n t p a s c h o s e a is é e . C e v o c a b u la ir e n ’e s t en e f f e t p o u r u n e la rg e p a rt p a s e n tiè r e m e n t s p é c if iq u e d e s é c rits s c ie n tifiq u e s , m a is e s t s im p le m e n t s u r re p r é s e n té d a n s c e g e n re . P e u de te rm e s , c o n tra ir e m e n t à la te rm in o lo g ie , y p r e n d r o n t u n e a c c e p tio n c o m p lè te m e n t s p é c if iq u e . C e r ta in s le x è m e s , e n o u tre , s e ro n t s e u le m e n t p r o p r e s à u n s o u s - e n s e m b le d e d is c ip lin e s : p a r e x e m p le , le le x iq u e d e s é v a lu a tio n s q u a n tita tiv e s ( ré s u lta ts , te s ts s ta tis tiq u e s ) s e ra p a r tic u liè r e m e n t r e p r é s e n té d a n s b o n n o m b r e d e s c ie n c e s e x p é r im e n ta le s , m a is p r o b a b le m e n t a s s e z r a r e d a n s c e r ta in e s s c ie n c e s h u m a in e s c o m m e la lin g u is tiq u e .

N o u s p r o p o s o n s d e s c h é m a tis e r le le x iq u e à l ’œ u v re d a n s le s é c rits s c ie n tif iq u e s c o m m e su it.

(4)

Ï. Le lexique transversal propre aux écrits scientifiques

renvoie aux procédures ou aux concepts génériques de

l’activité scientifique, probablement présents dans nombre

d ’écrits du même type et dans des disciplines variées :

évaluation, théorique, réaliser des comparaisons, observation

(directe),

estimation,

utiliser

une

procédure,(obtenir)

résultats.

2. Le lexique abstrait non spécialisé. Ce lexique n ’est pas

exclusif des écrits scientifiques et apparaît également dans

d’autres types d ’écrits argumentatifs ou informatifs : poser un

problème, hétérogénéité, la difficulté joue, influence, élément,

dimension, conduire à ...

3. Le lexique méthodologique disciplinaire. Certains éléments

lexicaux « métascientifiques » peuvent être considérés comme

disciplinaires ou relevant d ’une famille de disciplines : c ’est

ainsi le cas d’expressions comme comparaison longitudinale,

panel,

qui renvoient aux procédures scientifiques d ’un

ensemble

de

sciences sociales et humaines comme

l’économie, la démographie ou la psychologie mais aussi à

d ’autres sciences appliquées comme la médecine.

4. Le lexique terminologique renvoie aux objets examinés dans

la discipline et aux procédures spécifiques : lexème, analyse

syntaxique, collocation, phraséologie en linguistique.

5. Le lexique de la langue « générale » ou « commune »

intègre les mots qui ont essentiellement une fonction

grammaticale ( l’, de, ou, entre, être, ...) ou, peu spécialisés,

ont une probabilité d’occurrence qui ne paraît ni liée à la

discipline, ni au genre d ’écrits (enfant, préférence, arrivée,

départ, ...).

Nous caractériserons

comme

transdisciplinaire

le

lexique

transversal propre aux écrits scientifiques, ainsi que le lexique

abstrait non spécialisé qui est particulièrement représenté dans les

(5)

3. Circonscrire le lexique transdisciplinaire des écrits scientifiques à

l’aide de corpus

Constituer un inventaire du lexique transdisciplinaire des écrits

scientifiques nous paraît utile à plusieurs titres. Outre l’intérêt évident

pour les activités didactiques en langue étrangère (qui a motivé des

travaux comme ceux de Phal 1971, Pecman 2004 ou Coxhead 2000 et

Coxhead & Hirsh 2007), inventorier ce lexique de base nous permet

d ’établir des comparaisons dans le fonctionnement des discours

scientifiques, et en comprendre les spécificités. Comme dans tout

inventaire, les limites en seront évidemment un peu incertaines, mais

tous les linguistes s ’accorderont à reconnaître dans les termes

hypothèse, notion ou valide des lexèmes centraux des écrits

scientifiques.

La plupart des inventaires lexicaux réalisés à ce jour recourent à

des corpus diversifiés et à des mesures statistiques. De notre point de

vue, le corpus idéal utilisé pour cette tâche devrait comporter un très

grand nombre de mots, de l’ordre d ’au moins 10 millions de mots,

relevant de sous-genres variés - articles de recherche, mais aussi actes

de colloques, thèses et mémoires, et de disciplines diverses des

sciences humaines, sociales, expérimentales et appliquées également

représentées. A ce jour, à notre connaissance, aucun inventaire lexical

n ’utilise ce type de grand corpus équilibré (Cf. tableau 1 ci-dessous).

Pour l’anglais, Coxhead (2000) s ’approche de cet objectif en

exploitant un corpus volumineux et largement diversifié d ’écrits

universitaires. Pour notre part, nous utilisons, à ce stade de notre

recherche2, un corpus de 2 millions qui complète le corpus KIAP

élaboré par l’équipe de Kjersti Flottum3, intégrant trois disciplines

assez différentes, la médecine, l’économie et la linguistique. Le corpus

contient des articles de recherche (corpus KIAP), mais aussi des

thèses, des rapports et quelques cours.

2 Dans le cadre du projet ANR Scientext, nous souhaitons baser nos travaux de lexicologie sur un corpus plus large et plus diversifié.

3 http://www.uib.no/kiap/. Pour une synthèse des études réalisées sur ce corpus, voir Fl0ttum et al. (2006).

(6)

P o u r d é te r m in e r le le x iq u e p ro p r e à c e s é c r its d e r e c h e r c h e , d e s te c h n iq u e s le x ic o m é tr iq u e s , p a r fo is c o m p le x e s , s o n t s o u v e n t e m p lo y é e s . E lle s m e tte n t e n j e u u n e n s e m b le d e p a r a m è tr e s c o m m e : · L a

fréquence

. P a r e x e m p le , n o u s s é le c tio n n o n s le s é lé m e n ts d u le x iq u e a p p a r a is s a n t p lu s d e 15 f o is (d a n s c h a q u e d is c ip lin e ). · L a

répartition

. O n p o u r r a a in s i s é le c tio n n e r le le x iq u e q u i a p p a r a ît d a n s la m o itié o u le s tr o is - q u a r ts d e s d is c ip lin e s , o u q u i a p p a r a is s e n t d a n s la m o itié d e s tr a n c h e s d e te x te s . · L a

spécificité

. L a m é th o d e d e s s p é c if ic ité s p e r m e t d e d é g a g e r u n e n s e m b le le x ic a l p ro p re à u n ty p e d e te x te . P a r e x e m p le , D r o u in (2 0 0 7 ) r e c o u rt à la m é th o d e d e s s p é c if ic ité s é ta b lie p a r L a f o n (1 9 8 0 ) q u i e x tra it le le x iq u e s p é c if iq u e p a r c o m p a r a is o n a v e c u n c o r p u s d e r é fé r e n c e .

C e s te c h n iq u e s p e r m e tte n t d ’e x tra ir e le le x iq u e q u i e s t à la fo is f ré q u e n t, b ie n ré p a r ti d a n s le s d if f é r e n te s d is c ip lin e s , e t s p é c if iq u e du g e n r e e x a m in é . Phal 1971 (Vocabulaire générale d ’orientation scientifique) Coxhead 2000 (Academic Word List) Drouin 2007 (Lexique Scientifique Transdisciplina ire)

Tutin, cet article

Type de corpus exploité

M anuels de 4ème, 3ème, 2de, 1ère et term inales. Corpus d ’articles scientifiques, chapitres de livres, manuels universitaires, m anuels de laboratoire, notes de cours.

Corpus de thèses Corpus d ’articles scientifiques, de thèses, de rapports de recherche, de cours. (Inclusion du corpus KIAP du français) Disciplines traitées Physique, m athém atiques, chim ie, sciences naturelles

2 8 disciplines dans les sections des facultés de

arts (lettres et sciences hum aines), com m erce, droit et sciences

M édecine, linguistique, économ ie.

(7)

« dures ».

Taille du corpus (en mots)

1,8 million 3,5 millions 2,3 m illions 2 m illions

Technique employée pour circonscrir e le lexique Critères com plexes faisant intervenir la fréquence mais aussi la répartition dans les différents ouvrages ainsi que la dispersion dans les disciplines. D ’autres critères plus qualitatifs sont égalem ent em ployés (par exem ple, inclusion des antonym es). M ots qui apparaissent plus de 100 fois, dans au m oins la m oitié des 28 disciplines, et apparaissent au m oins 10 fois dans chaque fam ille de 4 disciplines. Exclusion des m ots courants. M ots se répartissant dans 50% des tranches de textes et ayant u ne spécificité > 3,09 par rapport au corpus de référence du Monde. (Corpus prétraité avec étiqueteur m orpho syntaxique). M ots apparaissant plus de 15 fois dans les trois disciplines. (corpus prétraité avec étiqueteur m orpho syntaxique). Filtrage m anuel.

Tableau 1 : Listes lexicales du lexique des écrits scientifiques.

D a n s n o tr e e x p é r im e n ta tio n , n o u s a v o n s u tilis é d e s te c h n iq u e s s ta tis tiq u e s s im p le s , p u is q u e n o u s a v o n s e x tra it, a p r è s é tiq u e ta g e 4 m o r p h o -s y n ta x iq u e d e s c o r p u s a v e c C o rd ia l, le s m o ts à la fo is f ré q u e n ts ( a p p a ra is s a n t p lu s d e 15 fo is) e t tr a n s v e r s a u x ( c o m m u n s a u x tr o is d is c ip lin e s : lin g u is tiq u e , é c o n o m ie e t m é d e c in e ) . U n f iltra g e m a n u e l a é té o p é r é p o u r le s n o m s e t le s a d je c tif s lo r s q u e d e s e r re u rs m a n if e s te s d ’é tiq u e ta g e a v a ie n t e u lie u o u lo r s q u e le s m o ts n ’a p p a r a is s e n t q u e d a n s c e r ta in e s e x p r e s s io n s c o m p lè te m e n t fig é e s. N o u s a v o n s é g a le m e n t ô té le s le x è m e s p o ly s é m iq u e s q u i n e p a r ta g e a ie n t d a n s le s tr o is d is c ip lin e s d e to u te é v id e n c e q u e la fo rm e e t n o n u n e a c c e p tio n c o m m u n e . P o u r n o u s , le s te c h n iq u e s

4 L ’étiquetage morpho-syntaxique permet d ’associer aux mots en contexte leur partie du discours. Par exemple, le mot fait peut être un verbe ou un nom selon le contexte. Dans ce fait doit être signalé, c’est un nom. L’étiquetage morpho-syntaxique des corpus permet d ’établir des statistiques plus fiables sur les mots du corpus.

(8)

le x ic o m é tr iq u e s n e p e u v e n t ê tre q u ’u n e b a s e d a n s la s é le c tio n d e s le x è m e s , e t u n tr a ite m e n t m a n u e l, q u i e x a m in e le s e n s e t l ’e m p lo i d e s le x è m e s e n c o rp u s , r e s te in d is p e n s a b le .

P o u r illu s tr e r n o tre d é m a rc h e , n o u s p r é s e n to n s c i- d e s s o u s (d a n s le s ta b le a u x 2, 3 e t 4) le s lis te s d e s a d je c tif s , n o m s e t v e r b e s tr a n s d is c ip lin a ir e s le s p lu s f r é q u e n ts e x tr a its d u c o r p u s 5. A l ’a id e d e la p r o c é d u re d é c r ite p lu s h a u t, n o u s o b te n o n s 2 0 3 a d je c tif s , 3 6 3 n o m s et 3 0 0 v e r b e s , s o it u n le x iq u e d e 8 6 6 é lé m e n ts . L e s a d v e r b e s n ’o n t p a s é té in té g r é s , m a is d e v r a ie n t é g a le m e n t l ’ê tre à te r m e 6.

Tableau 2 : Adjectifs transdisciplinaires des écrits scientifiques les plus fréquents.

Adjectifs Economie

(fréquence)

Linguistique (fréquence)

Médecine

(fréquence) Fréquence totale

1. Différent 635 536 506 1677 2. Important 500 197 672 1369 3. Grand 385 393 402 1180 4. Spécifique 248 369 323 940 5. Possible 306 406 226 938 6. Général 284 268 379 931 7. Certain 289 405 150 844 8. Faible 400 73 361 834 9. Elevé 418 32 382 832 10. Relatif 351 215 188 754 11. Supérieur 329 91 301 721 12. nécessaire 274 136 291 701

Tableau 3 : Noms transdisciplinaires des écrits scientifiques les plus fréquents.

Les listes complètes sont disponibles sur : http://w3.u-grenoble3.fr/tutin/lexique/lexique.html.

Drouin (2007) intègre les adverbes dans ses listes du lexique scientifique transdisciplinaire.

(9)

Noms Economie (fréquence)

Linguistique (fréquence)

Médecine

1. effet 1621 576 1134 3331 2. cas 849 1036 1375 3260 3. étude 446 343 1727 2516 4. valeur 766 1052 621 2439 5. m odèle 1413 174 805 2392 6. _{ty p e} 608 1083 648 2339 7. exem ple 438 1603 207 2248 8. résultat 1058 241 924 2223 9. term e 977 966 202 2145 10 taux 1515 92 500 2107 11 form e 365 1004 425 1794 12 analyse 635 724 386 1745

Les premières listes extraites présentent des contrastes intéressants.

La liste des adjectifs fréquents intègre des mots peu spécialisés, où la

dimension quantitative et la comparaison sont cependant assez

présentes (important, grand, élevé, faible ; différent, supérieur). Ces

lexèmes sont bien entendu fortement polysémiques (comparons par

exemple concept important et nombre important) et comme pour les

prédicats verbaux, les adjectifs doivent surtout selon nous être

considérés en association avec les arguments sur lesquels ils portent,

ce qui motive notre intérêt pour les collocations dans ce lexique. En

outre, on observe des différences remarquables entre disciplines. Par

exemple, les adjectifs faible, élevé, supérieur sont très nettement sous-

représentés en linguistique, par rapport à l’économie et à la médecine,

ce qui semble indiquer la faible importance du paramètre quantitatif

dans cette discipline (ce que la faible fréquence du terme taux dans la

liste des noms semble confirmer). Contrairement aux adjectifs, les

noms apparaissent beaucoup plus riches sémantiquement, nombre

d’entre eux relevant du champ lexical de l’étude (étude, analyse,

modèle) et de l’évaluation quantitative (résultats, valeur, résultats,

taux). Des différences disciplinaires importantes se font également

(10)

jour pour cette catégorie : le terme étude par exemple est très souvent

employé en médecine alors que les économistes se montrent

particulièrement friands du concept de modèle. Enfin, en ce qui

concerne les verbes fréquents, sans surprise ce sont les auxiliaires, les

verbes supports et les modaux qui dominent (être, avoir, pouvoir,

faire, devoir, mettre) . Les verbes « pleins », assez polysémiques,

relèvent de divers champs comme l’observation (voir) ou la

démonstration (montrer). Comme les adjectifs, les verbes doivent être

considérés en relation avec les arguments nominaux.

Tableau 4 : Verbes transdisciplinaires les plus fréquents.

Verbes Economie (fréquence) Linguistiqu e (fréquence) Médecine

1. être 14709 15518 15971 46198 2. avoir 4494 4703 7166 16363 3. pouvoir 2557 3573 2183 8313 4. perm ettre 1100 864 1114 3078 5. faire 783 1400 690 2873 6. devoir 732 638 737 2107 7. m ettre 608 680 689 1977 8. présenter 392 503 786 1681 9. m ontrer 637 379 606 1622 10. considérer 656 618 275 1549 11. utiliser 541 414 579 1534 12. voir 519 734 125 1378

Nous n ’avons ici commenté que les occurrences les plus fréquentes du

lexique transdisciplinaire dégagé, qui apparaît bien entendu bien plus

spécifique dans les fréquences moyennes.

4. Le traitement sémantique du lexique transdisciplinaire des écrits

scientifiques

(11)

L a lis te d e le x è m e s d é g a g é e n ’e s t v é r ita b le m e n t u tile q u e s i e lle a é té c a r a c té r is é e a u p la n s é m a n tiq u e . N o tr e o b je c tif, d a n s le p ro je t S c ie n te x t, e s t d ’é tu d ie r à tr a v e rs le s m a r q u e s le x ic a le s e t s y n ta x iq u e s le p o s itio n n e m e n t e t le ra is o n n e m e n t d e l ’a u te u r d a n s le s é c rits s c ie n tifiq u e s . N o u s s o u h a ito n s d a n s c e c a d re e x tr a ir e d e s c la s s e s d e m o ts p e r m e tta n t d e c o n s titu e r d e s g r a m m a ir e s lo c a le s e n tr a n t d a n s d e s p a tr o n s c o u r a n ts d e s m a r q u e s d e p o s itio n n e m e n t e t d e ra is o n n e m e n t. C e s g r a m m a ir e s s e ro n t e n s u ite in té g r é e s d a n s u n e in te r fa c e p e r m e tta n t d ’in te r r o g e r le s te x te s d e fa ç o n c ib lé e . P a r e x e m p le , la f ilia tio n s c ie n tifiq u e d a n s le s é c r its s c ie n tifiq u e s s ’e x p r im e s o u v e n t à l ’a id e d ’e x p r e s s io n s s té r é o ty p é e s c o m m e

nous (reprendrons/utiliserons

/recourrons à) (la notion/le modèle/le concept) ... développé par ...

( G a rc ia 2 0 0 8 ). L e r e c o u r s a u x c la s s e s d e m o ts p o u r ra it p e r m e ttr e d e g é n é r a lis e r e n q u e lq u e s o r te c e s e x p r e s s io n s :

Nous UTILISER Det ARTEFACT_SCIENT ...

o ù la c la s s e U T IL I S E R in té g r e r a it le s v e r b e s

recourir, utiliser,

reprendre

e t la c la s s e A R T E F A C T _ S C I E N T d e s n o m s c o m m e

modèle, théorie, concept, idée

... E n o u tre , u n te l tr a ite m e n t p e rm e t

é g a le m e n t d e m o d é lis e r le s a s s o c ia tio n s le x ic a le s o u c o l lo c a tio n s de f a ç o n u tile .

D a n s le c a d r e d e n o tr e tr a v a il, n o u s a v o n s p r in c ip a le m e n t s o u h a ité p r o p o s e r d e s c la s s e s s é m a n tiq u e s s im p le s , f o n d é e s s u r d e s p ro p rié té s lin g u is tiq u e s a i s é m e n t r e p r o d u c tib le s . N o u s a v o n s a i n s i p r iv ilé g ié , en p a r tic u lie r p o u r le tr a ite m e n t d e s n o m s , d e s c la s s e s d is trib u tio n n e lle s p lu tô t q u e d e s c la s s e s n o tio n n e lle s c o m m e c e lle s q u i o n t é té p ro p o s é e s p a r P e c m a n (2 0 0 4 ). C e tr a v a il n ’e s t p a s e n c o r e a c h e v é p o u r l ’e n s e m b le d u le x iq u e tr a n s d is c ip lin a ir e (q u i d o it e n c o r e ê tre a ff in é s u r u n c o r p u s p lu s c o n s é q u e n t e n c o u r s d e d é v e lo p p e m e n t) .

U n p r e m ie r e n s e m b le d e

classes de noms

a é té d é g a g é , u n p e u à la f a ç o n d e F la u x e t v a n d e V e ld e (2 0 0 0 ), à l ’a id e la c o m b in a to ire le x ic a le e t s y n ta x iq u e o b s e rv é e e n c o r p u s (v o ir T u tin 2 0 0 7 b p o u r u n e p r é s e n ta tio n p lu s d é t a il lé e ) , d é m a r c h e q u e n o u s a v o n s é g a le m e n t m is e e n œ u v re d a n s d ’a u tr e s tr a v a u x s u r le le x iq u e d e s é m o tio n s (T u tin

et

al.

2 0 0 6 ). S u r c e tte b a s e , u n e n s e m b le d e 6 0 n o m s tr a n s d is c ip lin a ire s

(12)

fréquents ont été répartis dans 7 classes, dont nous donnons quelques

exemples dans le tableau 5 ci-dessous.

Tableau 5 : Quelques classes de noms du lexique transdisciplinaire des écrits scientifiques.

Classe de nom Exemples propriétés linguistiques Objets construits par l ’activité scientifique (artefacts scientifiques) analyse, application, approche, démarche, définition, idée, hypothèse, méthode, modèle, solution, système, technique, technologie, théorie, test

- ne sont pas extensifs. - ont un agent humain. (le

N_obj_const de Nhum). - se combinent avec des

verbes comme élaborer,

construire.

Observables de l ’activité scientifique

cas, données, exemple, facteur, paramètre, point, question, problème, résultat

- ne sont pas extensifs. - se combinent avec le support être.

- se combinent avec les verbes analyser, examiner,

étudier.

Supports de la rédaction scientifique

article, chapitre, document, figure, ouvrage, schéma, section, texte

- sont à la fois concrets et abstraits non extensifs. - se combinent avec la préposition dans.

- se combinent avec le verbe

présenter. Ex : ce chapitre présente.

Par exemple, la classe des « artefacts scientifiques » présente un

certain nombre de points communs : ils ne sont pas extensifs (au sens

de Flaux et van de Velde (2000), ils ont un complément humain (le

concepteur de l’artefact) et se combinent facilement avec des verbes

comme élaborer ou construire. Ces classes peuvent être exploitées

dans la modélisation des collocations, les patrons de collocations

apparaissant

davantage

comme

des

associations

de

classes

sémantiques, plutôt que des idiosyncrasies lexicales.

Des classes de verbes plus fines ont été proposées, un peu à la

façon de Wordnet (Felbaum 1998), en prenant en compte l’association

(13)

avec les arguments nominaux (Voir tableau 6). Nous souhaitons en

affiner la description en détaillant les structures argumentales. Le

cadre théorique de Framenet proposé par Fillmore (Fillmore et al.

2003), nous paraît tout à fait adapté à cette tâche, en particulier dans la

perspective de notre étude des marques du positionnement, en ce qu’il

permet à la fois un traitement abstrait du lexique, mais fondé sur des

propriétés observables en corpus.

Tableau 6 : Quelques exemples de classes de quasi-synonymes pour les verbes.

Etiquette classe de quasi-synonymes Dé c r i r e décrire, détailler, exposer, présenter, retracer

Et u d i e r aborder, analyser, considérer, étudier,

examiner, explorer, regarder

OPINION_FAVO R A BLE avancer, défendre, postuler, préconiser, promouvoir, prôner, recommander, réhabiliter, soutenir

Enfin, une première classification simple a été proposée pour un

sous-ensemble du lexique adjectival évaluatif fréquent, c ’est-à-dire

les adjectifs qui mettent en jeu une forme de jugement, par opposition

à des adjectifs dit « objectifs » (Tutin à paraître). Dire d ’une approche

qu’elle est nouvelle ou prometteuse engage ainsi davantage l’auteur

que la qualifier d’ exploratoire ou de théorique. Suivant la typologie

classique proposée par Kerbrat-Orecchioni (1980), nous avons ainsi

réparti

les

adjectifs

évaluatifs

qui

portent

sur

les

noms

transdisciplinaires en axiologiques et non axiologiques, en affinant

cette dernière classe. Le tableau 7 présente quelques exemples de ce

lexique évaluatif.

(14)

Tableau 7 : Typologie des adjectifs évaluatifs.

Axiologiques Non axiologiques

résultats intéressants, analyse pertinente. mauvais résultats...

- temüs : travaux récents. concept ancien, ... - importance : rôle crucial, principal problème

- nouveauté : nouvelle méthode. problème classique, caractère novateur ...

- deeré et quantité : grande quantité. nombreux problèmes...

- comüaraison : résultats comparables, méthode différente ...

- comülexité : problème facile, analyse complexe ...

- autres : conclusion paradoxale

U n e p r e m iè r e é tu d e s u r le s a s s o c ia tio n s e n tre n o m s tr a n s d is c ip lin a ire s e t a d je c tif s é v a lu a tif s a é té e f f e c tu é e s u r n o tre c o r p u s d a n s le s d o m a in e s d e la lin g u is tiq u e e t d e l ’é c o n o m ie (T u tin , à p a r a ître ) . E lle m o n tr e q u e l ’e m p lo i d e s a x io lo g iq u e s e s t s a n s s u r p ris e p e u f ré q u e n t, l ’é c r itu r e s c ie n tifiq u e p r é f é r a n t d e s m o d a lité s d ’é v a lu a tio n p lu s s u b tile s , m e tta n t e n j e u d e s é v a lu a tif s m o in s s u b je c tif s c o m m e le s a d je c tif s é v o q u a n t la n o u v e a u té o u l ’im p o rta n c e .

5. L e r e c o u r s a u x o u tils d e T r a ite m e n t A u to m a tiq u e d u L a n g a g e p o u r f a c ilite r le tra ite m e n t s é m a n tiq u e

L e s p r e m ie r s tr a ite m e n ts s é m a n tiq u e s p r o p o s é s c i- d e s s u s r e s te n t à c o m p lé te r e t à a f fin e r. N o u s a v o n s c h e r c h é à d é te r m in e r d a n s q u e lle m e s u re le s o u tils d e tr a ite m e n t a u to m a tiq u e d u la n g a g e p e r m e tta ie n t d e f a c ilite r - e n p a r tie - c e r ta in s d e c e s tr a ite m e n ts s é m a n tiq u e s (T u tin 2 0 0 7 a ). L ’id é e é ta it d ’e x tra ire a u to m a tiq u e m e n t le s e n v ir o n n e m e n ts le x ic a u x e t s y n ta x iq u e s , a f in d e c o n s titu e r a u to m a tiq u e m e n t d e s c la s s e s d is tr ib u tio n n e lle s s é m a n tiq u e s h o m o g è n e s . O n r e p r e n d a in s i l ’h y p o th è s e triv ia le q u e le s m o ts q u i p a r ta g e n t le s m ê m e s e n v iro n n e m e n ts s e ro n t s é m a n tiq u e m e n t p r o c h e s . N o u s n e c h e rc h o n s p a s à o b te n ir d e s c la s s e s tr è s fin e s , m a is p lu tô t d e s c la s s e s d e c o

(15)

-hyponymes du même type que celles qui ont été établies pour les

noms transdisciplinaires.

Utilisant le corpus KIAP étendu déjà présenté ici, nous avons

exploité les sorties syntaxique du logiciel SYNTEX développé par

Didier Bourigault (2007 ; Bourigault & Lame, 2002). Cet analyseur

syntaxique produit une analyse en dépendance et le système UPERY

qui en est dérivé permet de calculer les fréquences des différents types

de relations. Les relations syntaxiques des 50 noms transdisciplinaires

les plus fréquents ont été extraites du corpus, et consignées dans un

tableau. Par exemple, dans le tableau 8, on peut observer les relations

syntaxiques les plus productives avec hypothèse. On voit ainsi que le

mot hypothèse apparaît le plus souvent comme attribut du verbe être

(1255 occurrences). Suivent ensuite les épithètes autre, différent,

même ... Le second cooccurrent verbal le plus productif est faire (une

hypothèse) .

Tableau 8 : La combinatoire lexicale et syntaxique la plus fréquente du mot hypothèse dans le corpus KIAP étendu.

Relation M ot en relation Catégorie du

cooccurrent Fréquence

Attribut être V 1255

Epithète autre Adj 195

Epithète différent Adj 163

Epithète même Adj 138

Epithète premier Adj 132

Epithète général Adj 78

Epithète nouveau Nom 78

De travail Nom 59

De capital Adj 57

(16)

Nous avons ensuite calculé la distance sémantique entre les mots,

en prenant en compte les environnements syntaxiques partagés, à

l’aide de mesures classiques (ici, le jaccard).

Par exemple, dans le

tableau 9 ci-dessous, les mots article et chapitre, qui apparaissent à la

première ligne du tableau, partagent 6 contextes identiques (= a).

article apparaît lui-même dans 18 contextes différents (= n1), alors

que chapitre apparaît lui-même dans 12 contextes différents (= n2). Le

coefficient jaccard utilisé ici calcule la proximité sémantique entre les

mots avec la formule suivante : a/(n1+n2-a). Seuls sont sélectionnés les

voisins pour lesquels le coefficient de jaccard dépasse 0,10 et qui ont

au moins quatre types de contextes communs.

Tableau 9 : calcul des « voisins ».

M ot 1 M ot 2 a (nombre de contextes partagés) n1 (nbre de contextes du mot 1) n2 (nbre de contextes syntaxiques du mot 2) jaccard Article chapitre 6 18 12 0.25 Article section 6 11 19 0.25 Aableau chapitre 21 84 21 0.25

Dans l’exemple présenté, la parenté sémantique entre les termes

apparaît évidente : tous renvoient à des objets textuels, et le

rapprochement entre eux a été possible du fait d ’un nombre

significatif de contexte partagés. Cependant, le calcul des « voisins »,

s ’il permet de rapprocher des couples de termes, ne permet pas de

regrouper les mots en classes, comme nous le souhaitions. Pour ce

faire, il faut utiliser des techniques de « clustering » souvent utilisées

en informatique. Pour cette expérimentation, nous avons choisi

d ’utiliser une classification par voisinage (neighbour joining cluster),

effectuée à partir d ’une matrice contenant tous les coefficients de

proximité (jaccard) - sans seuil - calculés à partir de toutes les

relations syntaxiques (Cf. un exemple Tableau 9). La figure 1 présente

les résultats de cette classification.

(17)

Figure 1 : Classification par voisinage à partir des coefficients de proximité (jaccard).

N o u s a v o n s c o m p a r é c e s ré s u lta ts a v e c la c la s s if ic a tio n m a n u e lle p r o p o s é e s u r d e s c r itè r e s d is trib u tio n n e ls (v o ir s e c tio n 4 ). S u r le s 27 c la s s e s f in a le s o b te n u e s a v e c la m é th o d e a u to m a tiq u e , 2 0 c o n s titu e n t d e s s o u s - e n s e m b le s d e s 7 c la s s e s d é f in ie s m a n u e lle m e n t (2 s o u s e n s e m b le s o n t d e s é lé m e n ts u n iq u e s ), c e q u i a p p a r a ît u n a s s e z b o n

(18)

résultat. Les sous-classes établies sont beaucoup plus fines que celles

qui ont été élaborées manuellement, et beaucoup d ’entre elles

apparaissent pertinentes par rapport à nos objectifs. La méthode se

révèle donc assez prometteuse pour étendre le traitement sémantique à

l’ensemble du lexique. Deux problèmes apparaissent néanmoins. Tout

d ’abord, les classes proposées sont disjointes, ce qui ne permet pas le

traitement de la polysémie. Par exemple, le mot conclusion est à la

fois une partie textuelle et l’aboutissement d ’un raisonnement, alors

qu’il apparaît ici uniquement regroupé avec le mot observation, ce qui

n ’apparaît pas vraiment satisfaisant. Un traitement à l’aide de cliques

serait plus pertinent, puisqu’il permettrait l’affection d ’un élément à

plusieurs classes. Le deuxième problème pour nous est la définition de

l’environnement lexical. Tous les contextes n ’ont en effet pas la même

valeur informative pour le traitement sémantique, et nous aimerions

limiter

les

cooccurrences

lexicales

aux

mots

du

lexique

transdisciplinaire, de façon à limiter les associations terminologiques

qui faussent probablement les résultats. Pour une utilisation de cette

méthode par des linguistes, il serait en outre nécessaire de connaitre

les environnements partagés, afin de comprendre et d ’évaluer la façon

dont les regroupements sont effectués.

6. Pour conclure

Pour définir en extension un lexique de genre comme le lexique

transdisciplinaire des écrits scientifiques et en étudier les

caractéristiques sémantiques, le recours aux corpus apparaît

indispensable. On peut tout d’abord appliquer des techniques

lexicométriques simples pour en définir les contours, tout en filtrant

au cas par cas les résultats obtenus. Les propriétés sémantiques de ce

lexique peuvent ensuite être mises au jour par l’examen systématique

de la combinatoire lexicale et syntaxique, et ce processus peut être

facilité par l’utilisation d ’outils de traitement automatique du langage

(analyseurs syntaxiques, techniques de « clustering », etc.). Le

linguiste devra néanmoins paramétrer finement ces outils afin de gérer

adéquatement la polysémie et les expressions polylexicales.

(19)

Bibliographie

Bourigault D. (2007) : Un analyseur syntaxique opérationnel : Syntex. Habilitation à Diriger des Recherches. Juin 2007, Université Toulouse Le Mirail.

Bourigault, D., Lame, G. (2002) : Analyse distributionnelle et structuration de terminologie. Application à la construction d'une ontologie documentaire du Droit. In : Traitement automatique du langage, 43 (1), 129-150.

Coxhead, A. (2000) : A New Academic Word List. In : TESOL Quarterly, 34 (2), 213-238.

Coxhead, A., Hirsh, D. (2007) : A pilot science word list for EAP. In : Revue

française de linguistique appliquée, 12 (2), 65-78.

Drouin, P. (2007) : Identification automatique du lexique scientifique transdisciplinaire. In : Revue française de linguistique appliquée, 12 (2), 45-64. Fillmore, Ch.J., Johnson, C.R., Petruck, M. (2003) : Background to Framenet. In :

International Journal o f Lexicography, 16 (3), 235-250.

Fl0ttum,, K., Dahl, T., Kinn, T. (2006) : Academic Voices. Amsterdam/Philadelphia: John Benjamins.

Garcia, P. P. (2008): Etude des marques de la filiation dans les écrits scientifiques. Mémoire de Master 1, ss. dir. Francis Grossmann et Agnès Tutin, , Université Stendhal-Grenoble3 : Grenoble.

Hyland, K. (2005): Metadiscourse. London, New York: Continuum.

Kerbrat-Oreccioni, C. (1980): L ’énonciation : de la subjectivité dans le langage. Paris : Armand Colin.

Lafon, P. (1980) : Sur la variabilité de la fréquence des formes dans un corpus. In

MOTS, 1, 128-165.

Pecman, M. (2004) : Phraséologie contrastive anglais-français : analyse et traitement

en vue de l ’aide à la rédaction scientifique. Thèse de doctorat, dir. Henri Zinglé,

Université de Nice-Sophia Antipolis.

Phal, A. (1971) : Vocabulaire général d'orientation scientifique (V.G.O.S.) - Part du

lexique commun dans l'expression scientifique. Paris : Didier.

Tutin, A. (2007a) : Traitement sémantique par analyse distributionnelle des noms transdisciplinaires des écrits scientifiques. In Actes de TALN 2007.

Communications affichées, 283-292.

Tutin, A. (2007b) : Modélisation linguistique et annotation des collocations : application au lexique transdisciplinaire des écrits scientifiques. In S. Koeva, D. Maurel, M. Silberztein (Eds). Formaliser les langues avec l ’ordinateur. Besançon : Presses universitaires de Franche-Comté, 189-216.

Tutin, A. (coord.) (2007c) : Lexique et écrits scientifiques. In : Revue française de

(20)

Tutin A. (à paraître) : Evaluative adjectives in academic writing in the humanities and social sciences. Communication acceptée au colloque Interlae. Interpersonality in

Written Academic Language. Zaragoza, 11-13 décembre 2008.

Tutin, A., Novakova, I., Grossmann, F., Cavalla, C. (2006) : Esquisse de typologie des noms d ’affect à partir de leurs propriétés combinatoires. In : Langue