Agnès Tutin
Sémantique lexicale et corpus :
l’étude du lexique transdisciplinaire
des écrits scientifiques
Lublin Studies in Modern Languages and Literature 32, 242-260
LITERATURE 32, 2008, h t t p://w w w.l s m l l.u m c s.l u b l i n.p l
Agnès Tutin
University of Grenoble,
Grenoble, France
Sémantique lexicale et corpus : l’étude du lexique
transdisciplinaire des écrits scientifiques1
1. I n tro d u c tio n
L a lin g u is tiq u e d e c o r p u s e s t u n e d is c ip lin e q u i a le v e n t e n p o u p e , m a is la fa ç o n d o n t le s c o r p u s s o n t e x p lo ité s n ’e s t p a s to u jo u r s r a p p o r té e d e f a ç o n e x p lic ite d a n s le s é c rits d e lin g u is tiq u e . N o u s s o u h a ito n s r e la te r ic i u n e e x p é r im e n ta tio n - e n c o re e n c o u r s - b a s é e s u r c o r p u s a u to u r d u le x iq u e tr a n s d is c ip lin a ire d e s é c r its s c ie n tifiq u e s , ce le x iq u e e n p a rtie in v a ria n t q u i r e n v o ie a u x p r o c é d u re s d é c r ite s p a r le s c h e r c h e u r s , a u ra is o n n e m e n t e t a u m é ta te x te . A p r è s a v o ir d é f in i n o tr e o b je t, n o u s m o n tr e r o n s c o m m e n t l ’o n p e u t e x p lo ite r u n c o r p u s p o u r c irc o n s c r ir e p lu s f in e m e n t l ’o b je t q u i n o u s in té r e s s e e t e n e x tra ir e u n le x iq u e d e b a s e d e m o ts s im p le s . N o u s m o n tr e ro n s e n s u ite c o m m e n t n o u s a v o n s c o m m e n c é à c a r a c té r is e r c e le x iq u e s u r le p la n s é m a n tiq u e e t c o m m e n t le s te c h n iq u e s is s u e s d u tr a ite m e n t a u to m a tiq u e d u la n g a g e p e u v e n t fa c ilite r la tâ c h e d u lin g u is te .
1 Cette étude a été effectuée dans le cadre du projet ANR Scientext « Etude des marques de positionnement et de raisonnement dans les écrits scientifiques » piloté par le LIDILEM.
2. N o tre o b je t : le le x iq u e tr a n s d is c ip lin a ir e d e s é c r its s c ie n tif iq u e s L e le x iq u e q u i n o u s in té r e s s e e s t u n le x iq u e d e g e n r e p lu tô t q u ’u n e te r m in o lo g ie : il c o m p re n d le s m o ts q u i s o n t s p é c if iq u e s a u x é c r its s c ie n tif iq u e s e t c o m m u n s , j u s q u ’à u n c e r ta in p o in t, à u n la rg e é v e n ta il d e d is c ip lin e s . Il in tè g r e le le x iq u e m é ta s c ie n tif iq u e , q u i p a rle d e la s c ie n c e (o b je ts e t p r o c é d u r e s s c ie n tifiq u e s ) : p a r e x e m p le ,
collecter
des données, analyser des résultats,
m a is il r e n v o ie a u s s i a u m é ta d is c o u r s s c ie n tifiq u e , a u s e n s d e H y la n d (2 0 0 5 ), c ’e s t-à - d ir e a u x m a r q u e s lin g u is tiq u e s q u i n e r e n v o ie n t p a s a u s e n s p ro p o s itio n n e l, m a is a u x in te r a c tio n s a u s e n s la rg e e n tre u n a u te u r e t s o n d e s tin a ta ir e d a n s u n e m ê m e c o m m u n a u té , e t r e n v o ie n t à d e s r e la tio n s in te r n e s a u d is c o u rs : p a r e x e m p le ,méthode prometteuse, chapitre suivant, voir
supra
(T u tin 2 0 0 7 c ) . C e le x iq u e a fa it l ’o b je t d e p lu s ie u r s é tu d e s , to u t p a r tic u liè r e m e n t e n la n g u e a n g la is e ( C o x h e a d 2 0 0 0 ; C o h e a d & H ir s h 2 0 0 7 ; P e c m a n 2 0 0 4 p a r e x e m p le ), m a is p o u r le f ra n ç a is , le s tr a v a u x d e r é f é r e n c e r e s te n t c e u x d e P h a l (1 9 7 2 ) q u i m é r ite n t d ’ê tre a c tu a lis é s .N o tr e o b je c ti f à p lu s lo n g te rm e e s t l ’é tu d e d e s s p é c if ic ité s d u d is c o u r s s c ie n tifiq u e s , e n p a r tic u lie r d e s m a r q u e s lin g u is tiq u e s q u i in d iq u e n t le p o s itio n n e m e n t e t le ra is o n n e m e n t d e l ’a u te u r , d a n s le c a d re d u p r o je t A N R S c ie n te x t. N o u s s o u h a ito n s é g a le m e n t p r o p o s e r u n le x iq u e d e b a s e q u i p e r m e ttr a it d ’é l a b o r e r d e s a c tiv ité s d id a c tiq u e s u tilis a b le s e n F ra n ç a is L a n g u e E tr a n g è r e e t S e c o n d e .
D é f in ir c la ir e m e n t la n o tio n d e le x iq u e tr a n s d is c ip lin a ire d e s é c r its s c ie n tif iq u e s n ’e s t c e p e n d a n t p a s c h o s e a is é e . C e v o c a b u la ir e n ’e s t en e f f e t p o u r u n e la rg e p a rt p a s e n tiè r e m e n t s p é c if iq u e d e s é c rits s c ie n tifiq u e s , m a is e s t s im p le m e n t s u r re p r é s e n té d a n s c e g e n re . P e u de te rm e s , c o n tra ir e m e n t à la te rm in o lo g ie , y p r e n d r o n t u n e a c c e p tio n c o m p lè te m e n t s p é c if iq u e . C e r ta in s le x è m e s , e n o u tre , s e ro n t s e u le m e n t p r o p r e s à u n s o u s - e n s e m b le d e d is c ip lin e s : p a r e x e m p le , le le x iq u e d e s é v a lu a tio n s q u a n tita tiv e s ( ré s u lta ts , te s ts s ta tis tiq u e s ) s e ra p a r tic u liè r e m e n t r e p r é s e n té d a n s b o n n o m b r e d e s c ie n c e s e x p é r im e n ta le s , m a is p r o b a b le m e n t a s s e z r a r e d a n s c e r ta in e s s c ie n c e s h u m a in e s c o m m e la lin g u is tiq u e .
N o u s p r o p o s o n s d e s c h é m a tis e r le le x iq u e à l ’œ u v re d a n s le s é c rits s c ie n tif iq u e s c o m m e su it.
Ï. Le lexique transversal propre aux écrits scientifiques
renvoie aux procédures ou aux concepts génériques de
l’activité scientifique, probablement présents dans nombre
d ’écrits du même type et dans des disciplines variées :
évaluation, théorique, réaliser des comparaisons, observation
(directe),
estimation,
utiliser
une
procédure,(obtenir)
résultats.
2. Le lexique abstrait non spécialisé. Ce lexique n ’est pas
exclusif des écrits scientifiques et apparaît également dans
d’autres types d ’écrits argumentatifs ou informatifs : poser un
problème, hétérogénéité, la difficulté joue, influence, élément,
dimension, conduire à ...
3. Le lexique méthodologique disciplinaire. Certains éléments
lexicaux « métascientifiques » peuvent être considérés comme
disciplinaires ou relevant d ’une famille de disciplines : c ’est
ainsi le cas d’expressions comme comparaison longitudinale,
panel,
qui renvoient aux procédures scientifiques d ’un
ensemble
de
sciences sociales et humaines comme
l’économie, la démographie ou la psychologie mais aussi à
d ’autres sciences appliquées comme la médecine.
4. Le lexique terminologique renvoie aux objets examinés dans
la discipline et aux procédures spécifiques : lexème, analyse
syntaxique, collocation, phraséologie en linguistique.
5. Le lexique de la langue « générale » ou « commune »
intègre les mots qui ont essentiellement une fonction
grammaticale ( l’, de, ou, entre, être, ...) ou, peu spécialisés,
ont une probabilité d’occurrence qui ne paraît ni liée à la
discipline, ni au genre d ’écrits (enfant, préférence, arrivée,
départ, ...).
Nous caractériserons
comme
transdisciplinaire
le
lexique
transversal propre aux écrits scientifiques, ainsi que le lexique
abstrait non spécialisé qui est particulièrement représenté dans les
3. Circonscrire le lexique transdisciplinaire des écrits scientifiques à
l’aide de corpus
Constituer un inventaire du lexique transdisciplinaire des écrits
scientifiques nous paraît utile à plusieurs titres. Outre l’intérêt évident
pour les activités didactiques en langue étrangère (qui a motivé des
travaux comme ceux de Phal 1971, Pecman 2004 ou Coxhead 2000 et
Coxhead & Hirsh 2007), inventorier ce lexique de base nous permet
d ’établir des comparaisons dans le fonctionnement des discours
scientifiques, et en comprendre les spécificités. Comme dans tout
inventaire, les limites en seront évidemment un peu incertaines, mais
tous les linguistes s ’accorderont à reconnaître dans les termes
hypothèse, notion ou valide des lexèmes centraux des écrits
scientifiques.
La plupart des inventaires lexicaux réalisés à ce jour recourent à
des corpus diversifiés et à des mesures statistiques. De notre point de
vue, le corpus idéal utilisé pour cette tâche devrait comporter un très
grand nombre de mots, de l’ordre d ’au moins 10 millions de mots,
relevant de sous-genres variés - articles de recherche, mais aussi actes
de colloques, thèses et mémoires, et de disciplines diverses des
sciences humaines, sociales, expérimentales et appliquées également
représentées. A ce jour, à notre connaissance, aucun inventaire lexical
n ’utilise ce type de grand corpus équilibré (Cf. tableau 1 ci-dessous).
Pour l’anglais, Coxhead (2000) s ’approche de cet objectif en
exploitant un corpus volumineux et largement diversifié d ’écrits
universitaires. Pour notre part, nous utilisons, à ce stade de notre
recherche2, un corpus de 2 millions qui complète le corpus KIAP
élaboré par l’équipe de Kjersti Flottum3, intégrant trois disciplines
assez différentes, la médecine, l’économie et la linguistique. Le corpus
contient des articles de recherche (corpus KIAP), mais aussi des
thèses, des rapports et quelques cours.
2 Dans le cadre du projet ANR Scientext, nous souhaitons baser nos travaux de lexicologie sur un corpus plus large et plus diversifié.
3 http://www.uib.no/kiap/. Pour une synthèse des études réalisées sur ce corpus, voir Fl0ttum et al. (2006).
P o u r d é te r m in e r le le x iq u e p ro p r e à c e s é c r its d e r e c h e r c h e , d e s te c h n iq u e s le x ic o m é tr iq u e s , p a r fo is c o m p le x e s , s o n t s o u v e n t e m p lo y é e s . E lle s m e tte n t e n j e u u n e n s e m b le d e p a r a m è tr e s c o m m e : · L a
fréquence
. P a r e x e m p le , n o u s s é le c tio n n o n s le s é lé m e n ts d u le x iq u e a p p a r a is s a n t p lu s d e 15 f o is (d a n s c h a q u e d is c ip lin e ). · L arépartition
. O n p o u r r a a in s i s é le c tio n n e r le le x iq u e q u i a p p a r a ît d a n s la m o itié o u le s tr o is - q u a r ts d e s d is c ip lin e s , o u q u i a p p a r a is s e n t d a n s la m o itié d e s tr a n c h e s d e te x te s . · L aspécificité
. L a m é th o d e d e s s p é c if ic ité s p e r m e t d e d é g a g e r u n e n s e m b le le x ic a l p ro p re à u n ty p e d e te x te . P a r e x e m p le , D r o u in (2 0 0 7 ) r e c o u rt à la m é th o d e d e s s p é c if ic ité s é ta b lie p a r L a f o n (1 9 8 0 ) q u i e x tra it le le x iq u e s p é c if iq u e p a r c o m p a r a is o n a v e c u n c o r p u s d e r é fé r e n c e .C e s te c h n iq u e s p e r m e tte n t d ’e x tra ir e le le x iq u e q u i e s t à la fo is f ré q u e n t, b ie n ré p a r ti d a n s le s d if f é r e n te s d is c ip lin e s , e t s p é c if iq u e du g e n r e e x a m in é . Phal 1971 (Vocabulaire générale d ’orientation scientifique) Coxhead 2000 (Academic Word List) Drouin 2007 (Lexique Scientifique Transdisciplina ire)
Tutin, cet article
Type de corpus exploité
M anuels de 4ème, 3ème, 2de, 1ère et term inales. Corpus d ’articles scientifiques, chapitres de livres, manuels universitaires, m anuels de laboratoire, notes de cours.
Corpus de thèses Corpus d ’articles scientifiques, de thèses, de rapports de recherche, de cours. (Inclusion du corpus KIAP du français) Disciplines traitées Physique, m athém atiques, chim ie, sciences naturelles
2 8 disciplines dans les sections des facultés de
arts (lettres et sciences hum aines), com m erce, droit et sciences
M édecine, linguistique, économ ie.
« dures ».
Taille du corpus (en mots)
1,8 million 3,5 millions 2,3 m illions 2 m illions
Technique employée pour circonscrir e le lexique Critères com plexes faisant intervenir la fréquence mais aussi la répartition dans les différents ouvrages ainsi que la dispersion dans les disciplines. D ’autres critères plus qualitatifs sont égalem ent em ployés (par exem ple, inclusion des antonym es). M ots qui apparaissent plus de 100 fois, dans au m oins la m oitié des 28 disciplines, et apparaissent au m oins 10 fois dans chaque fam ille de 4 disciplines. Exclusion des m ots courants. M ots se répartissant dans 50% des tranches de textes et ayant u ne spécificité > 3,09 par rapport au corpus de référence du Monde. (Corpus prétraité avec étiqueteur m orpho syntaxique). M ots apparaissant plus de 15 fois dans les trois disciplines. (corpus prétraité avec étiqueteur m orpho syntaxique). Filtrage m anuel.
Tableau 1 : Listes lexicales du lexique des écrits scientifiques.
D a n s n o tr e e x p é r im e n ta tio n , n o u s a v o n s u tilis é d e s te c h n iq u e s s ta tis tiq u e s s im p le s , p u is q u e n o u s a v o n s e x tra it, a p r è s é tiq u e ta g e 4 m o r p h o -s y n ta x iq u e d e s c o r p u s a v e c C o rd ia l, le s m o ts à la fo is f ré q u e n ts ( a p p a ra is s a n t p lu s d e 15 fo is) e t tr a n s v e r s a u x ( c o m m u n s a u x tr o is d is c ip lin e s : lin g u is tiq u e , é c o n o m ie e t m é d e c in e ) . U n f iltra g e m a n u e l a é té o p é r é p o u r le s n o m s e t le s a d je c tif s lo r s q u e d e s e r re u rs m a n if e s te s d ’é tiq u e ta g e a v a ie n t e u lie u o u lo r s q u e le s m o ts n ’a p p a r a is s e n t q u e d a n s c e r ta in e s e x p r e s s io n s c o m p lè te m e n t fig é e s. N o u s a v o n s é g a le m e n t ô té le s le x è m e s p o ly s é m iq u e s q u i n e p a r ta g e a ie n t d a n s le s tr o is d is c ip lin e s d e to u te é v id e n c e q u e la fo rm e e t n o n u n e a c c e p tio n c o m m u n e . P o u r n o u s , le s te c h n iq u e s
4 L ’étiquetage morpho-syntaxique permet d ’associer aux mots en contexte leur partie du discours. Par exemple, le mot fait peut être un verbe ou un nom selon le contexte. Dans ce fait doit être signalé, c’est un nom. L’étiquetage morpho-syntaxique des corpus permet d ’établir des statistiques plus fiables sur les mots du corpus.
le x ic o m é tr iq u e s n e p e u v e n t ê tre q u ’u n e b a s e d a n s la s é le c tio n d e s le x è m e s , e t u n tr a ite m e n t m a n u e l, q u i e x a m in e le s e n s e t l ’e m p lo i d e s le x è m e s e n c o rp u s , r e s te in d is p e n s a b le .
P o u r illu s tr e r n o tre d é m a rc h e , n o u s p r é s e n to n s c i- d e s s o u s (d a n s le s ta b le a u x 2, 3 e t 4) le s lis te s d e s a d je c tif s , n o m s e t v e r b e s tr a n s d is c ip lin a ir e s le s p lu s f r é q u e n ts e x tr a its d u c o r p u s 5. A l ’a id e d e la p r o c é d u re d é c r ite p lu s h a u t, n o u s o b te n o n s 2 0 3 a d je c tif s , 3 6 3 n o m s et 3 0 0 v e r b e s , s o it u n le x iq u e d e 8 6 6 é lé m e n ts . L e s a d v e r b e s n ’o n t p a s é té in té g r é s , m a is d e v r a ie n t é g a le m e n t l ’ê tre à te r m e 6.
Tableau 2 : Adjectifs transdisciplinaires des écrits scientifiques les plus fréquents.
Adjectifs Economie
(fréquence)
Linguistique (fréquence)
Médecine
(fréquence) Fréquence totale
1. Différent 635 536 506 1677 2. Important 500 197 672 1369 3. Grand 385 393 402 1180 4. Spécifique 248 369 323 940 5. Possible 306 406 226 938 6. Général 284 268 379 931 7. Certain 289 405 150 844 8. Faible 400 73 361 834 9. Elevé 418 32 382 832 10. Relatif 351 215 188 754 11. Supérieur 329 91 301 721 12. nécessaire 274 136 291 701
Tableau 3 : Noms transdisciplinaires des écrits scientifiques les plus fréquents.
Les listes complètes sont disponibles sur : http://w3.u-grenoble3.fr/tutin/lexique/lexique.html.
Drouin (2007) intègre les adverbes dans ses listes du lexique scientifique transdisciplinaire.
Noms Economie (fréquence)
Linguistique (fréquence)
Médecine
(fréquence) Fréquence totale
1. effet 1621 576 1134 3331 2. cas 849 1036 1375 3260 3. étude 446 343 1727 2516 4. valeur 766 1052 621 2439 5. m odèle 1413 174 805 2392 6. ty p e 608 1083 648 2339 7. exem ple 438 1603 207 2248 8. résultat 1058 241 924 2223 9. term e 977 966 202 2145 10 taux 1515 92 500 2107 11 form e 365 1004 425 1794 12 analyse 635 724 386 1745
Les premières listes extraites présentent des contrastes intéressants.
La liste des adjectifs fréquents intègre des mots peu spécialisés, où la
dimension quantitative et la comparaison sont cependant assez
présentes (important, grand, élevé, faible ; différent, supérieur). Ces
lexèmes sont bien entendu fortement polysémiques (comparons par
exemple concept important et nombre important) et comme pour les
prédicats verbaux, les adjectifs doivent surtout selon nous être
considérés en association avec les arguments sur lesquels ils portent,
ce qui motive notre intérêt pour les collocations dans ce lexique. En
outre, on observe des différences remarquables entre disciplines. Par
exemple, les adjectifs faible, élevé, supérieur sont très nettement sous-
représentés en linguistique, par rapport à l’économie et à la médecine,
ce qui semble indiquer la faible importance du paramètre quantitatif
dans cette discipline (ce que la faible fréquence du terme taux dans la
liste des noms semble confirmer). Contrairement aux adjectifs, les
noms apparaissent beaucoup plus riches sémantiquement, nombre
d’entre eux relevant du champ lexical de l’étude (étude, analyse,
modèle) et de l’évaluation quantitative (résultats, valeur, résultats,
taux). Des différences disciplinaires importantes se font également
jour pour cette catégorie : le terme étude par exemple est très souvent
employé en médecine alors que les économistes se montrent
particulièrement friands du concept de modèle. Enfin, en ce qui
concerne les verbes fréquents, sans surprise ce sont les auxiliaires, les
verbes supports et les modaux qui dominent (être, avoir, pouvoir,
faire, devoir, mettre) . Les verbes « pleins », assez polysémiques,
relèvent de divers champs comme l’observation (voir) ou la
démonstration (montrer). Comme les adjectifs, les verbes doivent être
considérés en relation avec les arguments nominaux.
Tableau 4 : Verbes transdisciplinaires les plus fréquents.
Verbes Economie (fréquence) Linguistiqu e (fréquence) Médecine
(fréquence) Fréquence totale
1. être 14709 15518 15971 46198 2. avoir 4494 4703 7166 16363 3. pouvoir 2557 3573 2183 8313 4. perm ettre 1100 864 1114 3078 5. faire 783 1400 690 2873 6. devoir 732 638 737 2107 7. m ettre 608 680 689 1977 8. présenter 392 503 786 1681 9. m ontrer 637 379 606 1622 10. considérer 656 618 275 1549 11. utiliser 541 414 579 1534 12. voir 519 734 125 1378
Nous n ’avons ici commenté que les occurrences les plus fréquentes du
lexique transdisciplinaire dégagé, qui apparaît bien entendu bien plus
spécifique dans les fréquences moyennes.
4. Le traitement sémantique du lexique transdisciplinaire des écrits
scientifiques
L a lis te d e le x è m e s d é g a g é e n ’e s t v é r ita b le m e n t u tile q u e s i e lle a é té c a r a c té r is é e a u p la n s é m a n tiq u e . N o tr e o b je c tif, d a n s le p ro je t S c ie n te x t, e s t d ’é tu d ie r à tr a v e rs le s m a r q u e s le x ic a le s e t s y n ta x iq u e s le p o s itio n n e m e n t e t le ra is o n n e m e n t d e l ’a u te u r d a n s le s é c rits s c ie n tifiq u e s . N o u s s o u h a ito n s d a n s c e c a d re e x tr a ir e d e s c la s s e s d e m o ts p e r m e tta n t d e c o n s titu e r d e s g r a m m a ir e s lo c a le s e n tr a n t d a n s d e s p a tr o n s c o u r a n ts d e s m a r q u e s d e p o s itio n n e m e n t e t d e ra is o n n e m e n t. C e s g r a m m a ir e s s e ro n t e n s u ite in té g r é e s d a n s u n e in te r fa c e p e r m e tta n t d ’in te r r o g e r le s te x te s d e fa ç o n c ib lé e . P a r e x e m p le , la f ilia tio n s c ie n tifiq u e d a n s le s é c r its s c ie n tifiq u e s s ’e x p r im e s o u v e n t à l ’a id e d ’e x p r e s s io n s s té r é o ty p é e s c o m m e
nous (reprendrons/utiliserons
/recourrons à) (la notion/le modèle/le concept) ... développé par ...
( G a rc ia 2 0 0 8 ). L e r e c o u r s a u x c la s s e s d e m o ts p o u r ra it p e r m e ttr e d e g é n é r a lis e r e n q u e lq u e s o r te c e s e x p r e s s io n s :
Nous UTILISER Det ARTEFACT_SCIENT ...
o ù la c la s s e U T IL I S E R in té g r e r a it le s v e r b e s
recourir, utiliser,
reprendre
e t la c la s s e A R T E F A C T _ S C I E N T d e s n o m s c o m m emodèle, théorie, concept, idée
... E n o u tre , u n te l tr a ite m e n t p e rm e té g a le m e n t d e m o d é lis e r le s a s s o c ia tio n s le x ic a le s o u c o l lo c a tio n s de f a ç o n u tile .
D a n s le c a d r e d e n o tr e tr a v a il, n o u s a v o n s p r in c ip a le m e n t s o u h a ité p r o p o s e r d e s c la s s e s s é m a n tiq u e s s im p le s , f o n d é e s s u r d e s p ro p rié té s lin g u is tiq u e s a i s é m e n t r e p r o d u c tib le s . N o u s a v o n s a i n s i p r iv ilé g ié , en p a r tic u lie r p o u r le tr a ite m e n t d e s n o m s , d e s c la s s e s d is trib u tio n n e lle s p lu tô t q u e d e s c la s s e s n o tio n n e lle s c o m m e c e lle s q u i o n t é té p ro p o s é e s p a r P e c m a n (2 0 0 4 ). C e tr a v a il n ’e s t p a s e n c o r e a c h e v é p o u r l ’e n s e m b le d u le x iq u e tr a n s d is c ip lin a ir e (q u i d o it e n c o r e ê tre a ff in é s u r u n c o r p u s p lu s c o n s é q u e n t e n c o u r s d e d é v e lo p p e m e n t) .
U n p r e m ie r e n s e m b le d e
classes de noms
a é té d é g a g é , u n p e u à la f a ç o n d e F la u x e t v a n d e V e ld e (2 0 0 0 ), à l ’a id e la c o m b in a to ire le x ic a le e t s y n ta x iq u e o b s e rv é e e n c o r p u s (v o ir T u tin 2 0 0 7 b p o u r u n e p r é s e n ta tio n p lu s d é t a il lé e ) , d é m a r c h e q u e n o u s a v o n s é g a le m e n t m is e e n œ u v re d a n s d ’a u tr e s tr a v a u x s u r le le x iq u e d e s é m o tio n s (T u tinet
al.
2 0 0 6 ). S u r c e tte b a s e , u n e n s e m b le d e 6 0 n o m s tr a n s d is c ip lin a ire sfréquents ont été répartis dans 7 classes, dont nous donnons quelques
exemples dans le tableau 5 ci-dessous.
Tableau 5 : Quelques classes de noms du lexique transdisciplinaire des écrits scientifiques.
Classe de nom Exemples propriétés linguistiques Objets construits par l ’activité scientifique (artefacts scientifiques) analyse, application, approche, démarche, définition, idée, hypothèse, méthode, modèle, solution, système, technique, technologie, théorie, test
- ne sont pas extensifs. - ont un agent humain. (le
N_obj_const de Nhum). - se combinent avec des
verbes comme élaborer,
construire.
Observables de l ’activité scientifique
cas, données, exemple, facteur, paramètre, point, question, problème, résultat
- ne sont pas extensifs. - se combinent avec le support être.
- se combinent avec les verbes analyser, examiner,
étudier.
Supports de la rédaction scientifique
article, chapitre, document, figure, ouvrage, schéma, section, texte
- sont à la fois concrets et abstraits non extensifs. - se combinent avec la préposition dans.
- se combinent avec le verbe
présenter. Ex : ce chapitre présente.
Par exemple, la classe des « artefacts scientifiques » présente un
certain nombre de points communs : ils ne sont pas extensifs (au sens
de Flaux et van de Velde (2000), ils ont un complément humain (le
concepteur de l’artefact) et se combinent facilement avec des verbes
comme élaborer ou construire. Ces classes peuvent être exploitées
dans la modélisation des collocations, les patrons de collocations
apparaissant
davantage
comme
des
associations
de
classes
sémantiques, plutôt que des idiosyncrasies lexicales.
Des classes de verbes plus fines ont été proposées, un peu à la
façon de Wordnet (Felbaum 1998), en prenant en compte l’association
avec les arguments nominaux (Voir tableau 6). Nous souhaitons en
affiner la description en détaillant les structures argumentales. Le
cadre théorique de Framenet proposé par Fillmore (Fillmore et al.
2003), nous paraît tout à fait adapté à cette tâche, en particulier dans la
perspective de notre étude des marques du positionnement, en ce qu’il
permet à la fois un traitement abstrait du lexique, mais fondé sur des
propriétés observables en corpus.
Tableau 6 : Quelques exemples de classes de quasi-synonymes pour les verbes.
Etiquette classe de quasi-synonymes Dé c r i r e décrire, détailler, exposer, présenter, retracer
Et u d i e r aborder, analyser, considérer, étudier,
examiner, explorer, regarder
OPINION_FAVO R A BLE avancer, défendre, postuler, préconiser, promouvoir, prôner, recommander, réhabiliter, soutenir
Enfin, une première classification simple a été proposée pour un
sous-ensemble du lexique adjectival évaluatif fréquent, c ’est-à-dire
les adjectifs qui mettent en jeu une forme de jugement, par opposition
à des adjectifs dit « objectifs » (Tutin à paraître). Dire d ’une approche
qu’elle est nouvelle ou prometteuse engage ainsi davantage l’auteur
que la qualifier d’ exploratoire ou de théorique. Suivant la typologie
classique proposée par Kerbrat-Orecchioni (1980), nous avons ainsi
réparti
les
adjectifs
évaluatifs
qui
portent
sur
les
noms
transdisciplinaires en axiologiques et non axiologiques, en affinant
cette dernière classe. Le tableau 7 présente quelques exemples de ce
lexique évaluatif.
Tableau 7 : Typologie des adjectifs évaluatifs.
Axiologiques Non axiologiques
résultats intéressants, analyse pertinente. mauvais résultats...
- temüs : travaux récents. concept ancien, ... - importance : rôle crucial, principal problème
- nouveauté : nouvelle méthode. problème classique, caractère novateur ...
- deeré et quantité : grande quantité. nombreux problèmes...
- comüaraison : résultats comparables, méthode différente ...
- comülexité : problème facile, analyse complexe ...
- autres : conclusion paradoxale
U n e p r e m iè r e é tu d e s u r le s a s s o c ia tio n s e n tre n o m s tr a n s d is c ip lin a ire s e t a d je c tif s é v a lu a tif s a é té e f f e c tu é e s u r n o tre c o r p u s d a n s le s d o m a in e s d e la lin g u is tiq u e e t d e l ’é c o n o m ie (T u tin , à p a r a ître ) . E lle m o n tr e q u e l ’e m p lo i d e s a x io lo g iq u e s e s t s a n s s u r p ris e p e u f ré q u e n t, l ’é c r itu r e s c ie n tifiq u e p r é f é r a n t d e s m o d a lité s d ’é v a lu a tio n p lu s s u b tile s , m e tta n t e n j e u d e s é v a lu a tif s m o in s s u b je c tif s c o m m e le s a d je c tif s é v o q u a n t la n o u v e a u té o u l ’im p o rta n c e .
5. L e r e c o u r s a u x o u tils d e T r a ite m e n t A u to m a tiq u e d u L a n g a g e p o u r f a c ilite r le tra ite m e n t s é m a n tiq u e
L e s p r e m ie r s tr a ite m e n ts s é m a n tiq u e s p r o p o s é s c i- d e s s u s r e s te n t à c o m p lé te r e t à a f fin e r. N o u s a v o n s c h e r c h é à d é te r m in e r d a n s q u e lle m e s u re le s o u tils d e tr a ite m e n t a u to m a tiq u e d u la n g a g e p e r m e tta ie n t d e f a c ilite r - e n p a r tie - c e r ta in s d e c e s tr a ite m e n ts s é m a n tiq u e s (T u tin 2 0 0 7 a ). L ’id é e é ta it d ’e x tra ire a u to m a tiq u e m e n t le s e n v ir o n n e m e n ts le x ic a u x e t s y n ta x iq u e s , a f in d e c o n s titu e r a u to m a tiq u e m e n t d e s c la s s e s d is tr ib u tio n n e lle s s é m a n tiq u e s h o m o g è n e s . O n r e p r e n d a in s i l ’h y p o th è s e triv ia le q u e le s m o ts q u i p a r ta g e n t le s m ê m e s e n v iro n n e m e n ts s e ro n t s é m a n tiq u e m e n t p r o c h e s . N o u s n e c h e rc h o n s p a s à o b te n ir d e s c la s s e s tr è s fin e s , m a is p lu tô t d e s c la s s e s d e c o
-hyponymes du même type que celles qui ont été établies pour les
noms transdisciplinaires.
Utilisant le corpus KIAP étendu déjà présenté ici, nous avons
exploité les sorties syntaxique du logiciel SYNTEX développé par
Didier Bourigault (2007 ; Bourigault & Lame, 2002). Cet analyseur
syntaxique produit une analyse en dépendance et le système UPERY
qui en est dérivé permet de calculer les fréquences des différents types
de relations. Les relations syntaxiques des 50 noms transdisciplinaires
les plus fréquents ont été extraites du corpus, et consignées dans un
tableau. Par exemple, dans le tableau 8, on peut observer les relations
syntaxiques les plus productives avec hypothèse. On voit ainsi que le
mot hypothèse apparaît le plus souvent comme attribut du verbe être
(1255 occurrences). Suivent ensuite les épithètes autre, différent,
même ... Le second cooccurrent verbal le plus productif est faire (une
hypothèse) .
Tableau 8 : La combinatoire lexicale et syntaxique la plus fréquente du mot hypothèse dans le corpus KIAP étendu.
Relation M ot en relation Catégorie du
cooccurrent Fréquence
Attribut être V 1255
Epithète autre Adj 195
Epithète différent Adj 163
Epithète même Adj 138
Epithète premier Adj 132
Epithète général Adj 78
Epithète nouveau Nom 78
De travail Nom 59
De capital Adj 57
Nous avons ensuite calculé la distance sémantique entre les mots,
en prenant en compte les environnements syntaxiques partagés, à
l’aide de mesures classiques (ici, le jaccard).
Par exemple, dans le
tableau 9 ci-dessous, les mots article et chapitre, qui apparaissent à la
première ligne du tableau, partagent 6 contextes identiques (= a).
article apparaît lui-même dans 18 contextes différents (= n1), alors
que chapitre apparaît lui-même dans 12 contextes différents (= n2). Le
coefficient jaccard utilisé ici calcule la proximité sémantique entre les
mots avec la formule suivante : a/(n1+n2-a). Seuls sont sélectionnés les
voisins pour lesquels le coefficient de jaccard dépasse 0,10 et qui ont
au moins quatre types de contextes communs.
Tableau 9 : calcul des « voisins ».
M ot 1 M ot 2 a (nombre de contextes partagés) n1 (nbre de contextes du mot 1) n2 (nbre de contextes syntaxiques du mot 2) jaccard Article chapitre 6 18 12 0.25 Article section 6 11 19 0.25 Aableau chapitre 21 84 21 0.25
Dans l’exemple présenté, la parenté sémantique entre les termes
apparaît évidente : tous renvoient à des objets textuels, et le
rapprochement entre eux a été possible du fait d ’un nombre
significatif de contexte partagés. Cependant, le calcul des « voisins »,
s ’il permet de rapprocher des couples de termes, ne permet pas de
regrouper les mots en classes, comme nous le souhaitions. Pour ce
faire, il faut utiliser des techniques de « clustering » souvent utilisées
en informatique. Pour cette expérimentation, nous avons choisi
d ’utiliser une classification par voisinage (neighbour joining cluster),
effectuée à partir d ’une matrice contenant tous les coefficients de
proximité (jaccard) - sans seuil - calculés à partir de toutes les
relations syntaxiques (Cf. un exemple Tableau 9). La figure 1 présente
les résultats de cette classification.
Figure 1 : Classification par voisinage à partir des coefficients de proximité (jaccard).
N o u s a v o n s c o m p a r é c e s ré s u lta ts a v e c la c la s s if ic a tio n m a n u e lle p r o p o s é e s u r d e s c r itè r e s d is trib u tio n n e ls (v o ir s e c tio n 4 ). S u r le s 27 c la s s e s f in a le s o b te n u e s a v e c la m é th o d e a u to m a tiq u e , 2 0 c o n s titu e n t d e s s o u s - e n s e m b le s d e s 7 c la s s e s d é f in ie s m a n u e lle m e n t (2 s o u s e n s e m b le s o n t d e s é lé m e n ts u n iq u e s ), c e q u i a p p a r a ît u n a s s e z b o n
résultat. Les sous-classes établies sont beaucoup plus fines que celles
qui ont été élaborées manuellement, et beaucoup d ’entre elles
apparaissent pertinentes par rapport à nos objectifs. La méthode se
révèle donc assez prometteuse pour étendre le traitement sémantique à
l’ensemble du lexique. Deux problèmes apparaissent néanmoins. Tout
d ’abord, les classes proposées sont disjointes, ce qui ne permet pas le
traitement de la polysémie. Par exemple, le mot conclusion est à la
fois une partie textuelle et l’aboutissement d ’un raisonnement, alors
qu’il apparaît ici uniquement regroupé avec le mot observation, ce qui
n ’apparaît pas vraiment satisfaisant. Un traitement à l’aide de cliques
serait plus pertinent, puisqu’il permettrait l’affection d ’un élément à
plusieurs classes. Le deuxième problème pour nous est la définition de
l’environnement lexical. Tous les contextes n ’ont en effet pas la même
valeur informative pour le traitement sémantique, et nous aimerions
limiter
les
cooccurrences
lexicales
aux
mots
du
lexique
transdisciplinaire, de façon à limiter les associations terminologiques
qui faussent probablement les résultats. Pour une utilisation de cette
méthode par des linguistes, il serait en outre nécessaire de connaitre
les environnements partagés, afin de comprendre et d ’évaluer la façon
dont les regroupements sont effectués.
6. Pour conclure
Pour définir en extension un lexique de genre comme le lexique
transdisciplinaire des écrits scientifiques et en étudier les
caractéristiques sémantiques, le recours aux corpus apparaît
indispensable. On peut tout d’abord appliquer des techniques
lexicométriques simples pour en définir les contours, tout en filtrant
au cas par cas les résultats obtenus. Les propriétés sémantiques de ce
lexique peuvent ensuite être mises au jour par l’examen systématique
de la combinatoire lexicale et syntaxique, et ce processus peut être
facilité par l’utilisation d ’outils de traitement automatique du langage
(analyseurs syntaxiques, techniques de « clustering », etc.). Le
linguiste devra néanmoins paramétrer finement ces outils afin de gérer
adéquatement la polysémie et les expressions polylexicales.
Bibliographie
Bourigault D. (2007) : Un analyseur syntaxique opérationnel : Syntex. Habilitation à Diriger des Recherches. Juin 2007, Université Toulouse Le Mirail.
Bourigault, D., Lame, G. (2002) : Analyse distributionnelle et structuration de terminologie. Application à la construction d'une ontologie documentaire du Droit. In : Traitement automatique du langage, 43 (1), 129-150.
Coxhead, A. (2000) : A New Academic Word List. In : TESOL Quarterly, 34 (2), 213-238.
Coxhead, A., Hirsh, D. (2007) : A pilot science word list for EAP. In : Revue
française de linguistique appliquée, 12 (2), 65-78.
Drouin, P. (2007) : Identification automatique du lexique scientifique transdisciplinaire. In : Revue française de linguistique appliquée, 12 (2), 45-64. Fillmore, Ch.J., Johnson, C.R., Petruck, M. (2003) : Background to Framenet. In :
International Journal o f Lexicography, 16 (3), 235-250.
Fl0ttum,, K., Dahl, T., Kinn, T. (2006) : Academic Voices. Amsterdam/Philadelphia: John Benjamins.
Garcia, P. P. (2008): Etude des marques de la filiation dans les écrits scientifiques. Mémoire de Master 1, ss. dir. Francis Grossmann et Agnès Tutin, , Université Stendhal-Grenoble3 : Grenoble.
Hyland, K. (2005): Metadiscourse. London, New York: Continuum.
Kerbrat-Oreccioni, C. (1980): L ’énonciation : de la subjectivité dans le langage. Paris : Armand Colin.
Lafon, P. (1980) : Sur la variabilité de la fréquence des formes dans un corpus. In
MOTS, 1, 128-165.
Pecman, M. (2004) : Phraséologie contrastive anglais-français : analyse et traitement
en vue de l ’aide à la rédaction scientifique. Thèse de doctorat, dir. Henri Zinglé,
Université de Nice-Sophia Antipolis.
Phal, A. (1971) : Vocabulaire général d'orientation scientifique (V.G.O.S.) - Part du
lexique commun dans l'expression scientifique. Paris : Didier.
Tutin, A. (2007a) : Traitement sémantique par analyse distributionnelle des noms transdisciplinaires des écrits scientifiques. In Actes de TALN 2007.
Communications affichées, 283-292.
Tutin, A. (2007b) : Modélisation linguistique et annotation des collocations : application au lexique transdisciplinaire des écrits scientifiques. In S. Koeva, D. Maurel, M. Silberztein (Eds). Formaliser les langues avec l ’ordinateur. Besançon : Presses universitaires de Franche-Comté, 189-216.
Tutin, A. (coord.) (2007c) : Lexique et écrits scientifiques. In : Revue française de
Tutin A. (à paraître) : Evaluative adjectives in academic writing in the humanities and social sciences. Communication acceptée au colloque Interlae. Interpersonality in
Written Academic Language. Zaragoza, 11-13 décembre 2008.
Tutin, A., Novakova, I., Grossmann, F., Cavalla, C. (2006) : Esquisse de typologie des noms d ’affect à partir de leurs propriétés combinatoires. In : Langue