Comment exploiter le CLEQ
(Corpus linguistique en environnement québécois)
 
par Philippe BARBAUD, linguiste
 
 
 
  Le CLEQ est un vaste corpus constitué par François Daoust et Fernande Dupuis il y a plusieurs années sur la base d'un échantillon systématique de documents de Hydro-Québec. Ceux-ci sont du domaine public et ils constituent une mine d'informations susceptible d'être exploitée tant par le linguiste que l'ingénieur, le juriste, l'environnementaliste ou le terminologue. De par leur nature, ces documents traitent moins de l'aspect social de l'aménagement du territoire québécois que de son aspect physique. En outre, la langue qui y est utilisée fait exception à maints égards à la langue commune et au vernaculaire: il s'agit d'une langue française de spécialité, caractérisée par le discours informatif. C'est dire que l'accès à ce corpus et à son exploitation est surtout destiné aux personnes instruites formant un public averti: universitaires, chercheurs, professionnels du langage, journalistes, documentalistes, etc..
  Le CLEQ contient une panoplie de documents de nature variée. La grande majorité d'entre eux est constituée d'études environnementales afférentes au projet de construction du barrage hydroélectrique de Grande-Baleine. Ces études se présentent habituellement sous forme de rapports détaillés, aux plans descriptif et technique, selon une architecture d'ensemble assez arbitraire, ce qui rend la lecture du corpus rapidement fastidieuse si l'on procède page à page. Le début n'est nécessairement ce qu'il y a de plus informatif. C'est pourquoi on a jugé bon de ne pas rendre l'ensemble du texte immédiatement et directement accessible au client-visiteur sous sa forme linéaire. Le contact avec le corpus, faut-il insister, passe d'abord par le choix d'un mode de recherche. Le site offre plusieurs alternatives pré-programmées mais suffisamment précises, homogènes et exhaustives pour que leur combinaison puissent fournir au client-visiteur un résultat raisonnablement sophistiqué. Ainsi, on fera affaire avec trois sélections différentes de contexte, deux sortes de tri et pas moins de sept critères de catégorisation grammaticale. Combinée avec un seuil de fréquence minimale déterminé par l'usager, une requête lexicale sur l'ensemble du corpus fournit au chercheur comme au curieux une réponse à la fois efficace et rapide.
  Sur le plan linguistique, la principale richesse de ces documents réside dans le vocabulaire. On y fait des découvertes étonnantes en matière de terminologie du sol, de la flore, de la faune, de la toponymie française, anglaise et amérindienne et, bien entendu, en matière de technologies diverses relatives non seulement à l'hydroélectricité mais aussi aux domaines de la construction aéroportuaire et du génie mécanique. Par exemple, on tombe en arrêt devant la dénomination pessière à cladonie, dont on découvre qu'elle forme une sous-classe parmi les pessières blanches ou noires, lesquelles peuvent être à mousses ou à lichens. Grâce à l'emploi judicieux du symbole $ en terminaison de mot (le $ est un opérateur qui désigne une chaîne quelconque), on obtient une couverture complète de l'emploi d'un mot quelconque puisque cette formulation neutralise les variations morphologiques. Par exemple, la requête pessière$ nous apprend que le corpus contient 51 pessière et 31 pessières sans différence entre la catégorie grammaticale afférentes aux critères NOMS COMMUNS et TOUTES CATÉGORIES.
  Naturellement, le corpus ne fournit presque pas de définitions lexicales en tant que telles. Il faut connaître l'existence et le sens du mot recherché ou alors il faut "aller à la pêche". Par ailleurs, il est utile de savoir que ni le mot pessière ni le mot cladonie ne figurent dans les dictionnaires d'usage commun. En revanche, la banque de terminologie du Grand Dictionnaire Terminologique du SNI (qui fait suite à la BTQ) atteste le second mais pas le premier, ce qui montre jusqu'à quel point le mot pessière appartient à la langue de spécialité environnementale.
Sur le plan grammatical, cette richesse se reflète dans la multitude des dénominations complexes, ce qui inclut toutes sortes de mots composés. En revanche, la phraséologie et le discours s'avèrent plus stéréotypés. Par exemple, on n'y rencontre qu'un nombre restreint de phrases interrogatives. Il y a peu de phrases hypothétiques et peu d'inversions.
  Pour qui procède à l'aveuglette de prime abord, afin de se donner une idée générale du lexique et de trouver une piste susceptible de l'intéresser, on conseille de faire une requête sur le corpus en sélectionnant la recherche LEXIQUE DU CORPUS, puis en spécifiant une chaîne aléatoire, i.e. symbole $, pour obtenir tous les mots ainsi qu'un tri appropriée effectué avec une fréquence minimale pour TOUTES LES CATÉGORIES. On obtient ainsi une liste de mots fort longue mais fort instructive pour qui est peu familier avec les langues de spécialité.
  Si on sélectionne le critère MOTS NON-CATÉGORISÉS, on obtiendra une liste contenant non seulement des mots anglais et amérindiens mais aussi, faut l'avouer, tous les mots français dont la chaîne est mal orthographiée. Cela donne l'occasion de faire une mise en garde au client-visiteur: le CLEQ est un corpus à l'état brut dans sa saisie numérique. Son "toilettage" est fort imparfait. Par conséquent, la catégorisation grammaticale des termes par SATO donne lieu à de nombreux échecs de même qu'à de multiples ambiguïtés. Le CLEQ n'étant pas lemmatisé, il incombe donc au client-visiteur de formuler ses requête en neutralisant la variation morphologique au plus serré. On a jugé toutefois que, malgré le caractère insatisfaisant de sa forme, ce corpus permettait un traitement informatique susceptible de fournir des résultats plus intéressants qu'incommodants.
  En définitive, bien que les attentes de chacun soient hautement variables, le CLEQ risque d'apporter des réponses que d'aucuns jugeront modestes. C'est normal pour qui travaille sur corpus. Voir le récent ouvrage de B. Habert, A. Nazarenko & A. Salem, Les linguistiques de corpus, publié chez Armand Colin à Paris en 1997. Cette mise en garde étant prise en compte, le client-visiteur sera stupéfait par le potentiel que recèle une telle masse de données numérisées. A lui de descendre dans le puits de la mine et d'en extraire le mot de la fin. Au cas où il trouverait un filon prometteur, il aura tout avantage à se familiariser complètement avec le logiciel SATO pour formuler des requêtes grammaticalement plus pointues. Il est loisible également de recourir à l'application du logiciel NOMINO, tous deux accessibles sur le site ATO du serveur de l'UQAM. Dans les deux cas, il est fortement recommandé au client-visiteur d'entrer directement en contact avec les concepteurs de ces programmes pour l'obtention d'une licence d'utilisation.
 
En conclusion, mes collaborateurs et collaboratrices et moi-même remercions le Secrétariat aux politiques linguistiques du ministère de la Culture et des Communications de la province de Québec de nous avoir donné les moyens financiers de rendre le CLEQ accessible sur le réseau Internet pour le meilleur intérêt de la communauté scientifique d'ici et d'ailleurs.