Etienne BRUNET (Université de Nice-Sophia Antipolis)
|
La constellation des chercheurs
qui entoure Saint-John Perse forme un cercle étroit et savant qui
admet pourtant les visiteurs de passage, ces étoiles filantes que,
dans cette région polaire du ciel poétique, on nomme
perséides. Comme nous venons d'une constellation voisine qui gravite
autour de Giraudoux, on autorisera peut-être les flashes intempestifs
du touriste. Giraudoux et Saint-John Perse sont de la même génération
(Giraudoux est l'aîné); ils ont embrassé, un peu par
hasard et sur le tard, la carrière consulaire et diplomatique, après
quelques essais littéraires qui leur ont valu, à l'un comme
à l'autre, la protection de Philippe Berthelot et le patronage de
Claudel, l'illustre devancier. Nés de la même couvée,
ils ont dû se croiser bien des fois, dans les ambassades étrangères
ou dans les couloirs du Ministère. Dès leur entrée
en fonction, qui coïncide avec la guerre, ils ont des missions semblables,
l'un en Amérique, l'autre en Chine, et au terme de leur carrière,
qui coïncide avec la seconde guerre mondiale, ils ont des postes de
responsabilité dans le même gouvernement, l'un comme Commissaire
à l'Information, l'autre comme Secrétaire général
au Quai d'Orsay. Et pourtant nous n'avons guère trouvé le
nom de Saint-John
Tableau 1. Composition du corpus Saint-John Perse
Ces données textuelles ont été indexées, triées, comptées, référencées, bref soumises à divers traitements qui conduisent à l'hypertexte, c'est à dire à un état du texte où chaque mot est accessible en accès direct dans son environnement immédiat. Aux fonctions documentaires réparties sur la marge haute et horizontale de la figure 2, s'ajoutent les fonctions statistiques, échelonnées sur la marge verticale, à droite. Figure 2. Le menu principal de l'hypertexte Saint-John Perse
Cette base existe depuis longtemps, comme beaucoup d'autres consacrées à des monographies d'écrivains.2 Si nous la présentons aujoud'hui, c'est parce qu'elle a bénéficié récemment de nouveaux développements, relatifs à la lemmatisation. Sous ce nom barbare, inconnu du Robert, se cache un traitement linguistique qui désambiguïse les homographes, si nombreux dans un texte français. L'exemple le plus fréquent est celui de l'article défini, dont la graphie se confond avec celle du pronom personnel de la troisième personne. Que dire de le, l', la et les, si la séparation des emplois n'est pas faite? Et que dire de que, si la distinction de la conjonction et du pronom relatif n'est pas établie? Parmi les mots-pleins la confusion n'est pas moins redoutable : marche et marcher partagent des formes communes (et aussi des sèmes communs), mais les graphies homographes se rattachent à des catégories concurrentes, entre lesquelles seul le texte permet de trancher. L'analyse est simple si l'on rencontre il marche ou la marche. Mais dans beaucoup de cas la recherche doit s'exercer plus en amont ou plus en aval. On utilisera pour ce faire un logiciel du commerce, Cordial, qui a pour fonction première de corriger les textes. Mais les concepteurs de ce produit sont ouverts à la recherche universitaire et une version particulière du logiciel est destinée aux laboratoires spécialisés dans le traitement automatique de la langue, auxquels elle fournit un outil d’analyse et non plus seulement de correction. Cette version, anciennement dénommée « Cordial Université », est maintenant distribuée sous l’étiquette ANALYSEUR et correspond à la version 7 (ou 8) du produit standard. Ce programme étant automatique n’est pas exempt d’erreurs. Mais il échappe à la fatigue, à l’inconstance, à la subjectivité et finalement au renoncement qui accompagnent les entreprises de désambiguïsation manuelle. On veillera à maintenir constant le choix des paramètres proposés selon les options qui sont cochées dans l'illustration ci-dessous. Figure 3. L'application Analyseur de Cordial
Outre le code grammatical,
Cordial
ajoute de nombreux renseignements relatifs au traitement des expressions,
à la fonction dans la phrase, à la place hiérarchique
du mot dans l’arbre syntaxique, et même à la classe sémantique
à laquelle le mot se rattache. Nous n’avons retenu que ce qui était
strictement nécessaire à l’analyse, soit la moitié
des possibilités offertes dans la figure 3, à savoir: le
numéro du paragraphe, le numéro de la phrase, la forme, le
lemme, le code grammatical détaillé (codegram) et la fonction.
Figure 4. L’alignement forme-lemme
Cette analyse complète est rendue visible, quoique peu lisible, pour peu qu’on sollicite le bouton CODE situé à droite de la barre de menu. Là aussi l’alignement est rigoureux, en sorte que l’on sait précisément à quel mot correspond telle ou telle analyse. Ces quatre champs sont sensibles au clic de la souris: tout objet que l’on désigne, qu’il s’agisse d’une forme, d’un lemme, d’un code ou d’une structure, renvoie aux autres occurrences où le même objet est rencontré, les relations hypertextuelles s’appliquant aux quatre champs. Mais ces relations lient aussi ces champs entre eux, en sorte qu’en cliquant sur un code grammatical dans le champ de droite (par exemple _Vmii2pV, soit Verbe, non auxiliaire, indicatif, imparfait, 2e personne du pluriel, base de proposition), on obtient successivement en vidéo inverse tous les verbes qui répondent strictement à ce codage. Figure 5. L’alignement forme-code
L’indexation et toutes les opérations subséquentes sont alors répétées quatre fois, au niveau des structures syntaxiques (c’est à dire des séquences ordonnées des parties du discours), puis des codes grammaticaux, puis des lemmes, puis des formes. À l’issue de ce traitement, on obtient quatre index (figure 6) qui réagissent pareillement au clic de la souris. La forme (ou le lemme ou le code ou la structure) qu’on désigne montre le détail de ses occurrences, parmi lesquelles l’utilisateur fait son choix pour se référer au texte. Figure 6. Les quatre index issus de Cordial
S’il s’agit d’un code, dont la signification peut être opaque, le décryptage est assuré et traduit en clair, comme dans l’exemple ci-dessus, relatif au code _afpmp_d, c'est à dire à un adjectif qualificatif, positif, masculin pluriel, dans un groupe objet indirect. Lorsqu’on veut, non plus reconnaître un code particulier, mais rassembler les mots qui ont reçu le même codage (par exemple pour constituer une concordance ou un histogramme), on est renvoyé à une page spéciale (figure 7) qui dénombre toutes les combinaisons possibles.Car Cordial pousse loin l’analyse, en relevant pour chaque mot la catégorie, la sous-catégorie, le genre, le nombre, la fonction et s’il s’agit d’un verbe le temps, le mode et la personne. Un clic dans une option provoque alternativement l’activation ou la désactivation correspondante. Certaines options sont impliquées ou exclues automatiquement, dès qu’une autre est choisie, de telle façon qu’il y ait toujours cohérence. Car il serait absurde de sélectionner le futur d’un substantif ou le féminin d’un verbe à l’infinitif. Chaque clic modifie le filtre dont l’affichage apparaît dans une fenêtre, en haut et à droite de l’écran, avec sa traduction en clair. Toute colonne non intéressée par la sélection est remplie par défaut par un joker, dont l’effet est d’admettre tout code qu’on rencontre à cet endroit. Ainsi dans l’exemple choisi la colonne 3 n’ayant pas été sélectionnée dans le code Af_ms___, tous les adjectifs seront retenus, quel que soit le degré, positif ou comparatif. De même le vide rencontré dans la colonne 7 laissera la sélection indifférente à la fonction dans la phrase. Figure 7. Le choix d'un code grammatical
Une fois que la sélection
est faite, elle est transmise à la fonction appelante, qui délivre
un contexte, une concordance ou une liste, c’est à dire un tableau
à deux dimensions dont chaque ligne dresse le profil d’une sélection
grammaticale à travers le corpus et chaque colonne celui d’un texte
du corpus à travers les codes grammaticaux.
Figure 8. Choix d’une structure syntaxique
Ce n'est pas le lieu d'entreprendre
l’exploitation d’un tel corpus lemmatisé, que vous préférons
livrer dans sa pureté virginale aux spécialistes du poète.
Là où l’étude des formes permet une première
approche, celle des lemmes apporte le plus souvent une confirmation. Ainsi
les 9 recueils de notre corpus se répartissent de la même
façon lorsqu’est mesurée la distance entre leurs vocabulaires,
lemmatisés ou non. De même les listes de spécificités
obtenues pour chaque texte à partir des formes et des lemmes ont
beaucoup d’éléments communs, quoique les informations qu’elles
donnent pour les verbes soient beaucoup plus sûres si la lemmatisation
a opéré le regroupement des formes fléchies. Mais
dès qu’on aborde la syntaxe et les faits de style, l’étude
des formes montre vite ses limites et ses faiblesses: l’approche biaisée
des mots grammaticaux ne permet qu’une approximation timide, car beaucoup
de mots-outils sont homographes et servent à plusieurs usages, comme
les couteaux suisses. Sans lemmatisation préalable, bien des aspects
du texte restent inaccessibles: le genre grammatical, le nombre, la fonction
dans la phrase, le temps verbal, le mode , la personne, les parties du
discours et leurs multiples combinaisons réalisées dans les
syntagmes et les structures syntaxiques, des plus simples (digrammes ou
trigrammes) aux plus complexes, tout cela échappe aux formes brutes.
Figure 9. Analyse arborée des temps, des modes et des personnes
Une première réponse est dans le graphique ci-dessous (figure 9). On y voit que le mode n’est pas la pierre de touche qui puisse servir à classer les textes et les styles. Les modes apparaissent moins excentriques que les temps, à l’exception du participe qui s’éloigne vers le bas en s’associant aux auxiliaires pour constituer les temps composés. La voix la plus forte appartient au temps; c’est elle qui impose sa loi au discours, en le sommant de choisir entre le présent et l'imparfait (le passé simple, peu employé en poésie, hésite entre les deux). La tension la plus intense (sur le graphe la distance la plus longue) est en effet celle qui oppose le présent (en bas) à l’imparfait (en haut). Quant au passé composé, il se rapproche du présent auquel il se rattache formellement. Mais ce qui est le plus frappant, c'est l'entrecroisement des trois critères du verbe. Des alliances se nouent entre le futur, le subjonctif, l'impératif et la seconde personne, entre le conditionnel et l'imparfait, entre l'indicatif, le présent et la troisième personne. Certes ces réseaux d'influence sont parfois imposés par la grammaire (comme la concordance des temps) ou la logique (un impératif appelle la seconde personne). Mais ils dépendent aussi du genre littéraire. Ceux qu'on observe ici, là où prédomine la poésie, ne se retrouvent pas nécessairement dans le récit, où le rôle du verbe est plus important et plus différencié, l'évocation poétique se contentant souvent d'un présent intemporel.3 Figure 10. Répartition des temps, modes et personnes dans
deux recueils
Les choix étant ainsi offerts, comment réagissent les textes? Ils ont souvent des goût opposés, comme le suggère le graphique 10 qui représente conjointement les recueils Gloire des Rois et Vents. Là où le premier privilégie le présent, le second préfère l'imparfait. Le contraste se répercute à tous les points de la courbe, et le coefficient de corrélation (r = -0,73) est largement significatif. Si l'on envisage les autres recueils dans une analyse globale du corpus (analyse factorielle de la figure 11), on voit que le choix des Rois est partagé par les premiers recueils et que Vents est isolé sur la gauche, tandis que les derniers recueils (à l'exception des Oiseaux) s'orientent vers le haut du graphique. Ici comme sur d'autres plans, se manifeste l'évolution de l'écrivain. Figure 11. Analyse factorielle des verbes
Cette évolution n'est pas véritablement linéaire. On constate des retours, des mouvements courbes qui rapprochent les périodes extrêmes. Ainsi l'étude de la ponctuation - qui est ici légitime puisque l'auteur a eu le loisir de corriger les épreuves sans rien abandonner aux protes - laisse apparaître des périodes favorables aux signes affectifs (l'interrogation, l'exclamation et la suspension dans Exil), d'autres qui cultivent la virgule et les phrases longues (Vents, Amers), les périodes extrêmes se partageant le point (Oiseaux, Chroniques) et le point-virgule (Éloges, Rois, Anabase). Figure 12. Analyse factorielle de la ponctuation
Suivant l'objet considéré, les variations dues au temps peuvent fluctuer. Mais si l'on considère le vocabulaire entier, la chronologie dessine une ligne stable et pure. La méthode pour calculer la distance entre deux recueils consiste à considérer tous les mots et à comparer leur répartition dans les deux textes confrontés. Si la répartition est régulière, cela rapproche les deux textes, si elle est déséquilibrée cela contribue à accentuer la distance. Mais il y a plusieurs façons de considérer les mots, selon qu'on s'intéresse aux graphies, aux lemmes, aux codes grammaticaux ou aux structures syntaxiques. Or quel que soit l'objet isolé, on obtient la convergence. La chaine chronologique se reconnaît dans les quatre graphiques qui rendent compte de ces distances dans la figure 13. Partout les trois premiers recueils se tiennent la main, partout les trois recueils intermédiaires occupent des positions proches, partout Chroniques voisine avec Oiseaux. Graphique 13. La distance entre les recueils (analyse arborée)
Non content d'offrir une information grammaticale très riche, Cordial fournit encore des statistiques, dont certaines abordent le domaine de la sémantique et de la thématique. Un immense tableau est ainsi constitué qui comporte autant de lignes que de variables ou concepts répertoriés et autant de colonnes que l'on compte de textes dans le corpus. Une page spéciale (reproduite ci-dessous) donne accès à ces indices et en assure la gestion, par séries homogènes, de type grammatical, rythmique ou sémantique. Figure 14. Les 1345 indices statistiques relevés par Cordial
Le résultat de l'analyse thématique confirme ce que nous avaient enseigné les études qui précèdent. Les recueils là aussi forment trois groupes de trois éléments, ordonnés selon la chronologie (dans l'analyse factorielle de la figure 15). Cette robustesse et cette constance des résultats s'expliquent en partie parce que d'autres facteurs sont absents qui pourraient perturber les résultats, comme le genre littéraire. Les 9 recueils appartiennent en effet au même genre poétique. En revanche ce genre poétique est très conservateur: ni la révolution romantique, ni celle des surréalistes n'ont vraiment modifié la composition du stock lexical de la poésie, où, malgré ce qu'en dit Hugo, les mots nobles tiennent le haut du pavé et où le cochon n'a jamais eu droit de cité. Or dans un milieu rebelle au changement, les marques du temps s'observent malgré tout. Figure 15. Analyse factorielle des thèmes relevés par
Cordial
Indépendamment de
Cordial,
on a essayé une autre approche fondée sur les corrélats
et apparentée à la démarche du logiciel Alceste.
Au lieu de recevoir leur étiquette de l'extérieur, d'un thesaurus
préalablement constitué, on voudrait que les mots reconnaissent
d'eux-mêmes leur parenté, du seul fait de leur voisinage dans
les mêmes contextes. Pour ce faire, le programme comptabilise tous
les mots-pleins (au moins ceux qui ne sont ni trop rares, ni trop fréquents)
et enregistre toutes les rencontres, occasionnelles ou insistantes, avec
les autres mots-pleins. Un lien est établi entre deux lemmes quand
ils ont tendance à se rencontrer dans la même page. Le choix
de la page permet d'échapper en partie aux contraintes syntaxiques
qu'imposerait le choix d'une unité linguistique plus courte (syntagme,
phrase ou paragraphe). L'élimination des mots fréquents et
des mots-outils concourt aussi à privilégier les relations
sémantiques ou thématiques plutôt que les rapports
de dépendance syntaxique. On notera enfin que la division en textes
est ignorée. La cohabitation à longue distance dans un même
texte n'entre pas dans le calcul. Seule compte la proximité immédiate
dans la même page, là où l'on a le plus de chances
de relever les isotopies.
Figure 16. La carte des thèmes dans le corpus entier
Si l'identité des recueils s'évanouit dans la figure 16, elle peut s'affirmer au contraire quand on fait le calcul très classique des spécificités, c'est à dire des éléments lexicaux auxquels un recueil fait plus volontiers appel. Nous prendrons pour exemple le texte d'Amers(figure 17). La colonne de gauche consacrée aux graphies et celle de droite vouée aux lemmes s'accordent pour retenir deux thèmes principaux dans le recueil : l'amour (amour, amant, aimer, femme, heureux, tu, te toi, moi, nous, notre) et la mer (mer, vagues, vaisseaux, eaux, brise). Le thème amoureux se retrouve aussi dans la figure 18, qui met en exergue les phrases les plus caractéristiques du recueil. Ce sont celles où se trouve la plus grande concentration des termes les plus spécifiques. Elles constituent un hymne à la femme. Ces listes ordonnées de mots-clés et d'extraits typiques s'accordent le plus souvent avec l'intuition et le sentiment littéraire du lecteur. Figure 17. Le vocabulaire spécifique dans Amers
Mais la garantie de la lecture fait défaut lorsqu'il s'agit de codes grammaticaux ou de structures syntaxiques, qui peuvent échapper à la conscience du récepteur et même du rédacteur et qui acceptent, comme les graphies et les lemmes, les ca lculs de spécificité. Ainsi dans Amers la catégorie du féminin est-elle privilégiée, et celle du pluriel dans Vents. ![]() Quant aux structures rythmiques ou syntaxiques, leur approche est délicate, et leur récurrence n'est pas toujours sensible, même aux oreilles les plus fines. L'ordinateur qui maintient son attention sans défaillance sur de très longues distances peut reconnaître un rythme obsédant, comme celui d'un verset octosyllabique de la Genèse: "Et l'Esprit planait sur les eaux". La structure syntaxique qui sous-tend ce verset est codée sous la forme cdnvsdn, c'est à dire coordination + déterminant + nom + verbe + préposition + déterminant + nom. Elle est reconnue comme spécifique du recueil Amers, où se trouvent concentrés 16 des 32 exemples relevés chez Saint-John Perse et restitués dans la figure 19 (les exemples extraits de Amers ont le code Am sur la marge gauche). Figure 19. Un rythme obsédant dans Amers
On observera avec intérêt
que la plupart de ces exemples sont également des octosyllabes et
que le souvenir du verset biblique est reconnaissable dans les mots même:
est
sur les eaux, est sur les mers. Ainsi quand le rythme se fait souple
et abandonne la mesure répétitive et trop prévisible
du vers classique, l'ordinateur peut se substituer au métronome
défaillant. On imagine quel profit pourrait en tirer l'étude
du verset claudélien.
Étienne Brunet
_____________________
CNRS/ILF 1Lettre
à Paul Claudel, Consul général de France à
Hambourg, Paris, janvier 1914, la Pléiade, p. 726.
|