REVUE
RECHERCHE
Contact   |   À propos du site
Retour
Sommaire Revue n° 15
Revue Flaubert, n° 15, 2017 | Bouvard et Pécuchet, roman et savoirs:
l'édition électronique intégrale des manuscrits

Colloque de Rouen, 7-9 mars 2013. Numéro réuni par Yvan Leclerc

«Il faut disloquer la phrase, souligner les mots, peser les syllabes.»
Étude textométrique du corpus numérique de Bouvard et Pécuchet

Michel Bernard
Professeur Université Sorbonne Nouvelle – Paris 3 Centre de recherche Hubert de Phalèse EA 4400 - Écritures de la modernité
Voir [Résumé]

 

La mise à disposition d’un dossier génétique comme celui de Bouvard et Pécuchet, quand il est doté d’une transcription numérisée, permet, au-delà des fonctionnalités documentaires procurées par le site Web[1], une approche statistique de son vocabulaire. C’est à un essai d’étude textométrique de ce type que je vais procéder ici, sur la base des pages mises en ligne sur le site de l’université de Rouen.

Je me suis déjà livré, en 2007, à une étude[2] du même genre sur les manuscrits de Madame Bovary. Ce précédent me permettra de passer sur les considérations techniques et méthodologiques développées alors. Ce « discours de la méthode » de la textométrie appliquée aux corpus génétiques reste valable pour le présent travail, qui se concentrera sur deux aspects : les évolutions lexicales à travers le processus d’écriture et de révision et une comparaison entre les dossiers génétiques des deux romans, le premier et le dernier de l’auteur. L’approche généticienne introduit en effet dans le champ littéraire la notion de mouvement, donnant ainsi une nouvelle dimension à un texte qui de plus, en l’occurrence, n’a pas été publié – et donc figé – par son auteur. Il est possible de suivre ces évolutions à l’échelle microscopique, en observant, grâce au très efficace « tableau génétique » proposé par le site Web, les variations d’un paragraphe, d’une expression, d’un mot, mais aussi, à une échelle plus étendue, macroscopique, les évolutions plus massives de l’ensemble du vocabulaire. Plus encore, la disponibilité des deux dossiers génétiques permet de comparer entre elles les deux démarches d’écriture vécues par Flaubert à trente ans de distance.

Présentons tout d’abord le corpus sur lequel a porté l’étude[3]. Il comprend 1 232 185 « occurrences » mais il faut rappeler qu’il s’agit parfois de tronçons de mots, tels qu’ils ont été raturés ou insérés par le scripteur. Il se compose de trois ensembles de tailles très différentes :

 

Les 1 978 pages de brouillons constituent la plus grande partie du corpus. Les 266 pages de la copie « définitive » et les 116 pages de plans permettent seulement d’effectuer des comparaisons.

Spécificités des brouillons

En particulier, la dernière version mise au propre va permettre de se rendre compte des évolutions entre les brouillons et un état du texte qui est, sinon publiable, au moins validé par l’écrivain. Voici quels sont les mots qui sont spécifiques des brouillons par rapport au dernier manuscrit (dans l’ordre décroissant de représentativité[4]) :

 

Il s’agit donc des formes qui ont été ôtées du manuscrit final. Les raisons qui ont présidé à ces choix peuvent parfois être désignées avec une assez grande certitude. On distingue en particulier une série de verbes au présent de l’indicatif (sont, vont, croit, fait, peut). Ces formes sont présentes dans les « notes de régie », au sens strict, mais aussi dans des notations comme celle-ci : « Ils sont d’abord très déférents pr le Dteur – puis se croient forts. – & se révoltent » (Brouillons, vol. 3, folio 213). Le texte est ensuite transposé au passé et ces sommaires disparaissent de la dernière version. Quelques-uns des présents relèvent également de discours scientifiques rapportés (« Les médicaments troublent le cours des maladies » (ibid.) Il s’agit la plupart du temps d’ajouts marginaux.

On repère également des mots qui, parce qu’ils sont vagues ou jugés peu élégants (ça, peu, faire, assez) ont été également émondés au moment de la mise au propre. Une expression comme « L’atmosphère trop chaude gênait un peu Bouvard » (Brouillons, vol. 1, folio 19) devient dans le manuscrit définitif « Bouvard, – à cause de l’odeur sans doute, demanda la permission d’ouvrir la fenêtre » (manuscrit autographe définitif, folio 4). Une autre série de spécificités a trait aux jugements de quantité : très, bien, trop (on pourrait d’ailleurs leur adjoindre peu et assez, que nous venons de rencontrer). Ils ont été largement nettoyés dans le manuscrit définitif, sans doute pour donner une tournure plus objective à la narration. Une phrase comme « Le fardeau était trop lourd pr leur mémoire » (Brouillons, vol. 3, folio 286v) a par exemple été complètement barrée dans le manuscrit.

On notera également que des formes négatives (ne) ou adversatives (mais) ont été largement atténuées. Il est intéressant, à ces indices, d’observer la manière dont Flaubert évolue vers un discours de plus en plus neutre sur les deux bonshommes, pour obtenir cet effet de style très particulier, cette objectivité ironique qui montre sans juger. Je rangerai volontiers sous la même rubrique la raréfaction, dans l’état final, des formes parce que et en effet : l’auteur s’interdit de donner des explications. Des tournures comme « En effet le bonhomme Bouvard [...] » (Brouillons, vol. 1, folio 37) disparaissent au moment de la mise au propre. Il faut ajouter que ces tournures explicatives se raréfient aussi dans les propos des deux héros, au moment où ils rapportent ce qu’ils ont lu. Là encore, le travail documentaire de Flaubert subit une atténuation entre les brouillons – où il pratique souvent ce que l’on appellerait aujourd’hui le « copier-coller » – et la mise au propre. C’est d’ailleurs une autre raison de la disparition du présent de l’indicatif : Flaubert transforme les propos scientifiques rapportés (au présent et fortement marqués par la causalité) en discours indirect libre, au passé, et surtout il y pratique des coupes claires. Je noterai aussi, sans pouvoir m’y attarder, la quasi disparition des moments de silence dans la dernière version.

Mais on peut aussi observer les phénomènes de correction entre les brouillons et le manuscrit définitif en les prenant par l’autre bout, c’est-à-dire en étudiant les formes qui sont beaucoup plus fréquentes dans la dernière version :

Certains des mouvements constatés ici confirment ceux que nous avons déjà notés en observant les spécificités positives des brouillons : une série de verbes au passé simple vient remplacer les présents du brouillon, en particulier dans les incises des dialogues : dit, reprit, écria, tourna, objecta. C’est pour la même raison, à savoir la mise en place des dialogues, que nous voyons apparaître des formes de la première et de la deuxième personnes : je, vous, ou l’interjection ah.

D’autres spécificités tiennent à des phénomènes thématiques : élèves, juge (de) paix, préfet. Il s’agit d’épisodes ou de personnages qui ont donné lieu à un développement plus important dans la dernière version ou qui, pour une raison ou l’autre, ont été l’objet d’un moins grand nombre de réécritures dans les brouillons[5].

Un phénomène plus complexe a lieu autour des déterminants (ou pronoms) : un, une, des, le, sa, les, ses. Une première explication a trait à la rédaction plus négligée des brouillons, où l’on peut trouver des lexies de ce type : « madone bleu & or lampe en dessous » (Brouillons, vol. 8, folio 967). De telles tournures sont bien entendu corrigées, quand elles sont conservées, dans la copie finale. Mais cette explication ne suffit pas à rendre compte de la totalité du phénomène. Il semble que la correction stylistique aboutisse, chez Flaubert, à multiplier les tournures qui impliquent des articles, en particulier. Retenons seulement, à ce stade, cette propension que nous observerons sous un autre angle.

Mots barrés

Une autre manière de cerner ces phénomènes consiste à étudier les mots barrés dans les manuscrits (ils représentent 21% du corpus)[6]. On admettra qu’il s’agit des mots qui ont été écartés à un moment des relectures. Chaque cas, ici encore, requerrait des explications particulières mais la prise en compte globale de ces corrections peut également faire sens. Voici les mots le plus souvent barrés :

 

Cette liste ne recoupe pas exactement la précédente, ce qui signifie que l’opération de mise au propre n’a pas consisté simplement à recopier ce qui avait été épargné dans les brouillons. Les corrections ont été ici effectuées au fil de l’écriture, alors que l’établissement de la dernière version a donné lieu à une réévaluation globale. On peut y distinguer quelques constantes.

Les mots qui indiquent une séquence de faits ont été souvent barrés : alors, (d’)abord, suite, bientôt, puis, cependant, ensuite, auxquels on peut ajouter souvent. Ce sont des tournures qui arrivent spontanément sous la plume de Flaubert, et qu’il s’efforce de supprimer. Le résultat est d’ailleurs efficace puisque, au final, ces formes auront une fréquence tout à fait normale[7] au regard des romans contemporains. Il n’y a que cependant et ensuite qui conservent de fortes spécificités positives dans la version finale[8]. Notons que ce type de correction était déjà présent dans les manuscrits de Madame Bovary mais que le résultat publié en était moins net puisque les formes alors, même, tout, cependant, en, enfin, ailleurs, ensuite, puis sont en surnombre par rapport aux romans contemporains[9]. Un autre effort de correction porte sur les conjonctions mais, car, et. Flaubert les barre très souvent, avec le même effet : supprimer les liaisons pour préférer l’asyndète et la juxtaposition.

C’est une autre considération stylistique qui l’amène à barrer souvent les mots tout, peu, sans, bien, sûr. Je propose de les regrouper ainsi car ils me semblent indiquer des appréciations subjectives, dont nous avons déjà vu que Flaubert s’employait à les supprimer au fur et à mesure de son travail. Les formes peu et bien sont d’ailleurs parmi les formes typiquement élaguées entre les brouillons et la copie définitive. La forme sans est à rapprocher des formes négatives déjà rencontrées (ne, mais). L’écriture de Flaubert passe, en quelque sorte, du négatif au positif.

Si l’on examine les mots qui sont le moins souvent barrés, on retrouve des phénomènes déjà constatés dans la copie définitive :

 

Ce sont à nouveau les déterminants et pronoms qui sont épargnés, en dehors de quelques phénomènes thématiques qu’il faudrait étudier un à un.

Insertions

Une contre-épreuve consistera à examiner le vocabulaire des insertions. Celles-ci représentent 23% du corpus. Les mots le plus souvent insérés sont les suivants :

Il est tout d’abord intéressant de constater que l’on retrouve ici plusieurs des mots dont nous avons déjà constaté qu’ils étaient les plus souvent barrés ou expurgés du manuscrit définitif. Il y donc, autour de ces mots, un intense travail de sélection. En voici un exemple parmi bien d’autres (Brouillons, vol. 1, folio 26), mettant en évidence les hésitations autour de l’adverbe alors :

Beaucoup des mots que l’on trouve dans cette liste sont donc à la fois les plus souvent insérés et les plus souvent barrés. On assiste à une lutte entre deux influences chez l’écrivain : une propension à utiliser des chevilles dans la narration et, postérieurement, un raisonnement qui l’amène à les gommer. Qui l’emporte, au final, de ces deux pulsions antagonistes ? Si l’on se base à nouveau sur les spécificités[10] d’une version éditée de Bouvard et Pécuchet comparée à la production romanesque contemporaine, on constate que, des 21 formes qui apparaissent en tête des formes insérées, seules six sont sur-représentées dans le roman de Flaubert : ayant, cependant, ensuite, autrefois, doute, et. Deux d’entre elles sont même sous-représentées, ce qui montre combien Flaubert les a pourchassées dans ses brouillons : alors et peu.

À l’inverse, les mots le moins souvent insérés (c’est-à-dire ceux qui arrivent plutôt dans le premier jet de rédaction) sont également, dans l’ensemble, ceux dont nous avons vu qu’ils étaient épargnés par les ratures :

 

 

Comparaison entre Madame Bovary et Bouvard et Pécuchet

Une autre manière de rendre compte de ce qui se joue dans cette élaboration stylistique est de comparer le manuscrit de Bouvard et Pécuchet avec celui de Madame Bovary. Les volumes respectifs des deux ensembles se présentent ainsi :

Ce qui caractérise le dernier manuscrit de Flaubert, ce sont les formes suivantes (j’inclus cette fois les abréviations mais j’exclus les noms propres) :

 

 

Les plus facilement explicables de ces spécificités tiennent à l’utilisation du pluriel, puisque les personnages principaux sont deux : leurs/leur, eux, ont, sont, avaient, ils, les. On notera aussi un jeu d’abréviations différent de celui qui avait été utilisé pour Madame Bovary : « com » pour « comme » et « plutard ». Cette dernière abréviation se trouve par exemple 195 fois dans Bouvard et Pécuchet alors qu’il ne s’en trouve que 18 dans les manuscrits de Madame Bovary, pourtant plus volumineux. Notons d’ailleurs qu’il s’agit d’une graphie attestée au XIXe siècle, et qu’il n’y a donc là qu’un usage particulier, plus qu’une véritable abréviation.

Les autres spécificités aisément explicables sont celles qui ressortissent au thème du roman, en particulier les termes abstraits comme matière, genre, manuel, principe, système. Soulignons la très forte présence du mot peuple : les raisonnements des deux politologues en herbe portent sur ce sujet, dans le contexte de la Révolution de 1848, et le roman rejoint ainsi, par ce biais, la thématique de L ’ Éducation sentimentale. Les mots curé et abbé renvoient, pour leur part, au « personnel du roman ».

Les mots restants méritent un examen un peu plus approfondi. Les deux présents de l’indicatif, peut et doit, trois fois plus nombreux dans les manuscrits de Bouvard et Pécuchet que dans ceux de Madame Bovary, appartiennent en partie aux discours scientifiques et abstraits des deux lecteurs forcenés (par exemple : « Mais l’histoire moderne doit être plus positive car là, les témoignages authentiques abondent, doit être plus positive », Brouillons, vol. 4, folio 494) mais également à leur respect pour les usages et les protocoles.

Il est plus délicat, mais peut-être aussi plus fructueux, d’expliquer la spécificité de l’article défini ou pronom le et de sa forme contractée du. Notons à ce propos que toutes les formes les, le, l’, la, des, un et (mais pas du et une) sont sur-représentées dans Bouvard et Pécuchet par rapport aux romans contemporains (1870-1890), que les, le et l’ (mais pas la) le sont aussi par rapport[11] à Madame Bovary, et que l’on constate dans les manuscrits de Madame Bovary que ces articles définis ou pronoms personnels y augmentent au fil du temps. Il y a donc là une évolution très nette dans l’écriture de Flaubert, qui emploie de plus en plus ces formes, y compris du premier au dernier roman. À quel moment les introduit-il ? Le corpus des manuscrits de Bouvard et Pécuchet ne comporte pas, comme celui de Madame Bovary, de séries chronologiques permettant de dater les interventions sur le texte. On peut néanmoins utiliser les catégories déjà évoquées pour se rendre compte du travail de Flaubert :

  • Nous avons déjà vu que un, une, des, le, sa, les, ses présentent une spécificité positive dans la copie définitive comparée aux brouillons.
  • Des, les, la, un, une, le, du sont très peu barrés et très peu insérés (ils présentent même des spécificités négatives très élevées de ce point de vue)

On peut donc conclure que l’utilisation des articles définis et pronoms de la troisième personne est chez Flaubert une tendance spontanée, qu’il ne cherche pas à réduire (comme il le fait pour l’usage des chevilles narratives) et qu’il amplifie encore au moment des mises au propre. S’agit-il d’articles ou de pronoms ? Un sondage rapide sur un échantillon d’occurrences de le, la, les, l’ suggère qu’il y a parmi eux à peu près 20% de pronoms. Ce sont donc essentiellement les articles définis qui entraînent ces mouvements statistiques.

Les articles indéfinis (un, une, et une bonne partie des des) augmentent entre les brouillons et la copie définitive de Bouvard et Pécuchet mais pas systématiquement entre les brouillons de Madame Bovary et de Bouvard et Pécuchet (des est très spécifique, sans doute encore une fois en raison de la présence de deux personnages envisagés globalement, une présente une spécificité modeste et un n’est pas spécifique).

 

Ces constats mériteraient évidemment d’être affinés et développés, dans un autre cadre. Ils sont destinés à montrer le parti que l’on peut tirer d’un traitement statistique d’un dossier génétique. Le principal avantage est d’éviter de tomber dans un travers que l’on peut illustrer par cette opinion de Zola à propos des corrections de Flaubert :

Pour moi, dès qu’il poursuivait les qui et les que, il négligeait par exemple les et ; et c’est ainsi qu’on trouvera des pages de lui où les et abondent, lorsque les qui et les que sont complètement évités. Je veux dire que l’esprit, occupé à proscrire une tournure qui est dans le génie de la langue, se rejette dans une autre tournure, dont il ne se méfie pas et que dès lors il prodigue[12].

Or, nous l’avons vu, ce ne sont pas ces formes-là qui préoccupent le plus Flaubert au cours de ses correction, ni ce qui distingue particulièrement son vocabulaire par rapport à ses contemporains[13]. Comme nous l’avons vu, le travail de correction de Flaubert porte bien davantage sur les déterminants.

Un autre avantage du traitement statistique, c’est son bénéfice heuristique. Il permet de suggérer des pistes de recherche qui n’apparaissent pas à la simple lecture. Une étude stylistique plus approfondie pourrait, par exemple, dire quels sont les effets du travail de Flaubert sur les déterminants. Mais il y a peu de chance pour qu’un lecteur non outillé détecte spontanément cette caractéristique.

NOTES

[2] Michel Bernard, « Le vocabulaire des brouillons de Madame Bovary. Caractéristiques statistiques et évolutions lexicales », Bulletin Flaubert-Maupassant, n° 23, 2008, p. 21-30.
[3] Les pages du site web ont été « aspirées » puis préparées pour le logiciel Lexico3 (André Salem, SYLED-CLA2T, université Paris 3).
[4] J’ai omis les abréviations, naturellement supprimées dans la copie au propre. Les spécificités retenues sont toutes inférieures à 1E10-3, et donc significatives.
[5] Il ne faut pas oublier, en effet, que les brouillons sont, par nature, très répétitifs, et que la même scène, qui n’existe qu’une fois dans la version mise au propre, peut se retrouver traitée dans un nombre important de folios des brouillons. Son vocabulaire spécifique peut donc, pour cette raison, peser davantage d’un point de vue statistique.
[6] Je n’ai retenu que les mots codés comme « barrés », et non ceux qui sont considérés comme « biffés », ni les pages entièrement barrées.
[7] Le calcul a été fait à partir de données fournies par Frantext : le vocabulaire d’une édition de Bouvard et Pécuchet (Les Belles Lettres) a été comparé à celui d’une centaine de romans contemporains (publiés entre 1870 et 1890).
[8] Respectivement, des spécificités de l’ordre de 1E-11 et 1E-10.
[9]     Voir l’article cité plus haut.
[10] Il s’agit encore de la comparaison entre l’édition des Belles Lettres et la production romanesque contemporaine fournie par Frantext.
[11] La comparaison est établie entre deux versions publiées des romans (source : Frantext).
[12] « Mes souvenirs sur Gustave Flaubert », Le Figaro, Supplément littéraire du dimanche, 11 décembre 1880, V) :
http://flaubert.univ-rouen.fr/etudes/zola_figaro_1880.php?imp=1
[13] qui et que ne sont pas spécifiques ; on peut seulement concéder à Zola que dans la version publiée de Bouvard et Pécuchet, comparée aux romans contemporains, et présente une modeste spécificité de l’ordre de 1E-4. Mais ce n’est certainement pas la forme la plus caractéristique. De même, dans les brouillons de Bouvard et Pécuchet, que n’est pas spécifiquement barré, qui un peu plus (spécificité de l’ordre de 1E-4) mais beaucoup moins que et (spécificité de l’ordre de 1E-11). Même remarque sur le plan des insertions : Flaubert ne rajoute pas particulièrement des qui et des que mais un peu plus de et (spécificité de l’ordre de 1E-9). S’il a donc bien une tendance à ajouter des et, il les barre aussi beaucoup.


Mentions légales