REVUE
RECHERCHE
Contact   |   À propos du site
Retour
Sommaire Revue n° 13
Revue Flaubert, n° 13, 2013 | « Les dossiers documentaires de Bouvard et Pécuchet » : l’édition numérique du creuset flaubertien.
Actes du colloque de Lyon, 7-9 mars 2012

Numéro dirigé par Stéphanie Dord-Crouslé

Application de la plateforme philologique DINAH à deux projets d’éditions critiques

Pierre-Édouard Portier
Maître de conférences en informatique à l’INSA de Lyon, LIRIS
Voir [Résumé]

Nous proposons une méthodologie pour modéliser un corpus de manuscrits en vue d'assister les chercheurs dans leur travail d'édition critique. Nous montrons en particulier que les moments de transitions entre différents types de structures documentaires abstraites représentent des opportunités pour affiner les structures utilisées pour modéliser l'archive. Ils permettent même parfois la correction d'erreurs de modélisation. Nous illustrons aussi comment l'union de deux modes d'accès aux structures documentaires créées, l'un favorisant plutôt une lecture diachronique, l'autre une vision synchronique, semble particulièrement convenir à un travail exploratoire sur l'archive. Nous illustrons l'approche au moyen de cas d'utilisations issus de deux projets d'éditions critiques : les dossiers de Bouvard et Pécuchet[1], et les archives de Jean-Toussaint Desanti[2].

Modélisation dimensionnelle d'une archive documentaire

Nous cherchons à vérifier l'hypothèse selon laquelle la détection des moments de transitions entre structures documentaires est favorable à un retour critique constructif sur les choix de modélisations qui ont jusque-là dirigé l'élaboration de l'archive. Une manière de permettre ces événements de transitions consiste à ordonner les types de structures utilisables des plus aux moins contraintes. Il faut décider d'une structure de base la plus contrainte, au-dessus de laquelle d'autres structures se construiront par affaiblissements et combinaisons. Nous n'innovons pas en choisissant une structure de liste : selon l'anthropologue Jack Goody, la liste apparaît avec les tout premiers systèmes d'écriture et constitue une forme d'écrit abondante dès -3000. […] elle « implique discontinuité et non continuité » […] [et] « elle fournit un dispositif spatial de triage de l'information »[3].

En fait, nous optons pour des listes typées, c'est-à-dire organisées en ensembles disjoints. De plus, deux listes quelconques d'un même ensemble ne peuvent pas contenir d'éléments identiques : les listes d'un ensemble sont elles-mêmes disjointes. Par référence aux travaux de T.H. Nelson, nous appelons ces ensembles de listes des dimensions[4]. Par ailleurs, nous appelons les listes d'une dimension ses segments. Enfin, nous appelons les éléments d'un segment ses fragments.

Par exemple, dans le contexte des travaux sur les archives de Jean-Toussaint Desanti, nous avons utilisé une dimension nommée d.archive pour représenter l'ordre des pages manuscrites au moment de la réception de l'archive et de sa numérisation. Chaque liste de la dimension d.archive correspond ainsi à un ensemble de pages qui se succédaient au sein de l'archive physique (e.g. les pages d'un cahier relié, ou bien des pages volantes regroupées dans une pochette, etc.). Voir la Figure 1 pour un exemple de présentation d'un segment de la dimension d.archive.

Figure 1 : Exemple d'un segment de la dimension d.archive

Dans le cas de la dimension d.archive, la structure dimensionnelle est utilisée pour représenter un ordre partiel sur l'ensemble des pages manuscrites de l'archive. Elle peut aussi être utilisée pour représenter une relation binaire quelconque. Il en est ainsi de la dimension d.transcription qui associe à une page manuscrite sa transcription (voir Figure 2).

Figure 2 : Exemple d'un segment de la dimension d.transcription

Que les segments d'une dimension soient entre eux disjoints offre une forme d'orthogonalité qui permet une projection naturelle de deux dimensions sur l'espace de l'écran. Soit l'exemple de la Figure 3 où sont projetées horizontalement la dimension d.archive et verticalement la dimension d.transcription.

Figure 3 : Projection simultanée des dimensions d.archive et d.transcription

Souvent, une configuration dimensionnelle ad-hoc permettra de répondre simplement à un problème applicatif donné. Ainsi, la Figure 4 montre une configuration dimensionnelle adaptée pour la transcription.

Figure 4 : Configuration dimensionnelle pour la transcription

Sur la partie haute de la Figure 4 sont projetées verticalement d.archive et horizontalement d.transcription (i.e. une situation inverse à celle de la Figure 3). Nous remarquons que la présence verticale de d.archive n'est pas visible : dans cette configuration la partie haute est volontairement réduite à une seule ligne. Cependant, avoir configuré verticalement d.archive est utile à la navigation au sein des pages transcrites d'une collection : il suffit de déplacer le curseur vers le haut ou vers le bas pour passer d'une page à l'autre. Sur la partie basse de la Figure 4 se trouve une zone d'annotation associée à l'élément de transcription sur lequel se trouve le curseur (ici, une instance du concept présent). La Figure 5 explique comment est construite cette configuration pour l'annotation des éléments de transcription : les éléments de transcription annotés appartiennent à la dimension d.fragment, la relation binaire pour l'annotation est modélisée par la dimension d.note.

Figure 5 : Projection des dimensions d.fragment et d.note

Les pages transcrites permettent en particulier des recherches sur les textes du corpus. Or, le résultat d'une requête textuelle se modélise trivialement par une dimension, ce qui permet de croiser les résultats d'une recherche avec d'autres dimensions. Par exemple, la Figure 6 montre la projection de la requête q.présent et de la dimension d.transcription.

Figure 6 : Projection des dimensions q.présent et d.transcription

Enfin, notons que la structure dimensionnelle renouvelle la métaphore du presse-papier. Nous créons une dimension d.clipboard telle que lorsque des fragments sont copiés, ils sont en fait ajoutés au premier segment de cette dimension. Ainsi, l'utilisateur peut naviguer au sein de l'archive et remplir un panier avec des éléments qui seront éventuellement utilisés dans son travail critique à venir.

Sur l'exemple de la représentation de la structure physique des collections d'une archive, nous montrons maintenant comment une modélisation dimensionnelle permet de représenter des structures arborescentes. Pour fonder solidement le ré-ordonnancement critique d'une archive manuscrite, il est nécessaire de représenter l'état d'intrication de l'archive au moment de sa numérisation. La Figure 7 montre une pochette qui provient du fonds Jean-Toussaint Desanti. Elle contient une série de pièces qui elles-mêmes contiennent d'autres pièces, etc.

Figure 7 : Pochette du fonds Jean-Toussaint Desanti

Une telle arborescence peut se représenter au moyen de l'union de deux dimensions. La première dimension est utilisée pour exprimer la relation « a pour premier descendant », la seconde dimension est utilisée pour exprimer la relation « est au même niveau hiérarchique ». La Figure 8 illustre la représentation dimensionnelle d'une petite forêt[5].

Figure 8 : Représentation dimensionnelle d'une forêt

Ainsi, tout en restant dans un modèle dimensionnel, nous pouvons proposer des vues arborescentes. Par exemple, la Figure 9 montre en haut un moyen de naviguer au sein de la structure initiale de l'archive, et en bas une interface utilisée pour proposer des ré-ordonnancements conjecturaux de parties de l'archive.

Figure 9 : Représentation d'arborescences

Notons enfin que les fragments documentaires peuvent aussi comprendre des zones d'images de manuscrits. Voir sur la Figure 10 un exemple de configuration qui permet de naviguer parmi les zones qui ont été isolées sur les pages manuscrites des dossiers de Bouvard et Pécuchet.

Figure 10 : Navigation parmi les zones de pages manuscrites

La Figure 11 présente l'outil qui permet d'isoler des zones polygonales sur une page de manuscrit. Ces zones deviennent des fragments à part entière. Cet outil permet de créer les zones visibles sur la Figure 10.

Figure 11 : Éditeur de zones polygonales

Les événements de rupture d'une contrainte structurelle

Nous illustrons maintenant l'importance des événements de rupture d'une contrainte structurelle pour le suivi de la qualité d'une édition critique en cours de construction.

Nous avons vu plus haut une manière de conjuguer deux dimensions pour représenter une arborescence, d'autres types de conjugaisons sont intéressants. Considérons par exemple les deux dimensions d.cite et d.reformule. Notons abεd.1 l'appartenance du segment formé des fragments a et b à la dimension d.1. Posons abεd.cite et bcεd.reformule. Autrement dit, le fragment a fait explicitement référence au fragment b qui est lui-même une reformulation du fragment c. Si nous ne sommes intéressés que par l'organisation temporelle des fragments, d.cite et d.reformule sont alors identifiables, ce qui peut s'exprimer à travers la règle : d.postérieur = d.cite + d.reformule. Ainsi, la dimension d.postérieur, construite automatiquement, permet d'oublier à propos de d.cite et d.reformule tout ce qui ne concerne pas la relation temporelle (i.e. plus génériquement : l'ordre partiel) impliquée.

Ce mécanisme permet de détecter des erreurs. Ainsi, supposons qu'un utilisateur tente de modifier bcεd.reformule en bcaεd.reformule. Alors, le système ne pourra pas reconstruire automatiquement d.postérieur, car la situation abcaεd.postérieur est interdite (un fragment ne peut pas apparaître deux fois dans une même dimension). L'utilisateur est alors informé de l'erreur et peut la corriger.

Prenons comme second exemple les chevauchements qui peuvent avoir lieu entre fragments textuels annotés au sein d'une transcription (voir la Figure 12). Posons que l'ensemble des étiquettes utilisables pour annoter un texte soient organisées en ensembles disjoints appelés vocabulaires. Ajoutons une contrainte structurelle : les étiquettes qui appartiennent à un même vocabulaire ne doivent pas introduire de chevauchements entre les fragments textuels qu'elles décorent. Ainsi, supposons que les étiquettes <line> et <citation> appartiennent initialement à un même vocabulaire. Suite à l'événement décrit par la Figure 12, il devient nécessaire de les classer dans des vocabulaires distincts. Notons que notre système n'éprouve pas de difficulté technique à représenter des chevauchements entre éléments annotés. La structure de vocabulaire est introduite afin d'ajouter un niveau de contrôle sur la dynamique de la construction et de l'utilisation des étiquettes.

Figure 12 : Exemple d'un chevauchement entre fragments textuels annotés

Les deux exemples précédents illustraient l'intérêt de la notion de rupture d'une contrainte structurelle. Nous trouvons un point de vue similaire dans les travaux de Valentin Turchin :

The conversion of language, occurring as a result of formalization, into a reality independent of the human mind which creates it has far-reaching consequences. The just-created language machine (theory), as a part of the human environment, becomes an object of study and description by means of the new language. In this way a metasystem transition takes place. In relation to the described language the new language is a metalanguage and the theories formulated in this language and concerned with theories in the language-object are metatheories. If the metalanguage is formalized, it may in turn become an object of study by means of the language of the next level and this metasystem transition can be repeated without restriction[6].

Union d'une lecture dimensionnelle diachronique et d'une vue
graphique synchronique

Le mode de visualisation dimensionnel présenté jusqu'ici, résolument diachronique, ne permet pas facilement la construction rapide d'une image mentale d'un tissu de relations impliquant plus de deux dimensions. C'est pourquoi nous introduisons une vue dite « bureau du chercheur » qui permet de libérer l'utilisateur de la contrainte orthogonale imposée par une vue dimensionnelle (tout en perdant bien entendu les capacités de navigation qui accompagne cette dernière). Ainsi, sur la Figure 13, nous voyons affichées simultanément quatre dimensions. Sans trop entrer dans les détails, la configuration de la Figure 13 est une preuve de l'assertion : « Le manuscrit A est un brouillon pour le manuscrit B », et remarquons en particulier, en haut de la capture d'écran, un lien réifié.

Figure 13 : Vue synchronique dite « bureau du chercheur »

La nécessité d'une articulation entre la vue « bureau du chercheur » et la vue dimensionnelle est apparue en particulier dans le contexte du projet Bouvard. Dans ce projet, un travail sur l'archive, par exemple une analyse thématique, commence le plus souvent par la constitution d'un panier qui comprend des fragments potentiellement utiles à la recherche initiée. Un tel panier se modélise naturellement comme une dimension. Il peut être construit manuellement par un utilisateur qui navigue dans l'archive et sélectionne un à un les fragments lui semblant intéressants. Il peut aussi être le résultat d'une requête (en effet, comme montré plus haut, le résultat d'une requête forme une dimension).

Une fois le panier constitué, certains de ses fragments peuvent être glissés sur le bureau afin de visualiser ce qui les lie dans l'archive (voir la Figure 14). Ensuite, de nouvelles relations peuvent être tissées, au moyen de la vue dimensionnelle ou bien de la vue bureau, afin de formaliser de nouvelles hypothèses (e.g. définir des stades génétiques, etc.).

Figure 14 : Interactions entre le panier et le bureau du chercheur

Notons enfin que les relations visibles entre les fragments disposés sur le bureau du chercheur représentent seulement un sous-ensemble de toutes les relations qui existent entre ces fragments. L'utilisateur choisit ce sous-ensemble en fonction des besoins de sa recherche.

 

Pour conclure, l'utilisation unifiée des vues dimensionnelle et « bureau du chercheur » peut être une esquisse de solution au problème bien posé par Gilbert Simondon :

[…] [au sujet de la dialectique platonicienne] ce modèle du savoir, qui suppose un réalisme épistémologique et un certain innéisme de la connaissance des structures, prend surtout pour modèle la communication visuelle et l'ordre synchronique. Dans l'empirisme au contraire, les éléments de l'expérience sont porteurs d'information ; ils entrent en communication les uns avec les autres dans le sujet qui les compare, les sélectionne, élimine et classe selon différentes méthodologies […] il s'organise un dialogue entre le sujet et son expérience, apportée progressivement de manière diachronique […] Kant a reconnu et situé le problème de la communication interne, de la découverte et de l'invention ; mais ce problème n'a pas véritablement, jusqu'à ce jour, été élucidé. […] l'étude de la communication externe fournit des modèles, mais des modèles insuffisants, parce qu'ils sont dominés soit par le principe de la synchronie, soit par celui de la diachronie ; or, ces deux principes ne sont pas compatibles entre eux, ne se laissent pas ramener à l'unité dans un système plus élevé qui conserverait toutes leurs propriétés[7].

NOTES

[3] Christian Vandendorpe, Du papyrus à l'hypertexte, Paris, La Découverte, 1999, p. 127-128. Disponible en ligne :
http://vandendorpe.org/papyrus/PapyrusenLigne.pdf.
[4] Theodor Holm Nelson, « A cosmology for a different computer universe : Data model, mechanisms, virtual machine and visualization infrastructure », Journal of Digital Information 5.1, 2006.
[5] Donald E. Knuth, Art of Computer Programming, Volume 1, Third Edition, Reading (Massachusetts), Addison-Wesley, 1997, p. 334.
[6] Valentin Fedorovich Turchin, The phenomenon of science, New York, Columbia University Press, 1977, p. 210.
[7] Gilbert Simondon, Communication et information : cours et conférences, éd. Nathalie Simondon, préface Jean-Yves Chateau, Chatou, Éditions de la transparence, 2010, p. 131.

Pour télécharger le fichier PDF de l'article, cliquez ici.


Mentions légales