Add to bookbag
Author: Martine Cocaud
Title: Du texte   la base de données : le libriciel comme outil de production et de diffusion du texte scientifique. Une application   l'hagiographie bretonne
Publication Info: Ann Arbor, MI: MPublishing, University of Michigan Library
August 2001
Availability:

This work is protected by copyright and may be linked to without seeking permission. Permission must be received for subsequent distribution in print or electronically. Please contact mpub-help@umich.edu for more information.

Source: Du texte   la base de données : le libriciel comme outil de production et de diffusion du texte scientifique. Une application   l'hagiographie bretonne
Martine Cocaud


vol. 4, no. 2, August 2001
Article Type: Article
URL: http://hdl.handle.net/2027/spo.3310410.0004.201

Du texte à la base de données : le libriciel comme outil de production et de diffusion du texte scientifique. Une application à l’hagiographie bretonne

Martine Cocaud et André Lemeur

Résumé : La chaine éditoriale qui va de l'écriture d'un texte à sa diffusion et à sa lecture est profondément bouleversée par le développement du document électronique. Le concept de "libriciel" — alliance du livre et du logiciel - présenté ici dans une application à l'hagiographie bretonne esquisse une nouvelle technique basée sur la transformation automatique du "tapuscrit" (produit au moyen d'un traitement de texte) en hypertexte et en base de données diffusables sur Internet. L'objectif est de conserver les méthodes habituelles de production du texte tout en bénéficiant des avantages des médias électroniques de diffusion.

.01. INTRODUCTION

L'hagiographie demeure un sujet d'intérêt permanent pour la Bretagne : il y va de la curiosité des chercheurs bien sûr mais aussi de l'intérêt d'un public plus vaste qui se montre curieux de la culture bretonne sous toutes ses formes. Des questions portant sur l'origine d'un prénom breton, d'un nom de lieu, ou sur une statue remarquée au hasard d'une promenade arrivent régulièrement sur les bureaux des chercheurs appartenant à la section religieuse de l'Institut Culturel de Bretagne. Il est vrai que si les ouvrages portant sur la vie des Saints bretons sont nombreux - car ce thème fut souvent abordé au XIXe siècle par la littérature érudite ‑ ils demeurent peu accessibles et sujets à caution. De plus les ouvrages anciens présentent souvent une " vision partielle " d'un saint  : on y retrouvera soit des éléments biographiques, soit des informations iconographiques, mais aucun travail n'a recensé l'ensemble des formes prises par le culte d'un saint qu'il s'agisse de représentations iconographiques, de dédicaces ou de mentions toponymiques.

C'est en prenant en compte à la fois cette curiosité " plurielle " du public et la difficulté de lui fournir une réponse satisfaisante que l'Institut Culturel de Bretagne a encouragé la mise en œuvre d'une base de données portant sur les saints bretons. Le projet exige de rechercher dans des sources extrêmement variées -‑ ouvrages érudits du XIXe et du XXe siècles portant sur l'histoire ou la littérature, ouvrages de vulgarisation, dictionnaires d'histoire religieuse, mais aussi les fonds iconographiques de la DRAC, etc. ‑ des informations sur les saints bretons, puis de vérifier au plus près la qualité des renseignements collectés. A terme, cette recherche devrait porter sur plus de 500 saints (ce qualificatif a été abondamment donné en Bretagne [1] !) et devrait faire intervenir plusieurs chercheurs spécialistes de divers aspects de l'histoire culturelle bretonne pour des périodes historiques variées ; chaque participant mettant en évidence un aspect particulier de la vie ou de la représentation des saints.

La direction du projet a été confiée à Bernard Merdrignac (professeur d'histoire médiévale à l'Université de Rennes 2 et membre du CRHISCO [2]) qui a lancé la collecte des informations. Jusqu'à maintenant, la recherche des sources ainsi que les vérifications qui s'imposent ont été effectuées par des étudiants de maîtrise sous la direction de Bernard Merdrignac. La première étape du travail de l'étudiant consiste à établir des notices rédigées sur papier ; selon le saint choisi et la richesse des sources historiques, la taille de ces notices varie de 3 000 à 40 000 signes. Nous possédons actuellement une centaine de ces biographies. La lecture critique de documents érudits rédigés à diverses périodes ainsi que la production en final d'un document correctement rédigé et présenté selon des normes précises se révèlent un exercice formateur pour des étudiants de quatrième année qui s'orientent le plus souvent vers les métiers de la documentation ou du patrimoine.

Toutefois la finalité de ce travail n'est pas de fournir des mémoires supplémentaires sur un thème déjà largement illustré mais de mettre à la disposition du grand public des données élaborées selon des critères scientifiques. Le choix du mode de diffusion des notices apparaît alors fondamental et l'édition papier n'a pas semblé adaptée au but poursuivi. En effet, les notices doivent être remises à jour régulièrement afin de prendre en compte les nouveaux travaux : par exemple, la fiche de Saint-Yves, rédigée en 1996, a pu être complétée cette année suite à la soutenance d'un mémoire portant sur la représentation de ce saint dans les lieux de cultes bretons. Conserver cette possibilité de remise à jour est une priorité, or elle n'est guère compatible avec une édition « papier ». Il était possible d'envisager la création de CD-ROM, mais là encore il aurait été difficile de faire évoluer les notices de saints au fur et à mesure de l'avancée des recherches. Ce problème de diffusion de données textuelles évolutives a été discuté dans le cadre d'un groupe de travail mixte formé d'enseignants-chercheurs appartenant au CRHISCO [2] et à la section d'Informatique de l'Université Rennes 2 . Le libriciel que nous présentons ici est la solution choisie pour concilier les impératifs de la production par l'historien et les contraintes de la diffusion sur supports électroniques. Ce nouveau concept, défini par André Le Meur, tient à la fois du livre et du logiciel et utilise comme moyen de diffusion Internet. Le principe du libriciel est le suivant :

  • l'information est saisie en traitement de texte (WORD) en suivant des consignes de mise en page extrêmement précises fondées sur l'utilisation des styles,
  • le texte est " marqué " selon la technique de production d'index de Word. C'est à partir des termes indexés que pourra se faire l'interrogation des documents sur le WEB,
  • des programmes transforment le texte WORD en hypertexte et en base de données documentaire, qui sont chargés sur le serveur WEB,
  • L'utilisateur peut alors interroger la base sur un certain nombre de critères et accèder ainsi sur réseau au texte initial.

L'intérêt de cette méthode est double : la consultation de la base peut être faite à distance et les mises à jour des notices restent simples. Il suffit de modifier le texte WORD puis de regénérer la base pour que les nouveautés soient aussitôt accessibles au public. Il y a cependant une contrepartie : l'application de cette idée au projet de base hagiographique a impliqué, en plus de la collecte des sources historiques et de la rédaction des notices, une mise en œuvre précise qui fait l'objet de cette communication.

.02. LA PRODUCTION DE LA BASE DE DONÉES

1) Homogénéiser la rédaction des notices:

Le premier impératif d'une saisie informatique de données textuelles est la nécessité de fournir des documents homogènes. Il a donc fallu compléter la fiche papier distribuée aux étudiants ‑cette liste consignes indiquait les différentes étapes à respecter nécessaires lors de l'élaboration de la rubrique d'un saint‑car elle n'offrait pas un cadre formel suffisamment strict. Or, comme les intervenants sur la base devraient être nombreux, il faut prévoir des consignes de saisie extrêment strictes et en fait établir un modèle de fiche qui garantisse l'uniformité des renseignements collectés.

Les critères de saisie de nombreux termes ont été précisés :

  • Listes des abréviations autorisées.
  • Orthographe des noms de lieux. Nous avons pris comme référence la nomenclature de l'INSEE et opté pour l'ordre suivant : pour la France : nom de la commune en clair, nom du département, n° département ou nom de paroisse, diocèse, archevêché. Pour l'étranger : lieu-dit, commune, pays. Dans les cas de disparition de paroisses ou de communes, nous adoptons l'entité administrative du lieu-dit
  • Présentation des dates
  • Présentation des références bibliographiques
  • Présentation des citations.

Nous avons également précisé les différentes rubriques de la notice, ces dernières correspondant aux éléments retenus pour " décrire " un saint. Ce travail a abouti à un modèle WORD [3] qui est distribué aux étudiants lors qu'ils commencent la saisie informatique de leur fiche papier.... Notre modèle rappelle les rubriques de description des saints ainsi que les règles de saisie. Les rubriques apparaissent comme des titres et sont mis en valeur par des styles (Titre 1, Titre 2.Titre 5 ). Les consignes de saisies pour chaque rubrique apparaissent en clair, suivies d'un exemple (voir annexe 1). Les étudiants doivent compléter le modèle qui apparaît comme une grille de saisie puis enregistrer leur fiche au format WORD. C'est ce texte (mis au format HTML [4]) qui apparaîtra à l'écran lors d'une consultation par Internet.

2) Définir les thèmes d'interrogation:

La définition des thèmes d'interrogation doit être précisée avant de fabriquer les index. Cette étape n'est pourtant pas liée uniquement à la mise en œuvre informatique. Nous nous serions confronté à la même difficulté si le choix d'une édition papier avait été adopté : comment faciliter l'entrée d'un lecteur néophyte dans cet énorme corpus de données ? Quel aide pouvons nous lui offrir ? Il n'est pas facile de définir les thèmes de consultation lorsque le public intéressé ne présente pas un profil type :certains rechercheront par exemple les patrons des pilleurs d'épaves, d'autres s'intéresseront aux saints honorés lors d'un pardon, les chercheurs voudront trouver la référence d'un ouvrage rare.

Pour une édition papier, il est fort probable que nous aurions opté pour des index multiples : index des noms, index des lieux, index des patrons etc., par conséquent les tables d'index auraient occupé une part importante des ouvrages publiés et nous nous serions longuement interrogé sur le choix des thèmes. L'informatisation de l'application nous laisse face aux mêmes dilemmes. Deux écueils sont à craindre : d'une part, on peut définir un trop grand nombre de domaines d'interrogations, ce qui rend la consultation difficile puisqu'il faut alors lire une liste impressionnante de propositions de recherche. Au contraire, on peut limiter étroitement les thèmes d'interrogation de façon à permettre une consultation rapide mais cette option ne peut pas satisfaire les chercheurs. Pour l'instant aucun choix définitif n'a été arrêté. Il est même envisagé de produire ultérieurement deux modules d'interrogation au choix : un pour le grand public, l'autre pour les chercheurs; nous avons pour l'instant établi 16 thèmes pour l'interrogation (voir annexe 2).

.03. LE LIBRICIEL

Le libriciel n'est pas un logiciel finalisé, dans la mesure où il ne fournit pas toute une batterie de programmes orienté vers la production d'une application spécifique, à l'opposé d'un tableur qui propose des outils intégrés pour réaliser une feuille de calcul, ou d'un traitement de textes qui donnera les outils pour faciliter la saisie puis l'édition d'une texte. Actuellement le libriciel est la mise en œuvre, par l'intermédiaire de plusieurs outils, d'un concept tenant à la fois du livre et du logiciel et dont l'idée force est la permanence du texte. Le texte reste au coeur de l'application et ne subit aucune transformation apparente : un document tel qu'il a été rédigé par un auteur est déposé sur un serveur ‑ il n'est en aucune sorte réduit tant sur le plan intellectuel que formel (on retrouve la présentation mise par l'auteur) ‑ et il demeure accessible pour des mises à jour. On conserve alors la richesse et les nuances des informations, ce qui n'aurait peut-être pas été le cas si l'on avait du passer l'ensemble du corpus dans un logiciel de base de données relationnel. C'est ce texte lui même ‑ sans aucune transformation visible [5]‑ qui est communiqué au public consultant la base. Des outils d'interrogation, dont nous décrirons également la mise en œuvre, permettent la consultation.

Une macro relève les termes index: Lorsqu'une notice a été saisie à l'aide du logiciel WORD elle est indexée manuellement selon les entrées d'index définies par le groupe de travail. C'est l‘étape la plus longue du traitement : il faut parcourir toutes les notices, marquer manuellement les termes à indexer et définir l'entrée d'index correspondante.

Exemple d'indexation des noms de la fiche du saint Budoc (l'entrée d'index ainsi que le terme indexé apparaît entre accolade- ces informations sont masquées lors de l'affichage):

L'indexation porte actuellement sur 16 entrées différentes.Cette étape terminée, une macro WORD (une macro est un petit programme composé de commandes WORD) découpe le texte en " pages " (une page correspond à un saint) et calcule l'adresse " informatique " qu'aura chaque page sur le serveur. Elle relève ensuite pour chaque page tous les termes indexés qu'elle contient. L'ensemble (adresse et termes indexés) est enregistré dans un " fichier d'index " (voir exemple ci-dessous). Quand à la notice du saint enregistrée au format WORD, elle est convertie au format HTML par le programme RTFTOHTML [6]

Exemple du début du " fichier d'index " relevé à partir de la notice du saint Budoc.

http://www.uhb.fr/~lemeur_a/ICB/S01.htm

noms=Budoc;Budocus;Beuzec;Bieuzy;Budeaux;Buzet;Buzy;Buzock;Bezeuc;Buzeuc;Beuzeuc;Buzeu;Buzot;Bodeg;Bozeg;Bothmaèl

fête=6 décembre

qualité=Moine missionnaire;archevêque

loca_p=Côtes-d'Armor

loca_d=Beuzec-Cap-Caval;Finistère;Beuzec-Cap-Sizun;Finistère;Concarneau;Finistère;Plourin-Ploudalmézeau;Finistère;Porspoder;Finistère;Trégarvan;Finistère;Plomeur;Finistère;Beuzec-Cap-Sizun;Finistère

loca_par=Plomeur;Finistère

m_lit=chronique de Dol;Bréviaire de Dol de 1519;Supplementum missalis ad normam;psautier du XVè siècle de l'abbaye de Saint-Jacut-de-l'Isle;Missel du vice-chancelier Ynisan;Cartulaire de Quimperlé;Missel de Vannes;Bréviaire imprimé de Léon de 1516;Bréviaire de Saint-Brieuc de 1548

patron=pêcheurs d'épaves;pilleurs de côtes

reli=Saint-Barthélémy de Paris;Brech;Plourin

typ_ico=statues;sculptures;vitraux;fresques et peintures;orfèvrerie

On remarquera que l'adresse (URL) de la " page " consacrée à Budoc est suivie de l'entrée d' index " noms " qui a pour valeur toutes les variantes de son nom, puis de l'entrée d'index " fête " etc.

.04. CONSTRUCTION D'UNE BASE WAIS

La création du fichier d'index décrit précédemment est une des étapes indispensables pour la création d'une baseWAIS. Le logiciel FREWAIS-SF [7] développé à l'Université de Dortmund est un outil d'indexation et de recherche d'information client/serveur. Il permet la création de bases de données textuelles comportant des recherches par champ grâce la création de fichiers inverses concernant une partie des documents et non leur totalité. L'ensemble de données : notices et fichiers d'index vont donc être transformés pour prendre le format d'une base WAIS.

André Lemeur a développé un programme écrit en langage PERL qui construit, à partir de l'ensemble des données (les notices HTML et le " fichier index "), les fichiers intermédiaires nécessaires au programme FREEWAIS. De plus il génère l'interface d'interrogation en prenant en compte les index extraits du texte WORD par la macrocommande.

.05. LES OUTILS PERMETTANT LA CONSULTATION

Le dernier élément de l'application est un module qui permet l'interrogation de la base à partir d'un ordinateur relié à Internet.

La page d'accueil est un " frame " composé de deux parties :

La partie haute propose un menu comprenant 4 « offres » : Présentation(de la base) , Aide, Recherche simple, recherche avancée.

La partie basse de l'écran rappelle les partenaires du projet, et permet par un lien de rejoindre leurs sites respectifs.

La consultation par le module de recherche simple permet une rechche à partir de n'importe quel terme (recherche en texte intégral).

La consultation par le module de recherche avancée permet de lancer une recherche sur des termes correspondant aux entrées d'index que nous avons décrites précédemment (voir annexe 2).Lpour éviter les erreurs d ‘écriture, l'utilisateur peut consulter la liste des termes utilisables (bouton : »valeurs possibles »). La demande peut être rédigée de façon précise ( par exemple : Nom : " Budoc " ou Patronnage : " Pilleurs d'épaves ") ou en utilisant des le caractère générique qui permet une recherche approchée (exemple : nom : B* donne en réponse l'écran 3).. L'interrogation peut toujours se faire sur plusieurs critères reliés par les opérateurs « ET » ou des « OU ».

Si à la question posée par l'utilisateur correspond une ou plusieurs notices, l'utilsateur voit une nouvelle page à l'écran qui donne sous forme de liens hypertextes la liste des notices proposées. Il peut alors « ouvrir «  la ou les notices proposées afin de voir son contenu. Un nouveau frame est visualisé : dans la partie gauche se trouve le plan de de la notice choisie. Chacun des titre peut-être développé si l'on clique dessus. Le texte correspondant s'affice alors dans la partie droite de l'écran.

.06. CONCLUSION

Le « libriciel » fait du texte le pivot de cette application hagiographique. En cela il séduit l'historien qui retrouve son outil de travail habituel : « le traitement de texte » ainsi que ses habitudes de rédaction. Aucun nouvel apprentissage n'est requis et nos « apprentis historiens » ne se sont pas trouvés pas confrontés à des questions trop techniques (ce qui aurait été surement le cas si l'on avait géré cette application à l'aide d'un logiciel de bases de données). Le seul aspect technique laissé à l'historien est le marquage du texte nécessaire à la fabrication des index, mais cette pratique est généralement connue puisqu'elle est souvent exigée avant l'édition d'un ouvrage. Par conséquent la dialogue entre les historiens et les informaticiens a pu rester serein !

De plus, le texte présenté au public est vraiment celui de l'auteur puisqu'il ne subit aucun amoindrissement, on y retrouve son style et sa personnalité , en cela le « libriciel »apparaît véritablement comme un livre consultable à distance…livre qui peut toutefois suivre l'évolution de la pensée de l'auteur puisque les mises à jour sont autorisées.

Le concept de libriciel nous convainct donc, ce qui n'empêche pas les questions d'affluer maintenant que le projet a 4 ans et que le nombre de sainst augmente (120 notices, 2500 pages de textes). Nous les proposons à la réflexion :

  • Le balisage des notices par macro WORD a été remis en cause par le langage basic implanté dans les dernières versions de WORD. Ne serait-il pas plus judicieux de baliser nos textesavec un codage internationalement reconnu du type XML par exemple ?
  • Le passage RTF2HML est instable
  • Ne devrions nous pas réfléchir au passage de la base de données sous ORACLE ?

Une réflexion approfondie sur les choix techniques s'impose à nouveau après 4 ans d'expériences, nous discutons aussi de la faisabilité de ce type de projet « lourd » dans le cadre d'une université. Nous travaillons surtout avec des étudiants – ce qui veut dire un effectif certes volontaire et accrocheur mais « tournant » – or le projet nécessite actuellement la présence dans la durée d'un spécialiste de bases de données multi-média. Si nous ne trouvons pas de partenaires pour le soutenir, il nous semble bien impossible de continuer ce grand recensement des saints bretons.

.06. ANNEXES

1) LE FICHIER TABLE.TXT : description des index de la base des Saints
noms
Nom du saint
alphanumeric
fête
Date de fête :
Alphanumeric
qualité
fonction du saint :
alphanumeric
loca_p
lieu de patronage :
alphanumeric Typ_d
Type de dédicace
alphanuméric
loca_d
lieu de dédicace
alphanuméric
loca_par
lieu de pardon
alphanumeric
spe_ther
Spécialités thérapeutiques du saint
alphanumeric
objet
Objet ou animaux associés au saint
alphanumeric
m_lit
Mentions liturgiques
Alphanumeric
patron
Saint Patron
Alphanuméric
reli
Localisation des reliques
alphanumeric
typ_reli
type de reliques
alphanumeric
typ_ico
Type de représentation artistique
alphanumeric
loca_ico
Localisation des oeuvres artistiques
Alphanumeric
Anim
Animaux associés au Saint
Alphanumerique
P_asso
Personnages associés au Saint

2) Les étapes de l'application

[missing figure]

.07. NOTES

1. Merdrignac Bernard, « la place et le rôle des saints dans les migrations bretonnes », La Bretagne des origines, ICB, Rennes 1997, p38-49 ; ‑ la Vie des saints bretons durant le Haut-Moyen-âge, Rennes, 1993. Chédeville André, Guillotel Hubert, La Bretagne des saints et des rois, Rennes, 2ed., 1996.

2. CRHISCO :Centre de Recherche Historique sur les Sociétés et Cultures de l'Ouest ‑ CNRS 6040 ‑ Université Rennes 2

3. Un modèle est un document qui peut être utilisé comme archétype pour créer des éléments ayant les mêmes caractéristiques : même texte de base, même mise en page, mêmes styles, même mise en page ; etc

4. HTML : Hypertexte Marqued Language. Format des documents composant les pages du WEB.

5. L'ensemble du document est traduisible en HTML : les formatages des différents éléments (caractères, paragraphes), les tableaux, les listes énumérées, les illustrations (graphiques ou images) sont donc conservés

6. Programme qui permet la traduction en HTML d'un document mis au format RTF (reconnu par WORD).

7. Il appartient maintenant au domaine public.

Martine Cocaud,
"Maitre de Conférence;" Modern History and
Andre Lemeur, "Maitre de conferences"; Compouting
at Rennes 2 University (Britanny-France).
Martine Cocaud <martine.cocaud@Uhb.Fr>