L’indexation du livre numérique

L’indexation du livre numérique

 

livre numerique

L’avènement du numérique dans nos pratiques quotidiennes a entraîné un changement dans nos habitudes. Les médias, auparavant sur papier (journaux, magazines, livres), peuvent désormais se lire sur des supports électroniques

Pour les professionnels de l’information, le numérique est surtout synonyme de modification des méthodes de travail. Les outils de lecture se sont diversifiés : lire devient maintenant possible sur un ordinateur, une tablette, une liseuse ou encore sur l’écran d’un téléphone

Pour que cette multitude de choix de supports reste optimale, les formats des médias doivent eux aussi s’ajuster aux supports de lecture. Le documentaliste devient alors le médiateur de toutes ces technologies. Il est là pour comprendre, classer et retrouver l’information pour les personnes qui en ont besoin, pour les aider dans leurs recherches et rendre leur lecture plus agréable et sans soucis

Techniquement, un document est considéré comme numérique s’il est créé directement sur un support numérique (un texte créé à l’ordinateur par exemple), ou s’il est suivi d’un processus de numérisation (un texte écrit sur papier mais scanné et numérisé).

Pour la lecture numérique, c’est la même chose, même s’il n’existe pas de consensus sur la définition propre d’un livre numérique. Il est censé transposé une œuvre papier sur un support électronique.

L’ambiguïté qui résulte des termes « livre numérique » vient du fait que cela désigne à la fois le contenant – le support servant à lire (liseuse,e-reader,lecteur) – mais aussi le contenu, c’est à dire le texte, le discours inscrit (avec sommaire, introduction, chapitres…).On trouve beaucoup de termes regroupant cette notion mais ebook et livre électronique restent les plus populaires, le JORF (journal Officiel de la République Française recommande depuis le 4 avril 2012 les termes « livre numérique »

Il existe deux types de livres numériques : le livre homothétique et le livre enrichi

Le livre homothétique reproduit à l’identique les propriétés du livre papier, quant au livre enrichi (ou livre applicatif), il est agrémenté de contenus multimédias (comme du son ou des vidéos pour renforcer la lecture.

Cette révolution du numérique a provoqué des mutations de supports et de formats pour cette activité de lecture électronique et la question de l’indexation se pose tout naturellement

Comment indexer ces nouveaux documents numériques ? De quelle manière peut-elle aider le lecteur dans ses recherches ? Comment les professionnels de l’information se sont-ils adaptés à ces changements technologiques ?

L’indexation c’est un procédé consistant à repérer dans un texte certains mots ou expressions particulièrement significatifs dans un contexte donné.

L’important pour indexer des livres numériques est de savoir ce que va rechercher le lecteur, ce qui sera primordial pour lui !

Le plus souvent le lecteur va vouloir trouver le nom d’un personnage, une date ou un épisode précis dans le livre, et les moteurs de recherches ne sont pas forcément conçus dans cet esprit-là.

Pour l’essayiste américain Peter Meyers, l’index dans un livre numérique reste particulièrement utile pour trouver un terme particulier. Il est d’une aide précieuse pour découvrir le contenu d’un texte.

Or celui-ci est majoritairement remplacé par un moteur de recherche moins performant pour la recherche d’information dans un livre électronique sachant que les liseuses ne sont pas programmées pour cela.

La dématérialisation permet aux documents d’être traités automatiquement grâce à l’informatique. Ceci va optimiser l’indexation du document – ici le livre numérique – en étant plus exhaustive elle rendra des résultats plus pertinents au lecteur qui entamera une recherche sur ce livre.

Pour cela, deux modèles d’indexations existent : par type et par mots clés

La responsable du pôle Edition du CLEO présente un logiciel d’édition électronique Loden 15 son principe est basé sur l’indexation par moteur de recherche. Tous les livres sont diffusés sur internet en format HTML, PDF et epub permettant d’être lus sur tous les navigateurs web et sur la plupart des supports de lecture.

Pour que le livre numérique homothétique que nous avons vu plutôt soit le plus manipulable par l’utilisateur, une interactivité de la navigation intérieure, de la table des matières et surtout de l’index du livre est appliquée. Grâce au langage XML les structures du livre (titre, texte, bibliographie…) sont décrites plus précisément. Aussi, ce balisage de métadonnées telles que le titre, le nom de l’auteur, ou encore l’ISBN facilitera l’indexation des données par les moteurs de recherche quand le livre sera diffusé sur internet.

La multiplicité des ressources numériques (non indexées) rend urgent l’indexation automatique ou humaine selon les spécialistes de l’information et de la documentation. Un système d’indexation cohérent permettrait d’éviter les redondances de l’information.

Un processus de normalisation de l’indexation est nécessaire selon ces spécialistes, particulièrement dans le domaine des ressources pédagogiques où la plupart de l’indexation des métadonnées se fait selon le standard LOM (Learning Object metadata). C’est un modèle conceptuel des données et de vocabulaire de référence présent dans de nombreuses universités dans le monde, il est utile aux enseignants et aux documentalistes pour repérer et garantir la pérennité des ressources utilisées.

Concernant l’indexation automatique, les réflexions sur ce sujet tournent autour des moteurs de recherches automatiques de l’information. Catherine Leloup consultante à l’ADBS, distingue cinq grandes fonctions de ces moteurs : « extraction, typage des concepts, proximité des concepts entre eux comparaison et catégorisation de ces concepts». Aujourd’hui, le fondamental n’est pas le développement d’autres moteurs de recherches et d’indexation mais le fait d’avoir une utilisation plus méthodologique de ces outils de recherches et de traitement de l’information.

Puisque la nature du document a changé, de papier il est devenu numérique, la manière de l ‘indexer a également évolué. Et même si l’indexation automatique reste très utile, joindre une indexation manuelle dans certains cas reste une question que les professionnels se posent.

Bruno Bachimont (directeur scientifique à l’INA), propose l’utilisation conjointe de deux types d’indexation : une basée sur les données avec le format XML et les outils du web sémantique (ontologies) efficace pour la recherche automatique par les machines, et une indexation « documentaire » présentant des informations enrichies regroupées dans un index par rapport au document initial.

Plusieurs projets ambitieux de numérisations des livres ont éclos depuis 40 ans. Le premier à l’initiative de Michael Hart un étudiant américain qui voulait numériser le plus grand nombre possible d’ouvrages du domaine public pour les diffuser au public sous forme électronique. Il avait pour nom le Projet Gutenberg. L’ensemble des œuvres ainsi numérisées seraient stockées dans une bibliothèque numérique, pour être accessible aux personnes grâce à une interface de recherche et de consultation des livres. Cette envie de mettre à disposition de tous la littérature s’est considérablement épanouie y compris en Europe, plus de 40 langues différentes sont représentées dans ces livres numérisés. En France, la bibliothèque nationale lance le projet Gallica en 97, et des centaines de milliers de documents sont numérisés et peuvent être vus gratuitement par les lecteurs.

Certaines bibliothèques proposent même une indexation collaborative : ce sont les lecteurs qui indexent des ouvrages numérisés ou natifs de l’internet.

Le moteur de recherche américain Google lance à son tour un grand chantier de numérisation de livres « Google Book search » où là encore avec ses partenariats dans de nombreuses bibliothèques dans le pays et en Europe, des milliers d’ouvrages sont recensés et mis à la vue de tous.

Chaque mot de chaque livre est indexé afin de permettre au lecteur de faire des recherches simplifiées et précises sur les termes qu’il souhaite. L’identification des mots et des expressions apparaissant dans un livre fait partie des services que propose Google Book. De cette manière le lecteur pourra être orienté vers le livre qui comprend le terme, le concept recherché par l’utilisateur.

La bibliothèque de Stanford prévoit pour son projet de numérisation, d’utiliser un extracteur sémantique pour définir les termes taxonomiques permettant par la suite d’indexer les sujets du livre et non plus les mots. Des comparaisons entre les différents livres pourront être faites et la recherche de l’usager sera plus pertinente. Cependant la recherche par association de mots reste d’actualité.

Avec l’avènement du numérique, les livres ont encore une place auprès des lecteurs passionnés.

Grâce à une indexation basée sur les métadonnées qui composent le document, les moteurs de recherches vont pouvoir retrouver l’ouvrage parmi les millions de livres enregistrés sur le web et ressemblant à la requête demandée.

La publication numérique demande de la rapidité et de l’efficacité en ce qui concerne la recherche d’information. Les professionnels du livre doivent sans cesse s’adapter à ce mouvement, ils doivent se demander quels sont les besoins des lecteurs. Que recherchent-ils lors qu’ils lisent un ebook ? Comment rendre cette activité-là plus facile et la plus agréable possible ?

Les réflexions autour de l’indexation des documents numériques ne cessent d’émerger : manuelle ou automatique, par type de sujet ou par mot … ? La demande du lecteur reste la priorité des chercheurs et des professionnels qui travaillent à l’élaboration et la diffusion du livre numérique.