Indexation et Musique

Bloomingdales Record Shop-1904

Il fut un temps pas si lointain où l’on s’échangeait des vinyles, des cds, des cassettes audio, des compilations enregistrées avec soin en écoutant la radio… si un morceau nous plaisait, il fallait attendre que l’animateur radio veuille bien annoncer le titre pour en connaitre l’auteur et si on le manquait, il fallait attendre une prochaine diffusion hasardeuse. Aujourd’hui la musique se partage en ligne, et on peut retrouver un morceau en quelques applications. Deezer, Spotify, Grooveshark, la musique s’écoute en streaming. Et la création musicale est d’autant plus prolifique que les genres se diversifient.

L’indexation des métadonnées musicales est devenue nécessaire pour informer, diffuser et retrouver la musique sur le net. Il est important de définir ce qui compose un morceau, quelles sont les métadonnées à prendre en compte pour indexer une musique. Nous verrons quels sont les enjeux de ces métadonnées, comment les indexer et qui s’occupe de classer tout ça.

Partie 1 : Les métadonnées

Avant propos, la petite histoire du MP3

Le MP3 est un format de compression audio qui fonctionne sur la base d’un algorithme capable de sélectionner certaines fréquences au détriment d’autres pour restituer un son qui parait original à l’oreille humaine mais qui est compressé afin d’alléger le poids du fichier audio. Ce format a été développé par  Karlheinz Bradenburg dans les années 90, et c’est Tom’s Dinner, la chanson de Suzanne Vega qui servira de test à ce nouveau format qui va bouleverser l’industrie musicale, et changer considérablement l’approche et l’écoute de la musique dans les années qui ont suivi.

Quelles métadonnées pour la musique ?

Les métadonnées sont toutes les données qui permettent de définir, de décrire une autre donnée. Musicalement, beaucoup de paramètres sont à prendre en compte, ceux qui permettent d’identifier une œuvre, ceux qui permettent de la qualifier, et ceux qui permettent d’aller plus loin dans la description. Le nom du titre, de l’artiste, de l’album, l’année, le label, le genre musical sont les données qui permettent d’identifier l’œuvre. Mais on pourra s’intéresser également aux élément intrinsèques du morceau, sa couleur (la tonalité), sa métrique, le rythme, la vitesse (bpm ou  battement par minute), les instruments, les solos… Enfin, il y a les données qui permettent d’aller plus loin dans la description, les paroles, les dates de concert, la biographie de l’artiste, les artistes similaires…

Afin de mettre un peu d’ordre dans tout ça on a essayé de créer des codes pour identifier les œuvres et les artistes.  En littérature, il y a l’ISBN ; en musique on trouve l’ISRC, l’ISWC, et l’ISNI.

L’ISRC ou International Standard Recording Code, est un code qui permet d’identifier les enregistrement musicaux ou phonogramme dans le monde entier.

L’ISWC ou International Standard Musical Work Code permet l’identification des œuvres musicales en tant que création unique intangible.

L’ISNI permet d’identifier au niveau international les identités publiques des personnes ou des organismes impliqués dans la création, la production, la gestion et la distribution de contenus intellectuels et artistiques ou faisant l’objet de ces contenus. Les personnes identifiées peuvent être, par exemple, l’auteur, l’éditeur, le traducteur, l’illustrateur ou le sujet d’une œuvre. L’ISNI est utile pour différencier les homonymes et éviter les erreurs orthographiques.

Les enjeux des métadonnées

Outre les questions d’ordre et de rangement, l’identification des métadonnées est nécessaire pour la redistribution des droits et la rémunération de toutes les personnes qui ont contribué à la création d’un morceau, en dehors des musiciens, on retrouve les producteurs, les techniciens, mais il peut également y avoir des droits sur les images présentes dans l’album. Il arrive fréquemment que sur les sites d’écoute de musique en ligne, les artistes soient mal référencés, en exemple la liste interminable des artistes inconnus qui ont chanté “piste 1” sur un album inconnu sur Grooveshark…  Si ici il s’agit de l’absence de référencement, on peut aussi se retrouver face au mauvais référencement, avec des problèmes orthographiques, erreurs, homonymes… (d’où l’utilité d’un code ISNI ).

En France, il existe deux grandes bases de données discographiques dans le service public, celle de la BNF et celle de Radio France. Le catalogue de la BNF présente des informations centrées sur le disque ainsi que quelques informations sur l’interprète, celui de Radio France est réservé en intranet. Cependant, ces deux bases ne communiquent pas entre elles, et chacune s’occupe de remplir sa base de son côté. Il est regrettable qu’elles ne collaborent pas pour mettre ne place en place une base d’information commune sur la musique en France.

A l’international, le projet du  Global Repertoire Database avait été initié à la suite d’une demande de la Commission Européenne en 2009 avec l’objectif de rassembler divers acteurs de l’industrie musicale – des éditeurs, des associations d’auteurs, des sociétés de perception et des fournisseurs de services numérique – pour créer une base de données globale des répertoires d’œuvres musicales. Le projet a été abandonné en juillet 2014.

Partie 2 : Classification des documents sonores

Avant-propos, la petite histoire de Wolfgang Schmieder et les BWV

Dans les années 50, le musicologue Wolfgang Schmieder a mis en place le Bach-Werke-Verzeichnis, ou le catalogue des œuvres de Johann Sebastian Bach. Il a établi un classement thématique et non chronologique des œuvres de Bach. Par exemple, le BWV 847 correspond au 2ème prélude et fugue en do mineur du premier livre du Clavier Bien Tempéré. Ce catalogue est aujourd’hui une référence internationale pour le classement des œuvres de Bach.

Méthodes de classification

En matière de classification de la musique, plusieurs méthodes coexistent et différent selon le besoin de classement. En bibliothèque, l’utilisation de la Dewey est possible mais elle connaît des limites, et s’adapte plutôt à la musique classique. En France, depuis 1983, les bibliothèques utilisent plutôt les Principes de Classement des Documents Musicaux qui correspondent mieux aux attentes des utilisateurs. C’est une classification décimale qui rassemble 10 grandes catégories ( de 0 à 9 ), elles même divisées en sous-catégories qui permettent de trouver une cote à chaque disque.

Sur le web, il existe plusieurs méthodes également : l’indexation collaborative et l’indexation automatisée.

L’indexation collaborative fonctionne avec les folksonomies. La webradio communautaire Last.fm propose aux utilisateurs de taguer la musique, cette indexation participative permet d’obtenir un référencement de la musique assez précis, bien que parfois personnel et erroné. Ce référencement permet au site de proposer une liste d’artistes similaires susceptibles d’intéresser l’utilisateur. La recherche par genre est également possible et permet de découvrir des artistes dans le genre et les genres associés.

D’autres sites utilisent les tags mais ce sont des professionnel qui se chargent de l’indexation. C’est le cas de Musicovery créé par deux français, Vincent Castaignet et Frédéric Vavrille en 2006, leur but est de proposer de la musique selon une ambiance sélectionner au préalable par l’utilisateur. On peut choisir entre 16 grandes catégories, définir une époque, de n’écouter que des hits ou bien faire des découvertes, et enfin, choisir une ambiance ( énergique, calme, sombre, positif ). Selon l’endroit où on place le curseur sur la carte, le site va proposer une sélection musicale qui met en relation tous les éléments sélectionnés.

Capture

Capture de la plateforme Musicovery qui propose d’écouter Devo !

Parmi les sites musicaux français, la plateforme Blitzr est en train de se faire une place au sein de la communauté des sites de musiques en ligne. De leur côté, ils ont décidé de mettre en place un système de recherche sémantique pour offrir l’information la plus complète sur l’univers musical des artistes (biographie, dates de concert, artistes similaires…).

Une autre technique d’indexation consiste en l’extraction automatisée des données. L’IRCAM ( Institut de Recherche et Coordination Acoustique / Musique ) travaille sur divers projets d’indexation automatisée de la musique pour développer des méthodes d’extraction automatique de caractéristiques musicales d’un morceau de musique ( tempo, tonalité, métrique …) qui permettent le classement automatique d’un morceau et la recherche par contenus. Des méthodes de reconnaissances d’extrait musicaux, d’estimation de la structure temporelle d’un morceau, et de création automatique de résumés audio y sont également développées.

Le secteur de la musique en ligne n’a cessé d’évoluer ces dernières années. De nombreuses plateformes sont apparues, d’autres ont disparues. La question de l’indexation et du référencement est devenue un enjeu majeur. Les initiatives sont nombreuses et toujours plus innovantes. Si on peut regretter l’abandon du projet de plateforme globale (GRD), on peut espérer que les idées et les connaissances qu’il avait rassemblé seront récupérées et agrémentées par d’autres et qu’une ultime plateforme verra le jour.

Enfin, si les supports ont beaucoup évolué, que certains craignent la disparition de l’objet d’écoute, on peut se féliciter de voir qu’ils n’ont pas complètement disparus, et reviennent même à la mode, c’est le cas du vinyle par exemple, qui offre une qualité d’écoute que le MP3 n’égalera jamais…