Outils et pratiques
de la création sonore (suite)
Descripteurs et gestion de bases de données sonores - par Geoffroy Peeters
Dès lors que l’on doit avoir accès à d’importantes bibliothèques de sons, d’extraits musicaux ou d’œuvres, se pose la question de l’indexation de ces éléments. Il s’agit par exemple de trouver des descriptions si possible simples mais discriminantes permettant le choix ultérieur d’échantillons correspondants à un besoin donné, exprimé par exemple en langage courant.
Ou encore, à partir d’un échantillon sonore connu, de trouver une famille de sons qui s’en rapprochent, selon certains critères. Une problématique qui peut de prime abord paraître un peu «administrative», mais qui repose sur des algorithmes pointus d’analyse de signal et des moteurs de recherche assez sophistiqués.
Il existe tout d’abord diverses approches permettant de classer des sons et de peupler des bases de données, l’automatisation de telles tâches devenant vite indispensable s’il on veut construire d’importantes bibliothèques. L’Ircam est actif dans l’élaboration des moteurs d’analyse et dans la construction des bases à proprement parler (applications Studio On Line, Sound Palette, projets Sample Orchestrator, Quaero). L’indexation automatique des enregistrements sonores peut faire appel à des modèles d’apprentissage automatique (par la machine) ou être supervisée par l’être humain.
Au-delà des simples critères bibliographiques (titre, date, exécutants de l’œuvre), de format (codage, informations de résolution), ou de description sommaire de contenu, on doit donc trouver des déterminants efficaces. Il faut ensuite définir des modes d’accès permettant une recherche efficace.:
- Approche causale : quel est l’instrument qui a produit le son ? Cette approche trouve ses limites pour les sons environnementaux, les bruits, et évidemment les sons purement synthétiques…
- Approche sémantique : quel est le message véhiculé par le son (qui peut être celui d’une cloche, d’une alarme,…) ?
- Écoute réduite : quelles sont les caractéristiques sonores de l’objet enregistré ? Cette description intéresse par exemple les designers sonores. Elle s’effectue en partie selon le profil morphologique des sons (exemple : son de longue durée, de nature métallique, de dynamique croissante et de fréquence ascendante), de leur profil mélodique ou encore de leur profil dynamique (attaque, hauteur, spectre, spatialisation, texture, etc.…)
- Approche par l’évocation des matériaux qu’un son suggère (bois, métal, papier, air, feu,…)
- ou encore description par onomatopées…
On peut ensuite procéder à une recherche par classes (mono ou multicritères), ou, s’il on dispose d’un échantillon cible, à une recherche par similarités (morceaux de même timbre, de même harmonie, de même rythme).
Notons également l’existence d’applications de délinéarisation de programmes, consistant, à partir par exemple d’un programme radio de longue durée, à identifier automatiquement les séquences de parole, de musique. Puis de décomposer encore la structure des extraits musicaux et ce pratiquement jusqu’à une analyse note à note…
Dans les cas des échantillons monophoniques d’instruments de musique, il est montré (expériences perceptives) que le timbre d’un son peut être décrit à l’aide des paramètres suivants (on retrouve certains des critères introduits par Pierre Schaeffer dans les années 60) :
- l’attaque d’un son, caractérisée par le logarithme de son temps de montée,
- son degré de brillance, lié à la notion de centroïde spectral. C'est-à-dire le point d’énergie moyen du spectre, représenté par la moyenne des fréquences fondamentale et harmoniques qui le composent, pondérées par le niveau relatif de celles-ci (Exemple : un son de trompette est plus brillant que la même note jouée au hautbois),
- sa richesse spectrale.
Ce dernier paramètre reste le plus complexe des trois et n’a encore pu être «réduit» en composantes plus élémentaires. Pour l’instant, cette notion englobe elle-même les trois aspects suivants :
- la déviation spectrale, ou répartition entre les harmoniques paires (sons boisés) et impaires (son métalliques),
- la variation temporelle du spectre,
- l’étendue spectrale, liée à la quantité d’harmoniques présents dans le son.
On décrit ensuite les sons dans des espaces multidimensionnels, chaque dimension étant associée à un descripteur chiffré (valeur numérique fonction du temps). Dans le cas simple où l’on dispose des deux critères attaque et brillance, on représente chaque échantillon sonore par un point sur un graphe en 2D. Et l’on constate que les différentes familles instrumentales se regroupent en nuages de points relativement distincts les uns des autres. Alimenté par un signal d’entrée donné, l’ordinateur peut alors reconnaître automatiquement dans quelle famille d’instruments on se trouve et affiche une localisation de l’échantillon dans le graphe. A l’inverse, on peut naviguer dans le graphe, traverser les nuages de points et se livrer à une écoute exploratoire des sons rencontrés.
Ces algorithmes permettent donc de répondre à des problématiques fondamentales pour les compositeurs d’aujourd’hui et pour les créateurs d’environnements sonores : Comment trouver le son adapté à une situation donnée ? Comment créer un son à partir d’une «simple» description multicritères ? Ou encore, partant d’un son synthétique, où d’un échantillon de bruit, comment le reproduire à partir d’une combinaison de sons instrumentaux.
Synthèse granulaire et par corpus - par Diemo Schwarz et Norbert Schnell
Cette approche relativement nouvelle de la synthèse sonore est basée sur l’accumulation d’une grande collection de sons, segmentés en petites unités (corpus granulaire), et indexés par des descripteurs sonores (mentionnés dans la présentation précédente).
Dès lors que l’on dispose d’une base suffisamment riche, l’utilisateur peut fournir une cible (échantillon sonore ou description de plus haut niveau) que le synthétiseur concaténatif tente de (re)produire en juxtaposant des sons élémentaires de la base (avec un léger recouvrement temporel). On conserve ainsi dans la synthèse les notions de textures, de richesse sonore et d’imperfections de jeu propres à la production des sons réels.
Cette approche est plus pragmatique que d’autres formes de synthèse sonore basées sur une modélisation ou un calcul de forme d’onde. Elle requiert une moindre puissance de calcul, mais nécessite la mémorisation d’une grande quantité de sons. A titre d’exemple, tous les systèmes actuels de synthèse de la parole sont peu ou prou de type concaténatif.
Les thèmes et domaines d'application de cette méthode sont variés, et trouvent leur utilité dans les domaines du design sonore, des installations et performances artistiques, du théâtre, des concerts…. On peut citer :
- l’exploration sonore dans un nuage de points déjà mentionnée plus haut, - la re-synthèse d’un son donné (mosaicing),
- la synthèse de textures sonores à partir d'un ensemble d'instruments. Dans l’exemple écouté en séance (bruit de la pluie tombant sur des feuilles) l’application CataRT détermine à l’aide d’un corpus de sons instrumentaux l’effectif instrumental et la partition nécessaires à la resynthèse (imitation) de la séquence, en incorporant des modes de jeux étendus (pizzicati, grattements, frottement, claquements),
- la synthèse d’instruments d’orchestre avec un niveau élevé de qualité sonore est également possible grâce à l’application Synful (plug-in de synthétiseur logiciel).
Cette forme de synthèse peut également constituer un outil d’improvisation par enrichissement d’une base et re-synthèse en temps réel à partir de sons produits en concert…
Max for Live - par Emmanuel Jourdan
Max/MSP est un logiciel désormais légendaire développé à l’Ircam au milieu des années 80, et régulièrement enrichi depuis. Les développements actuels sont assurés intégralement par Cycling '74, entreprise basée en Californie.
Max/MSP est présenté par ses concepteurs comme «un environnement visuel pour la programmation d'applications interactives temps réel». Plus précisément, c’est aussi une boîte à outils complexe et programmable permettant de modéliser une infinité de fonctions d’analyse, de synthèse, de traitement en temps réel du son et des systèmes qui s’y rapportent. Et c’est également un outil permettant de gérer, au cours du déroulement d’une œuvre musicale par exemple, l’interactivité avec des dispositifs de captation (du son, du mouvement) et le déclenchement d’événements (sonores ou visuels).
Autant dire que cet outil aux possibilités multimédia illimitées nécessite une formation conséquente, et des compétences de programmation certaines de la part de ceux de ses utilisateurs qui souhaitent créer eux-mêmes leurs modules de traitement sonore, sans se reposer exclusivement sur la bibliothèque de fonctions existantes (MSP).
Entre autres choses, des fonctions élaborées avec Max/MSP permettent aujourd’hui de réaliser le suivi automatique de partition (qui permet de déclencher tous types d’événements, sonores ou non, au moment voulu de l’exécution d’une œuvre) ou encore ce que l’on pourrait appeler «l’incitation à l’improvisation» (OMax).
Avec ce dernier outil, un composant Max écoute un musicien, extrait de son jeu des descripteurs de haut niveau, et fournit en flux continu ces informations à un composant OpenMusic (environnement de programmation visuel pour la création d'applications de composition assistée par ordinateur). Ce dernier reconstruit incrémentalement un «modèle de jeu», tout en générant continûment des improvisations grâce à une architecture concurrente. A ce propos, signalons le concert du 11 février dans le cadre du Colloque Ircam «Analyser l'improvisation».
Depuis plusieurs années, Cycling '74 développait Pluggo, un plug-in comprenant des modules de traitement du son, de synthétiseurs, de générateurs Midi créés à partir de Max. Ce plug-in était importable dans un grand nombre de logiciels audio : Logic, Live, Protools, etc… Les dirigeants de Cycling '74 ont préféré mettre un terme aux évolutions de Pluggo, qui était devenu très difficile à maintenir. En contrepartie, à l’issue d’un développement long de quelques trois années, Max 5 est devenu, depuis novembre 2009, intégrable dans un unique logiciel, d’usage très répandu : Live d’Ableton.
Live est un logiciel très puissant assimilable à un séquenceur, qui permet d’importer des séquences sonores, d’y appliquer des traitements, de les mettre en boucle en ajustant hauteur et tempo, d’en faire des échantillons de samplers Midi, etc. Les différents effets et déclenchements sont en outre contrôlables via le clavier ou via des surfaces de contrôle, ce qui fait de Live une des applications préférées des musiciens de la scène «électronique».
Avec Max for Live, le séquenceur s’enrichit désormais des innombrables possibilités offertes par la modularité de Max. Les modules de traitement sonore créés dans Max sont importables directement dans Live, où ils s’ouvrent comme un périphérique supplémentaire. Ils offrent dans Live la possibilité de paramétrer en temps réel les effets appliqués au son.
En fin d'après-midi, Pierre Bensusan (élu meilleur guitariste de world music en 2008 par la revue américaine Guitar Player Magazine) se livrait avec humilité à un jeu de scène auquel peu de musiciens sont amenés à participer. Ce dernier était venu avec sa guitare électro-acoustique (amplifiée par le système de sonorisation de la Grande Salle de l'Ircam) et une pédale lui permettant de contrôler un effet de réverbération initialement destiné à donner plus de profondeur et d'immédiateté à son jeu.
Mais le guitariste prodige était vite amené à alterner morceaux amplifiés et morceaux purement acoustiques (sans amplification ni effet), qui remportaient largement la préférence du public. Une manière de démontrer que, même dans une grande salle, l'écoute très attentive et silencieuse que requiert une performance acoustique est en elle-même un facteur d'intérêt non négligeable.
Noter que toute l'information sur les logiciels Ircam se trouve à l'adresse http://forumnet.ircam.fr/
Signal sur bruit remercie les auteurs des présentations pour leur relecture
Crédits photo : Jean-José Wanègue
Lire la suite...
Retour page précédente