La transcription du linguiste au miroir de l'intelligence artificielle:  Réflexions à partir de la transcription phonémique automatique

MICHAUD, Alexis; ADAMS, Oliver; COX, Christopher; GUILLAUME, Séverine; WISNIEWSKI, Guillaume; GALLIOT, Benjamin

this issue

previous article in this issue

next article in this issue

Preview first page

Document Details :

Title: La transcription du linguiste au miroir de l'intelligence artificielle
Subtitle: Réflexions à partir de la transcription phonémique automatique
Author(s): MICHAUD, Alexis , ADAMS, Oliver , COX, Christopher , GUILLAUME, Séverine , WISNIEWSKI, Guillaume , GALLIOT, Benjamin
Journal: Bulletin de la Société de Linguistique de Paris
Volume: 115 Issue: 1 Date: 2020
Pages: 141-166
DOI: 10.2143/BSL.115.1.3289158

Abstract :
Les systèmes de reconnaissance automatique de la parole atteignent désormais des degrés de précision élevés sur la base d’un corpus d’entraînement limité à deux ou trois heures d’enregistrements transcrits (pour un système mono-locuteur), au lieu de dizaines d’heures pour les outils antérieurs. Au-delà de l’intérêt pratique que présentent ces avancées technologiques pour les tâches de documentation linguistique, se pose la question de leur apport pour la réflexion du linguiste. En effet, le logiciel réalise son entraînement sur la base de transcriptions fournies en entrée par le linguiste, transcriptions qui reposent sur un ensemble d’hypothèses plus ou moins élaborées, et plus ou moins explicites. Le modèle acoustique, décalqué (par des méthodes statistiques) de l’écrit du linguiste, peut-il être interrogé par ce dernier, en un jeu de miroir? Que peut nous apprendre la confrontation ainsi renouvelée avec le signal acoustique? La présente étude s’appuie sur des exemples de langue na (famille sino-tibétaine) pour illustrer la façon dont l’analyse d’erreurs permet une confrontation renouvelée avec les données. Quelques réflexions au sujet d’expériences de transcription automatique de la langue tsuut’ina (famille dene) sont également présentées.

Automatic speech recognition systems now achieve high levels of accuracy with relatively small amounts of training data: on the order two to three hours of transcribed speech, instead of tens of hours for previous tools. Beyond the practical usefulness of these technological advances for linguistic documentation tasks, use of automatic transcription also yields some linguistic insights. Acoustic models are built on the basis of the linguist’s transcriptions, and thus encapsulate linguistic hypotheses and assumptions. To what extent can acoustic models be examined in turn by the linguist? What can we learn from this renewed confrontation with the acoustic signal? The present study is based on examples from the Native language (Sino-Tibetan family) to illustrate how error analysis allows a renewed confrontation with the data. Among other benefits, error analysis allows for a renewed exploration of phonetic detail: examining the output of phonemic transcription software compared with spectrographic and aural evidence. Some reflections on experiments of automatic transcription of the Tsuut’ina language (Dene family) are also presented.

Download article