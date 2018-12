Un texte de Rania Massoud

Avec les moteurs de recherche qui existent aujourd’hui en ligne, rien de plus facile que de trouver textes, enregistrements audio ou vidéo sur un sujet donné en français, en anglais ou dans tout autre langue internationale. Tel n’est toutefois pas le cas des langues moins répandues, comme les langues autochtones du Canada.

C’est dans cet esprit qu’a été lancé le Projet sur les technologies pour les langues autochtones canadiennes.

Travaillant en collaboration avec des chercheurs des universités de Carleton et de l’Alberta, ainsi qu’avec des personnes issues des communautés autochtones, le CRIM a été chargé de développer deux volets essentiels pour mettre en place ces outils technologiques.

Le premier volet consiste à segmenter des dizaines d’heures d’enregistrement provenant principalement d’émissions de radio en langues autochtones afin d’assurer la transcription textuelle. Cette étape sert surtout à distinguer la parole de la musique ou du bruit, d’identifier les langues parlées et de séparer les différents locuteurs pour aider les chercheurs en documentation des langues, comme l’explique Gilles Boulianne, chargé du projet au CRIM.

Le deuxième volet, s’adressant principalement aux communautés autochtones, porte sur la création d’un outil d’indexation servant à identifier et à organiser les contenus audio pour chacune des langues ciblées. Ainsi, une personne cherchant un enregistrement audio ou vidéo sur un événement particulier, une cérémonie ou autre, pourra facilement trouver le segment recherché grâce à cet outil de recherche.

Le cri et l'inuktitut d'abord

Par la suite, les chercheurs espèrent mettre en place un système de recherche par reconnaissance vocale capable de transcrire automatiquement le contenu audio. Un projet qui nécessitera « plusieurs années » selon M. Boulianne. « Pour le moment, nous n’avons que très peu d’enregistrements », explique-t-il dans une entrevue téléphonique. « On ne s’attend pas à avoir plus de 50 heures par langue, et ceci n’est pas suffisant pour en faire un système conventionnel de reconnaissance vocale », ajoute-t-il.

L’organisme sans but lucratif montréalais se concentre dans un premier temps sur deux des langues autochtones les plus parlées du pays, à savoir le cri et l’inuktitut. Les premiers résultats, attendus en mars prochain, serviront ensuite à développer des outils pour les 70 autres langues autochtones du Canada.

Selon le dernier recensement de Statistique Canada, 15,6 % de la population autochtone déclarait en 2016 pouvoir « soutenir une conversation dans une langue autochtone ». En comparaison, ce pourcentage était de 21,4 % en 2006, selon la même source. Statistique Canada souligne toutefois que « de nombreuses personnes, particulièrement des jeunes, apprennent des langues autochtones comme langues secondes », notant une hausse de 3,1 % entre 2006 et 2016.

Plusieurs défis linguistiques

La complexité des langues autochtones et les différents dialectes qui en découlent représentent les principaux défis de l’équipe de chercheurs du CRIM.

Le cri est une langue qu’on retrouve d’un bout à l’autre du Canada, mais elle compte une dizaine de dialectes au moins. Même le système d’écriture est différent. Gilles Boulianne

Par ailleurs, ces langues sont pour la plupart des langues dites « agglutinantes » – comme le turc, le coréen, le japonais, le basque ou même le swahili – dans lesquelles des phrases sont formées en joignant à la racine d’un mot un ou plusieurs suffixes appropriés. « Ainsi, un mot en inuktitut sera traduit en une phrase entière en anglais ou en français », souligne Patrick Littell, conseiller au CNRC dans une note publiée en août dernier.

Selon ce dernier, pour traduire la phrase suivante : « Bien qu’il n’ait pas beaucoup neigé, je ne vais pas sortir », par exemple, un Inuktitut utilisera deux mots : « Qanniqlaunngikkalauqtuqlu aninngittunga ».

Cette réalité rend la recherche basée sur les mots-clés plus difficiles, d'après Antonia Leney-Granger, agente de communications du CRIM. « Les dictionnaires pourraient ainsi s’étendre à l’infini si on prenait en compte toutes les variations possibles », dit-elle. « Détecter un mot spécifique quand le même mot peut être utilisé dans plusieurs contextes différents, c’est là tout le défi », ajoute-t-elle.

Ces nouvelles technologies devront être prêtes en mars 2020 et seront mises à la disposition des communautés sous forme de logiciel libre, selon le CNRC.