Vous naviguez sur l'ancien site
Aller au menu principal Aller au contenu principal Aller au formulaire de recherche Aller au pied de page
Ici Radio-Canada Première

Contrôleur audio

Extension Flash Veuillez vous assurer que les modules d'extension (plug-ins) Flash sont autorisés sur votre navigateur.

Chargement en cours

L'animateur Mathieu Dugal
Audio fil du samedi 7 avril 2018

Les nombreux défis du traitement des données informatiques

Publié le

Un montage de deux photos montrant respectivement Marie-Ève Rancourt et Marie-Jean Meurs en train de parler au micro dans le studio de l'émission La sphère.
Marie-Ève Rancourt, professeure adjointe au département de gestion des opérations et de la logistique à HEC Montréal, et Marie-Jean Meurs, professeure au département d'informatique de l’UQAM.   Photo : Radio-Canada / Karl-Philip Vallée

Les données sont-elles le nouveau pétrole? Au-delà de leur valeur, les parallèles à tracer entre ces deux ressources sont peu nombreux, estiment deux professeures spécialistes des données. Marie-Ève Rancourt et Marie-Jean Meurs nous parlent du rôle important des humains dans le traitement de ces données pour les rendre utiles et des lacunes qu'il reste à combler pour les maîtriser.

Pour extraire la valeur intrinsèque d’un ensemble de données, il est essentiel de savoir comment l’aborder, puisque ces données sont rarement – voire jamais – neutres, font remarquer Mmes Rancourt et Meurs, de l'Université du Québec à Montréal (UQAM).

La façon dont elles ont été collectées, l’échantillon de population duquel elles proviennent ou leur origine géographique peuvent induire des erreurs ou des partis pris dans les résultats que l’on cherche à obtenir en les exploitant.

L’un des cas les plus frappants de cette réalité, selon Marie-Jean Meurs, est l’absence pure et simple de données dans certains contextes. La spécialiste donne l’exemple de l’encyclopédie en ligne Wikipédia, dans laquelle toutes les langues ne sont pas égales.

Des langues comme l’anglais, le français, l’espagnol, l’arabe ou le chinois sont bien représentées sur Wikipédia, grâce au nombre de locuteurs de ces langues ayant accès à Internet. Ces personnes écrivent une quantité importante d’articles, qui constituent autant de données potentielles pour les chercheurs et les entreprises.

« Maintenant, si vous allez vers des langues qui sont beaucoup moins présentes en ligne – notamment toutes les langues d’Afrique de l’Est ou de l’Ouest –, vous pouvez déjà imaginer que les analyses que vous allez pouvoir mener [...] seront forcément restreintes par rapport à des modèles où vous aurez beaucoup plus de données textuelles disponibles », indique Marie-Jean Meurs.

Vous avez accès aux données en fonction de la société qui les produit. En cela, la simple présence ou absence des données n’est déjà pas neutre.

Marie-Jean Meurs, professeure au Département d'informatique de l’UQAM

La place de l’humain auprès des algorithmes

C’est pourquoi l’humain doit occuper une place importante dans le traitement des données recueillies, ce qui est d’autant plus vrai dans le domaine de l’intelligence artificielle, croit Mme Meurs.

« En effet, quand on travaille avec des algorithmes d’apprentissage, la première des choses à faire, c’est de s’assurer que les ensembles de données qu’on manipule ont un certain nombre de qualités : la représentativité, la couverture, la diversité, énumère-t-elle. Est-ce que les données sont correctement nettoyées? Est-ce qu’elles sont significatives? Est-ce qu’on n’a pas oublié des paramètres? C’est un travail en soi qui est souvent mis sous le boisseau. »

Encore des défis à relever

Et pour améliorer la qualité des données, les forces en présence auraient avantage à s’entraider et à échanger, soutient Marie-Ève Rancourt. Cette professeure, qui collabore avec des organismes humanitaires pour les aider à traiter des données de façon efficace et à optimiser leurs opérations, constate que plusieurs souffrent du travail en silo qui est actuellement la norme.

« Après une crise [humanitaire], si chacun fait son évaluation des besoins ou de l’état des routes de façon séparée et garde l’information pour soi, et que les mille organisations qui sont sur le terrain font le même exercice de façon différente, on perd beaucoup de temps. Si l’on avait des mécanismes ou des plateformes qui faisaient en sorte que l’on favoriserait la collaboration et l’échange de données, ce serait beaucoup plus facile. »

Chargement en cours