1. 主页
  2. 科技

将人工智能技术结合 500 多种非洲语言

人工智能程式ChatGPT。

目前一个讲少数民族语言的人,必须放下母语,改用英语,才能获得科技。

照片:afp via getty images / Sebastien Bozon

RCI

------------

不列颠哥伦比亚大学语言学系的程式员兼学者阿德巴拉 Ife Adebara 说,人工智能发展迅速,却把英语以外语言的人抛在后面。

阿德巴拉的使命,是让非洲大陆的所有人都能使用他们的语言使用科技。

不列颠哥伦比亚大学语言学系的学者阿德巴拉(Ife Adebara)。

不列颠哥伦比亚大学语言学系的学者阿德巴拉(Ife Adebara)。

照片:Le site web de l'Université de Colombie Britannique.

阿德巴拉表示,目前一个讲少数民族语言的人,必须放下母语,改用英语,才能获得科技。

可导致语言濒危

她说,这样他们使用母语的机会会慢慢减少,长远下去,可能会令语言濒危。

她的项目名为 非洲为本自然语言处理(Afrocentric Natural Language Processing),致力为讲非洲语言(包括斯瓦希里语 Swahili 和祖鲁语 Zulu)的大众提供工具、程式,并提高外界的意识。 

团队至今已经在线发布了两个语言识别程式,分别名 SERENGETI (新窗口)AfroLID (新窗口)

以下为阿德巴拉接受CBC采访的精华。

让非洲的声音被听见

问:什么是人工智能和非洲语言计划?

阿德巴拉:我们的想法是用非洲人的本土语言为他们提供科技,那他们就可以用他们感觉最舒服的语言与科技互动。

问:你们正在研究哪些语言?

阿德巴拉:非洲有二千多种语言。目前我正在研究其中 517 种,来自非洲 54 个国家中的 50 个国家,日后还会增加,我的目标是尽可能使用非洲大陆上的语言。

非洲地图。

非洲有 54 个国家,二千多种语言。

照片:Université de Montréal (PRAME)

有些"低资源语言",即没有足够数据来为人工智能建立经典语言模型的语言,令项目面临挑战。其中一个解决方法,就是将多种语言整合到同一个模型中,让模型能从多种语言中学习,改善性能。但若要达到接近人类的准确度,仍然需要更多数据来实现。

问:为什么要确保非洲语言不会在这些科技发展中落后?

阿德巴拉:这有两个原因。第一个是非洲有超过十亿人,约占世界人口 17%。他们常被排除在全球对话之外,他们不知道别界的声见,他们的声音也没有被听见。 

另一原因是,许多非洲语言的语法非常特别,有时甚至是非洲大陆独有的。如果在构建语言技术时,将非洲语言排除在外,那么这些技术就无法学习这些语言的特点。这对科技本身也非好事,因为这会令科技无法适应人类语言中存在的不同语法特征。

问:您希望这个项目能实现什么目标?

阿德巴拉:我希望这些技术能够为普通非洲人所掌握和使用。这肯定会对教育产生长期影响。

他们可以用自己的语言访问网络上的信息,将一切翻译成他们的语言。我希望日后大众能用自己的语言获取健康的信息,或是可以使用谷歌地图。

CBC, Ali Pitargue et The Early Edition, adaptation en chinois par Donna Chan.

头条