1. 主頁
  2. 科技

將人工智能技術結合 500 多種非洲語言

人工智能程式ChatGPT。

目前一個講少數民族語言的人,必須放下母語,改用英語,才能獲得科技。

照片:afp via getty images / Sebastien Bozon

RCI

------------

不列顛哥倫比亞大學語言學系的程式員兼學者阿德巴拉 Ife Adebara 說,人工智能發展迅速,卻把英語以外語言的人拋在后面。

阿德巴拉的使命,是讓非洲大陸的所有人都能使用他們的語言使用科技。

不列顛哥倫比亞大學語言學系的學者阿德巴拉(Ife Adebara)。

不列顛哥倫比亞大學語言學系的學者阿德巴拉(Ife Adebara)。

照片:Le site web de l'Université de Colombie Britannique.

阿德巴拉表示,目前一個講少數民族語言的人,必須放下母語,改用英語,才能獲得科技。

可導致語言瀕危

她說,這樣他們使用母語的機會會慢慢減少,長遠下去,可能會令語言瀕危。

她的項目名為 非洲為本自然語言處理(Afrocentric Natural Language Processing),致力為講非洲語言(包括斯瓦希里語 Swahili 和祖魯語 Zulu)的大眾提供工具、程式,并提高外界的意識。 

團隊至今已經在線發布了兩個語言識別程式,分別名 SERENGETI (新窗口)AfroLID (新窗口)

以下為阿德巴拉接受CBC采訪的精華。

讓非洲的聲音被聽見

問:什么是人工智能和非洲語言計劃?

阿德巴拉:我們的想法是用非洲人的本土語言為他們提供科技,那他們就可以用他們感覺最舒服的語言與科技互動。

問:你們正在研究哪些語言?

阿德巴拉:非洲有二千多種語言。目前我正在研究其中 517 種,來自非洲 54 個國家中的 50 個國家,日后還會增加,我的目標是盡可能使用非洲大陸上的語言。

非洲地圖。

非洲有 54 個國家,二千多種語言。

照片:Université de Montréal (PRAME)

有些"低資源語言",即沒有足夠數據來為人工智能建立經典語言模型的語言,令項目面臨挑戰。其中一個解決方法,就是將多種語言整合到同一個模型中,讓模型能從多種語言中學習,改善性能。但若要達到接近人類的準確度,仍然需要更多數據來實現。

問:為什么要確保非洲語言不會在這些科技發展中落后?

阿德巴拉:這有兩個原因。第一個是非洲有超過十億人,約占世界人口 17%。他們常被排除在全球對話之外,他們不知道別界的聲見,他們的聲音也沒有被聽見。 

另一原因是,許多非洲語言的語法非常特別,有時甚至是非洲大陸獨有的。如果在構建語言技術時,將非洲語言排除在外,那么這些技術就無法學習這些語言的特點。這對科技本身也非好事,因為這會令科技無法適應人類語言中存在的不同語法特征。

問:您希望這個項目能實現什么目標?

阿德巴拉:我希望這些技術能夠為普通非洲人所掌握和使用。這肯定會對教育產生長期影響。

他們可以用自己的語言訪問網絡上的信息,將一切翻譯成他們的語言。我希望日后大眾能用自己的語言獲取健康的信息,或是可以使用谷歌地圖。

CBC, Ali Pitargue et The Early Edition, adaptation en chinois par Donna Chan.

頭條