对于很多人而言,将电话号码添加到手机上是一件再普通不过的事了。没想到的是,这却让来自西非几内亚农村的Aissatou格外为难。
“我不会,因为我没上过学,不认识字。”她低声说道。由于缺乏正规教育,Aissatou不会用法语阅读或书写。本以为这并不会妨碍她使用手机的基本服务,然而,正如呈现在眼前的:Aissatou的手机“听不懂”她的当地语言。
这不由得让人产生疑问:人工智能(AI)系统应该理解人们(所有人)使用语言的方式吗?
无法识别的语言
西非人使用自己的语言已有数千年的历史,他们创造了丰富的口述历史传统,即通过将祖先的故事和历史观点生动地呈现出来,并传递知识和道德,为社区服务。
计算机可以轻松地支持这种口述传统。尽管计算机通常是为使用书面语言而设计的,但基于语音的技术确实存在。
然而,语音技术并不能“说”非洲人使用的2000种语言和方言中的任何一种。即便是苹果的Siri、谷歌助手和亚马逊的Alexa都不会“说”非洲语言。
事实上,世界上7亿文盲中的大多数人都无法享受移动技术带来的好处,除了接听电话等简单用途之外,他们无法使用像联系人管理或短信这样的简单功能。由于文盲往往与缺乏教育有关,因此他们无法使用一种通用的世界语言。
最需要语言技术的人无法获得语言技术,对他们来说,语音识别技术可以帮助缩小文盲与其他能从农业信息到医疗保健等获得有价值的信息及服务的人之间的差距。
为什么语音技术产品不能在非洲和其他当地语言中使用?这是因为人口较少的语言往往是商业优先权的牺牲品。而且,在技术产品和服务上拥有权力的群体常常会说同样的几种语言,这很容易让人忽视具有不同背景的其他群体。此外,在历史上开发过语音识别技术的研究实验室、公司和大学里,使用西非广泛使用的语言的人数严重不足。
多重挑战
众所周知,数字技术可能会对不同种族的人产生不同的影响,技术系统可能无法为不同用户提供相同质量的服务。
与此同时,商业优先级、权力和代表性不足都加剧了另一个关键性挑战:缺乏数据。
语音识别技术的发展需要大量的标注数据集。不识字的人从语音识别技术中受益最多,他们所使用的语言往往属于“资源匮乏”的类别,与“资源丰富”的语言相比,这类语言可使用的数据集很少。
目前,解决数据短缺问题最先进的方法是“迁移学习”,即将从资源丰富的语言学习到的知识,转移到资源匮乏语言的机器学习任务上。
然而,人们对实际迁移知之甚少,因此需要对迁移学习中使用的数据集的相关性、大小和质量之间的权衡进行更严格的调查。就目前的技术水平而言,未来10年,数以亿计的上网用户将不会使用其设备所提供的语言。
如果这些用户设法访问在线服务,他们无疑将无法享受使用通用世界语言的人所能享有的自动内容审核和其他保护措施带来的好处。
扩展语音识别的“语言”
科研人员目前正在努力解决这些问题。
最近,美国斯坦福大学计算机科学专业的研究人员专门为尼日尔—刚果语系的Maninka、Pular和Susu这三种资源匮乏的语言(7个国家总共有1000万人使用这些语言,其中高达68%的人是文盲)开发了第一个语音识别模型。
为了应对资源匮乏语言的挑战,研究人员使用了即便在资源匮乏语言中也可以使用的大量语音数据:无线电广播档案库。
他们为此项研究收集了两个数据集:一个是西非无线电语料库,包含了超过10种语言的142个小时的音频,并带有一个标记的验证子集;另一个是西非虚拟助理语音识别语料库,由1万段标注了4种语言的音频片段组成。
随后,研究人员创建了“西非wav2vec”,这是一种在嘈杂的无线电语料库上训练的语音编码器,并将其与作为基线的脸书(Facebook)语音编码器进行了比较,后者接受了6倍以上高质量数据的训练。比较结果表明,尽管西非无线电语料库规模小且噪音大,但全新的语音编码器在多语言语音识别任务中的表现与基线相似,并且显著优于基线在西非语言识别任务中的表现。
最后,研究人员为不识字且使用Maninka、popular和Susu三种语言的人设计了一个多语言智能虚拟助手原型。他们目前正在将其所有的数据集、代码和训练过的模型发布给研究界,希望它能促进这些领域的进一步发展。
“我们的目的在于为有道德的人工智能研究提供一条前进的道路,以服务于那些因数字鸿沟而处于最不利地位的人的需求。”研究人员如是表示。
未来可期
早期的计算机专家们知道,为了让编程能够为大众所接受,他们需要创建出便于人们学习的编程语言。即使在那时,第一批高级编程语言也还是高度技术化的。
如今,用户从多层抽象中受益:你不需要理解JavaScript就能在计算机上阅读文章,而且人工智能研究人员也不需要与汇编代码进行交互来推动计算机科学领域的发展。
不过,计算机还没有充分发展到能在某些社会中发挥作用的程度。
目前,语音识别模型仅能识别有限的联系人管理词汇。下一步,研究人员计划进一步扩大其词汇量,提供覆盖小额信贷、农业或教育等领域的词汇。不仅如此,他们还希望将其功能扩展到尼日尔—刚果语系及其他地区的更多语言,这样读写能力或说外语的能力将不再成为享受技术优势的先决条件。
大量无线电数据使得将编码器扩展到其他语言变得非常简单。“通过对语言家族进行更多语言的培训,这个语音识别模型可能会表现得更好。”研究人员充满信心地表示。
毋庸置疑,要创造出能理解成千上万种有丰富口语特征(比如语气和其他高级语义)的语言来理解口语交流微妙之处的计算机是很有挑战性的。不过,研究人员坚持不懈地探索、突破,让人们对未来充满期待。
毕竟,创新、获取和安全都要求技术能够使用世界上所有的语言。