人脑启发AI设计：让神经网络统一翻译语音和文本

发布者：梁刚健发布时间：2023-02-13浏览次数：412

原文链接：https://mp.weixin.qq.com/s/pWf6162rTX845FHhejZq-Q

能够统一地理解语音和文本，是人类能够形成通用语言能力的重要原因。那么，人工智能是否也能如此？最近，来自字节跳动和UIUC的研究人员借鉴这一思路，设计了一个跨模态的翻译模型——Chimera（奇美拉）。它不仅在一项标杆性语音翻译任务中获得高分，其可视化结果也证实了这一机制能更好地理解人类语言。

论文：Learning Shared Semantic Space for Speech-to-Text Translation / 在语音翻译任务中学习共享的语义空间 (ACL Findings 2021)

Arxiv链接: https://arxiv.org/abs/2105.03095

Codes: https://github.com/Glaciohound/Chimera-ST

研究背景：人脑对语音和文本的统一理解

你在看书打字的时候，是不是也喜欢来点音乐？那你可曾思考过，文字工作时最适合的 BGM 是什么？科学家们会告诉你，是不带词的纯音乐[1]。你肯定也常常有这种感觉：你欣赏着优美的歌词和富有磁性的嗓音，结果半天一个字也看不进去。

先别急着埋怨自己，这其实是你大脑的锅。科学家们早就意识到，语音和文字信号进入大脑后，会共享一部分处理路径，所以听歌词很容易干扰你的阅读。而相关的探索，可以追溯到一百多年前一个年轻人的意外发现。

韦尼克-格施温德语言模型

图1：卡尔·韦尼克，图源：维基百科

1874年，卡尔·韦尼克（Carl Wernicke）正在著名神经病理学家西奥多·梅内特（Theodor Meynert）手下学习。他记录下两位奇特的病人。他们好像患有某种语言表达障碍，但症状和典型的表达性失语症截然不同：他们说话写字其实都很流畅，但净是些胡言乱语。比如一位病人这样表达他的病况[2]：

"What's wrong with me was because I ... was myself until the taenz took something about the time between me and my regular time in that time and they took the time in that time here and that's when the the time took around here and saw me ..."

……不能说是胡说八道，只能说是毫无意义。韦尼克最终试着将这种症状（现称感觉性失语症）归因于颞叶后部和顶部（现称韦尼克区 Wernicke's Area）的脑损伤。它破坏了病人的语言理解能力，所以患者常常说着写着就忘了：“我要说啥来着？”

受此启发，韦尼克提出了早期的神经学语言理论 Wernicke-Geschwind 模型（图2）。他猜测，语音和文本在大脑中先被分开识别，然后在韦尼克区完成统一的理解。感觉性失语症就是因为病人韦尼克区的理解出了毛病，而表达功能却完好无损。

图2：经典的 Wernicke-Geschwind 语言模型，图源：维基百科

这个模型现在早已过时，但它从此激励着后世研究者去探索大脑中语音和文本的关系。

来自认知神经学的证据

自从神经影像学兴起，科学家们能更加细致地观察大脑活动。近几十年的众多研究都佐证了大脑中语音-文本“汇合区”的存在，这些区域同时负责着对语音和文本的理解。

如2013年，Christopher J. Honey 等人邀请38名志愿者听或看一个小故事《酪饼侠》[3]。MRI结果精确地指出，在颞上回（韦尼克区附近）和楔前叶的一些区域对语音和文本都有响应（图3B）。更令人惊异的是，语音和文本引起响应的时间模式也非常相似（图3A），这和古老的猜想不谋而合。

图3：语音和文本信号在大脑中的时空相关性 [2]

另一些研究通过对比不同人的阅读测验分数和汇合区的面积，又证明了这二者呈正相关[4]。在2018年，Wilson等人更是发现这些汇合区的确对语言有理解能力：它们可以分辨句子的句法，而对没有意义的内容则不作响应[5]。基于长久以来的研究结果，他们尝试绘制了一幅人脑中语音-文本的处理模式图（图4）。至此，神经学家们对这一谜团的百余年探索终见光亮。

图4：颞上回里的语言-文本处理模式图 [4]

现在的问题是：这样的设计也会适用于人工智能模型吗？

试验场：语音翻译

在观看《看不见的客人》（Contratiempo）之类的外语电影时，你最好的帮手是谁？那一定是油管帮你自动翻译的字幕！这一功能就涉及语音翻译技术，把源语言（如电影原声西班牙语）的声音翻译成目标语言（如你的母语）的文本。这种技术也能让你借助手机和外国朋友畅快交流，未来或许还能让你和动物聊天！

语音翻译是自然语言处理的基本任务之一，它同时涉及语音和文本的处理。不过由于前文提到的技术难点，即使是最先进的语音翻译，效果也与文本翻译相差较大。

因此，我们选择语音翻译作为回答上面问题的具象指标。

难点：语音和文本的鸿沟

读过上述神经学的发现，你可能觉得，让人工智能来统一理解文本和语音应该也是小菜一碟。然而，一旦涉及到技术实现，问题就有点棘手了。

首先，对于计算机而言，语音和文本的表达形式大不相同。文本通常只是几十个符号，但语音都是连续的声音波形，长度可以达到百万之巨。即使是说一个词，由谁来说、在什么环境中、何种语境下说，听起来也会大相径庭。

此外，语音与文本的编码方式也不同。文本单词由词根和词缀构成。而语音则包含着一系列的语素，辅以轻重和抑扬顿挫。

图5：声音波形和文本的差异

最后就是数据的问题。文本数据在互联网上遍地都是，但语音收集起来则费钱得多。不信看看，文本和语音的两个翻译数据集的大小差距有多大（图6）。请记住，就当下的人工智能而言，数据就是生命。无数据，

智能。

图6：WMT16 (文本翻译) 和 MuST-C (语音翻译) 的大小差距

对人类来说轻而易举的事情，人工智能来做却可能难上加难。文本和语音的差异之大，在文本处理方面的研究硕果累累时，语音上的表现却落后不少。要想弥合差距，就需要统一理解语音和文本，就像我们的大脑那样。

仿生之路

AI研究人员也并非不喜欢师从自然。事实上，他们研究时就常常从解剖学和神经学中获取灵感来优化模型。卷积神经网络（CNN）就是个生动的例子：它模仿动物视觉系统的结构，而在应用中也表现出很强的视觉识别能力。

图7：CNN和动物视觉系统的相似性（出自博客[6]）

而回到语言技术的研究中，情况也是如此，这也使得语言和文本技术发展越走越近。Transformer[7]是文本处理最强大的工具之一，而它是借鉴心理学和神经学中“注意力”的概念搭建而成[8]。

Transformer 表现十分出彩，让语音研究人员羡慕不已，纷纷效仿。仅仅一年后，应用于语音上的 Speech-Transformer 就被提出了[9]。

另一个例子是文本训练技术 Masked Language Model（MLM），即训练AI猜出文本里被码掉的词[10]，这个灵感来自我们常见的完形填空。MLM 现在被广泛用于学习理解词汇的语境含义。

再一次，Facebook的语音研究人员很快就意识到了MLM的价值，并针对语音提出了Wav2Vec2[11]。它的目的是学习每个语音段与上下文是什么关系，从而让机器学习这些语音段的含义。这一模型目前已初露头角。

图8：Masked Language Model 图示（出自博客[12]）

现在，我们手头有着通用的工具 Transformer，既能处理语音也能处理文本；我们也有Wav2Vec2 来跨过二者表现形式上的差异。把语音和文本的处理统一起来只差临门一脚。

时日已到。

Chimera 模型

在这篇论文中，作者设计了一个模型来统一地翻译语音和文本，因其形似古希腊的神话动物 Chimera 而取名。作为基础技术，之前提到的 Transformer 和 Wav2Vec2 技术被用于编码音频和文本，但是要怎样才能将语音和文本的处理统一起来呢？

图9：Chimera 的概略图

Chimera 模型使用了一个简单的思路：它并不是编码了语音或文本的整个序列来用，而只是 “提取” 几条真正重要的信息。Chimera 学习从输入端提取一套包含关键语义信息的“记忆”，而对于其究竟是音频还是文本不做分辨。Chimera 在语音翻译之外还能够学习文本翻译的数据集，这样一来 Chimera 就能有效利用更多的训练数据！

表1：在 MuST-C 数据集上的表现效果

表1是MuST-C数据集上定量实验的结果，它是一个标杆性的语音翻译数据集，有8个翻译语向的数据，而且量级巨大。Chimera 在其所有语向中都表现优异。

图10. 学到的“记忆”在语音和文本输入上的提取流

图11：学到的“记忆”在语义空间中聚集成团

论文接下来展示了模型的可视化效果，结果很有趣。Chimera 模型在训练前并不知道要在“记忆”中提取什么，但它最终学会了使用每一个”记忆元“提取各异的信息。如果把各个的”记忆元“用不同的颜色标记，如图10所示，它们可以在语音和文本中”注意“到大致对应着相同的内容的子段。接下来，图11展示了一个清晰聚类的空间，各个“记忆元”所提取的信息投射在语义空间中不同的子区域。

图12. 在一个“记忆”中，语音和文本被按照句法结构排布起来

图12是对一个特定的“记忆”高维子空间“降维打击”之后的结果，“·”和“+”分别代表语音和文本。用线连起来的每一对语音和文本表达着相同的内容，它们彼此离得很近。作者将图中一些语音-文本对圈起来并标注了内容，发现句子是按照句法结构排布的，很容易就能识别出一些有特征的区域：右侧散布着三个问句，而左上角的几个句子都是将来时。

结论

通过模仿人类大脑来统一理解语音和文本，模型在语音翻译上效果拔群。Chimera能提取语音和文本中共有的语义信息，因此能够同时学习语音翻译和文本翻译数据集，提高这种技术在训练和应用中的通用性。

参考文献

1. Avila, Christina, et al. “The Influence of Distracting Familiar Vocal Music on Cognitive Performance of Introverts and Extraverts.” Psychology of Music, vol. 40, no. 1, Jan. 2012, pp. 84–93, doi:10.1177/0305735611422672.

2. https://web.stanford.edu/~zwicky/language-and-the-brain-ch4-8.pdf

3. Regev, Mor, et al. "Selective and invariant neural responses to spoken and written narratives." Journal of Neuroscience 33.40 (2013): 15978-15988.

4. Shankweiler, Donald, et al. "Reading differences and brain: Cortical integration of speech and print in sentence processing varies with reader skill." Developmental neuropsychology 33.6 (2008): 745-775.

5. Wilson, Stephen M., Alexa Bautista, and Angelica McCarron. "Convergence of spoken and written language processing in the superior temporal sulcus." Neuroimage 171 (2018): 62-74.

6. https://becominghuman.ai/from-human-vision-to-computer-vision-convolutional-neural-network-part3-4-24b55ffa7045

7. Vaswani, Ashish, et al. "Attention is all you need." arXiv preprint arXiv:1706.03762 (2017).

8. Lindsay, Grace W. "Attention in psychology, neuroscience, and machine learning." Frontiers in computational neuroscience 14 (2020): 29.

9. Dong, Linhao, Shuang Xu, and Bo Xu. "Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.

10. Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

11. Baevski, Alexei, et al. "wav2vec 2.0: A framework for self-supervised learning of speech representations." arXiv preprint arXiv:2006.11477 (2020).

12. https://www.machinecurve.com/index.php/2021/03/02/easy-masked-language-modeling-with-machine-learning-and-huggingface-transformers/

导航

人脑启发AI设计：让神经网络统一翻译语音和文本