当大脑遇上AI：从大脑解码技术到通用人工智能

发布者：梁刚健发布时间：2023-03-30浏览次数：285

原文链接：https://mp.weixin.qq.com/s/PrvY7jq1nsH2yzDOuJyK3g

导语

如何通过分析脑信号反过来预测一个人的思维活动？近日，新加坡国立大学、香港中文大学、和斯坦福大学的研究团队合作，基于扩散模型，利用机器学习算法从脑信号直接解码出人类视觉刺激，实现了对人类视觉的解码。在集智俱乐部 NeuroAI 读书会，论文第一作者陈子娇博士分享了这一最新成果。本文从更广阔的视角介绍了大脑解码技术，探讨了用脑图像数据训练通用脑模型，以及AIGC、大规模预训练为构建通用脑模型提供的可能性。

关键词：大脑解码技术，生成模型，通用脑模型，神经科学，人工智能

陈子娇 | 作者

邓一雪 | 编辑

过去几十年里，神经科学家一直在为了解大脑工作原理而不断努力。但直到最近，随着计算机技术和神经科学研究的不断进步，他们才开始慢慢揭开这个神秘的面纱。现在，神经科学家们可以利用机器学习和人工智能算法对大脑活动进行分析，这项技术被称为大脑解码技术。这种技术就像是一把独特的钥匙，帮助我们解锁了大脑内部活动的奥秘。

1. 大脑解码技术的发展

大脑解码技术可以通过不同的方法来实现。这其中主要分为三类：侵入式脑机接口，非侵入式脑机接口，以及用于研究神经元活动的大脑解码技术。
侵入式脑机接口是一种通过直接植入电极到大脑皮层来记录神经元活动的技术。它被广泛用于动物实验，可以帮助科学家们深入研究大脑的内部机制。然而，这种技术对人类而言相对较为危险，只有少数患有癫痫病、瘫痪的病人接受了这种手术。在侵入式脑机接口技术中，ECoG (脑皮层电图描记法) 是一种常用的技术，它可以通过在大脑表面放置一个电极网来记录大脑皮层的活动。而Neuro spiking则是另一种侵入式脑机接口技术，它利用微小电极记录单个神经元的活动。这两种技术都提供了高时间分辨率和空间分辨率，可以准确地记录神经元活动的细节，从而有助于更深入地理解大脑的工作机制。
与侵入式脑机接口技术不同，非侵入式脑机接口技术不需要在大脑中植入电极，因此对于临床和人类研究而言更为安全。fMRI (功能性磁共振成像) 是一种常用的非侵入式脑机接口技术，它通过测量大脑中的血液流量变化来了解神经活动。EEG (脑电图) 和 MEG (脑磁图) 也是常用的非侵入式脑机接口技术，它们可以记录脑电活动和磁场活动。fNIRS (近红外光谱成像) 利用可见光外的红外光谱来研究脑血流量的变化。相比于侵入式脑机接口而言，这些非侵入式技术具有相对较低的信噪比，无法记录神经元活动的细节，但这仍然是理解大脑活动的有力工具。

图1：不同脑机接口系统在大脑中的植入位置示意图。| 图片来源：Translating the Brain-Machine Interface, https://www.science.org/doi/10.1126/scitranslmed.3007303

除了以上介绍的技术，还有一些用于研究神经元活动的技术，如calcium imaging和neural spiking。一般来说，这两个技术通常是在动物模型中进行的，它们可以用来研究神经元的行为和信息传递过程。我们可以通过使用显微镜等设备对神经元进行观察，并得到大脑运行的规律。calcium imaging 利用钙离子在神经元活动中的变化来记录神经元的活动。而 neural spiking 利用电极记录神经元的行动电位来记录神经元活动的细节。这些技术都具有高时间分辨率和空间分辨率，可以记录神经元活动的详细信息，因此被广泛应用于研究大脑的活动和机制。其中，calcium imaging 技术的优势在于可以同时记录多个神经元的活动，从而能够更全面地了解神经网络的功能。而 neural spiking 技术的优势在于可以记录单个神经元的活动，从而可以深入了解神经元的特定行为和作用。
在使用大脑解码技术的过程中，研究人员收集了大量的神经活动数据。为了更好地理解这些数据，并预测大脑中的思维过程，研究人员开始使用机器学习算法来分析这些数据。机器学习算法可以处理大量数据，从而帮助研究人员发现与不同思维活动相关的神经模式。通过对这些模式的学习，机器学习算法可以预测一个人正在思考的东西，甚至可以重现人脑中的视觉图像和声音。

2. 大脑解码技术的应用

大脑解码技术已经在多个领域得到了应用。以下是一些主要的示例：
（1）脑机接口（BCI）
大脑解码技术已经被广泛应用于BCI的开发中。侵入式的方法包括UCSF Edward Chang团队的研究，他们通过植入电极来记录大脑皮层活动，并使用机器学习算法将神经信号转换为控制机器的指令、文本或字母。

参看报道：From Brain Waves to Real-Time Text Messaging文章链接：https://directorsblog.nih.gov/tag/brain-computer-interface/

另外，Elon Musk 的公司 Neuralink 也开发了一种新型的侵入式脑机接口技术，目前在活体猪和猴子上进行了大脑打字和脑机游戏等实验（https://www.youtube.com/watch?v=YreDYmXTYi4）。

图2. UCSF团队通过ECoG帮助病人进行脑机打字。| 图片来源：https://www.ucsf.edu/news/2021/07/420946/neuroprosthesis-restores-words-man-paralysis

非侵入式的方法包括使用fMRI等技术，例如新加坡国立大学的研究团队最近使用fMRI记录被试者看到的图像，然后使用机器学习算法将其还原成图像。

论文题目：Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding （陈子娇一作论文）论文地址：https://arxiv.org/abs/2211.06956项目链接：https://mind-vis.github.io/

图3. 新加坡国立大学团队通过机器学习从fMRI还原出被试者看到的图像。| 图片来源：Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding, https://mind-vis.github.io/

图4. 巴西里约热内卢D'Or研究与教育学院团队通过机器学习从fMRI分类出被试者听到的音乐的类别。| 图片来源：Identifying musical pieces from fMRI data using encoding and decoding models, https://www.nature.com/articles/s41598-018-20732-3

图5. 德克萨斯大学奥斯汀分校团队最近尝试从fMRI解码出被试听到的长段的故事片段。| 图片来源：Semantic reconstruction of continuous language from non-invasive brain recordings, https://www.biorxiv.org/content/10.1101/2022.09.29.509744v1.full

脑机接口技术的应用具有重要的社会和医学意义。例如，使用大脑解码技术可以帮助残疾人通过思维来控制外部设备，从而提高他们的生活质量。

参考书目：Brain-Computer Interfacing for Assistive Robotics链接地址：https://www.sciencedirect.com/book/9780128015438/brain-computer-interfacing-for-assistive-robotics

脑机接口技术还可以用于帮助治疗帕金森病、脊髓损伤等神经系统疾病。例如，通过将电极植入患者的大脑，研究人员可以使用脑机接口来帮助控制帕金森病患者的运动障碍，并且有些患者甚至可以完全控制自己的肢体活动。

论文题目：Simulation of Closed-Loop Deep Brain Stimulation Control Schemes for Suppression of Pathological Beta Oscillations in Parkinson’s Disease论文地址：https://www.frontiersin.org/articles/10.3389/fnins.2020.00166

此外，脑机接口技术还可以帮助脊髓损伤患者恢复运动功能。例如，通过植入电极并使用脑机接口技术，研究人员可以帮助脊髓损伤患者控制他们的义肢，从而帮助他们重新获得运动能力。

论文题目：Restoration of reaching and grasping movements through brain-controlled muscle stimulation in a person with tetraplegia: a proof-of-concept demonstration论文地址：https://pubmed.ncbi.nlm.nih.gov/28363483/

（2）认知神经科学研究
大脑解码技术可以用于研究人类思维的内部过程，例如记忆和意识。侵入式的方法包括使用钙成像和神经元射频技术，可以记录神经元活动的细节信息。非侵入式的方法包括使用fMRI和EEG等技术，可以记录大脑区域之间的功能连接和脑电活动的变化，从而帮助研究人员深入理解人类思维的内部过程。
这里是一些具体的例子：
钙成像：钙成像技术可以通过记录神经元中的钙离子浓度来了解神经元的活动。例如，一项针对老鼠的研究表明，发现在记忆编码期间，部分神经元活动的钙信号会变得更加显著。作者们讨论了这些发现对于理解记忆形成的过程以及相关疾病的研究意义。

论文题目：Large-Scale Fluorescence Calcium-Imaging Methods for Studies of Long-Term Memory in Behaving Mammals论文地址：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4852807/

神经元射频技术：神经元射频技术可以记录神经元的电信号，从而了解神经元之间的交流。例如，一项研究通过对猕猴进行视觉任务，使用神经元射频技术记录神经元的电信号活动，并分析了神经元活动与猴子完成任务的准确性之间的相关性。研究发现，神经元的电信号活动与任务的成功或失败之间存在明显的关联，这表明神经元活动在感知和认知过程中起着重要作用。该研究的结果有助于深入了解神经元活动与认知的关系。

论文题目：Single-trial neural dynamics are dominated by richly varied movements论文地址：https://pubmed.ncbi.nlm.nih.gov/31551604/

fMRI：fMRI技术可以记录大脑区域的血氧水平，从而了解神经元的活动。例如，一项针对人类的研究表明，在进行一个记忆任务时，一些脑区的血氧水平会变得更加显著。这个研究结果表明，fMRI技术可以帮助研究人员了解记忆形成的过程。

论文题目：Neural correlates of successful memory retrieval in aging: Do executive functioning and task difficulty matter?论文地址：https://www.sciencedirect.com/science/article/abs/pii/S0006899315007465

这些研究对于促进认知神经科学的发展具有重要意义。通过使用大脑解码技术，研究人员可以更好地了解人类思维的内部过程，从而更好地理解大脑的结构和功能。

（3）疾病诊断、疾病机制的探索
大脑解码技术可以用于诊断神经系统疾病，如帕金森病和阿尔茨海默病。例如，使用fMRI可以识别脑中异常的神经活动模式，并且帮助医生制定更准确的诊断方案。另外，使用大脑解码技术还可以研究神经系统疾病的机制，例如阿尔茨海默病的神经元失活和退化。
当使用大脑解码技术来诊断神经系统疾病时，常常采用结构性磁共振成像（sMRI）和功能性磁共振成像（fMRI）等技术。例如，使用sMRI可以检测脑组织的损伤和萎缩。

参考词条：Cerebral Atrophyhttps://www.ninds.nih.gov/health-information/disorders/cerebral-atrophy

而使用fMRI则可以检测脑区之间的功能连接和神经活动的异常模式。

参考词条：Functional Connectivityhttps://www.sciencedirect.com/topics/medicine-and-dentistry/functional-connectivity

这些信息可以帮助医生更准确地诊断神经系统疾病，而不仅仅是根据患者的症状进行诊断。
此外，大脑解码技术还可以用于研究神经系统疾病的机制。例如，使用fMRI可以观察神经系统疾病患者的大脑活动模式，从而了解疾病是如何影响大脑功能的。这有助于研究人员更好地理解神经系统疾病的病理生理机制。
最终，这些研究有助于加深对神经系统疾病的理解，并为开发有效的治疗方案提供基础。例如，研究人员可以使用大脑解码技术来研究某些药物的作用机制，从而帮助开发更有效的药物来治疗神经系统疾病。

图6. 以MRI观察认知功能障碍患者大脑活动模式，并揭示疾病对大脑功能的影响的案例。| 图片来源：https://www.frontiersin.org/articles/10.3389/fnagi.2018.00404/full

3. 非侵入式脑解码和fMRI解码

因为笔者主要从事fMRI解码的研究，所以在这里对于非侵入式脑解码技术，特别是fMRI解码技术，进行一些讨论。
虽然大脑解码技术在不同的领域得到了应用，但是在非侵入式脑解码方面，fMRI是一个相对较少被使用的技术。虽然EEG和MEG等技术成本更低且时间分辨率更高，但是它们的空间分辨率较低，因为信号通道较少。而fMRI可以提供更高的空间分辨率，同时也能记录不同大脑区域之间的功能连接，这使得它成为研究人员研究人类思维的内部过程的有力工具。
虽然fMRI有很多优点，但是它也存在一些挑战。例如，fMRI需要昂贵的设备和长时间的扫描，而且其时间分辨率相对较低。此外，由于大脑活动引起的血流变化只是间接的信号，而且在不同的被试之间存在差异，因此fMRI解码也存在一定的难度。为了克服这些挑战，研究人员正在努力开发新的技术，例如low field MRI和结合上MEG、EEG的时间信号，这些新技术将会带来更好的时间和空间分辨率。

4. 脑信号解码方法论

当涉及大脑解码技术时，主要方法是使用机器学习和人工智能算法。这些算法可以用于处理从各种脑机接口收集的数据，从而识别大脑活动的模式和与之相关联的意义。机器学习算法需要大量的数据集来训练模型，这些数据集可以包括从被试者接受各种刺激时的脑图像，到实际行为表现的监测。这样的数据集被用来建立大脑图像和刺激之间的连接。具体来说，研究人员可以将脑图像数据集和行为表现数据集输入机器学习模型，然后通过调整模型参数来最大化预测行为表现的准确度，从而建立起两者之间的关联。
对于从大脑中还原出刺激而言，研究者一般会先学习脑图像的表征，再把表征输入到相对应的生成模型上。例如，对于解码视觉信息，研究者可以先通过一个网络来学习到脑信号与视觉信号的关联，再通过VAE、GAN、diffusion model等生成模型把脑信号还原成自然图像。
对于侵入式技术，研究人员使用Single neuron spiking和ECoG数据来建立神经网络模型。这些数据可以提供神经元活动的详细信息，可以用来训练神经网络模型来预测不同的脑活动模式。
对于非侵入式技术，研究人员使用fMRI、EEG、MEG和fNIRS等数据来建立神经网络模型。这些技术可以提供大脑区域之间的功能连接和脑电活动的变化等信息。通过分析这些数据，研究人员可以建立神经网络模型来预测不同的脑活动模式，从而深入理解大脑的工作原理。
同时，神经网络模型在大脑解码技术中的应用也在不断发展和改进。近年来，深度学习技术的发展和进步已经开始被应用于大脑解码技术中。这种技术可以使用多层神经网络来处理和分析复杂的脑图像和数据，从而提高大脑解码的准确度和可靠性。

5. 挑战与未来

脑解码与通用人工智能
随着脑信号解码技术的不断发展，一些研究者认为，可以通过大量的脑图像数据来训练通用脑模型，以更好地理解人类思维和认知的内部过程，同时也有助于开发更好的脑机接口模型。类似于训练一个GPT-4自然语言处理模型，该通用脑模型可以用于多种解码任务，例如视觉、听觉、语言解码、疾病诊断和生物信息指纹等。研究人员可以通过机器学习和人工智能算法来处理这些脑图像数据，从而预测脑活动模式，提供更准确和深入的大脑解码结果。此外，该通用脑模型的发展也将有助于进一步了解大脑在不同模态下的活动模式，并为未来的脑机接口和神经控制技术提供更多可能性。
在大脑解码技术的发展中，AIGC已经在多个模态方面取得了长足进步，包括文本生成、音频生成和图像生成等领域。通用脑模型的发展与AIGC密切相关，通过利用AIGC的技术来处理大量的脑图像数据，可以加速通用脑模型的训练和优化，并为大脑解码技术提供更多可能性。例如，通过使用AIGC的技术，我们可以将脑信号转换成多种信号，包括听觉、嗅觉和情绪等多个方面，从而更好地理解大脑在不同感官模态下的活动模式。除了不同的信息模态，我们还可以基于大脑在多个模态间的共享特征来开发多模态的通用脑模型。

brain to text:

https://www.nature.com/articles/s41586-021-03506-2 (2021)

用可侵入式颅内EEG，实时解码文本输入，准确率高，速度非常快，准确率和速度接近普通人手机打字速度，缺点是要做手术；

brain to sentences:

https://www.nature.com/articles/s41586-019-1119-1 (2019)

用可侵入式ECoG，需要做手术植入电极，生成的是连续的句子，准确率大概70%；

brain to video:

https://pubmed.ncbi.nlm.nih.gov/35078227/

用非侵入式的 fMRI 解码看到的视频，通过微调能生成视频的GAN得到，准确率大概12%；

此外，通用脑模型的发展与通用人工智能的发展密切相关。通过将大量的脑图像数据用于训练通用脑模型，我们可以更好地理解人类思维和认知的内部过程，并有可能将这些知识用于改进通人工智能算法的性能和决策能力。因此，通用脑模型的发展将在未来推动脑科学和人工智能的发展，并对社会产生深远的影响。
当我们尝试建立一个通用的脑科学模型时，我们可能会遇到以下挑战：
1. 数据获取困难：相比于其他科学领域，脑科学数据采集的难度更大，并且数据量非常有限。此外，不同的数据类型（例如fMRI、EEG、MEG等）也具有不同的优缺点。除了技术限制，也有很多伦理和隐私问题需要考虑。此外，脑科学数据的样本数量也相对较少，可能暂时不足以训练出高质量的模型。
2. 数据的复杂性：大脑的数据非常复杂，因为一张脑图像可能对应着许多信息，例如个人身份、生物指纹、思想、情感等等。因此，我们需要考虑如何将这些信息有效地整合到模型中。
3. 隐私和监管问题：大脑数据通常是高度机密的，需要进行严格的监管和保护。此外，大脑解码技术的发展也可能引起道德和隐私方面的争议。
解决方案
1. 大规模预训练：与其他领域相似，大规模预训练可以帮助我们克服数据少的问题。通过大规模数据预训练，可以提高脑科学模型的泛化能力，并为下游任务提供更好的表现。我们也希望做一个在大脑上的 GPT。
2. 结合大脑数据特有的特征：脑科学数据具有独特的特征，如空间相关性和时间相关性等。结合这些特征，可以优化脑科学模型的性能，并获得更高的准确性和可解释性。
3. 结合多种模态：脑科学数据来源多样，如fMRI、EEG、MEG等。结合多种模态的数据，可以提高模型的可靠性和准确性，并减少噪声和干扰的影响。
4. 建立数据共享平台：建立数据共享平台，可以促进脑科学研究的发展，并使得数据更易于获得和共享。此外，建立数据共享平台也有助于提高数据的质量和可靠性。

6. 结论

大脑解码技术是一个快速发展的领域，它的应用潜力正在不断扩大。虽然这项技术仍存在挑战和限制，但它为理解大脑和开发新的神经科学应用提供了新的机会。从硬件角度来看，未来可能需要更先进的成像设备来提高空间和时间分辨率。例如，一些新兴技术如低场磁共振成像可能会取代传统的高场MRI，以及将fMRI与MEG、EEG等技术结合起来来提高精度。
此外，大规模预训练通用脑模型也是未来的一大趋势，可以利用大量的脑影像数据来构建神经网络模型，以更好地模拟人脑的结构和功能。从算法角度来看，需要进一步提高大脑解码技术的准确度和可靠性，通过开发更高效的算法和模型来实现。
总的来说，大脑解码技术的发展为认知神经科学研究和神经系统疾病治疗提供了新的机遇。未来，这个领域将继续向着更加准确和高效的方向发展，为我们更好地理解人脑和改善人类生活带来更多的可能性。

作者简介

陈子娇，新加坡国立大学医学院博士生，NeuroAI读书会成员。在悉尼大学获得电气工程学士学位，研究重点是多模态脑解码和fMRI表征学习。

导航

当大脑遇上AI：从大脑解码技术到通用人工智能