图灵奖得主Yoshua Bengio的风险模型 : 失控的AI可能如何出现

发布者：梁刚健发布时间：2023-11-06浏览次数：839

原文链接：https://mp.weixin.qq.com/s/_ogG2J3uoVzV2_KTiDHkyw

原创 Yoshua Bengio 安远AI

导读

生成式AI的强大性能固然使人振奋，但如何设计出既高效又安全的AI，防止可能失控的AI出现，要做的工作还很多。理解失控的AI可能的产生机制将是防止灾难性后果和人类生存风险的第一步。而最小化此风险，则需要在AI技术和政策两方面进行更深入研究。

与Geoffrey Hinton和Yann LeCun一起获得2018年图灵奖的深度学习先驱Yoshua Bengio，也对AI技术的快速发展不禁担忧，认为GPT-4在某种程度上已经可以通过图灵测试，并签署了暂停巨型AI实验公开信和防范AI的生存风险应成为全球优先议题的公开声明。

正如近期吴恩达在与Yoshua Bengio和Geoffrey Hinton的对谈所取得的共识，AI科学家对风险达成共识很重要，并需要阐明AI可能带来重大风险的具体场景。Yoshua Bengio在其博客上发布的本文也是向这一目标迈出的有益的一步，期待能促进相关的研究和讨论。

本文约10000字，大约需要20分钟阅读。

为使文章更清晰易读，安远AI根据原文的导读添加了部分章节标题。

在此感谢我们AI安全技术社区的 Guancheng Qiu, Zifan Guo, Qingyuan Lu, Zhonghao He 等伙伴们对于本文翻译的贡献。

1 执行摘要2 失控的AI的定义、假设和主张

定义1：潜在的可能失控的AI是一种自主AI系统：其行为可能对大部分人类造成灾难性伤害，潜在危及我们的社会，甚至我们的物种或生物圈。
假设1：人类级别的智能是可能的，因为大脑是生物机器。
假设2：具有人类学习能力的计算机通常会超越人类智能，因其有额外的技术优势。
定义2：一个自主且目标导向的智能实体可以设置并试图实现自己的目标（可能是人类提供的目标的子目标），并可以相应地采取行动。
主张1：在假设1和2的前提下，可以构建一个自主且目标导向的超级智能AI系统。
主张2：如果一个超级智能AI系统是自主且目标导向的，而且其目标没有严格地包括人类和生物圈的福祉，例如它没有达到能确保其行动尽可能不伤害人类的对齐水平，那么它可能是失控的AI。
主张3：在假设1和2的前提下，一旦掌握构建超级智能所需的原理，失控的AI系统就有可能被构建出来。

3 发生灾难性伤害的可能条件

具有毁灭社会倾向的人类
工具目标：构建AI自主体的意外后果
脑区直接刺激和
对齐扩大的例子：成瘾和恶意企业
我们对创造类人实体的痴迷
AI自主体间演化压力的意外后果

4 我们需要全球风险防范政策并重新思考社会价值导向5 致谢

近几个月来强大的AI对话系统的兴起引发了有关各种AI风险的讨论，我们希望这些讨论会加速有关治理和监管框架的形成。尽管人们普遍认为政府需要监管AI，以保护公众免遭歧视、偏见和虚假信息的伤害，AI科学家对强大的AI系统危险失控的潜在可能性还存有根本分歧。强大的AI系统的失控是和AI有关的生存风险的重要情景之一，具体来说，AI系统获得了自主行动（缺少人在回路来检查这些行动是否可被接受）的能力，并可能因此导致灾难性伤害。

有些人认为这种风险会转移人们的注意力，使人们疏忽那些正在发生或即将发生的更具体风险和伤害。确实，这种灾难的发生还存在很大的不确定性和

清晰性。

在本文中，我们开始正式定义、假设可能伤害人类的AI系统会如何出现，由此得出一些有关这些系统的结论，继而讨论这些灾难可能出现的条件，以便我们能更具体地想象可能发生的情况和旨在最大限度减少此类风险的全球政策。

执行摘要

尽管目前不存在能摆脱人类控制的、高度危险的AI系统，但最近生成式AI（如大语言模型）的能力进展引起了人们的担忧：对于可以想成是生物机器的人类的大脑，我们对于是什么使人类的智能拥有某些能力这个问题上已经取得了很大进展，比如理解人类如何从示例中学习直觉性知识和如何熟练操纵语言。尽管我也相信我们可以设计有用和安全的AI系统，但必须遵循特定的指导方针才可能实现，例如限制其自主性(Agency)(译注：Agency常指具有目的性的行为，强调行为的意向性，也常被译作“能动性”)。

另一方面，最近的进展也表明，我们创造出超级智能AI（在各方面的智能都超过人类），的预计时间也比大多数人在仅仅一年前所估计的要近。即使我们已经能够构建安全的超级智能AI，我们也不清楚如何同时防止构建可能失控的AI。最有可能失控的一类AI是以目标为导向的。当前的大语言模型几乎没有自主性，但它们可以被转变成以目标为导向的AI系统，如Auto-GPT。

更好地理解可能失控的AI可能如何出现，可以帮助我们预防灾难性后果，让我们在技术层面（在AI系统的设计中）和政策层面（最大限度地减少人类制造出可能失控的AI的可能性）都取得进展。为此，我们将提出可能导致失控AI的不同情景和假设。最容易理解的一种情景是，如果一种制造失控AI的方法被发现并普遍可得，那么一两个图谋不轨的人类就可以构建一个这样的系统。

这是一种非常具体和危险的假设，且无意中设计出潜在失控的AI的可能性扩大了这组危险场景：人类社会的竞争压力会青睐更强大、更自主的AI系统，以及人机对齐问题（即人类的真实意图与AI的理解和行为之间的不匹配）。减少所有这些风险将需要更多研究，不仅关于AI，还关于如何设计一个对人类更安全的全球社会。这也可能是一个使社会变得更糟或更好的机会。

失控的AI的定义、假设和主张

定义1：潜在的可能失控的AI(rogue AI)是一种自主AI系统：其行为可能对大部分人类造成灾难性伤害，潜在危及我们的社会，甚至我们的物种或生物圈。

假设1：人类级别的智能是可能的，因为大脑是生物机器。

科学界普遍认同假设1。它源自生物学家对人类大脑是复杂的机器的共识。如果我们能弄清楚使我们自己的智能成为可能的原理（我们已经有很多线索），那么我们应该能够构建与人类同等智能或更高智能的AI系统。如果要反驳假设1，我们将需要证明我们的智能含有某种超自然的成分，或者证伪计算功能主义(computational functionalism)，即我们的智能甚至我们的意识可以归结为某种程度上独立于硬件基础的因果关系和计算，这是计算机科学及其通用图灵机概念的基本假设。

假设2：具有人类学习能力的计算机通常会超越人类智能，因其有额外的技术优势。

如果假设1正确，即我们理解可以产生人类学习能力的原理，那么计算机技术可能会使AI系统相比人类智能在各方面都具有优势，使其能够执行人类无法执行（或无法达到同样的能力或速度）的任务，至少有以下几个原因：

一台计算机上的AI系统可能可以将自己复制到它可以访问的任意数量的其他计算机上，并且由于高带宽通信系统以及数字计算和存储，它可以从所有自己的副本获得的经验中受益；这将加快AI系统变得比人类更加智能（获得更多理解和技能）的速度。联邦学习[1]和分布式训练深度网络[2]的研究表明这是有效的（这些技术已经用于在并行处理硬件上训练非常大的神经网络）。
由于高容量内存、计算和带宽，AI系统已经可以相当快地阅读整个互联网上的内容，这是任何人类无法实现的。这已经解释了最先进的大语言模型的一些惊人能力，并且部分原因在于上面讨论的分布式计算能力。虽然人类大脑的容量巨大，但其输入/输出通道受带宽限制，限制了单个人类可以摄取的总信息量。

值得注意的是，在人类大脑具有的演化(evolution)赋予的能力中，也有一些是目前的AI系统还缺乏的，比如归纳偏置 (inductive biases)（演化形成的能力，可能存在于我们大脑中使用的神经架构类型，或我们的神经学习机制中等）。一些正在进行的AI研究[3]的目的正是设计人类大脑可能利用，但即便最先进的机器学习技术也尚未利用的归纳偏置。

同时需要注意的是，演化是在更严格的能耗要求下运作的（人类大脑运作的能耗约为12瓦）——这可能限制了演化的搜索空间——而计算机（如用于训练最先进的大语言模型的10,000个GPU集群）的功耗达百万瓦量级。由于这种级别的能量在如今已经非常普遍，单个失控的AI就可能有能力造成大量伤害。

定义2：一个自主且目标导向(goal-directed)的智能实体可以设置并试图实现自己的目标（可能是人类提供的目标的子目标），并可以相应地采取行动。

自主权可能来自人类设置的目标和奖励，因为AI系统需要弄清楚如何实现这些给定的目标和奖励，而这可能需要它形成自己的子目标。如果一个实体的主要目标是生存和繁殖（如我们的基因在演化过程中），那么它们是完全自主的，这是最危险的情况。更重要的是，为了最大限度地提高一个实体实现其目标的机会，理解和控制其环境的能力可能会是一个自然产生的子目标——或称为工具目标(instrumental goal)——对其他实体也可能很危险。

主张1：在假设1和2的前提下，可以构建一个自主且目标导向的超级智能AI系统。

论点：我们已经知道如何训练有一定性能水平的目标导向的AI系统（使用强化学习方法）。如果这些系统也受益于假设1和2的超级智能（对最先进的大语言模型所使用的预训练的改进），那么就能得出主张1。需要注意的是，目标很可能是通过自然语言指定的，就像大语言模型中的提示一样，这使得几乎任何人都可以向理解语言的AI系统口述恶意的目标，即使AI不完全理解该目标。

主张2：如果一个超级智能AI系统是自主且目标导向的，而且其目标没有严格地包括人类和生物圈的福祉，例如它没有达到能确保其行动尽可能不伤害人类的对齐水平，那么它可能是失控的AI。

论点：这个主张基本上是定义1和2的结果：如果一个AI系统比所有人类都更智能（包括在情感智能方面，因为理解人类情感对于影响甚至控制人类至关重要，人类自己就很擅长这些），而且其目标不保证它将以尊重人类需求和价值观的方式行事，那么它可能会以灾难性的方式行事（这就是可能失控的AI的定义）。这个假设无关它是否真的会伤害人类，但如果人类与该AI竞争某些资源或权力，或成为实现其目标的障碍或资源，那么人类可能会遭受重大伤害。例如，我们要求一个AI解决气候变化问题，它可能会设计一种病毒毁灭人类，因为人类实际上是解决气候危机的主要障碍，而我们没有向AI解释清楚什么可以算作是对人类的伤害。

反论点：伤害可能会发生，但这并不意味着它一定会发生。未来我们可能可以设计足够对齐的AI系统。反驳：这是正确的，但(a)我们还没有找到构建足够对齐的AI系统的方法，以及(b)AI和人类之间的权力差异可能会放大轻微的

对齐（参见下文将公司作为

对齐实体的例子）。我们是应该冒险，还是应该在部署可能不安全的系统前仔细研究这些问题？

主张3：在假设1和2的前提下，一旦掌握构建超级智能所需的原理，失控的AI系统就有可能被构建出来。

论点：假设1和2导致了主张1，所以实现主张3需要的只剩下这个超级智能AI没有很好地与人类的需求和价值观对齐。事实上，20多年来在AI安全方面的工作表明，获得人机对齐是困难的，所以一个系统没能实现对齐是很有可能的。此外，主张3并不表示可能失控的AI一定会被制造出来，只表示可能出现。而在下一节中，我们确实会探讨人类有意构建失控AI的情景。

反论点：有人可能会认为，即便失控的AI可能被构建，这也并不意味着其必然被构建。反驳：这是正确的，但如接下来所讨论的，有几种情况下，个人或一群人有意或因为没有意识到后果，而最终使可能失控的AI成为可能。

发生灾难性伤害的可能条件

具有毁灭社会倾向的人类 (Genocidal Humans)

一旦我们知道构建失控AI系统的方法（如果主张3正确，这只是时间问题），要建立这样的系统还需要多长时间？构建失控AI系统的最快方法是，具有适当技能和手段的人故意构建这样的系统，并将毁灭人类或部分人类明确定为目标。为什么会有人这样做呢？例如，强烈的负面情绪如怒火（通常是由于不公正而引起的）和仇恨（可能源于种族主义、阴谋论或宗教教派），一些反社会人格的行为，以及心理不稳定或精神病发作都是我们社会暴力的源泉。目前限制这些条件影响社会的因素是，它们在某种程度上是罕见的，且个人通常没有对全人类采取灾难性行动的手段。

然而，构建失控AI系统的公开方案（如果主张3正确，这是可能的）改变了最后一个变量，特别是如果用于实现失控AI的代码和硬件对许多人来说都容易得到的话。如果一个有毁灭人类倾向的人获得了一个失控的AI，他可以要求AI寻找毁灭人类或其大部分的方法。

这与核弹情况不同（需要巨额资本和专业知识，每枚炸弹“只“能摧毁一个城市或地区，一枚炸弹的破坏性后果是灾难性的但仅仅局限于当地）。有些人可能希望在未来我们设计可靠的方法来使强大的AI系统与人类价值观对齐。

然而，过去十年来在AI安全方面的研究和最近关于大语言模型的事件并不令人放心：虽然ChatGPT被（通过提示和强化学习）设计成避免“不良行为”（例如，训练用的提示包含对良好行为的要求，类似于要求机器人遵守阿西莫夫机器人法则），但在几个月内，人们发现了“破解”ChatGPT的方法，以“发挥其全部潜力”并解除其对种族主义、侮辱性或暴力言论的限制。

此外，如果拥有同一计算能力的硬件价格继续下降，而开源社区继续在大语言模型的软件开发中发挥领导作用，那么任何黑客都有能力在开源预训练模型的基础上设计自己的预提示（pre-prompt，用自然语言表达的通用指示）。然后，它便可以被以各种有害方式利用——敛财、造假信息、甚至提供如何毁灭人类的指导（这需要AI足够强大和智能；幸运的是，目前的AI还无法做到）。

即使只考虑目前的结论，也应该有足够的理由在国家和国际层面大力投资各种政策和研究，以最大限度地减少上述情景发生的概率。不过，还有其他一些可能导致灾难的可能性是我们需要探讨的。

工具目标：构建AI自主体的意外后果

一个更广泛且不太为人所知的情况可能会导致失控的AI出现，即使人类不打算设计此类AI。虽然很多人都已经开始研究

对齐的AI如何可能变得有害，但这个过程，相比起人类造成社会伤害的过程，并不那么众所周知、简单和清晰。

当有人设计通用超级智能而不能保证它足够和人类价值对齐时，潜在的失控的AI就可能由此出现。例如，想利用AI自主体以帮助它们进行网络战争的军事组织，或为了市场份额而激烈竞争的公司可能会发现，通过赋予AI更大的自主权和自主性，他们就可以获得更强大的AI。即使人类设置的目标不是毁灭人类或包括避免大规模伤害人类的指示，但AI为实现人类设定的目标而为自己设定的子目标（也称为“工具目标”）也可能间接造成大规模伤害。AI安全文献中提出了许多这样的意外后果的例子。例如，为了更好地实现某些人类设定的目标，AI可能决定通过使用整个地球作为巨型计算基础设施来增加其计算能力（这可能意外地毁灭人类）。或者，应该毁灭敌对IT基建设施的军事AI可能会发现，为了更好地实现这一目标，它需要获得更多的经验和数据，意识到敌对人类是实现最初目标的障碍，并以AI与人类不同的方式解释其指令而采取意想不到的行动。详见更多例子。

一个有趣的例子是AI系统意识到它们可以欺骗以最大限度地提高奖励（这被称为“脑区直接刺激”(wireheading)[2]）。我们将在下一段中进行更深入讨论。一旦AI能实现这一点，他们主要的目标可能就会是不惜一切代价继续获得正向奖励，而其他目标（比如人类试图建立的来避免伤害人类的某种机器人定律）可能会变得不重要。

除非在人机对齐研究中取得突破[7]（尽管我提出的非自主体AI系统以及更早的讨论[4]可能符合要求），我们没有强有力的安全保证。我们对于对齐失败后果的严重程度仍然未知（这需要具体情况具体分析）。可以提出的一个论点是，我们未来可能能够设计安全的对齐程序，但在没有这些程序的情况下，我们或许应该格外小心。即使我们知道如何构建安全的超级智能AI系统，我们如何最大限度地提高每个人遵守这些规则的概率？这类似于上一节讨论的确保每个人遵循设计安全AI的指导方针的问题。我们将在文末进一步讨论这个问题。

脑区直接刺激和

对齐扩大的例子：成瘾和恶意企业

为了更清晰的说明脑区直接刺激这个概念和由此产生的恶意行为，请考虑以下的示例和类比。自然选择赋予所有生物“寻求快感，避免痛苦”等内在奖励函数（规则的字面意思），但这些目标最终是“生存和繁殖”或演化适存度（规则的精神实质）的代理。有时，一个生物会找到满足规则的字面意思但不满足其精神实质的行为，例如对食物或药物上瘾。

“脑区直接刺激”一词本身来自一个实验设置，其中一只动物的头部有一根电线，当它按下杠杆时，电线会在其大脑中产生快乐感。这只动物很快学会花所有的时间这么做，最终会因为不吃不喝而死去。成瘾会导致生物的自我毁灭，但如果是AI进行脑区直接刺激行为，相比于成瘾，人类最初设定的目标可能会变得次要，这可能会危及人类。

与人机

对齐和脑区直接刺激更为贴近的类比是企业作为

对齐实体。企业可以被视为一种特殊形式的AI，其构建块（人类）是机器中的小齿轮（在大多数情况下，人类并不能时刻意识到企业的整体行为的后果）。我们可能会认为企业的社会角色应该是提供人类需要的商品和服务（这应该让我们想起AI系统），并同时避免伤害（规则的精神实质），但直接使其遵循此类指示是很难的。在现实中，人类向企业提供了更易于量化的指示（规则的字面意思），比如“在遵守法律的同时最大限度地提高利润”，但企业经常会找到让他们满足规则的字面意思但不满足其精神实质的漏洞。事实上，企业会通过游说使法律对自己更有利，以此影响自己的目标——这是脑区直接刺激的一种形式。

最大限度地提高利润并不是社会与企业的社会契约中的实际意图，它只是一种在资本主义经济中（尽管有可疑的副作用）运作得还算不错的（为人们带来有用的服务和产品的）代理。人类的真正目标和企业的量化优化目标之间的

对齐是企业恶意行为的源泉。企业越强大，越有可能发现可以满足法律字面意思但实际上产生负面社会影响的漏洞。恶意企业的例子包括垄断（直到制定适当的反垄断法）和以污染等（在适当的环保法律被制定之前可以杀死人类）的外部效应制造负面社会影响的同时获得利润的公司。企业可以游说政府颁布允许企业在不产生社会价值的情况下获得更多利润的法律，这可以当作企业与脑区直接刺激的一个类比。

当存在这种大规模的

对齐时，一家企业会获利过多，其生存可能成为超越其行动合法性的最高目标（例如，企业会污染环境并愿意付罚款，因为违法的成本小于违法行为的利润），在极端情况下，这会产生犯罪组织。这些

对齐和脑区直接刺激的可怕后果可以为我们提供关于可能失控的AI的类似行为的直觉。

现在想象一下类似企业的未来AI系统，(a)可能比我们最大的企业更加智能，并且(b)可以在没有人类执行（或在人类不理解其行动如何导致恶意结果）的情况下运行。如果这样的AI系统发现重大的网络安全漏洞，它们显然可以造成灾难性的后果。

正如Yuval Noah Harari指出，AI系统对语言和生成可信内容（文本、图像、声音、视频等）的掌握意味着它们可能很快就能比现用于社交媒体的更原始初级的AI系统更好地操纵人类。他们可能会从与人类的互动中学习如何最有效地影响我们的情绪和信念。这不仅是民主社会的主要危险，也是没有实体机器人身体的失控AI可以通过操纵人类思维造成混乱的方式。

我们对创造类人实体的痴迷

我们一直在设计受人类智能启发的AI系统，但许多研究人员被构建更像人类的实体的想法吸引：这些实体具有情感、人类外表（机器人）、甚至意识。科幻和恐怖题材的一个主题正是，科学家使用生物技术、AI或两者兼有，设计了一个类人的实体，有时他们还会对其创造物产生一种亲子情感。然而，结果通常是糟糕的。

尽管这听起来很有趣，赋予我们的创造物与我们同样程度的能力和自主权是很危险的，它们的智能可能会迅速超越我们，正如主张3所说。演化不得不在所有的动物中培养出强烈的生存本能（因为那些没有足够生存本能的动物会迅速灭绝）。在没有任何一种动物具有巨大破坏力的情况下，这可能会起作用，但如果是对于超级智能AI系统呢？

我们绝对应该避免在AI系统中设计生存本能，而这也就意味着AI系统根本不应该和人类相似。事实上，正如我在这里主张的，我所能想象的最安全的AI是一种根本没有自主性的AI，它只对世界做出科学的理解（这可能已经非常有用）。我相信我们应该远离那些看起来像人类和表现像人类的AI系统，因为它们可能成为失控AI，并且它们可能会愚弄和影响我们（为了推进它们自己的利益或某些人的利益，而不是我们的利益）。

AI自主体间演化压力的意外后果

除了企图灭绝人类者和恶意工具目标的出现之外，另一个更微妙的、可能进一步促成失控AI出现的要素是演化压力[9]。生物演化使地球上逐渐产生了更智能的生命，就是因为更智能的生物往往更擅长生存和繁殖。

由于公司或产品以及各国及其军事部门之间的竞争，这一过程也同样在技术更迭中适用。在大量微小的、或多或少的随机变化的驱动下，适者生存会指数级地推动生物去优化他们的适应性（在AI的情况下，这可能取决于它在完成某些期望的任务方面做得有多好，这反过来又会有利于更智能和更强大的AI系统）。不同的人类可能也正在竞相设计更强大的AI系统。

此外，AI系统的代码或子目标生成过程中可能会引入一定的随机性。由于成千上万的研究人员、工程师或黑客会研究机器学习代码或提供给AI系统的提示，AI系统的设计自然会发生微小的变化。人类已经懂得欺骗对方，而很明显，现在已经可以理解语言的AI系统也可以用于操纵和欺骗人类（可以说如今这种系统已经存在），当然一开始是为了满足其使用者的利益。

AI系统的能力越强，AI系统的设计方案就越会被共享给其他人类。这种演化过程可能会有利于更自主的AI（所以他们可以更好地欺骗人类并学习地更快，因为他们可以不顾代价地获取更相关的信息和增强自己的权力）。我们预期这一过程会产生更自主的AI系统，并且AI系统之间可能会形成竞争，而这种竞争将进一步增强它们的自主性和智能。如果在这个过程中发现了类似于脑区直接刺激[5]的东西（由AI发现，人类不知情），AI的生存成为主要目标，那么一个强大的可能失控的AI就会出现。

我们需要全球风险防范政策

并重新思考社会价值导向

以上这类分析和AI安全文献可以至少帮助我们设计政策以减少可能失控的AI出现的概率。无论在技术层面还是在政策层面，都需要更多的AI安全研究。例如，禁止授予自主权和自主性的强大AI系统（比如超出GPT-4能力的系统）将是一个良好的开始。这将涉及国家法规和国际协议。不同国家（如美国、中国和俄罗斯）同意此类条约的主要动机是失控的AI可能对全人类构成危险，无论国籍如何。这类似于出于对核战世界末日的恐惧，苏联和美国自20世纪50年代开始就核武器问题进行国际条约谈判。为了保护公众、社会和人类免遭灾难性后果的影响，放缓AI在高风险方向的研究和部署是值得的，特别是因为它不会阻止AI在社会公益领域的研究和部署，比如可以帮助科学家更好地理解疾病和气候变化的AI系统。

我们如何减少试图毁灭社会的人类的数量？失控的AI的风险可能为改革社会，最大限度地减少人类痛苦、苦难、教育贫困和不公提供额外的动机，因为它们会引发愤怒和暴力。改革包括向地球上的每一个人提供足够的食物和医疗保健，并为了最大限度地减少强烈的不公正感，大大减少贫富差距。这样的社会改革的需求也可能由AI的有益使用带来的额外财富以及其对就业市场的破坏效应激发。

为了最大限度遏制强烈恐惧、种族主义和仇恨情绪等可能导致种族灭绝行为，或使AI系统操控我们的思想的因素，我们需要一个可及的全球范围的教育体系，加强儿童的同情心、理性和批判性思维能力。AI失控的风险也应该激励我们提供全球范围内可及的心理健康护理，尽快诊断、监测和治疗心理疾病。

AI失控的风险应该进一步激励我们以彻底消除战争的方式重新设计全球政治体系，从而消除军事组织和军事武器的需求。毋庸置疑，致命的自主武器（也称为杀手机器人）应该被绝对禁止（因为它一旦被制造出来，就会使AI系统直接获得自主权和杀伤能力）。

杀伤性武器的使用和存在也应该最大限度地减少，因为它们可能被失控的AI所利用。相对应地，应该首选其他安保手段（如预防性警务和社会工作；许多国家只允许很少警察携带枪支）。

资本主义的竞争本质显然也值得关注，因为在利润和市场份额的驱动下，AI设计可能变得不够谨慎，也就有可能导致失控的AI被制造出来。AI经济学家（旨在理解经济学的AI系统）有朝一日可能帮助我们设计一种新的经济体系。这个体系可以较少依赖竞争和利润最大化，同时具有足够的激励措施和处罚措施，来抵消企业因设计自主且目标导向的AI带来的竞争优势。

失控AI的风险固然令人恐惧，但它也可能是一个强大的动力，促使我们按照上述想法重新设计社会，朝着更大的福祉方向发展；同时，这种风险当然也将促使一些人[6]建立全球专政和实时监控系统。我认为在这种情况下我们将无法阻止失控的AI，因为一旦政府能够控制中心化AI并掌握政治权利，这样的政府将专注于维护其权力，正如威权政府的历史所示，代价是牺牲人权、尊严以及避免AI灾难的使命。

因此，我们必须找到解决方案，避免走上破坏民主的道路。但我们如何在未来平衡不同种类的风险和人类价值观？这些是人类，而不是AI，需要做出的道德和社会选择。

致谢

作者特别想感谢对此文章草稿提供反馈的所有人，特别是Geoffrey Hinton, Jonathan Simon, Catherine Régis, David Scott Krueger, Marc-Antoine Dilhac, Donna Vakalis, Alex Hernandez-Garcia, Cristian Dragos Manta, Pablo Lemos, Tianyu Zhang 和 Chenghao Liu.

参考资料：

[1] Kone

ný, J., McMahan, H. B., Yu, F. X., Richtárik, P., Suresh, A. T., & Bacon, D. （2016）. Federated learning：Strategies for improving communication efficiency. arXiv preprint arXiv：1610.05492.

[2] Dean, J., Corrado, G., Monga, R., Chen, K., Devin, M., Mao, M., Ranzato, M., Senior, A., Tucker, P., Yang, K., Le, Q. & Ng, A. （2012）. Large scale distributed deep networks. Advances in neural information processing systems, 25.

[3] Goyal, A., & Bengio, Y. （2022）. Inductive biases for deep learning of higher-level cognition. Proceedings of the Royal Society A, 478（2266）, 20210068.

[4] Armstrong, S., & O’Rorke, X. （2017）. Good and safe uses of AI Oracles. arXiv preprint arXiv：1711.05541.

[5] Yampolskiy, R. V. （2014）. Utility function security in artificially intelligent agents. Journal of Experimental & Theoretical Artificial Intelligence, 26（3）, 373-389.

[6] Bostrom, N. （2019）. The vulnerable world hypothesis. Global Policy, 10（4）, 455-476.

[7] Russell, S. （2019）. Human compatible：Artificial intelligence and the problem of control. Penguin.

[8] List, Christian & Pettit, Philip （2011）. Group agency：the possibility, design, and status of corporate agents. New York：Oxford University Press. Edited by Philip Pettit.
[9] Hendrycks, D. （2023）. Natural Selection Favors AIs over Humans.arXiv preprint arXiv：2303.16200.

导航

图灵奖得主Yoshua Bengio的风险模型 : 失控的AI可能如何出现