观点：AI对齐是一种危险的尝试

发布者：梁刚健发布时间：2024-04-23浏览次数：218

原文链接：https://mbd.baidu.com/newspage/data/landingsuper?urlext=%7B%22cuid%22%3A%220a28uj83S8__iBuRgiHda_PqB8gfivu_ga2T80unS8K50qqSB%22%7D&rs=3043418286&ruk=8MVN0ObRzpLf_xb_Ge1TDQ&like_icon_type=2&isBdboxFrom=1&pageType=1&sid_for_share=&context=%7B%22nid%22%3A%22news_10427231072004155613%22,%22sourceFrom%22%3A%22bjh%22%7D

返朴

文章讨论了AI对齐的问题，指出对齐意味着让机器学习模型“捕捉”人类的规范或价值观。然而，人类价值观存在多样性、变化性和复杂性，使得对齐变得困难。同时，对齐的作用非常有限，因为AI无法完全理解人类行为中的非理性因素。因此，制定规则必须靠人，而不是依赖未对齐的AI。文章呼吁人们警惕AI的野蛮生长，并坚持有限主义进路，控制AI的发展，使之有益于人类福祉。

摘要由作者通过智能技术生成

OpenAI“宫斗”大戏让AI“对齐”（alignment）一词不胫而走。好多人认为，奥尔特曼这样的邪恶资本代言人压制坚持对齐的正义科学代言人苏茨克维，我们要站在正义的一方。事实果真如此吗？通过对齐操作，AI发展就能符合人们的需要、

背离人类的意图了？真有这么神奇吗？

撰文 | 刘永谋（中国人民大学国家发展与战略研究院研究员、哲学院教授）

质疑AI对齐的可能

何为对齐？它是在机器学习，尤其是大模型技术发展过程中出现的。《人机对齐》一书认为，“如何防止这种灾难性的背离——如何确保这些模型捕捉到我们的规范和价值观，理解我们的意思或意图，最重要的是，以我们想要的方式行事——已成为计算机科学领域最核心、最紧迫的问题之一。这个问题被称为对齐问题（the alignment problem）”。也就是说，对齐意味着让机器学习模型“捕捉”人类的规范或价值观。

“捕捉”与“灌输”相对，此时AI遵循的规范来自机器学习，而非工程师的编程输入。通过大量学习人类行为，AI“搞清楚”人类行为规则，然后按照规则来行事。因此，对齐问题起码可以一分为二，即对齐什么和如何对齐。

在很多人看来，包括“AI发展的有限主义者”（强调AI发展的有限性和受控性），“对齐什么”这一问题无法完全澄清。

首先，人类并没有统一的价值观。生活在不同的国家、地区，不同传统、文化下的不同性别、阶层的人，对同一现象存在不同的价值判断。比如，面对新冠病毒肆虐，有的人认为保全生命最重要，有的人认为自由活动更重要。大模型究竟要学习谁的行动规则呢？

其次，人类的主流价值观不断在变化。比如，一百多年前一夫多妻制在中国流行，现在则属于重婚的犯罪行为。那么，我们要给大模型输入什么时间段的资料以供学习呢？

再次，规则存在应然与实然的偏差。比如，男女平等是社会提倡的价值观，但在现实中性别歧视的现象并不少。如果AI学习真实案例，很可能成为性别歧视主义者。此类问题被称为大模型的代表性问题，在实践中屡见不鲜。

最后，有些AI如机器宠物狗，它应该与宠物狗对齐，而不是与人对齐。否则，它成了狗形人，拥有它并没有养宠物的乐趣。换句话说，不是所有AI均需和人类对齐的。

因此，“对齐什么”问题是“人类、社会和政治问题，机器学习本身无法解决”。对齐什么的问题，本质上是以数据方法或统计方法厘清复杂的人类规则和价值观的问题。

AI对齐的作用非常有限

从根本上说，上述质疑攻讦的是：道德哲学或伦理学未能完全解决的问题，大数据或统计学技术可能彻底解决吗？的确，答案是否定的。但是，如同伦理学多少解决了一些价值观问题，大数据技术对人类规则的学习也不是一点用处都没有。在日常场景中，并非完全厘清人类价值观，行动者（agent）才“知道”如何行动。

在多数时间中，AI只需要以常见方式应对特定场合中的常见状况。在自动驾驶研究中，经常有人以“电车难题”为例来分析。可是，人类驾驶者也极少面对此类高难度决策需要。无论是走“灌输”还是“学习”路线，自动驾驶汽车均可以随机方案或直接刹车加以解决。重要的是承担事故责任，而不是纠结于自动驾驶如何解决“电车难题”。

目前，机器学习模型主要采用模仿和推断两种方式来进行AI对齐。前者即看人类怎么做，AI跟着怎么做。模仿存在许多问题，比如过度模仿，很多人炒菜之前都会把袖子卷起来，AI可能会模仿这个不必要的动作。更重要的是，模仿的情境大致差不多，但不可能绝对一样，起码时间、地点和对象不同。此时，AI需要对人类行为进行某种推断，然后得出如何行动的结论。显然，此类推断很容易出错，因为AI的推断以数据和逻辑为基础，而人类行为则掺杂非理性尤其是情感因素。

因此，有限主义者认为，AI对齐虽不是完全无用，但作用非常有限。

更重要的是，在人类社会中，大量情境应对是不确定的，无法提炼出某种一致性的社会规则。此时，根本就谈不上对齐，也不应该让AI来处理，而应该交给人类来决策。如果让AI不明所以地处理，可能导致严重而不可逆的后果。并且，AI无法对自己的行为担责，最后导致“无人担责”的荒谬情形。

总之，必须牢记：AI对齐非常有限，不可对它期望过高。不少研究者认为，对齐基本上没有什么用，不过是AI产业界抛出的又一冠冕堂皇的幌子。

制定规则必须靠人

在特定场合、特定任务中，无论是灌输还是学习，让AI行动符合人类需求都不难。困难的是所谓“通用AI”，因为无法预知它所“通用”的场景，因而既无法预先“灌输”所有应对规则，又无法让其及时“学习”到可靠的应对规则。正是试图让机器学习模型“通用”，才会出现所谓的AI对齐问题。很多人认为，AI不可能通用，它不过是专用的替代劳动工具。

因此，有限主义者认为，通用AI难以对齐，让AI通用非常危险。显然，它的危险不仅仅在于像ChatGPT一样可能生成错误思想，将人类引入“后真相”的思想混乱中，更在于它与机器人结合起来，很可能导致大量错误、危险甚至无可挽救的行动后果。有人担心超级AI可能统治人类，可能我们更应该担心的是，依赖没有对齐的AI，世界会被搞得一团糟。

进一步思考，机器学习模型总结出人类规则，让机器人按此规则行动，反过来会要求所谓的“AI辅助生存社会”中的人类适应机器的行动。由此，机器规则反倒成了人类规则，人得照着机器的要求活着。因此，“我们必须小心谨慎，不要让这样一个世界成为现实：我们的系统不允许超出它们认知的事情发生，它们实际上是在强制执行自己有局限的理解。”

如果将规则制定的权力完全交给机器，AI向人类对齐，演变成人类向AI看齐，其最终的结果，必然加速“人的机器化”，即人类失去灵性和自主性，日益成为智能机器的某种配件。

技术控制的选择论者认为，无论何时，人类都要努力控制包括AI在内的所有新科技发展，使之有益于人类福祉。如果不确定AI的某一发展能否真正有益，就应该停止和转变此种AI发展进路，此即我所谓的“AI发展的有限主义进路”。按照这一观点，规则制定是人类的专属权利，承担所制定的规则导致的责任和后果，而AI只负责听命于人类，执行人类的指令，而不能让它“擅自”行事。

总之，AI对齐并不是资本与科学、正义与险恶的对峙，而是一种非常危险的尝试。从这个意义上说，OpenAI“宫斗”大戏是AI圈子又一次高质量的“AI宣传术”操作。当大家担忧AI的野蛮生长可能会偏离满足人类需求的目标时，“AI对齐”给公众一个印象：该问题完全可以通过对齐来解决的。

导航

观点：AI对齐是一种危险的尝试