唐杰教授:浅谈超级认知智能

发布者:梁刚健发布时间:2023-11-27浏览次数:37

原文连接:https://mp.weixin.qq.com/s/q5vLvElNiv7vQFTeOkRJFg

原创 唐杰 智能系统学报 


卷    首    语

超大规模预训练模型(也称“基础模型”,英文为Foundation ModelBig Model等)快速发展,成为国际人工智能前沿研究和应用的热点。尤其是最近ChatGPT的推出引发社会公众的广泛关注,并引起了该技术是否会引发新一轮行业变革的讨论。基础模型则是ChatGPT等生成式人工智能技术产品的核心技术基座,推进ChatGPT等产品影响产业格局,甚至成为全新的用户交互方式,造成舆论引导、社会治理、信息服务等方面的不对称优势。人工智能基础模型已成为国际科技竞争“必争之地”,美国目前在占据主导权的同时不断加紧对我国进行战略性遏制,实现国产人工智能基础模型自主可控迫在眉睫。我国人工智能基础模型研究、应用与产业化发展正处于从模仿追赶迈向创新引领的关键时期。


从技术层面而言,ChatGPT的优异表现主要依托超大规模预训练语言模型GPT-3/4、有监督指令微调以及基于人类反馈的强化学习。从大模型技术本身演进进程来看,大致可分为三个阶段。


2020大模型元年。自2017谷歌提出Transformer 机器学习模型架构,其应用迅速席卷了整个人工智 能研究领域,成为自然语言处理等相关研究的主要方法,2018年先后出现了BERTGPT-1,尤其是 BERT在十多个自然语言理解任务上精度大大超过传统算法;2019GPT-2实现了自然流畅的文本内容生成;2020年谷歌的T5将自然语言的翻译、分类、回归、摘要生成等任务都统一转成Text-to-Text任务,同年更具里程碑式的模型是OpenAI发布的1 750亿参数GPT-3,大大提高了模型的内容生成和逻辑推理能力,具备较强通用能力,可完成多场景任务,显著降低学习成本、提高学习效率,同时也开启了大模型元年。


GPT-3开启了基础模型发展的新时代,其在语言生成、上下文学习和知识(常识)理解等方面展现出 惊人能力。随后全球范围内掀起了一股基础模型研究的热潮,国外如Meta、微软、谷歌等,国内如清华大学、北京智源人工智能研究院、百度、华为、阿里、智谱等,都竞相追赶,提出包括GopherPaLMOPT-175BGLM-130BBLOOM-176B 等多个千亿级模型,积累了一定的技术实力。


2020-2023大模型成熟期。在初代GPT-3的基础上,OpenAI引入代码训练和指令微调等环节,在过 去三年里持续学习形成了InstructGPTGPT-3.5GPT-4等系列模型。基于这些模型,OpenAI进一步引入人类反馈强化学习建立了对话模型ChatGPT,具有更强的自然交互与逻辑推理能力,在面临常识性问题、推理性问题、尚未理解和敏感话题时的处理呈现出高度智能化特征。除了GPT-4一枝独秀外,很多工业界和学术界的机构也推出了类ChatGPT模型。仅2023314日这天就有OpenAIGPT-4AnthropicClaude、谷歌的PaLM API服务、智谱AI ChatGLM、斯坦福的AlpacaMidjourney V5。这些都是最早一批可用的大模型,314日这一天也被称为大模型里程碑日。


随后2023718日,Meta发布Llama2,性能逼近GPT-3.5,并且免费商业开源。类似开源模型大 大促进了全球以及国内的大模型产业发展。


2024超级认知智能元年。OpenAI极有可能在 2024年推出下一代模型,其认知能力将带来通用人工智能的再一次变革。其下一代模型不仅在技术上可能解决目前ChatGPT中存在的事实性以及推理能力的缺陷,实现更精细的语义理解、多模态(本文、图像、语音、视频等)输入和输出的支持,具备更强的个性化能力。此外人工智能的发展会更加瞄向通用人工智能,实现超过人类水平的超级认知智能(Super Cognitive Intelligence),实现AI的自我解释、自我评测(Self-instruct)、自我监督,并且确保模型的表现符合人类的价值观和安全标准。20237OpenAI公布了由首席科学家Ilya Sutskever和首席强化学习专家Jan Leike发起的超级对齐计划(Superalignment),目标就是实现机器自动对齐人类智能和人类价值观,实现模型自我反思和自我监控。相信在2024年会有更多研究者加入到通用人工智能和超级认知智能的研究中。



文章引用格式:

唐杰. 浅谈超级认知智能 [J]. 智能系统学报, 2023, 18(5): 901. 

TANG Jie. Brief Talk about super cognitive intelligence [J]. CAAI Transactions on Intelligent Systems, 2023, 18(5): 901.


作者简介


唐  杰

清华大学计算机系 WeBank 讲席教授,国家级人才, ACM/AAAI/IEEE Fellow。研究兴趣包括人工智能、知识图谱、数据挖掘、社交网络,最近专注大语言模型:ChatGLM(开源下载近1000万) 等。曾获 ACM SIGKDD Test-of-Time Award(十年最佳论文) 、 IEEE ICDM 研究贡献奖、国家科技进步二等奖。