【源头活水】大模型的涌现能力(Emergent Abilities of LLM)

发布者:梁刚健发布时间:2023-04-03浏览次数:510

原文链接:https://mp.weixin.qq.com/s/EQw_EJTck6iIUvamvCg8Aw

人工智能前沿讲习 




 “问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

来源:知乎—海狸同学

地址:https://zhuanlan.zhihu.com/p/609339534

论文名称:Emergent Abilities of Large Language Models论文链接:https://arxiv.org/pdf/2206.07682.pdf论文来源:Google&Deepmind论文讨论了LLM中的emergent abilities现象,主要探究随着model scale的增长,emergnce现象的出现。

1. Emergent Abilities Definition

本文中对LLMemergent abilities的定义为:在较小的模型中不出现,而在较大的模型中出现的能力,则可以称之为emergent.(An ability is emergent if it is not present in smaller models but is present in larger models.)本文的目的不是去谈论是否存在一个scale就可以观察到emerge abilities,而是去讨论之前的工作中出现的emergent现象。

2. Few-Shot Prompted Tasks

本部分主要讨论在prompting范式下的emergent abilities, 该范式如下图所示:

few-shot promptingemergent主要体现为模型在没有达到一定规模前,得到的表现较为随机,在突破规模的临界点后,表现大幅度提升。如下图所示,在BIG-Bench上,GPT-3LaMDA在未达到临界点时,模型的表现都是接近于零。而在GPT-3的规模突破2 · 10^22 training FLOPs (13B参数)LaMDA的规模突破10^23 training FLOPs (68B参数),模型的表现开始快速上升。


3. Augmented Prompting Strategies

除了few-shot prompting可以反映emergent abilities, 作者认为如果在某个任务上的某个手段,模型达到一定规模以前,使用该手段,相比于基线没有提升或者是有害的,那么可以将该手段看成emergent ability.作者在Multi-step reasoning(chain-of-thought prompting); Instruction following(使用instructions描述任务,不使用few-shot exemplars); Program executionModel calibration(calibration需要模型去评估自己是否能正确回答某个问题)

下表给出了大模型出现emergent ablities的规模统计


4. Discussion

4.1 Potential explanations of emergence

  1. 对于模型突破某个规模的临界值后,出现emergent abilities的现象。作者给出直观上的猜想,某个multi-step reasoning任务需要lstep的计算,那么可能需要模型主要需要O(l)层的数目。同时也可以很自然猜想更多的参数和更多的训练有助于模型记忆更多的world knowledge. 比如在closed-book question-answering可能需要模型有更多的参数去记忆尝试知识。

  2. 衡量emergent abilitiesevaluation metrics也值得探究。仅仅使用最终的指标如acc等并不一定很好反映emergence.

4.2 Beyond scaling

虽然本文主要探究模型超过一定规模后出现emergent ability, 但模型仍然有可能通过数据,算法的改进在更小规模出现emergence. 比如在BIG-Bench任务上,LaMDA137BGPT-3175B上出现emergent ability,而PaLM62B就可以出现。

4.3 Another view of emergence

虽然模型的规模与大模型的表现高度相关,但是但模型的规模不是观察到emergent abilities的唯一尺度。如下图所示,模型的emergent abilities可以看成一系列相关变量的函数。


4.4 Directions for future work

作者为未来研究大模型中的emergent abilitie提供了一些方向。

  1. Further model scaling: 继续增加模型的规模探究模型的表现的提升。

  2. Improved model architectures and training:从模型的结构和训练过程上提高模型的质量,从而使模型在较低的训练成本下就可以获得emergent abilities.

  3. Data scaling: 增大数据集的规模

  4. Better techniques for and understanding of prompting:更好地发挥prompt在模型中的作用

  5. Frontier tasks: 仍然有些任务无法出现emerent abilities,这也是值得探究的。

  6. Understanding emergence: 关于emergent abilities为什么会在语言模型中发生仍然是未知的。