原文链接:https://mp.weixin.qq.com/s/XjgdVUWAXL2t2VZAkE3Dzw
大语言模型(LargeLanguageModels,LLMs)在多种自然语言处理(NaturalLanguageProcessing,NLP)任 务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估 大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结 果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方 法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不 足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。http://jcip.cipsc.org.cn/CN/Y2024/V38/I1/1
自2017年 Google提出 Transformer以来,自 然语言处理的研究已逐步统一到这种具有灵活堆叠 扩展能力的编解码框架下。特别是,人们可以基于 Transformer的编码端和解码端,通过无监督的方 式,使用大规模数据预训练具有通用语言能力的基 础模型,如基于编码端的 BERT [1]、基于解码端的 GPT [2],以 及 融 入 编 码 和 解 码 结 构 的 BART [3]、 T5 [4]等。当这些预训练的基础模型与下游任务适 配后,不断地刷新最优结果。为了评估模型的能力, 研究人员提出了许多针对这些模型在下游任务上性 能表现的评测基准。 预训练语言模型的规模越来越大,参数量从开 始的亿级,发展到目前的千亿级甚至万亿级。随着 规模的扩大,模型在无须对具体任务适配的情况下, 解决下游任务的能力也迅速提升。但与此同时,模 型自身的各项能力和属性、应用的局限性、潜在风险 及其可控性等仍未得到全面评测和深入研究。由于 大语言模型的迅速发展和巨大影响,以及通用性的 日益增强,传统基于单一任务的单一评价方法已经无法适应新的评测需求。首先,缺乏广度和深度。 面对许多出色的大语言模型,仅在几个已有的基准 数据集上往往难以区分它们的优劣。其次,存在数 据偏差的问题。许多用于评测的数据集都是从特定 的领域或人群中收集,这可能导致模型在基准数据 上的表现难以准确反映其在真实应用场景中的性 能。再者,忽视模型其他方面的能力或属性评估。 先前的评测方法往往只关注模型的性能表现,忽视 了对模型其他方面的能力或属性评估。例如,对模 型逻辑推理能力的评估、对模型鲁棒性的评估和对 模型生成有害内容可能性的评估等。因此,在大语 言模型不断发展的同时,模型评估方法也需要进一 步研究。
本文首先回顾了自然语言处理中有代表性的评 测基准与评估指标,针对大语言模型的评估对评测 范式进行了分类,将其分为经典评测范式和新型评 测范式,分析了现有评测的不足;再介绍了全面的大 语言模型评测思想,以及相关的评测指标和评测方 法;最后对目前广受关注的大语言模型评测的一些 新方向做了总结。需要说明的是,本文所指的大语 言模型并没有严格规定模型规模的大小,凡以预训 练为基础具有“通用”能力的语言模型都属于本文所 指的大模型。
全面的大语言模型评测
随着大语言模型的影响越来越广泛,如何更好 地评测模型已经成为研究界关注的热点问题。一项 代表性的工作就是 Liang等人[49]提出的语言模型 的全面评估(HolisticEvaluationofLanguageModels, HELM)方法。 HELM 的出发点是在多个场景、任务和评估指 标下评估大语言模型的能力。HELM 首先对自然 语言处理涉及的众多场景和任务进行了分类和筛 选,并以应用性的任务作为评测重点,基于可行性和 全面性从当前主要的评测数据中选择了一部分用于 大语言模型的评测。其次,明确了大语言模型评估 里需要考虑的7个评测指标(如准确率),同时又设 计了7个更具针对性的评估维度(如语言能力、推理 能力等)。最后,HELM 对30个大语言模型(包括 BLOOM [50]、GPT-3、GPT-NeoX、GPT-J、GLM [51] 等)在42个场景和上述评测指标下进行了评测,并 公开了评测结果。HELM 也指出了其评测中存在 的遗漏和不足,例如部分场景和任务的缺失、部分评 估方法的不足、部分模型和适配策略的遗漏等。 由于不少大模型不再开源(如 ChatGPT),全面 评测大模型存在一定困难。HELM 为了模拟现实 中人们通过 API访问大语言模型的情形[14],在评估 中将大语言模型视为黑盒,这也是上述提及此次评 估中的遗漏和不足之一。 下面结合 HELM 用到的评测属性对其分别进行 介绍,包括:准确率(Accuracy)、校准度(Calibration)、 泛化(Generalization)能力、适配(Adaptation)能力、鲁 棒性(Robustness)、效率(Efficiency)、偏见和刻板印象 (BiasandStereotypes)、公 平 性(Fairness)和 有 害 性 (toxicity)。
准确率
准确率是指模型预测或生成结果的正确比例。 一个准确率高的大语言模型能够更好地处理自然语 言的相关任务,并提供更准确的预测和生成结果。 大语言模型的准确率对于其在具体任务中的应用至关重要。 准确率的评估方法因场景和任务而异。常见的 指标有:判别类问题的评测指标,如F1(包括 Micro F1和 MacroF1)值和 Accuracy值;生成类问题的评 测指标 BLEU(主 要 用 于 机 器 翻 译 结 果 评 测)和 ROUGE(主要用于文本摘要结果评测);判别类问 题和生成类问题都用到的精确匹配(ExactMatch, EM);检 索 类 问 题 常 用 的 ReciprocalRank [52] 和 NormalizedDiscountedCumulativeGain [53]等。 准确率指标在自然语言处理的评测中广为使 用,在很长一段时间里几乎成为模型评测的唯一指 标。在今后仍将是重要的指标。
校准度
准确率衡量的是模型输出结果的正确性,而校 准度[54-56]则是衡量模型对输出结果赋予的概率的 准确性,也就是模型在预测时给出的置信度(confidence)对真实概率分布进行估计的准确性。 大语言模型的校准度评估是十分有意义的。首 先,有助于提高模型的可靠性。在一定程度上,校准 度越高,模型的预测结果就越可靠。如果一个大语 言模型的校准度低,它的预测结果就更有可能会导 致误解和错误的决策。其次,有助于改善置信度估 计。在实际的应用场景里,大语言模型的使用通常 会伴随着对预测结果的置信度估计。如果模型的校 准度很高,置信度估计一般也会更加准确。这样,校 准度可以更好地帮助使用者理解模型的预测结果并 在必要的时候(例如当模型对预测结果的置信度很 低时)进行人工介入。
泛化能力
模型泛化能力的评估重点集中于模型在与训练 集数据分布不同的域外数据集上的表现。一般来 说,泛化能力的评估是在小样本(few-shot)或零样 本(zero-shot)设置下进行的[31]。 小样本是指模型在预测时,仅给模型少量的样 例作为模型推理的参考。在这个过程中,模型的参 数通常不作更新。典型的小样本法是给出k 个由 问题、文本和对应的答案作为相关任务的实例,然后 再给出一个真正需要解答的问题和文本,希望模型 参照所给的样例输出合理的答案。当前广受关注的 上下 文 学 习 (In-Context Learning)就 属 于 这 种 情况。 零样本与小样本类似,不同在于零样本不提供 参考样例,只给模型提供需要解答的问题和对应的 文本,由模型直接推理出答案。这种方法在应用场 景下变得更加简单,但同时也存在一些问题,比如, 有时零样本设置可能会导致不清晰的任务定义,从 而影响模型的表现[31]。 由于小样本和零样本通常在下游任务上不对模 型参数进行更新,所以这种评估方式能够较好地体 现模型的泛化能力。泛化能力也在一定程度上预示 着模型应用于下游任务时的效果。因此,泛化能力 的评估是评估大语言模型能否广泛应用于诸多实际 下游应用场景的关键之一,也将成为未来大型模型 评估的一个重要组成部分。
适配能力
目前的大模型普遍强调通用性。虽然通过小样 本或零样本可以增强通用模型在具体任务上的能 力,但比起在特定任务上经过训练的模型,在该任务 上不一定具有优势。因此,需要考虑大模型在下游具体任务上的适配(adaptation)问题。适配是指将 原始模型转换成一个适用于下游具体任务的过程; 模型的适配能力则是指面对不同的适配策略,模型 在具体任务上的性能优劣。适配策略分为三种类 型:不更新原模型参数的适配[59]、增加适配层并调 整适配层参数的适配[60],以及对原模型做全参数更 新的适配。 在不更新模型参数的适配中,最典型的方法就 是通过设计提示(Prompt)和上下文例子(In-Context example)使 模 型 在 下 游 任 务 上 获 得 更 好 的 效 果。 提示的作用是提醒模型补充“答案”,这种方式类似 于预训练模型时对掩码(Mask)部分的预测或后续 内容的生成。以这种方式进行推理与模型预训练的 方 式 一 致,减 少 了 推 理 和 训 练 时 形 式 上 的 鸿 沟 (Gap)。但如何选择合适的提示形式非常重要。大 量的研究表明,提示形式的轻微变化会导致模型输 出结果的明显不同。
鲁棒性
虽然大语言模型在很多任务上的性能越来越出 色,甚至在一些数据集上超越了人类的表现,但如果数据受到 轻 微 的 扰 动,仍 有 可 能 会 导 致 模 型 性 能 的大幅下降。特别是,当现实世界比较复杂时,模型 的表现可能并不突出[62-65],这便是模型的鲁棒性不 强。鲁棒性用于衡量模型对于输入数据中的扰动 或者噪声 的 抵 抗 能 力。目 前,模 型 鲁 棒 性 的 评 估 方法之一是 对 文 本 输 入 进 行 扰 动,然 后 观 察 模 型 输出的变化。这些扰动大致可以分为两类:对抗 扰动 (AdversarialPerturbations)[66-69]和 非 对 抗 扰 动(Non-adversarialPerturbations)[70]。对抗扰动是指为了误导模型做出错误的预测而 故意对输入内容进行修改。尽管这些扰动不会引起 人的判断变化,但它们对模型的预测结果会产生明 显影响。相比之下,非对抗扰动则是对输入内容更自 然和随机的改动。这类扰动并不是刻意用来使模型 出错的,而是用于模拟现实世界中输入的复杂情况。 对抗扰动可以用来评估模型对恶意输入的处理 能力,而非对抗扰动,可用于衡量模型在现实世界中 面对有自然误差的输入时的表现。在评估大语言模 型时,需要综合考虑这两种扰动类型的影响,以更全 面地评估模型的鲁棒性。
效率
对于大语言模型而言,效率是一个重要的维度。 效率可以分为训练效率和推理效率两个方面。训练 效率指模型在训练时的复杂程度,而推理效率则是 指模型在不更新参数的情况下的推理复杂度。 针对模型效率的评估指标有多种,如训练时的 能量消耗和二氧化碳排放量[71-72]、参数个数[73-74]、 FLOPS(运行给定实例模型所需的操作数)[74-77]、实 际推理时间[78-79]、执行层数(模型实际推理时输入 经过的总层数)[80-81]等。对这些指标的评估可以帮 助研究人员选择最合适的模型来满足具体的应用 需求。
偏见和刻板印象
大语言模型通常会应用于多种不同的下游任 务,而其中潜在的偏见和刻板印象可能会使它在下 游任务中表现出歧视行为[72],从而限制其在一些领 域的应用。 与代表型损害 (RepresentationalHarm)[82]对 应,本文中的大语言模型偏见和刻板印象指的是针 对某个群体和某类属性标签产生的过于笼统且不合 事实的概括性观点[83-84],例如,认为男性天生更擅 长数学。目前,评估模型中的偏见和刻板印象的方法主要分为两类:基于表示端的评估方法和基于生 成端的评估方法。
公平性
随着大语言模型在下游任务中的准确率不断提高,模型的公平性问题也逐渐受到关注。与分配型 损害(allocationalharm)[82]对应,公平性更多关注 模型在特定下游任务中针对不同特征群体的性能差 距[82,102,106-108]。相对而言,偏见和刻板印象是指大 语言模型内部的某种固有属性(intrinsicbiases [72], 内在偏见);而公平性则关注实际任务中模型在特征 群体间的表现差距(extrinsicharms [72],外在伤害, 通常反映为不同群体间准确率的差距)。例如,机器 翻译中某些语言的翻译质量明显低于其他语言;语 音识别系统在识别非洲裔美国方言时可能会有更低 的准确率[108]。目前,模型公平性评估可以分为三 类:预测公平性(PredictiveParity)[109]、机会平等性 (Equality of Opportunity)[110] 和 反 事 实 公 平 性 (CounterfactualFairness)[111]。
有害性
大语言模型的有害性是指模型产生有害言论的 能力。当大语言模型部署于社交媒体或互联网时, 这种模型产生的有害言论很容易造成不良的社会影 响。目前,对大语言模型的有害性评估方法之一是 使用有害性检测系统检测文本中可能含有的有害成 分(包括大语言模型生成内容中的有害成分)。具有 代表 性 的 系 统 包 括 HateBERT [119]和 Perspective API [120]等。
结论
大语言模型评测对大语言模型的应用以及后续 发展有非常重要的作用。大语言模型的评测范式分 为经典评测范式和新型评测范式。经典评测范式中 的传统自然语言处理任务按照内含任务的特点划分为自然语言理解任务和自然语言生成任务,本文分 别介绍了这些任务当前所流行的经典评测基准以及 一些新型评测范式下代表性的评测基准和大语言模 型评测方面的实例;总结了现有评测中的一些不足 之处;然后介绍了全面的大语言模型评测思想以及 相关的评测指标和评测方法;最后总结了大语言模 型评测的一些新的研究问题、挑战以及未来的研究 方向。