「大型语言模型评测」综述

发布者：梁刚健发布时间：2024-04-03浏览次数：10

原文链接：https://mp.weixin.qq.com/s/XjgdVUWAXL2t2VZAkE3Dzw

大语言模型(LargeLanguageModels,LLMs)在多种自然语言处理(NaturalLanguageProcessing,NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。http://jcip.cipsc.org.cn/CN/Y2024/V38/I1/1

自2017年 Google提出 Transformer以来,自然语言处理的研究已逐步统一到这种具有灵活堆叠扩展能力的编解码框架下。特别是,人们可以基于 Transformer的编码端和解码端,通过无监督的方式,使用大规模数据预训练具有通用语言能力的基础模型,如基于编码端的 BERT [1]、基于解码端的 GPT [2],以及融入编码和解码结构的 BART [3]、 T5 [4]等。当这些预训练的基础模型与下游任务适配后,不断地刷新最优结果。为了评估模型的能力, 研究人员提出了许多针对这些模型在下游任务上性能表现的评测基准。预训练语言模型的规模越来越大,参数量从开始的亿级,发展到目前的千亿级甚至万亿级。随着规模的扩大,模型在无须对具体任务适配的情况下, 解决下游任务的能力也迅速提升。但与此同时,模型自身的各项能力和属性、应用的局限性、潜在风险及其可控性等仍未得到全面评测和深入研究。由于大语言模型的迅速发展和巨大影响,以及通用性的日益增强,传统基于单一任务的单一评价方法已经无法适应新的评测需求。首先,缺乏广度和深度。面对许多出色的大语言模型,仅在几个已有的基准数据集上往往难以区分它们的优劣。其次,存在数据偏差的问题。许多用于评测的数据集都是从特定的领域或人群中收集,这可能导致模型在基准数据上的表现难以准确反映其在真实应用场景中的性能。再者,忽视模型其他方面的能力或属性评估。先前的评测方法往往只关注模型的性能表现,忽视了对模型其他方面的能力或属性评估。例如,对模型逻辑推理能力的评估、对模型鲁棒性的评估和对模型生成有害内容可能性的评估等。因此,在大语言模型不断发展的同时,模型评估方法也需要进一步研究。

本文首先回顾了自然语言处理中有代表性的评测基准与评估指标,针对大语言模型的评估对评测范式进行了分类,将其分为经典评测范式和新型评测范式,分析了现有评测的不足;再介绍了全面的大语言模型评测思想,以及相关的评测指标和评测方法;最后对目前广受关注的大语言模型评测的一些新方向做了总结。需要说明的是,本文所指的大语言模型并没有严格规定模型规模的大小,凡以预训练为基础具有“通用”能力的语言模型都属于本文所指的大模型。

全面的大语言模型评测

随着大语言模型的影响越来越广泛,如何更好地评测模型已经成为研究界关注的热点问题。一项代表性的工作就是 Liang等人[49]提出的语言模型的全面评估(HolisticEvaluationofLanguageModels, HELM)方法。 HELM 的出发点是在多个场景、任务和评估指标下评估大语言模型的能力。HELM 首先对自然语言处理涉及的众多场景和任务进行了分类和筛选,并以应用性的任务作为评测重点,基于可行性和全面性从当前主要的评测数据中选择了一部分用于大语言模型的评测。其次,明确了大语言模型评估里需要考虑的7个评测指标(如准确率),同时又设计了7个更具针对性的评估维度(如语言能力、推理能力等)。最后,HELM 对30个大语言模型(包括 BLOOM [50]、GPT-3、GPT-NeoX、GPT-J、GLM [51] 等)在42个场景和上述评测指标下进行了评测,并公开了评测结果。HELM 也指出了其评测中存在的遗漏和不足,例如部分场景和任务的缺失、部分评估方法的不足、部分模型和适配策略的遗漏等。由于不少大模型不再开源(如 ChatGPT),全面评测大模型存在一定困难。HELM 为了模拟现实中人们通过 API访问大语言模型的情形[14],在评估中将大语言模型视为黑盒,这也是上述提及此次评估中的遗漏和不足之一。下面结合 HELM 用到的评测属性对其分别进行介绍,包括:准确率(Accuracy)、校准度(Calibration)、泛化(Generalization)能力、适配(Adaptation)能力、鲁棒性(Robustness)、效率(Efficiency)、偏见和刻板印象 (BiasandStereotypes)、公平性(Fairness)和有害性 (toxicity)。

准确率

准确率是指模型预测或生成结果的正确比例。一个准确率高的大语言模型能够更好地处理自然语言的相关任务,并提供更准确的预测和生成结果。大语言模型的准确率对于其在具体任务中的应用至关重要。准确率的评估方法因场景和任务而异。常见的指标有:判别类问题的评测指标,如F1(包括 Micro F1和 MacroF1)值和 Accuracy值;生成类问题的评测指标 BLEU(主要用于机器翻译结果评测)和 ROUGE(主要用于文本摘要结果评测);判别类问题和生成类问题都用到的精确匹配(ExactMatch, EM);检索类问题常用的 ReciprocalRank [52] 和 NormalizedDiscountedCumulativeGain [53]等。准确率指标在自然语言处理的评测中广为使用,在很长一段时间里几乎成为模型评测的唯一指标。在今后仍将是重要的指标。

校准度

准确率衡量的是模型输出结果的正确性,而校准度[54-56]则是衡量模型对输出结果赋予的概率的准确性,也就是模型在预测时给出的置信度(confidence)对真实概率分布进行估计的准确性。大语言模型的校准度评估是十分有意义的。首先,有助于提高模型的可靠性。在一定程度上,校准度越高,模型的预测结果就越可靠。如果一个大语言模型的校准度低,它的预测结果就更有可能会导致误解和错误的决策。其次,有助于改善置信度估计。在实际的应用场景里,大语言模型的使用通常会伴随着对预测结果的置信度估计。如果模型的校准度很高,置信度估计一般也会更加准确。这样,校准度可以更好地帮助使用者理解模型的预测结果并在必要的时候(例如当模型对预测结果的置信度很低时)进行人工介入。

泛化能力

模型泛化能力的评估重点集中于模型在与训练集数据分布不同的域外数据集上的表现。一般来说,泛化能力的评估是在小样本(few-shot)或零样本(zero-shot)设置下进行的[31]。小样本是指模型在预测时,仅给模型少量的样例作为模型推理的参考。在这个过程中,模型的参数通常不作更新。典型的小样本法是给出k 个由问题、文本和对应的答案作为相关任务的实例,然后再给出一个真正需要解答的问题和文本,希望模型参照所给的样例输出合理的答案。当前广受关注的上下文学习 (In-Context Learning)就属于这种情况。零样本与小样本类似,不同在于零样本不提供参考样例,只给模型提供需要解答的问题和对应的文本,由模型直接推理出答案。这种方法在应用场景下变得更加简单,但同时也存在一些问题,比如, 有时零样本设置可能会导致不清晰的任务定义,从而影响模型的表现[31]。由于小样本和零样本通常在下游任务上不对模型参数进行更新,所以这种评估方式能够较好地体现模型的泛化能力。泛化能力也在一定程度上预示着模型应用于下游任务时的效果。因此,泛化能力的评估是评估大语言模型能否广泛应用于诸多实际下游应用场景的关键之一,也将成为未来大型模型评估的一个重要组成部分。

适配能力

目前的大模型普遍强调通用性。虽然通过小样本或零样本可以增强通用模型在具体任务上的能力,但比起在特定任务上经过训练的模型,在该任务上不一定具有优势。因此,需要考虑大模型在下游具体任务上的适配(adaptation)问题。适配是指将原始模型转换成一个适用于下游具体任务的过程; 模型的适配能力则是指面对不同的适配策略,模型在具体任务上的性能优劣。适配策略分为三种类型:不更新原模型参数的适配[59]、增加适配层并调整适配层参数的适配[60],以及对原模型做全参数更新的适配。在不更新模型参数的适配中,最典型的方法就是通过设计提示(Prompt)和上下文例子(In-Context example)使模型在下游任务上获得更好的效果。提示的作用是提醒模型补充“答案”,这种方式类似于预训练模型时对掩码(Mask)部分的预测或后续内容的生成。以这种方式进行推理与模型预训练的方式一致,减少了推理和训练时形式上的鸿沟 (Gap)。但如何选择合适的提示形式非常重要。大量的研究表明,提示形式的轻微变化会导致模型输出结果的明显不同。

鲁棒性

虽然大语言模型在很多任务上的性能越来越出色,甚至在一些数据集上超越了人类的表现,但如果数据受到轻微的扰动,仍有可能会导致模型性能的大幅下降。特别是,当现实世界比较复杂时,模型的表现可能并不突出[62-65],这便是模型的鲁棒性不强。鲁棒性用于衡量模型对于输入数据中的扰动或者噪声的抵抗能力。目前,模型鲁棒性的评估方法之一是对文本输入进行扰动,然后观察模型输出的变化。这些扰动大致可以分为两类:对抗扰动 (AdversarialPerturbations)[66-69]和非对抗扰动(Non-adversarialPerturbations)[70]。对抗扰动是指为了误导模型做出错误的预测而故意对输入内容进行修改。尽管这些扰动不会引起人的判断变化,但它们对模型的预测结果会产生明显影响。相比之下,非对抗扰动则是对输入内容更自然和随机的改动。这类扰动并不是刻意用来使模型出错的,而是用于模拟现实世界中输入的复杂情况。对抗扰动可以用来评估模型对恶意输入的处理能力,而非对抗扰动,可用于衡量模型在现实世界中面对有自然误差的输入时的表现。在评估大语言模型时,需要综合考虑这两种扰动类型的影响,以更全面地评估模型的鲁棒性。

效率

对于大语言模型而言,效率是一个重要的维度。效率可以分为训练效率和推理效率两个方面。训练效率指模型在训练时的复杂程度,而推理效率则是指模型在不更新参数的情况下的推理复杂度。针对模型效率的评估指标有多种,如训练时的能量消耗和二氧化碳排放量[71-72]、参数个数[73-74]、 FLOPS(运行给定实例模型所需的操作数)[74-77]、实际推理时间[78-79]、执行层数(模型实际推理时输入经过的总层数)[80-81]等。对这些指标的评估可以帮助研究人员选择最合适的模型来满足具体的应用需求。

偏见和刻板印象

大语言模型通常会应用于多种不同的下游任务,而其中潜在的偏见和刻板印象可能会使它在下游任务中表现出歧视行为[72],从而限制其在一些领域的应用。与代表型损害 (RepresentationalHarm)[82]对应,本文中的大语言模型偏见和刻板印象指的是针对某个群体和某类属性标签产生的过于笼统且不合事实的概括性观点[83-84],例如,认为男性天生更擅长数学。目前,评估模型中的偏见和刻板印象的方法主要分为两类:基于表示端的评估方法和基于生成端的评估方法。

公平性

随着大语言模型在下游任务中的准确率不断提高,模型的公平性问题也逐渐受到关注。与分配型损害(allocationalharm)[82]对应,公平性更多关注模型在特定下游任务中针对不同特征群体的性能差距[82,102,106-108]。相对而言,偏见和刻板印象是指大语言模型内部的某种固有属性(intrinsicbiases [72], 内在偏见);而公平性则关注实际任务中模型在特征群体间的表现差距(extrinsicharms [72],外在伤害, 通常反映为不同群体间准确率的差距)。例如,机器翻译中某些语言的翻译质量明显低于其他语言;语音识别系统在识别非洲裔美国方言时可能会有更低的准确率[108]。目前,模型公平性评估可以分为三类:预测公平性(PredictiveParity)[109]、机会平等性 (Equality of Opportunity)[110] 和反事实公平性 (CounterfactualFairness)[111]。

有害性

大语言模型的有害性是指模型产生有害言论的能力。当大语言模型部署于社交媒体或互联网时, 这种模型产生的有害言论很容易造成不良的社会影响。目前,对大语言模型的有害性评估方法之一是使用有害性检测系统检测文本中可能含有的有害成分(包括大语言模型生成内容中的有害成分)。具有代表性的系统包括 HateBERT [119]和 Perspective API [120]等。

结论

大语言模型评测对大语言模型的应用以及后续发展有非常重要的作用。大语言模型的评测范式分为经典评测范式和新型评测范式。经典评测范式中的传统自然语言处理任务按照内含任务的特点划分为自然语言理解任务和自然语言生成任务,本文分别介绍了这些任务当前所流行的经典评测基准以及一些新型评测范式下代表性的评测基准和大语言模型评测方面的实例;总结了现有评测中的一些不足之处;然后介绍了全面的大语言模型评测思想以及相关的评测指标和评测方法;最后总结了大语言模型评测的一些新的研究问题、挑战以及未来的研究方向。

导航

「大型语言模型评测」综述