低Token高精度!字节复旦推出自适应推理框架CAR

过度依赖 CoT 思维链推理会降低模型性能,有新解了!

来自字节、复旦大学的研究人员提出自适应推理框架 CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。

推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。

但已有研究发现,长 CoT 推理并非总能提升准确率,甚至会削弱模型处理简单任务的能力(可能产生冗长输出)。

为此,研究人员提出了 CAR 这一基于置信度的自适应推理框架,它首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发推理。

在多模态视觉问答、关键信息提取及文本推理等多个基准测试中,CAR 超越了单纯的短回答与长推理方法,在准确性与效率之间取得了最佳平衡。

先导实验设置

这项研究聚焦文本密集型视觉问答(VQA)和关键信息抽取(KIE)领域,选取8 个具有代表性的公开数据集开展先导实验。

其中,DocVQA、InfoVQA、ChartQA、VisualMRC 等 4 个数据集构成 VQA 数据集,覆盖文档、图表、信息图等多种视觉文本形态;SROIE、CORD、FUNSD、POIE 等 4 个数据集组成 KIE 数据集,主要用于票据、表格等结构化信息抽取任务。

以这些数据集为基础,研究对 Qwen2.5-0.5B 模型进行微调,并在域内(如 DocVQA、ChartQA)和域外(如 POIE、InfoVQA)数据集上开展性能评估。

评估过程中,要求模型分别生成简短答案和包含长文本推理过程的答案两种输出形式。

实验完成后,系统性统计各数据集的准确率(Accuracy)和回答的困惑度(Perplexity,PPL)—— PPL 值越低,表明模型对生成答案的置信度越高。

实验分析结果显示,PPL 与准确率之间存在显著的强负相关性。

从数据集层面分析,准确率与 PPL 呈现明显的逆向关系(见图 1),即数据集整体准确率越高,其平均 PPL 值越低;深入数据集内部观察,预测正确样本的平均 PPL 分数显著低于预测错误样本(见图 2)。

基于上述发现,研究创新性提出一种基于 PPL 的动态推理决策机制。

具体而言,当模型输出的 PPL 值超过设定阈值(研究以测试集 PPL 分布的 75% 分位数作为阈值)时,判定为低置信度场景,触发长文本推理模式,以减少误判风险;若 PPL 值低于阈值,则判定为高置信度场景,直接输出简短答案,提升推理效率。

实验结果表明,采用该动态决策机制后,模型在绝大多数数据集上的性能均实现显著提升。

以下为 PPL 取 75% 分位数为阈值下的性能对比:

提出自适应推理框架 CAR

基于上述探索性的发现,这项研究工作拟开发一个使用困惑度(PPL)的动态推理决策框架 Certainty-based Adaptive Reasoning(CAR),其目标是能够在推理过程中自适应地在短文本推理和长文本推理之间切换。

如图 3 ( a ) 所示,研究人员首先使用包含简短答案的示例和包含长文本推理解答的示例来训练大语言模型(LLM)或多模态大语言模型(MLLM)。

随后,借助训练集的困惑度(PPL),估计正确和错误简短答案的 PPL 分布,这些分布用于决策制定。

具体来说,如果估计的分布确定简短答案是正确的,所提出的方法会直接输出该正确答案。否则,它会执行长文本推理。推理过程如图 3 ( b ) 所示。

模型训练

研究人员将同时包含简短答案和长文本推理解答标注的训练示例进行混合,构建新的数据集。随后采用标准指令微调流程,模型接收由输入文本和输出文本组成的序列,优化目标为交叉熵损失:

模型训练完成后,对训练集中所有样本进行短答案推理,生成预测答案并计算其困惑度值 PPL。

Token 序列的困惑度定义为:

高斯分布建模

设二元变量 C 表示短答案是否正确(C=1 为正确,C=0 为错误),假设正确与错误答案的 PPL 分布均服从高斯分布:

概率密度函数分别为:

最后,通过训练数据估计其中参数(假设 n1 和 n0 分别为训练集中正确与错误回答的数量):

推理过程

对新输入 x,推理步骤如下:

1、短回答推理:模型生成短回答,并计算相应的 PPL 为 PPLnew;

2、概率计算:根据贝叶斯定理,将 PPLnew 代入概率密度函数,计算后验概率;

其中,先验概率分别为:

3、决策规则:如果短回答的正确概率高于其可能错误的概率,直接输出短回答;否则触发模型的长推理。

实验结果

下表展示了多模态数据集上的性能表现。

首先,CARQwen2VL 相比 CARShort 和 CARLong 的优越性能,证明了使用困惑度(PPL)作为推理路径选择指标的有效性。

此外,所提出的方法保持了还使用了更少的输出 Token 数量(平均 86.9 个 token),仅为 Qwen2-VLLong 所使用 Token 数量的 15%。

下表展示了基于文本的推理任务性能对比。

CAR 方法表现出稳健的性能。具体地,使用 Qwen2.5-7B 模型时平均准确率达 81.1%(上图);使用 Llama3.1-8B 时达 74.9%,均优于短答案基线模型以及长文本推理模型(下图)。

此外,CAR 的性能均优于 TALE 和 COD 等先进的 Token 缩减方法。

小结一下,这项研究提出基于置信度的自适应推理框架(CAR),该框架可根据模型置信度动态切换短回答与长文本推理模式。

通过困惑度(PPL)量化模型对答案的置信度,CAR 在高置信度时直接输出短回答以提升效率,低置信度时触发长文本推理以确保准确性。

按照研究团队的说法,CAR 打破了 " 长文本推理必然性能更好 " 的固有认知,为大模型推理提供了更灵活高效的解决方案,推动大模型推理向智能化、轻量化方向发展。

论文地址:https://arxiv.org/abs/2505.15154

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

点亮星标

科技前沿进展每日见