DeepMind推出QuestBench:评估大模型推理与信息获取能力

21
回复
11611
查看
[复制链接]

28

主题

96

帖子

96

积分

注册会员

Rank: 2

积分
96
发表于 2025-5-14 22:51:54 | 显示全部楼层 |阅读模式

ChMkK2gMgCOIKE2uAAKFOcwnhhsAArpwQCVeFcAAoVR582.png

ChMkK2gMgCOIKE2uAAKFOcwnhhsAArpwQCVeFcAAoVR582.png

4月26日,有相关报道指出,谷歌旗下的DeepMind团队推出了一项名为QuestBench的新基准工具。这一工具旨在通过约束满足问题(CSPs)的框架,评估大型语言模型(LLMs)在推理任务中识别和获取缺失信息的能力。
在现实世界的应用场景中,推理任务涵盖了数学、逻辑、规划和编码等多个领域。然而,实际应用往往充满不确定性。例如,用户在提出数学问题时可能会忽略重要细节,而机器人等自主系统则需要在部分信息不可观测的环境中运行。这种理想化完整信息设定与现实中不完全信息问题之间的矛盾,推动了LLMs主动信息获取能力的发展。
据报道,模型在模糊场景中提供准确解决方案的关键在于能够识别信息缺口,并生成针对性的澄清问题。为应对这一挑战,研究者开发了QuestBench基准,专门用于评估LLMs在推理任务中识别缺失信息的能力。QuestBench将问题形式化为约束满足问题(CSPs),特别关注“1-sufficient CSPs”,即只需要知道一个未知变量的值就可以解决目标变量的问题。
QuestBench覆盖了逻辑推理、规划和小学数学三个领域,并根据变量数量、约束数量、搜索深度以及暴力搜索所需猜测次数四个难度维度进行分类,从而精确揭示模型的推理策略和性能瓶颈。
在测试中,QuestBench对包括GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental在内的多个领先模型进行了评估,测试设置包括零样本、思维链提示和四样本提示。测试时间为2024年6月至2025年3月,涉及288个小学数学问题(GSM-Q)和151个扩展版本的小学数学问题(GSME-Q)。
测试结果显示,思维链提示普遍提升了模型的性能,而在规划任务中,Gemini 2.0 Flash Thinking Experimental表现出色。开源模型在逻辑推理方面具有竞争力,但在复杂数学问题上的表现相对较弱。研究指出,当前模型在简单代数问题上表现良好,但随着问题复杂性的增加,其性能显著下降,这表明在信息缺口识别和澄清能力方面仍有较大的改进空间。
回复

使用道具 举报

25

主题

86

帖子

86

积分

注册会员

Rank: 2

积分
86
发表于 2025-5-15 00:11:49 | 显示全部楼层
希望这个讨论能够引发更多人的思考和参与。
回复 支持 反对

使用道具 举报

33

主题

102

帖子

102

积分

注册会员

Rank: 2

积分
102
发表于 2025-5-15 00:30:54 | 显示全部楼层
期待这个论坛能够吸引更多有趣的灵魂。
回复 支持 反对

使用道具 举报

28

主题

100

帖子

100

积分

注册会员

Rank: 2

积分
100
发表于 2025-5-15 01:34:12 | 显示全部楼层
感谢楼主的提问,让我有机会学习新知识。
回复 支持 反对

使用道具 举报

21

主题

95

帖子

95

积分

注册会员

Rank: 2

积分
95
发表于 2025-5-15 02:46:04 | 显示全部楼层
这个话题很有深度,值得进一步探讨。
回复 支持 反对

使用道具 举报

17

主题

94

帖子

94

积分

注册会员

Rank: 2

积分
94
发表于 2025-5-15 04:31:43 | 显示全部楼层
看了大家的讨论,收获颇丰。
回复 支持 反对

使用道具 举报

38

主题

110

帖子

110

积分

注册会员

Rank: 2

积分
110
发表于 2025-5-15 06:28:26 | 显示全部楼层
谢了
回复 支持 反对

使用道具 举报

33

主题

109

帖子

109

积分

注册会员

Rank: 2

积分
109
发表于 2025-5-15 06:31:12 | 显示全部楼层
楼主真是人才济济,佩服不已。
回复 支持 反对

使用道具 举报

38

主题

165

帖子

236

积分

中级会员

Rank: 3Rank: 3

积分
236
发表于 2025-5-15 07:00:23 | 显示全部楼层
楼主辛苦,内容精彩。
回复 支持 反对

使用道具 举报

26

主题

94

帖子

94

积分

注册会员

Rank: 2

积分
94
发表于 2025-5-15 07:12:40 | 显示全部楼层
观点新颖,学习了。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

电脑Maps|手机版|小黑屋|果果一线

©果果一线 ·陕ICP备2023003579号