发布时间:2025-03-03
点击次数: 近期,deepseek r1推理模型在全球社交媒体引发热议,其类人的深度思考能力令人瞩目。然而,deepseek r1、openai o1和o3等模型在一些高难度基准测试中表现欠佳,例如国际数学奥林匹克竞赛(imo)组合问题、抽象推理语料库(arc)难题和人类的最后考试(hle)问题(论文链接)。例如,在hle测试中,主流推理模型的准确率普遍低于10%。
为提升模型在这些挑战性基准上的表现,波士顿大学、NotBadMath.AI和谷歌等机构的研究人员提出了一种创新的多元推理方法,该方法在测试阶段整合多种模型和技术。实验结果表明,该方法在验证数学和编码问题以及其他问题的拒绝采样中高效便捷。
具体而言,研究人员利用交互式定理证明器Lean自动验证IMO问题的答案正确性,通过代码自动验证ARC谜题,并采用best-of-N算法有效解答HLE问题。实验结果显示,该方法将IMO组合问题的准确率从33.3%提升至77.8%,HLE问题的准确率从8%提升至37%,并成功解决了948名人类无法解答的80% ARC谜题以及o3 high模型无法解答的26.5%的ARC谜题。
研究人员指出,通过优化代理图表示、调整提示词、代码和数据集,以及运用测试时模拟、强化学习和具有推理反馈的元学习等技术,可以进一步增强推理模型的泛化能力。此外,他们还发现了基础语言模型的第三个经验性扩展规律:多种模型和方法的数量与可验证问题性能之间存在正相关关系。前两个规律分别为:模型大小、数据大小与损失之间的关系;模型性能与测试时算力之间的关系。
方法概述
研究人员的主要贡献包括:
MedPeer科研绘图
生物医学领域的专业绘图解决方案,告别复杂绘图,专注科研创新
166
查看详情
多元推理 (diverse inference): 测试时,该方法整合多个模型、方法和代理,而非依赖单一模型。任何正确的解决方案都将经过自动验证。具体方法包括:
测试时模拟和强化学习: 推理过程中生成额外的特定问题信息:
研究人员发现,使用训练好的验证器进行搜索通常优于监督微调,这促使他们通过测试时模拟和强化学习生成额外数据,从而成功证明2025年IMO组合题并解决困难的ARC谜题。下图1展示了求解IMO组合题的方法架构,包含编码、模拟、深度强化学习和解码四个阶段。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
实验结果
研究人员对IMO组合问题、ARC谜题和HLE问题进行了广泛评估。结果表明,多元推理方法显著提升了模型在这些难题上的准确率。具体结果见文中图表。




更多细节请参考论文。
以上就是多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%的详细内容,更多请关注其它相关文章!
# 多个
# 东阿聊城网站优化
# 知名seo优化费用
# 主流的网络营销推广方法
# seo技引擎优化
# 筹备期营销推广活动
# 全国推广网站建设步骤包括
# 银川网站建设电话咨询
# 北京先进网站建设配置
# 泸州网站建设企业网站
# 网站推广公司的价格要求
# 提出了
# 令人瞩目
# 产业
# 率最高
# 祝福语
# 奥林匹克
# 波士顿
# 内测
# 在这些
# 一言
# deepseek
# ai
# 工具
# 谷歌
# 多元推理
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
音乐制作元工具AudioCraft发布开源AI工具
优化J*a与MySQL合作:分享批处理操作的技巧
鉴智机器人发布基于地平线征程5的标准视觉感知产品
月薪6万,哪些AI岗位在抢人?
华为推出全新操作系统HarmonyOS 4,AI和新引擎完美融合
Adobe旗下Illustrator引入生成式AI工具Firefly
实测 AI 建筑设计软件的自动生成效果图能力
陈丹琦ACL学术报告来了!详解大模型「*」数据库7大方向3大挑战,3小时干货满满
贫穷让我预训练
企业软件行业更将被AI全面重构!Moka李国兴:未来优秀组织和个人将一定是善于使用AI生产力的
人工智能“Aria”现身 Opera浏览器100版本更新:新功能“标签岛”
软银、淡马锡、沙特阿美突击入股,“协作机器人第一股”节卡股份:强敌环伺,持续失血是常态
微软在 Bing 和 Edge 浏览器中拓展网购服务,帮用户选购心仪产品
自然语言生成在智能家居设备中的应用
乐天派AI桌面机器人提供的正能量情绪价值直接拉满,妥妥的治愈系
从谷歌到亚马逊,科技巨头们的AI痴迷
高质量数据推动AI场景化应用快速发展及落地
13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了
苹果AR头显商标与华为撞车,在中国或改名
学界业界大咖探讨:AI对数字艺术创新的推动力
一公司推出喷火机器狗,可喷出 9 米长火焰
科普:什么是AI大模型
曝光HarmonyOS 4的重要新能力:全面升级AI大模型,小艺实现全面进化
北京市元宇宙产业创新中心筹建工作正式启动
消息称苹果 iPhone 15 系列健康应用将深度融合 AI 技术
OpenAI已向中国申请注册“GPT-5”商标,此前已在美国提交申请
梦想实现!硬核科幻大片VR智能头盔即将问世
成都大运会闭幕式引入人形机器人展示表演
美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸
美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?
OpenAI CEO 阿尔特曼到访日本,对全球 AI 协调合作表示乐观
【首发】首款“消化内镜手术机器人”进入临床尾声,ROBO医疗获数千万元A轮融资
苹果AIGC专利:可通过语音指令生成AR/VR虚拟场景
十个AI算法常用库J*a版
中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范
AI证件照生成器:实际测试中AI软件展现了绝无仅有的强大效能
厂商陆续公布AI进展 完美世界游戏展示复合应用AI in GamePlay
360发布认知型通用大模型“360智脑4.0” 全面接入360全家桶
Vision Pro头显重磅发布;苹果收购AR厂商Mira
微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权
国内通用人形机器人将发布、产业加速突破
面向AI大模型,腾讯云首次完整披露自研星脉高性能计算网络
超级智能到底是什么?
华为HarmonyOS 4将集|成人|工智能大型模型
人工智能如何用于家庭安全
“无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼
微软Bing聊天机器人电脑端即将支持语音提问
《上古卷轴5》AI高清材质包优化游戏中所有怪物
喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新
北京市通用人工智能产业创新伙伴计划名单公布,京东科技入选“算力伙伴”