400 128 6709

行业新闻

多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%

发布时间:2025-03-03点击次数:

近期,deepseek r1推理模型在全球社交媒体引发热议,其类人的深度思考能力令人瞩目。然而,deepseek r1、openai o1和o3等模型在一些高难度基准测试中表现欠佳,例如国际数学奥林匹克竞赛(imo)组合问题、抽象推理语料库(arc)难题和人类的最后考试(hle)问题(论文链接)。例如,在hle测试中,主流推理模型的准确率普遍低于10%。

为提升模型在这些挑战性基准上的表现,波士顿大学、NotBadMath.AI和谷歌等机构的研究人员提出了一种创新的多元推理方法,该方法在测试阶段整合多种模型和技术。实验结果表明,该方法在验证数学和编码问题以及其他问题的拒绝采样中高效便捷。

具体而言,研究人员利用交互式定理证明器Lean自动验证IMO问题的答案正确性,通过代码自动验证ARC谜题,并采用best-of-N算法有效解答HLE问题。实验结果显示,该方法将IMO组合问题的准确率从33.3%提升至77.8%,HLE问题的准确率从8%提升至37%,并成功解决了948名人类无法解答的80% ARC谜题以及o3 high模型无法解答的26.5%的ARC谜题。

研究人员指出,通过优化代理图表示、调整提示词、代码和数据集,以及运用测试时模拟、强化学习和具有推理反馈的元学习等技术,可以进一步增强推理模型的泛化能力。此外,他们还发现了基础语言模型的第三个经验性扩展规律:多种模型和方法的数量与可验证问题性能之间存在正相关关系。前两个规律分别为:模型大小、数据大小与损失之间的关系;模型性能与测试时算力之间的关系。

方法概述

研究人员的主要贡献包括:

MedPeer科研绘图 MedPeer科研绘图

生物医学领域的专业绘图解决方案,告别复杂绘图,专注科研创新

MedPeer科研绘图 166 查看详情 MedPeer科研绘图
  1. 多元推理 (diverse inference): 测试时,该方法整合多个模型、方法和代理,而非依赖单一模型。任何正确的解决方案都将经过自动验证。具体方法包括:

    • IMO:采用8种不同方法(LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV),并将英语题目自动形式化为Lean进行验证。
    • ARC:合成代码解决方案作为单元测试进行验证。
    • HLE:使用best-of-N作为不完美验证器。
  2. 测试时模拟和强化学习: 推理过程中生成额外的特定问题信息:

    • IMO:将组合问题转化为交互式游戏环境,利用组合搜索或深度强化学习寻找部分结果或边界。
    • ARC:通过合成代码探索谜题转换,去除错误解决方案并优化候选方案。

研究人员发现,使用训练好的验证器进行搜索通常优于监督微调,这促使他们通过测试时模拟和强化学习生成额外数据,从而成功证明2025年IMO组合题并解决困难的ARC谜题。下图1展示了求解IMO组合题的方法架构,包含编码、模拟、深度强化学习和解码四个阶段。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

  1. 代码图的元学习: 利用LLM和其他工具追踪pipeline运行,生成超参数、提示词、代码标题和数据的A/B测试,并自适应地修改代理图。

实验结果

研究人员对IMO组合问题、ARC谜题和HLE问题进行了广泛评估。结果表明,多元推理方法显著提升了模型在这些难题上的准确率。具体结果见文中图表。图片图片图片图片图片图片 更多细节请参考论文。

以上就是多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%的详细内容,更多请关注其它相关文章!


# 多个  # 东阿聊城网站优化  # 知名seo优化费用  # 主流的网络营销推广方法  # seo技引擎优化  # 筹备期营销推广活动  # 全国推广网站建设步骤包括  # 银川网站建设电话咨询  # 北京先进网站建设配置  # 泸州网站建设企业网站  # 网站推广公司的价格要求  # 提出了  # 令人瞩目  # 产业  # 率最高  # 祝福语  # 奥林匹克  # 波士顿  # 内测  # 在这些  # 一言  # deepseek  # ai  # 工具  # 谷歌  # 多元推理 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 音乐制作元工具AudioCraft发布开源AI工具  优化J*a与MySQL合作:分享批处理操作的技巧  鉴智机器人发布基于地平线征程5的标准视觉感知产品  月薪6万,哪些AI岗位在抢人?  华为推出全新操作系统HarmonyOS 4,AI和新引擎完美融合  Adobe旗下Illustrator引入生成式AI工具Firefly  实测 AI 建筑设计软件的自动生成效果图能力  陈丹琦ACL学术报告来了!详解大模型「*」数据库7大方向3大挑战,3小时干货满满  贫穷让我预训练  企业软件行业更将被AI全面重构!Moka李国兴:未来优秀组织和个人将一定是善于使用AI生产力的  人工智能“Aria”现身 Opera浏览器100版本更新:新功能“标签岛”  软银、淡马锡、沙特阿美突击入股,“协作机器人第一股”节卡股份:强敌环伺,持续失血是常态  微软在 Bing 和 Edge 浏览器中拓展网购服务,帮用户选购心仪产品  自然语言生成在智能家居设备中的应用  乐天派AI桌面机器人提供的正能量情绪价值直接拉满,妥妥的治愈系  从谷歌到亚马逊,科技巨头们的AI痴迷  高质量数据推动AI场景化应用快速发展及落地  13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了  苹果AR头显商标与华为撞车,在中国或改名  学界业界大咖探讨:AI对数字艺术创新的推动力  一公司推出喷火机器狗,可喷出 9 米长火焰  科普:什么是AI大模型  曝光HarmonyOS 4的重要新能力:全面升级AI大模型,小艺实现全面进化  北京市元宇宙产业创新中心筹建工作正式启动  消息称苹果 iPhone 15 系列健康应用将深度融合 AI 技术  OpenAI已向中国申请注册“GPT-5”商标,此前已在美国提交申请  梦想实现!硬核科幻大片VR智能头盔即将问世  成都大运会闭幕式引入人形机器人展示表演  美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸  美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?  OpenAI CEO 阿尔特曼到访日本,对全球 AI 协调合作表示乐观  【首发】首款“消化内镜手术机器人”进入临床尾声,ROBO医疗获数千万元A轮融资  苹果AIGC专利:可通过语音指令生成AR/VR虚拟场景  十个AI算法常用库J*a版  中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范  AI证件照生成器:实际测试中AI软件展现了绝无仅有的强大效能  厂商陆续公布AI进展 完美世界游戏展示复合应用AI in GamePlay  360发布认知型通用大模型“360智脑4.0” 全面接入360全家桶  Vision Pro头显重磅发布;苹果收购AR厂商Mira  微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权  国内通用人形机器人将发布、产业加速突破  面向AI大模型,腾讯云首次完整披露自研星脉高性能计算网络  超级智能到底是什么?  华为HarmonyOS 4将集|成人|工智能大型模型  人工智能如何用于家庭安全  “无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼  微软Bing聊天机器人电脑端即将支持语音提问  《上古卷轴5》AI高清材质包优化游戏中所有怪物  喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新  北京市通用人工智能产业创新伙伴计划名单公布,京东科技入选“算力伙伴” 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司