发布时间:2025-11-20
点击次数: 蚂蚁集团宣布开源高性能权重交换框架 awex(asystem weight exchange framework),实现了在数千卡 gpu 集群上 5~10 秒内完成万亿参数级别的权重同步。
在千卡规模的集群上,Awex 使用 NCCL 传输数据可以在一秒内完成 10B 规模的模型权限交换,二十秒内完成 1T规模的模型权重交换,使用 RDMA 进行传输,1T 模型权重交换耗时可以进一步缩短到六秒钟。

据介绍,Awex 是为极致性能打造的训练推理引擎权重同步框架,解决 RL 流程中训练权重参数同步到推理模型的核心难题,可在秒级完成 TB 级大规模参数交换,显著降低 RL 模型训练延迟,主要特点如下:
极速同步性能:千卡集群万亿参数模型 6 秒内全量同步,性能领先;
统一模型适配层:自动处理训推引擎并行策略与引擎间的 Tensor 格式 / 布局差异,兼容多种模型架构;
零冗余 Resharding 传输与原地更新:仅传输必要分片(Shard),推理侧原地更新显存,避免重分配与拷贝开销;
多模式传输支持:支持 NCCL、RDMA、共享内存多种传输模式,充分发挥 NVLink / NVSwitch / RDMA 带宽并减少长尾延迟;
异构部署兼容:适配共卡 / 分卡模式,支持同步和异步 RL 算法训练场景,同时 RDMA 传输模式支持推理实例动态扩缩容;
灵活可插拔架构:支持对不同模型定制化权重 Sharing 和 Layout 行为,同时支持新的训练和推理引擎接入。
Awex 权重交换框架整体主要由三个组件组成:
WeightWriter:在每个训练进程内运行,负责当前训练进程的权重 Shard 的元数据收集上报、权重转换、权重发送 Resharding 计划构建、权重发送等功能;
WeightReader:在每个推理实例的控制进程上运行,其会在推理实例管理的每张 GPU 上面启动一个 WorkerWeightsReader,与训练进程的 WeightWriter 相对应,负责每个推理进程的权重 Shard 的元数据收集上报、权重转换、权重接受 Resharding 计划构建、权重接受等功能;
Lateral App
整理归类论文
85
查看详情
MetaServer:Job 级别全局 Server,用于训推引擎的服务发现和权重元数据交换,以及共卡情况下的事件通知等功能;

权重交换的核心功能模块主要由 5 个部分组成:
训推权重统一转换:负责将不同并行策略和 Tensor 布局的训练引擎和推理引擎的权重转换成统一的格式,用于后续的权重元数据计算和权重传输;
全局权重元数据计算与交换:将训推权重转换成统一的格式后,收集每个 Worker 的所有权重 Shard 元数据,并上报到 Meta Server,用于接下来的的权重传输计划构建;
P2P 权重传输执行计划:训练和推理引擎拿到全局所有 Worker 的训练和推理权重 Shard 元数据,然后分别各自构建对等的发送和接受确定性传输计划;
NCCL 权重传输:使用 NCCL 的 send/recv API基于构建的传输计划进行对等的权重发送与接收;
RDMA 权重传输:使用 NUMA 亲和,面向全局负载均衡传输计划的 RDMA 通信来进行权重的更新;
同时 Awex 也支持对权重进行 Tensor 级别的校验,将通过文件系统模式加载的权重跟通过传输模式加载的权重进行 Tensor 级别的细粒度比对,逐个判断差异,保证传输模式的正确性。
Awex 是蚂蚁 ASystem 强化学习系统的核心组件之一,而 ASystem 是百灵万亿模型训练的坚实基础。团队称将在未来陆续开源 ASystem 的其他核心 RL 组件,进一步完善开源强化学习训练生态。目前 Awex 开源版已支持 Megatron 和 SGLang 引擎。
开源地址:https://github.com/inclusionAI/asystem-awex
源码地址:点击下载
以上就是蚂蚁开源高性能权重交换框架 Awex,支持万亿参数强化学习的详细内容,更多请关注其它相关文章!
# github
# 温岭seo域名解析
# 学院网站建设汇报发言
# 漳州关键词搜索排名
# 越秀网站seo推广优化报价
# 樟木头家具网站制作优化
# 柳州短视频seo优化
# a标签提高seo优化
# 在每个
# 二十
# 将在
# 成长之路
# 加载
# 转换成
# 负载均衡
# 等功能
# 高性能
# 开源
# switch
# ai
# git
# 洛阳建网站推广
# 电商营销推广实施方案
# 菜籽油营销推广活动方案
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
干货满满,2025昆山元宇宙国际装备展等你来打卡!
学生作文评分的新趋势:教师与AI的合作模式
如何用户外电源给无人机实现持久续航
《上古卷轴5》AI高清材质包优化游戏中所有怪物
智能技术提高现代商业运营的7七种方式
人工智能“Aria”现身 Opera浏览器100版本更新:新功能“标签岛”
甲骨文与Cohere合作为企业提供生成式人工智能服务
当TS遇上AI,会发生什么?
2025WRC世界机器人大赛锦标赛(烟台)收官!斯坦星球勇夺VEX赛项冠亚军!
马斯克发推讽刺人工智能:机器学习的本质就是统计
OpenAI限制网络爬虫访问以保护数据免被用于AI模型训练
腾讯汤道生:大模型只是起点,产业落地是AI更大的应用场景
鸿蒙4即将支持大规模AI模型
人工智能赋能无人驾驶:商业化进程再提速
亚马逊确认今年不会举办 re:MARS 机器人和人工智能大会
V社谈AI制作游戏被ban:为确保开发者有素材所有权
对话无界AI创始人长铗:AI的创业机会在应用层丨创新者Innovator
揭秘AI数字人语录:抖音AI小和尚、老者语录能赚钱吗?
国产医疗企业的人工智能
拓普龙7188ML:轻便壁挂式工控机箱,为人工智能应用场景提供有力保障
数据科学,解码智能未来——Altair首次提出“Frictionless AI”概念
AI绘画,还需要懂数学?
百川智能发布Baichuan-13B AI模型,号称“130亿参数开源可商用”
第四范式「式说」大模型入选《2025年通用人工智能创新应用案例集》
华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来
ChatGPT设计出的第一个机器人来了!【附人工智能行业预测】
机器人加速!稀土永磁也被带火,持续性如何?
OpenAI 静默关闭 AI 文本检测工具,准确率仅为 26%
英国前首相:AI可能被用来制造“生物恐怖武器”
网友自制 AI 版《流浪地球 3》预告片,登上 CCTV6
Win11 的画图应用将包含 Windows Copilot 的 AI 工具整合
Hugging Face发布了基于NASA卫星数据构建的AI地理空间基础模型
中兴通讯无人机高空基站助力北京门头沟受灾乡镇保障应急通信
人形机器人打开精密齿轮市场全新空间!受益上市公司梳理
人工智能驱动艺术,打开达利的超现实想象
13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组
人工智能助力精准学习,猿辅导小猿学练机满足学生个性化学习需求
遵义市首次引入手术机器人,成功实施全膝关节置换术
掌阅科技申请阅爱聊商标 掌阅科技申请AI相关商标
数据显示:人工智能相关专业热度上升最快 考古、美术、生物医学工程等小众专业火了
山东机器人编程:Scratch编程基础,认识舞台!~济南机器人编程
大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用
用人工智能技术,亚马逊为用户生成产品评论摘要,帮助他们轻松选购
禁止艺术家使用 AI 创作《龙与地下城》游戏插图的决定已在 D&D Beyond 生效
华为云盘古大模型3.0发布 AI云服务同时上线:200亿亿次性能
360发布认知型通用大模型“360智脑4.0” 全面接入360全家桶
MIT开发“PhotoGuard”技术保护图像免遭恶意AI编辑
真全息产品,亮相深圳文博会——dipal数伴拓展元宇宙非沉浸式体验
一文看懂基础模型的定义和工作原理
美踏控股推出创新人工智能大数据模型“心乐舞河”:虚拟人音舞社交的新体验