发布时间:2023-06-28
点击次数: aigc的爆发除了带来算力上的挑战,对网络的要求也达到了前所未有的高度。
6月26日,腾讯云首次对外完整披露自研星脉高性能计算网络:星脉网络具备业界最高的3.2T通信带宽,能提升40%的GPU利用率,节省30%~60%的模型训练成本,为AI大模型带来10倍通信性能提升。腾讯云的新一代算力集群HCC可以支持超过10万卡的巨大计算规模。
腾讯云副总裁王亚晨表示:“星脉网络是为大模型而生。它所提供的大带宽、高利用率以及零丢包的高性能网络服务,将助力算力瓶颈的突破,进一步释放AI潜能,全面提升企业大模型的训练效率,在云上加速大模型技术的迭代升级和落地应用。”
构建大模型专属高性能网络,提升40%GPU利用率
AIGC的火爆带来AI大模型参数量从亿级到万亿级的飙升。为支撑海量数据的大规模训练,大量服务器通过高速网络组成算力集群,互联互通,共同完成训练任务。
相反,GPU集群越大,额外通信损耗越多,大集群并不意味着大算力。AI大模型时代给网络带来了重大的挑战,包括高带宽要求、高利用率和信息无损。
传统低速网络带宽无法满足千亿、万亿参数规模的大模型,在训练过程中,通信占比可高达50%。同时,传统网络协议容易导致网络拥塞、高延时和丢包,而仅0.1%的网络丢包就可能导致50%的算力损失,最终造成算力资源的严重浪费。
基于全面自研能力,腾讯云在交换机、通信协议、通信库以及运营系统等方面,进行了软硬一体的升级和创新,率先推出业界领先的大模型专属高性能网络——星脉网络。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
在硬件方面,星脉网络基于腾讯的网络研发平台,采用全自研设备构建互联底座,实现自动化部署和配置。
在软件方面,腾讯云自研的TiTa网络协议,采用先进的拥塞控制和管理技术,能够实时监测并调整网络拥塞,满足大量服务器节点之间的通信需求,确保数据交换流畅、延时低,实现高负载下的零丢包,使集群通信效率
达90%以上。
此外,腾讯云还为星脉网络设计了高性能集合通信库TCCL,融入定制化解决方案,使系统实现了微秒级感知网络质量。通过使用动态调度机制来合理分配通信通道,可以有效避免由于网络问题导致的训练中断等情况,并将通信时延降低40%。
ChatGPT Writer
免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。
106
查看详情
网络的可用性,也决定了整个集群的计算稳定性。为确保星脉网络的高可用,腾讯云自研了端到端的全栈网络运营系统,通过端网立体化监控与智能定位系统,将端网问题自动定界分析,让整体故障的排查时间由天级降低至分钟级。经过改进,大型模型训练系统的整体部署时间已缩短为4.5天,保证了基础配置的100%准确性。
历经三代技术演进,软硬一体深耕自研
星脉网络全方位的升级背后,是腾讯数据中心网络历经三代技术演进的成果。

在腾讯发展初期,数据中心网络流量主要由用户访问数据中心服务器的南北向流量构成,网络架构以接入、汇聚、出口为主。这一阶段主要使用了商用网络设备,搭建标准化数据中心网络,支撑QQ在线人数增长超过1亿,服务器规模增长超10万。
随着大数据和云计算的兴起,服务器之间的东西向流量逐渐增多,云租户对网络产生了虚拟化和隔离的要求。数据中心网络架构逐渐演变为同时承载南北向和东西向流量的云网络架构,腾讯云构建了全自研网络设备与管理系统,打造超大规模数据中心网络,服务器规模近200万台。
腾讯云在国内先行推出了高性能计算网络,以满足AI大模型的需求,并采用了东西向和南北向流量的分离架构。构建了独立的超大带宽、符合AI训练流量特征的网络架构,并配合自研软硬件设施,实现整套系统的自主可控,满足超强算力对网络性能的新需求。
日前,腾讯云发布的新一代HCC高性能计算集群,正是基于星脉高性能网络打造,可以实现3.2T超高互联带宽,算力性能较前代提升3倍,为AI大模型训练构筑可靠的高性能网络底座。
未来,腾讯云还将持续投入基础技术的研发,为各行各业的数智化转型提供有力的技术支撑。
以上就是面向AI大模型,腾讯云首次完整披露自研星脉高性能计算网络的详细内容,更多请关注其它相关文章!
# AI大模型
# 前代
# 清远短视频关键词排名
# 非遗推广营销策略分析
# 徐州网站建设服务电话
# 用于推广的网站吗
# 网站推广需要ip
# 装饰画海报模板网站推广
# 威海抖音seo系统
# 宁河区怎样网络营销推广
# 提高贴吧关键词排名
# 桓台县seo网站推广
# 上海
# 丰田
# 中国科学院
# 互联
# 开源
# 东西向
# 首次
# 高性能
# 腾讯
# 自研网络
# 高性能计算
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
Stability AI 推出文生图模型 SDXL0.9,GPU要求下探至消费级水平
定义人工智能的十个关键术语
从数据中心到发电站:人工智能对能源使用的影响
人工智能在交通领域的革新:智能解决方案彻底改变交通方式
鸿蒙OS 4将实现AI大模型集成,余承东表示坚持AI辅助而非AI取代
“无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼
能源电力数字化转型恰逢其时
猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新
自己动手使用AI技术实现数字内容生产
2025世界人工智能大会成功召开
一图速览 | 十大脑机接口关键技术发布
马斯克称人类是半机器人,记忆外包给了电脑
AI框架生态峰会本周开幕 华为昇腾“朋友圈”再聚首 全球首个全模态大模型将登场
利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队
研究发现AI聊天机器人ChatGPT不会讲笑话,只会重复25个老梗
MIT开发“PhotoGuard”技术保护图像免遭恶意AI编辑
人工智能赋能无人驾驶:商业化进程再提速
套娃不可取:研究人员证实用AI生成的结果训练AI将导致模型退化
看了天美对AI的布局,我感觉它想得是真明白
优傲机器人的人机协作技术 助力中小企发展
朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪
小红书陷入麻烦!被指控未经许可使用用户图片进行AI训练
微软商店 AI 摘要功能开启预览,帮助用户迅速了解应用评价
人工智能在重症监护室的未来
AI与5G的强强联合:唤醒数字时代的无尽潜能
中国电信AI能力通过国家级金融领域权威认证并荣膺AI国际头部竞赛冠军
Snap宣布研发出新技术 可大幅提升AI生成图像速度
人工智能驱动艺术,打开达利的超现实想象
微软最新推出的NaturalSpeech2语音合成模型:提供更准确的语音重构,避免棒读效果
物联网和人工智能的协同作用:释放预测性维护的潜力
飒智智能机器人核心技术与应用论坛暨一体化控制器发布会成功举办
AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购
联合国秘书长称支持建立全球人工智能监管机构
大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用
聚焦WAIC|AI技术支撑大模型探索未来
卫星通信牵引物联网竞争升维,模组厂商如何决胜百亿市场?
世界人工智能大会中西部县域数字就业中心组团亮相
马斯克嘲讽人工智能:机器学习本质就是统计学
QQ音乐业内率先推出「AI一起听」功能,领取你的AI听歌助手
参议院司法听证会:AI 不易管控,有可能被恶意分子利用来研发生化武器
看似低调,实则稳健:字节在AI路上会遇到什么?
OpenAI首席执行官表态支持欧盟AI监管
月薪6万,哪些AI岗位在抢人?
明略科技发布免费开源TensorBoard.cpp,促进大型模型的预训练工作
人工智能颠覆软件测试四大方式
探索人工智能和物联网的动态融合
国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功
焊接协作机器人或将成为26届埃森展最大看点
超级智能到底是什么?
Bing 聊天机器人现支持在桌面端用语音提问