400 128 6709

行业新闻

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

发布时间:2023-07-16点击次数:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

7 月 13 日消息,外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型(Mixture of Experts)等具体的参数和信息

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

▲ 图源 Semianalysis

外媒表示,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用混合专家模型来进行构建

IT之家注:混合专家模型(Mixture of Experts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

▲ 图源 Semianalysis

据悉,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1110 亿个参数,每次前向传递路由经过两个专家模型

此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果,训练成本相当高,外媒表示,8x H100 也无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以 H100 物理机每小时 1 美元计算,那么一次的训练成本就高达 6300 万美元(约 4.51 亿元人民币)。

对此,OpenAI 选择使用云端的 A100 GPU 训练模型,将最终训练成本降至 2150 万美元(约 1.54 亿元人民币)左右,用稍微更长的时间,降低了训练成本

以上就是GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型的详细内容,更多请关注其它相关文章!


# 之家  # 网络营销之网上推广  # seo刷排名口碑易速达  # BC类推广seo  # 读书网站建设北路小学  # 整合营销传播怎么推广  # 福州网页seo哪个好  # 网站推广竞价推广好还是seo好  # 好网站建设公司文案  # 浠水seo推广策略  # 青州seo优化收费标准  # GPT-4  # 多个  # 是一种  # 使用了  # 怎么处理  # 重庆  # 自定义  # 亿元  # 老照片  # 自己的  # OpenAI 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 站在社会的高度理解人工智能  中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范  世界人工智能大会高合发表演讲,HiPhi Y即将全球上市  谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备推广  鸿蒙OS 4将实现AI大模型集成,余承东表示坚持AI辅助而非AI取代  朝鲜出现国产大型察打一体无人机,实力世界第二,太意外了  央视报道!星纪魅族集团车载人机交互技术成世界移动通信大会焦点  马斯克嘲讽人工智能:机器学习本质就是统计学  你大脑中的画面,现在可以高清还原了  国内通用人形机器人将发布、产业加速突破  微软面向AI初学者推出免费网络课程  万兴播爆桌面端上线,支持AI数字人搜索、视频编辑等功能  郭帆谈ChatGPT:电影行业需要创新,否则人工智能将让电影变得平庸  技术如何使人变得懒惰?  AI大模型时代,数据存储新基座助推教科研数智化跃迁  马克龙密会AI专家,法国加入全球人工智能竞赛  参议院司法听证会:AI 不易管控,有可能被恶意分子利用来研发生化武器  英伟达CEO宣称生成式AI已迎来“划时代时刻”  绿联发布笑脸屏幕显示充电状态的30W/65W Q湃机器人充电器  【|直播|预告】人工智能高峰论坛将于7月2日13:30准时开播!  人工智能:解决劳动力短缺的关键策略  J*a与人工智能结合:构建智能云服务  物联网“僵尸网络DDos攻击”增长惊人,威胁全球电信网络  日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病  美妆行业在AI时代蓬勃发展  配 3D 机器人头像,谷歌展示全新安卓 LOGO  一文看懂被英伟达看中的九号机器人移动底盘  AI在教育中的角色:AI如何改变我们的学习方式  无人机在电力巡检中的应用:全面解析高效巡检流程  MiracleVision视觉大模型功能介绍  黄仁勋:5年前,我们对AI抱有巨大期望  编程已死,AI 当立?教授公开“唱反调”:AI 还帮不了程序员  【首发】首款“消化内镜手术机器人”进入临床尾声,ROBO医疗获数千万元A轮融资  清华&中国气象局大模型登Nature:解决世界级难题,「鬼天气」预报时效首次达3小时  Meta Connect 2025已确定时间为9月27-28,主题涵盖Quest 3与AI技术  微幼科技晨检机器人与人工晨检相比,有何优势  人工智能颠覆软件测试四大方式  日本演员工会提出AI立法建议 要求建立“声音肖像权”  如何用户外电源给无人机实现持久续航  如何用AI重塑你的工作流(一)  V社回应拒绝上架含 AI 生成内容的游戏:审核政策正在调整中  联想首发AI PC于今年秋季,英特尔CEO确认AI PC时代来临  小岛秀夫不反对使用AI 但认为人类应该凌驾于AI  Meta推出VR订阅服务Quest +:每月免费玩两款游戏,7.99美元/月  支持跨语言、人声狗吠互换,仅利用最近邻的简单语音转换模型有多神奇  一文读懂自动驾驶的激光雷达与视觉融合感知  数字彩排、虚拟建厂!这家顶级洗衣机工厂敲开“工业元宇宙”之门  时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体  1000万张照片训练AI模型 科学家找到水下定位新方法  0代码微调大模型火了,只需5步,成本低至150块 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司