400 128 6709

行业新闻

微软新出热乎论文:Transformer扩展到10亿token

发布时间:2023-07-22点击次数:

当大家不断升级迭代自家大模型的时候,LLM(大语言模型)对上下文窗口的处理能力,也成为一个重要评估指标。

比如明星大模型 GPT-4 支持 32k token,相当于 50 页的文字;OpenAI 前成员创立的 Anthropic 更是将 Claude 处理 token 能力提升到 100k,约 75000 个单词,大概相当于一键总结《哈利波特》第一部。

在微软最新的一项研究中,他们这次直接将 Transformer 扩展到 10 亿 token。这为建模非常长的序列开辟了新的可能性,例如将整个语料库甚至整个互联网视为一个序列。

作为比较,普通人可以在 5 小时左右的时间里阅读 100,000 个 token,并可能需要更长的时间来消化、记忆和分析这些信息。Claude 可以在不到 1 分钟的时间里完成这些。要是换算成微软的这项研究,将会是一个惊人的数字。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

微软新出热乎论文:Transformer扩展到10亿token图片

  • 论文地址:https://arxiv.org/pdf/2307.02486.pdf
  • 项目地址:https://github.com/microsoft/unilm/tree/master

具体而言,该研究提出了 LONGNET,这是一种 Transformer 变体,可以将序列长度扩展到超过 10 亿个 token,而不会牺牲对较短序列的性能。文中还提出了 dilated attention,它能指数级扩展模型感知范围。

LONGNET 具有以下优势:

1)它具有线性计算复杂性;

2)它可以作为较长序列的分布式训练器;

3)dilated attention 可以无缝替代标准注意力,并可以与现有基于 Transformer 的优化方法无缝集成。

实验结果表明,LONGNET 在长序列建模和一般语言任务上都表现出很强的性能。

在研究动机方面,论文表示,最近几年,扩展神经网络已经成为一种趋势,许多性能良好的网络被研究出来。在这当中,序列长度作为神经网络的一部分,理想情况下,其长度应该是无限的。但现实却往往相反,因而打破序列长度的限制将会带来显著的优势:

  • 首先,它为模型提供了大容量的记忆和感受野,使其能够与人类和世界进行有效的交互。
  • 其次,更长的上下文包含了更复杂的因果关系和推理路径,模型可以在训练数据中加以利用。相反,较短的依赖关系则会引入更多虚假的相关性,不利于模型的泛化性。
  • 第三,更长的序列长度可以帮助模型探索更长的上下文,并且极长的上下文也可帮助模型缓解灾难性遗忘问题。

然而,扩展序列长度面临的主要挑战是在计算复杂性和模型表达能力之间找到合适的平衡。

例如 RNN 风格的模型主要用于增加序列长度。然而,其序列特性限制了训练过程中的并行化,而并行化在长序列建模中是至关重要的。

最近,状态空间模型对序列建模非常有吸引力,它可以在训练过程中作为 CNN 运行,并在测试时转换为高效的 RNN。然而这类模型在常规长度上的表现不如 Transformer。

另一种扩展序列长度的方法是降低 Transformer 的复杂性,即自注意力的二次复杂性。现阶段,一些高效的基于 Transformer 的变体被提出,包括低秩注意力、基于核的方法、下采样方法、基于检索的方法。然而,这些方法尚未将 Transformer 扩展到 10 亿 token 的规模(参见图 1)。

微软新出热乎论文:Transformer扩展到10亿token图片

下表为不同计算方法的计算复杂度比较。N 为序列长度,d 为隐藏维数。

微软新出热乎论文:Transformer扩展到10亿token图片

方法

该研究的解决方案 LONGNET 成功地将序列长度扩展到 10 亿个 token。具体来说,该研究提出一种名为 dilated attention 的新组件,并用 dilated attention 取代了 Vanilla Transformer 的注意力机制。通用的设计原则是注意力的分配随着 token 和 token 之间距离的增加而呈指数级下降。该研究表明这种设计方法获得了线性计算复杂度和 token 之间的对数依赖性。这就解决了注意力资源有限和可访问每个 token 之间的矛盾。

微软新出热乎论文:Transformer扩展到10亿token图片

在实现过程中,LONGNET 可以转化成一个密集 Transformer,以无缝地支持针对 Transformer 的现有优化方法(例如内核融合(kernel fusion)、量化和分布式训练)。利用线性复杂度的优势,LONGNET 可以跨节点并行训练,用分布式算法打破计算和内存的约束。

最终,该研究有效地将序列长度扩大到 1B 个 token,而且运行时(runtime)几乎是恒定的,如下图所示。相比之下,Vanilla Transformer 的运行时则会受到二次复杂度的影响。

微软新出热乎论文:Transformer扩展到10亿token

该研究进一步引入了多头 dilated attention 机制。如下图 3 所示,该研究通过对查询 - 键 - 值对的不同部分进行稀疏化,在不同的头之间进行不同的计算。

微软新出热乎论文:Transformer扩展到10亿token图片

分布式训练

虽然 dilated attention 的计算复杂度已经大幅降低到微软新出热乎论文:Transformer扩展到10亿token,但由于计算和内存的限制,在单个 GPU 设备上将序列长度扩展到百万级别是不可行的。有一些用于大规模模型训练的分布式训练算法,如模型并行 [SPP+19]、序列并行 [LXLY21, KCL+22] 和 pipeline 并行 [HCB+19],然而这些方法对于 LONGNET 来说是不够的,特别是当序列维度非常大时。

该研究利用 LONGNET 的线性计算复杂度来进行序列维度的分布式训练。下图 4 展示了在两个 GPU 上的分布式算法,还可以进一步扩展到任意数量的设备。

微软新出热乎论文:Transformer扩展到10亿token

实验

该研究将 LONGNET 与 vanilla Transformer 和稀疏 Transformer 进行了比较。架构之间的差异是注意力层,而其他层保持不变。研究人员将这些模型的序列长度从 2K 扩展到 32K,与此同时减小 batch 大小,以保证每个 batch 的 token 数量不变。

表 2 总结了这些模型在 Stack 数据集上的结果。研究使用复杂度作为评估指标。这些模型使用不同的序列长度进行测试,范围从 2k 到 32k 不等。当输入长度超过模型支持的最大长度时,研究实现了分块因果注意力(blockwise causal attention,BCA)[SDP+22],这是一种最先进的用于语言模型推理的外推方法。

此外,研究删除了绝对位置编码。首先,结果表明,在训练过程中增加序列长度一般会得到更好的语言模型。其次,在长度远大于模型支持的情况下,推理中的序列长度外推法并不适用。最后,LONGNET 一直优于基线模型,证明了其在语言建模中的有效性。

微软新出热乎论文:Transformer扩展到10亿token

序列长度的扩展曲线

图 6 绘制了 vanilla transformer 和 LONGNET 的序列长度扩展曲线。该研究通过计算矩阵乘法的总 flops 来估计计算量。结果表明,vanilla transformer 和 LONGNET 都能从训练中获得更大的上下文长度。然而,LONGNET 可以更有效地扩展上下文长度,以较小的计算量实现较低的测试损失。这证明了较长的训练输入比外推法更具有优势。实验表明,LONGNET 是一种更有效的扩展语言模型中上下文长度的方法。这是因为 LONGNET 可以更有效地学习较长的依赖关系。

微软新出热乎论文:Transformer扩展到10亿token

扩展模型规模

大型语言模型的一个重要属性是:损失随着计算量的增加呈幂律扩展。为了验证 LONGNET 是否仍然遵循类似的扩展规律,该研究用不同的模型规模(从 1.25 亿到 27 亿个参数) 训练了一系列模型。27 亿的模型是用 300B 的 token 训练的,而其余的模型则用到了大约 400B 的 token。图 7 (a) 绘制了 LONGNET 关于计算的扩展曲线。该研究在相同的测试集上计算了复杂度。这证明了 LONGNET 仍然可以遵循幂律。这也就意味着 dense Transformer 不是扩展语言模型的先决条件。此外,可扩展性和效率都是由 LONGNET 获得的。

微软新出热乎论文:Transformer扩展到10亿token

长上下文 prompt

Prompt 是引导语言模型并为其提供额外信息的重要方法。该研究通过实验来验证 LONGNET 是否能从较长的上下文提示窗口中获益。

该研究保留了一段前缀(prefixes)作为 prompt,并测试其后缀(suffixes)的困惑度。并且,研究过程中,逐渐将 prompt 从 2K 扩展到 32K。为了进行公平的比较,保持后缀的长度不变,而将前缀的长度增加到模型的最大长度。图 7 (b) 报告了测试集上的结果。它表明,随着上下文窗口的增加,LONGNET 的测试损失逐渐减少。这证明了 LONGNET 在充分利用长语境来改进语言模型方面的优越性。

以上就是微软新出热乎论文:Transformer扩展到10亿token的详细内容,更多请关注其它相关文章!


# 证明了  # 荆门seo联系方式查询  # 上海seo实用技巧  # 汉中seo网络营销  # 云阳县网站推广代运营公司  # 商河企业抖音营销推广方案  # 随州网站优化推广电话  # 河北区口碑营销推广中心  # 网站营销推广薇星hfqjwl出词  # 轻食内容营销推广策略  # 企业网站建设思路  # 提出了  # 互联网  # 将会  # 更长  # 较长  # 过程中  # 新出  # 官网  # 微软  # 扩展到  # claude  # 论文 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权  厂商陆续公布AI进展 完美世界游戏展示复合应用AI in GamePlay  五个出色的人工智能应用实例  华为4G5G通信物联网收费标准公布,多年研发成果,十年花费近万亿  让AI助手带您轻松愉快地享受写作之旅  AI室内设计软件流行,室内设计行业如何应对效率变革  百度文心一言App上架苹果商店,人工智能创作引发热议  谷歌StyleDrop在可控性上卷翻MidJourney,前GitHub CTO用AI颠覆编程  到中国科技馆体验“一滴油的奇妙旅行”,线上元宇宙展厅同步开启  云米Smart 2E AI立式空调开启预售:新三级能效,到手价3899元  自己动手使用AI技术实现数字内容生产  游族AI创新院揭牌成立 推进AI赋能游戏业务  发布最新版本的 PICO OS 5.7.0:支持VR头盔录屏并跨平台分享至微信  普林斯顿大学推出Infinigen AI模型 可生成真实自然环境 3D场景  搭载星火认知大模型 讯飞听见智慧屏开启AI办公新体验  机器人技能大比拼  亲身体验鸿蒙4:AI大模型带来的便利,告别单纯的旁观者状态  深度学习模型综述:用于3D MRI和CT扫描的应用  Snow Kylin登陆中国列车,打造全球首条元宇宙专列  DeepMind推惊世排序算法,C++库忙更新!  真全息产品,亮相深圳文博会——dipal数伴拓展元宇宙非沉浸式体验  可按用户语气自动回复消息,Zoom 推出基于生成式 AI 的新功能  2025智源大会AI安全话题备受关注,《人机对齐》新书首发  MIT开发“PhotoGuard”技术保护图像免遭恶意AI编辑  1000万张照片训练AI模型 科学家找到水下定位新方法  严打“黑飞”,无人机检测反制设备护航大运会净空安全  IBM与NASA联手开源地理空间AI基础模型,促进气候科学领域进步  《上古卷轴5》AI高清材质包优化游戏中所有怪物  人脸识别+全景双摄+AI算法 萤石推动智能锁行业革新  Meta 开源 AI 语言模型 MusicGen,可将文本和旋律转化为完整乐曲  马斯克:将来机器人比人类多!特斯拉机器人亮相人工智能大会  大疆 Air 3 无人机售价和实物照片曝光  当一切设备都受到人工智能的控制  世界人工智能大会高合发表演讲,HiPhi Y即将全球上市  长宁这家企业在世界人工智能大会上荣获“蓝鼎奖”  日本演员工会提出AI立法建议 要求建立“声音肖像权”  MetaGPT AI 模型开源:可模拟软件公司开发过程,生成高质量代码  RoboNeo什么时候上线  自然语言生成在智能家居设备中的应用  移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速  人工智能领域,突破难题:国产大模型“无源之水”问题得到解决。  技术如何使人变得懒惰?  7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会  面向AI大模型,腾讯云首次完整披露自研星脉高性能计算网络  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  马斯克发推讽刺人工智能,机器学习本质是统计?  中兴通讯无人机高空基站助力北京门头沟受灾乡镇保障应急通信  尼康尼克尔 Z 180-600mm f/5.6-6.3 VR 镜头发布,12499 元  Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收  中科院自研新一代 AI 大模型“紫东太初 2.0”问世 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司