400 128 6709

行业新闻

Mogao— 字节跳动Seed团队推出的多模态理解与生成统一架构

发布时间:2025-05-13点击次数:

Mogao是什么

mogao是由字节跳动seed团队开发的交错多模态生*基础模型。它通过采用双视觉编码器,结合变分自编码器(vae)和视觉变换器(vit),增强了视觉理解并改善了图像生成的上下文对齐。mogao引入了交错旋转位置嵌入(il-rope),以捕捉图像的二维空间位置信息和多模态数据的时间位置关系,并通过多模态无分类器引导技术提升生成质量和一致性。

拾贝 拾贝

一键同步微信读书所有笔记和划线,并在新标签页回顾

拾贝 186 查看详情 拾贝

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Mogao— 字节跳动Seed团队推出的多模态理解与生成统一架构Mogao的主要功能

  • 多模态理解和生成:Mogao能够处理文本和图像的交错序列,实现高质量的多模态理解和生成。它可以在给定文本描述的情况下生成高质量图像,也能在给定图像的情况下生成相关的文本内容。在多模态理解任务中,文本标记会关注历史序列中的视觉变换器(ViT)标记和文本标记,以更好地理解图像内容。
  • 零样本图像编辑与组合生成:Mogao展现出强大的零样本图像编辑能力,能够在没有额外训练的情况下对图像进行编辑和修改。它还具备组合生成能力,可以将不同的元素组合在一起生成新的图像,具有很强的一致性和连贯性。
  • 高质量图像生成:Mogao在图像生成方面表现出色,在真实感、图形设计、动漫、插图等多个风格分类上表现优异。支持最高2K分辨率的图像生成,能够生成具有高细节和高质量的图像。
  • 文本渲染能力:Mogao在文本渲染方面有显著提升,文本可用率高达94%,有效解决了以往图像生成中中文字渲染的难题。

Mogao的技术原理

  • 双视觉编码器:Mogao使用变分自编码器(VAE)和视觉变换器(ViT)作为视觉编码器。当图像作为条件输入时,同时提取VAE和ViT的视觉特征,并将它们附加到历史序列中。对于多模态理解任务,文本标记仅关注ViT标记和文本标记;对于多模态生成任务,噪声VAE标记会关注历史序列中的所有标记。
  • 深度融合架构:基于预训练的大语言模型(LLM),Mogao使用统一的自注意力层同时处理视觉和文本序列,在前馈网络(FFN)中使用不同的多层感知机(MLP)来分别处理视觉和文本模态。
  • 交错旋转位置嵌入(IL-RoPE):用于捕捉图像的二维空间位置信息和多模态数据的时间位置关系,使模型能够更好地处理交错的文本和图像序列。
  • 混合分辨率训练:在不同宽高比和分辨率的图像上进行预训练和微调,从低分辨率(如256²)到高分辨率(如2048²),引入尺寸嵌入使模型能够感知目标分辨率。
  • 跨模态RoPE:将文本token视为二维token,应用二维RoPE,进一步增强视觉和文本token的对齐效果。
  • 后训练阶段:包括持续训练(CT)、监督微调(SFT)、人工反馈对齐(RLHF)和提示工程(PE),以提升模型的性能和可控性。
  • 缺陷感知型训练范式:引入缺陷检测器,精确定位缺陷区域,通过掩码隐含空间优化,有效扩展训练数据集。
  • Hyper-SD和RayFlow:优化生成路径,引导每个数据点至特定实例的目标分布,减少路径碰撞,提高生成稳定性和样本多样性。
  • 重要性采样机制:在训练过程中关注最关键的时间步,支持高效的少步数采样,不影响生成质量。

Mogao的项目地址

  • arXiv技术论文:https://www.php.cn/link/5ca41065040d65b60926927b35d8bae8

Mogao的应用场景

  • 内容创作:Mogao能够根据文本描述生成高质量的图像,也可以根据图像生成相关的文本描述。
  • 智能助手:Mogao可以结合语音、图像和文本等多种模态,实现更自然、更智能的人机交互。
  • 图像和文本的相互检索:用户可以通过输入文本描述来查找相关的图像,或者通过上传图像来获取相关的文本描述。
  • 虚拟现实与增强现实:Mogao可以用于生成虚拟环境和互动元素,提升虚拟现实和增强现实的用户体验。
  • 医疗影像分析:Mogao可以将不同模态的医疗影像(如MRI、CT、超声波等)与文本描述相结合,提高疾病诊断的准确性和早期发现能力。

以上就是Mogao— 字节跳动Seed团队推出的多模态理解与生成统一架构的详细内容,更多请关注其它相关文章!


# 大学进不去怎么推广网站  # 秋冬卫衣关键词搜索排名  # 宁国seo网站优化公司  # 如何提升淘宝关键词排名  # seo1122  # 迎泽区seo优化收费  # 合肥二级目录seo  # 中拓科技关键词排名  # 推广亲子的网站有哪些好  # 南京网站建设公司 雷  # 多模  # 互动  # 是由  # 多个  # 更好地  # 情况下  # 拾贝  # 模态  # 高质量  # 变换器 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 猿力科技入选北京市通用人工智能产业创新伙伴计划  AI新视野,增长新势能,伙伴云受邀出席笔记侠创业讲真话AI峰会  吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成  小米9号员工李明宣布创业:打造首款安卓桌面机器人  当一切设备都受到人工智能的控制  构建数字文旅新高地!洛阳涧西区开启元宇宙时代  标小智LOGO推出AI公司起名生成器“Name.GPT”  全新小艺搭载AI大模型,有效提升学生和职场人士的工作效率  彬州市第三届青少年机器人创新大赛成功举办  携程发布旅游行业垂直大模型 梁建章:AI策略是做可靠的内容 放心的推荐  百川智能发布Baichuan-13B AI模型,号称“130亿参数开源可商用”  生成式AI与云结合,机遇与挑战并存  Xreal AR 眼镜用投屏盒子 Beam 发布:分体式设计,到手 699 元  日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力  测试框架-安全和自动驾驶  AI绘画,还需要懂数学?  烟台大学学生首次在全国大学生无人机航拍竞赛中获奖  华为AI大模型将融入HarmonyOS 4  70年前他本想逃避考试,却影响了整个互联网  华为联合合作伙伴 共同发布昇腾AI大模型训推一体化解决方案  新华全媒+|AI:当心,我可能欺骗了你!  Vision Pro头显重磅发布;苹果收购AR厂商Mira  AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会  兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机  智能公司为何纷纷投身机器人领域?  美图秀秀发布7款AI产品:支持用户创作、商业创作  人工智能进入绿植界,智能庭院市场初具规模  随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了  实践J*a开发,构建高性能的MongoDB数据迁移工具  能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高  昇腾AI & 讯飞星火:深度联手,共话国产大模型“大未来”  微软Xbox称VR和AR还需要时间 先玩大的  13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组  XREAL发布新款硬件XREAL Beam投屏盒子:可悬停AR空间屏  数字文明尼山对话 | 在东方圣城与AI潮流梦幻联动,看“智慧大脑”让数字山东更美好  一文看懂被英伟达看中的九号机器人移动底盘  硅谷人工智能研究院创始人皮埃罗·斯加鲁菲:Transformer模型演讲  微软大牛加入ZOOM,AI人才大战打响  “痴迷”元宇宙,魔珐科技想做什么?  Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的  两型无人机完成交付!国家级机动观测业务正式启动  扎克伯格吐槽苹果Vision Pro:社交落后Meta太多,无法建设元宇宙  新华三集团总裁兼首席执行官于英涛:人工智能时代需要想象力,更需要精耕务实  如何用Transformer BEV克服自动驾驶的极端情况?  Valve 将拒绝采用 AI 生成未知版权内容的游戏上架 Steam  AI 模型 Stable Diffusion 升级:正常生成五指、图像更逼真  Gartner发布中国企业人工智能趋势浪潮3.0  AI大模型,将为智慧城市带来哪些新变化?  360发布数字安全和人工智能的强大结合:360安全大模型  编程已死,AI 当立?教授公开“唱反调”:AI 还帮不了程序员 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司