400 128 6709

行业新闻

杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!

发布时间:2024-06-19点击次数:
AI圈这遍地开花的大好局面,让吃瓜群众们甚是惊喜。

这几天,大洋彼岸杀疯了!

Luma 的热乎劲儿还没过去,昨晚 Runway 就甩出一个王炸 ——Gen-3 Alpha。(查看详情请移步:Runway 版 Sora 发布:高保真、超强一致性,Gen-3 Alpha 震撼到网友了)

更没想到的是,一觉醒来,Google DeepMind 也有了新消息,悄咪咪地发布了视频生成语音(V2A)技术的进展。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
虽然这一功能还未向公众开放,不过从官方放出的视频 Demo 来看,效果那是相当丝滑。同时,Google DeepMind 强调,所有示例均由 V2A 技术和他们最先进的生成视频模型 Veo 联手打造。

音频提示: 紧张刺激的恐怖片配乐,脚步声在混凝土上回响。(Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete)杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
黑灯瞎火的废弃仓库中,一个黑衣人犹如鬼魅般缓行,再配上诡异的音乐和脚步声,恐怖气氛拉满。

音频提示: 狼在月光下的长嚎。(Wolf howling at the moon)杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
视频 Demo 一出,评论区清一水的追问:啥时候能用?
杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
还有网友寄希望于开源社区当一回赛博菩萨,复制谷歌的这一技术。
杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
其实,就在 Google DeepMind 官宣没多久,AI 音频领域的「扛把子」ElevenLabs 横插一脚,开源了一个上传视频自动配音的项目,可以为视频生成合适的音效。
杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
链接:
https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects

如今 AI 圈子的竞争已呈白热化,大小厂的你追我赶将会创造更加公平的竞争环境,而一旦这些技术成熟,AI 视频领域将会有无限可能。
杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
AI 视频告别无声电影

众所周知,视频生成模型正以惊人的速度发展。不过,无论是年初惊艳世人的 Sora,还是近期的可灵、Luma、Gen-3 Alpha,生成的全是「无声电影」,无一例外。

而 Google DeepMind 的视频生成音频 (V2A) 技术,使得同步的视听生成成为可能。它可以结合视频像素和自然语言文本提示,为屏幕上的动作生成丰富的配音。

从技术应用上来说,V2A 技术能够与 Veo 等视频生成模型结合,创造出具有戏剧性配乐、逼真音效或与视频角色以及风格相匹配的对话镜头。

它还能为档案材料、无声电影等传统影像生成音轨,拓宽创作的可能。

音频提示: 可爱的幼年恐龙在丛林中啁啾,伴随着蛋壳的破裂声。(Cute baby dinosaur chirps, jungle ambience, egg cracking)杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!音频提示: 汽车打滑声、引擎轰鸣声,伴随着天使般的电子音乐。(cars skidding, car engine throttling, angelic electronic music) 杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!音频提示: 日落时分,草原上响起悠扬的口琴声。(a slow mellow harmonica plays as the sun goes down on the prairie) 杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
V2A 技术能够为任何视频输入生成无限数量的音轨。用户可以选择定义「正向提示」来引导生成期望的声音,或者「负向提示」来避免不期望的声音。

这种灵活性让用户对音频输出有了更多的控制,可以快速尝试不同的音频输出,并选择最佳匹配。

音频提示:一艘宇宙飞船在浩瀚的太空中疾驰,星星在它周围划过,高速飞行,充满科幻感。(A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi)杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!音频提示:天籁般的大提琴氛围(Ethereal cello atmosphere) 杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!音频提示:一艘宇宙飞船在广袤的太空中高速穿梭,星星在它周围飞速掠过,具有科幻感。(A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi) 杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
背后的工作原理

研究团队尝试了自回归和扩散方法,以发现最可扩展的 AI 架构。扩散方法在音频生成上给出了最真实和引人入胜的结果,用于同步视频和音频信息。

V2A 系统首先将视频输入编码成压缩表示,然后扩散模型从随机噪声中迭代细化音频。这个过程由视觉输入和给定的自然语言提示指导,生成与提示紧密对齐的同步、逼真音频。最终,音频输出被解码成音频波形,并与视频数据结合。
杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
为了生成更高质量的音频并引导模型生成特定声音,研究团队在训练过程中添加了更多信息,包括 AI 生成的注释,详细描述声音和对话文本。

通过在视频、音频和额外注释上的训练,该技术学会将特定的音频事件与各种视觉场景关联起来,同时响应注释或文本中提供的信息。

谷歌方面强调,他们的技术与现有的视频到音频解决方案都不同,因为它可以理解原始像素,并且添加文本提示是可选的。此外,该系统不需要手动对生成的声音与视频进行对齐,极大地简化了创作流程。杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
不过,谷歌的这一技术也并非完美,他们仍在努力解决一些 bug。例如,视频输入的质量直接影响音频输出的质量,视频中的伪影或失真可能导致音频质量下降。

同时,他们也在优化唇形同步功能。

V2A 技术尝试从输入文本中生成语音,并将其与角色的口型动作进行同步,但若视频模型未针对文本内容进行相应的调整,就可能导致口型与语音不同步。他们正改进这一技术,以提升唇形同步的自然度。杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!
音频提示:音乐,文本转录「这只火鸡看起来好极了,我好饿。」(Music, Transcript: “this turkey looks amazing, I’m so hungry”)

或许是由于深度伪造技术带来诸多社会问题,Google DeepMind 求生欲满满,一个劲承诺将负责任开发和部署 AI 技术,在向公众开放之前,V2A 技术将经过严格的安全评估和测试。

此外,他们还整合了 SynthID 工具包到 V2A 研究中,为所有 AI 生成的内容添加水印,以防止技术的滥用。

参考链接:

https://deepmind.google/discover/blog/generating-audio-for-video/

https://x.com/GoogleDeepMind/status/1802733643992850760

灵感PPT 灵感PPT

AI灵感PPT - 免费一键PPT生成工具

灵感PPT 308 查看详情 灵感PPT

以上就是杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!的详细内容,更多请关注其它相关文章!


# runway  # 产业  # 丰田  # 音频输出  # 这一  # type  # film  # monica  # veo  # sora  # udio  # follow  # 襄城附近网站建设  # 蒋辉seo 久久  # 淮南网站推广  # 淘客推广引流网站有哪些  # 问卷星网站建设工作避雷  # 网站建设与推广 范文  # 廊坊招商网站推广业务  # 企业网站建设app  # 江北seo信息  # 网站优化三元素设置  # 一艘  # 三季度  # 广州  # 量产  # 将会  # 宇宙飞船  # 自然语言 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 乐天派AI桌面机器人提供的正能量情绪价值直接拉满,妥妥的治愈系  AI大模型时代,数据存储新基座助推教科研数智化跃迁  张朝阳与陆川谈AI:ChatGPT是鹦鹉学舌思维,不可能取代人类 | 把脉AI大模型  金山办公宣布与英伟达团队合作,加速WPS AI服务  兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机  “无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼  消息称苹果 iPhone 15 系列健康应用将深度融合 AI 技术  280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了  羚客系统即将升级,推出全新的AI数字化工具  智能技术提高现代商业运营的7七种方式  阿里云全面支持Llama2训练部署,助力企业快速构建自有大型模型  Moka AI产品后观察:HR SaaS迈进AGI时代  AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量  微软最新推出的NaturalSpeech2语音合成模型:提供更准确的语音重构,避免棒读效果  世界周刊丨AI“棱镜”?  寻求能源转型最优解  “痴迷”元宇宙,魔珐科技想做什么?  美图秀秀“AI 扩图”功能上线,可根据图像生成更大画幅  苹果CEO库克:持续研究生成式人工智能技术  AI创作广告文案等同2.47年工作经验,且消费者无法区分|AI营销前沿  618京东3C数码趋势产品备受青睐 AR设备成交额同比增长15倍  商业智能决策技术助力降本增效,世界人工智能大会举办商业AI高峰论坛  AMD在ChinaJoy展示全新的锐龙AI笔记本,开创了人工智能领域的新时代!  AI拉动PCB发展|行业发现  再度重仓 AI 赛道,SaaS 巨头 Salesforce 扩大 AIGC 风投基金规模  联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络  航拍无人机怎么选?大疆无人机盘点推荐  成功孵化首个大型模型解决方案的重庆人工智能创新中心  陈丹琦ACL学术报告来了!详解大模型「*」数据库7大方向3大挑战,3小时干货满满  AI 冥想应用 Ogimi.ai 推出,可为用户提供教练级个性化指导  乐天派桌面机器人加入小米米家生态系统,实现与其他智能设备的互联  人工智能时代的科幻译者怎么办?“做好翻译工作的高端10%”|文化观察  中国移动主导创立元宇宙产业联盟,包括科大讯飞、芒果TV等在内,共24家成员  令人震惊的特斯拉机器人  关于开展“与AI共创未来”——2025年全国青少年人工智能创新实践活动的通知  字节、网易相继入局,AI之后大厂又找到下一个风口?  独家视角:首次展示有人与无人协同打击的7000米高空察打一体无人机  严打“黑飞”,无人机检测反制设备护航大运会净空安全  五个IntelliJ IDEA插件,高效编写代码  猿力科技入选北京市通用人工智能产业创新伙伴计划  Meta 推出 Quest 超级分辨率技术,让 VR 画面更清晰  谷歌推出 AI 反洗钱工具,可将金融机构内部风险预警准确率提高2至4倍  深圳人工智能企业超1900家  AIGC浪潮下,联想集团再加码计算与人工智能  携程发布旅游行业垂直大模型 梁建章:AI策略是做可靠的内容 放心的推荐  机器人技能大比拼  成都大运会闭幕式引入人形机器人展示表演  2025“春晖杯”人工智能专场对接活动举办  创作音乐/音频的Meta开源AI工具AudioCraft,让用户通过文本提示实现  微软 Azure AI 文本转语音服务升级:新增男性声音和扩展语言支持 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司