400 128 6709

行业新闻

通义百聆— 阿里通义推出的企业级语音基座大模型

发布时间:2025-12-17点击次数:

通义百聆是什么

通义百聆是阿里巴巴通义实验室自主研发的企业级语音基础大模型,深度融合 fun-asr 语音识别与 fun-cosyvoice 语音合成两大核心模型,专为多噪、多语、多场景的复杂语音交互环境打造。依托创新的 context 增强架构,显著抑制生成幻觉,有效根治跨语种混淆问题;支持热词实时注入与垂直领域术语高精度识别。语音合成方面,具备跨语种音色克隆能力,声音还原度处于行业前列。模型基于海量真实业务音频数据训练,已深度适配金融、教育、制造、互联网、畜牧等十余个行业,开箱即用,助力企业敏捷构建高性能语音应用。

通义百聆迎来重磅升级:Fun-CosyVoice3 模型发布后,首包响应延迟下降50%,中英文混合文本识别准确率提升至原有两倍;全面支持9种主流语言、18种方言口音,并新增跨语种克隆与细粒度情感调控能力;具备 zero-shot 音色复刻功能,让语音合成更高效、更拟真。与此同时,Fun-ASR 模型性能全面跃升——在强噪声环境下识别准确率达93%;支持31种语言自由混说及广泛方言覆盖;首次集成歌词与说唱节奏识别能力;流式识别首字延迟压缩至160ms,实现更准、更快、更稳的语音转写体验。

Topaz Video AI Topaz Video AI

一款工业级别的视频增强软件

Topaz Video AI 511 查看详情 Topaz Video AI

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

通义百聆— 阿里通义推出的企业级语音基座大模型通义百聆的核心能力

  • 幻觉率断崖式降低:采用 Context 增强架构(CTC+LLM+RAG),将 CTC 初步解码结果作为 LLM 的上下文输入,幻觉率由 78.5% 大幅压降至 10.7%,输出质量更可控、更可信。
  • 彻底杜绝串语种现象:CTC 输出文本直接嵌入 LLM Prompt,从根本上规避“误翻译”行为,例如确保英文语音输入不被错误转为中文输出。
  • 极致灵活的定制能力:通过 RAG 机制实现术语库动态加载,可精准识别人名、品牌名、行业专属表达(如“GMV”“公域引流”)等,配置过程仅需约5分钟。
  • 跨语种音色复用:采用多阶段联合训练策略,单个音色样本即可泛化至多种语言合成,音色保真度与自然度均达业界领先水平。
  • 全行业深度适配:基于数千万小时真实产业音频训练,覆盖金融、教育、制造、互联网、畜牧等10+垂直领域,真正扎根一线业务场景。

通义百聆的技术架构

  • Fun-ASR 语音识别大模型:以百聆为底座的 Fun-ASR 模型,首创 Context 增强范式(CTC+LLM+RAG)。先由 CTC 完成粗粒度语音转文本,再交由大语言模型结合上下文进行语义校准与纠错,使幻觉率从 78.5% 降至 10.7%,大幅增强输出稳定性。叠加 RAG 支持术语库热更新,可快速适配人名、品牌、行业黑话等专业表达,5 分钟内完成私有化部署配置,满足多样化企业需求。
  • Fun-CosyVoice 语音合成大模型:Fun-CosyVoice 采用先进的语音特征解耦训练框架,对音色、语速、语调、停顿等维度进行独立建模与协同优化,从而生成高度自然、富有表现力的合成语音。借助多阶段跨语种训练机制,实现“一音多语”,即单个音色样本可驱动多种语言发音,达成“一个声音走天下”,声音相似度与情感传达能力均领跑行业。

通义百聆的项目入口

  • 官方主页:Fun-ASR 、 Fun-CosyVoice

通义百聆的典型应用场景

  • 金融领域:应用于智能语音客服、声纹交易验证、实时语音风控监测等环节,全面提升服务响应效率与合规风控水平。
  • 教育领域:赋能在线课堂语音互动、AI 学习助手、口语作业自动评测等场景,推动个性化教学与智能化学习体验升级。
  • 制造领域:支撑车间无接触语音操控设备、产线语音巡检、质检语音标注等应用,助力智能制造提质增效与安全生产。
  • 互联网领域:服务于语音搜索增强、多模态智能助理、AIGC 音频内容生成等方向,拓展交互边界并丰富内容生态。
  • 畜牧领域:落地于智能养殖语音管理平台、牲畜异常叫声识别、环境参数语音播报系统等,提升养殖数字化与动物健康管理水平。

以上就是通义百聆— 阿里通义推出的企业级语音基座大模型的详细内容,更多请关注其它相关文章!


# 金融  # 大模型  # 阿里巴巴  # cos  # 天下  # 互联网  # ai  # 福建企业网站建设  # 邓州网站建设技术  # 定安抖音营销推广  # 零售营销策划推广  # 厦门网站建设模拟大赛  # seo工程师是什么证书  # 闵行网站建设定制网站  # 吉林网站seo哪家强  # 成都seo岗位  # 成都全网营销推广怎么样  # 操作步骤  # 写文章  # 如何用  # 内测  # 降至  # 语音合成  # 翻译软件  # 基座 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 华为小艺AI助手将实现强大的大模型能力  如何用AI开创智慧能源新时代?固德威正让能源“通人性”!  消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款  人工智能如何与智能家居集成  AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会  彬州市第三届青少年机器人创新大赛成功举办  人工智能快速发展 打开就业新空间  鹅厂机器狗抢起真狗「饭碗」!会撒欢儿做游戏,遛人也贼6  东软成立魔形科技研究院,积极布局大语言模型系统工程战略,迎接AI时代  解决导航“最后50米”难题 高德地图升级AR步行导航找终点功能  “电碳”技术提升碳排放监测精度  赋能金融新生态,多家银行创新应用成果亮相世界人工智能大会  人工智能在服务优化方面优缺点有哪些  学生作文评分的新趋势:教师与AI的合作模式  国内AI大模型“安卓时刻”到来!阿里云通义千问免费、开源、可商用  7大探索区域打造沉浸式玩乐“元宇宙” 昆明京东MALL未来科技探索官全城招募中  推动综合能源服务高质量发展  特斯拉 Optimus 人形机器人入驻北美门店,帮助提升汽车销量  OpenAI更新GPT-4等模型,新增API函数调用,价格最高降75%  掌阅科技对话式AI应用“阅爱聊”开启内测  “思享荟”沙龙热议AIGC与元宇宙 复旦大学赵星畅谈深度数字化  鸿蒙生态带来了哪些新的流量可能性,包括AI、服务分发和原生智能等方面?  尼康尼克尔 Z 180-600mm f/5.6-6.3 VR 镜头发布,12499 元  探索AI前沿理念 2025全球人工智能技术大会在杭州开幕  AI大模型时代,数据存储新基座助推教科研数智化跃迁  深度学习模型综述:用于3D MRI和CT扫描的应用  这效果能打几分?AI真人化《名侦探柯南》  探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网  亚马逊CEO:人工智能将成为公司未来战略的重中之重  马斯克发推讽刺人工智能,机器学习本质是统计?  世界水下机器人大赛:9国青年携手逐梦深蓝  中国移动主导创立元宇宙产业联盟,包括科大讯飞、芒果TV等在内,共24家成员  苹果2万5的AR遭遇砍单95%:不及预期  研究发现AI聊天机器人ChatGPT不会讲笑话,只会重复25个老梗  朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪  大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务  商汤科技:元萝卜 AI 下棋机器人新品发布会 6 月 14 日举行  昇思开源社区理事会成立,基于昇思AI框架的全模态大模型“紫东.太初2.0”发布  谷歌计划在上海举办开发者大会,重点关注机器学习和生成式AI领域  石头扫拖机器人 G20 618 福利来袭:4999 元,超值配件领到手软  基于信息论的校准技术,CML让多模态机器学习更可靠  AI与5G的强强联合:唤醒数字时代的无尽潜能  人工智能赋能无人驾驶:商业化进程再提速  ChatGPT会成为你家新的语音助手吗?  甲骨文与Cohere合作为企业提供生成式人工智能服务  OpenAI大神Karpathy最新分享:为什么OpenAI内部对AI Agents最感兴趣  Meta Quest订阅服务每月7.99美元畅玩两款VR游戏应用  谷歌StyleDrop在可控性上卷翻MidJourney,前GitHub CTO用AI颠覆编程  行业首发「超级智绘」AI故事集,TCL实业推进AI技术应用  微软 Azure AI 文本转语音服务升级:新增男性声音和扩展语言支持 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司