百度端到端语音语言大模型破局出圈，对话超逼真、成本最高降90%，1秒极速响应

首页 > AI资讯 > 行业动态 > 百度端到端语音语言大模型破局出圈，对话超逼真、成本最高降90%，1秒极速响应

百度端到端语音语言大模型破局出圈，对话超逼真、成本最高降90%，1秒极速响应

新火种 2025-05-27

作者 | 程茜

编辑 | 漠影

语音交互又被玩出新花样？！

智东西4月2日报道，本周一，百度发布业界首个基于全新互相关注意力（Cross-Attention）的端到端语音语言大模型，已首发上线文小言，可免费体验。

蚂蚁数科CTO王维：可信智能体是产业AI规模化落地”必选项”

用几个关键词概括新升级的文小言就是：语音交互超逼真、超低时延、超低成本。

超逼真指的是，搭载语音语言大模型的文小言，既能听得懂重庆、广西、河南、广东、山东等特色方言，还能实现情感饱满对话；超低时延是其对话中可将用户等待时长从行业常见的3-5秒降低至1秒左右，几乎与真人对话无异；超低成本指在电话语音频道的语音问答场景中，调用成本较行业均值下降约50%-90%。

百度语音首席架构师贾磊透露，该模型可以部署到L20卡上，在满足语音交互延迟要求的情况下，双L20卡的并发可以做到几百以上。目前，语音语言大模型的训练流程便捷，基本上基于文心大模型几百片卡优化一周就可以实现，且本身的优化工作也并不复杂。

相比于大模型在语音交互场景的应用，这一语音语言大模型的独特之处是什么？又是如何做到最高降低达到90%的调用成本？其背后的创新点该如何解读？智东西与百度语音首席架构师贾磊进行了深入交流，试图找到这些问题的答案。

一、真人对话体验，升级版文小言语音交互更丝滑

大模型在语音交互场景的发展，正朝着更自然、低延迟、高拟真的语音交互体验演进。而这一更为拟人化的交互体验，我们在新升级的文小言上窥到了雏形，搭载了端到端语音语言大模型的文小言，已经化身情感陪伴、全能助手。

首先，文小言已经集成了包含天气查询、日历查询、单位换算、股票股价等信息查询的38个垂类助手，可以看出这些特殊场景下，语音交互的效率要远高于文本交互。

其次，文小言对于时效性和非时效性问题均能应对，百科查询、时政知识类时效性问答内容，文小言可以进行实时检索，并做到精准的指令跟随，降低幻觉；常识问答等非时效性问题也不在话下。

最后，也是语音交互与文本最大的区别所在，文小言可以与用户进行情感自然充沛的交流，并能做到快速响应反馈，实现逼真拟人的交互效果。

话不多说，来看看文小言的实际效果。

语音识别的一大难点莫过于方言识别。方言的发音特点丰富多样，同一方言在不同地区可能存在发音差异，甚至同一个字在不同语境下发音也有所不同。这使得语音识别系统难以准确捕捉和解析所有的发音变体，增加了识别的难度。当下的文小言，已经可以应对重庆、广西、河南、广东、山东各地特色方言，其不仅听得懂，还能使用对应的方言进行回复。

Tags:

机器学习语音模型

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

百度端到端语音语言大模型破局出圈，对话超逼真、成本最高降90%，1秒极速响应

豆包全新端到端语音功能上线！智商情商双在线，中文语音对话断崖式领先

豆包语音大模型首家引领级通过中国信通院语音大模型评估

重庆将积极布局AI大模型公共服务平台

5天3城黄仁勋低调现身深圳、台中、北京谈及液冷、硅光技术微妙时机传递何种信号？

AI工具识别虚假新闻准确率达99%

热门文章