首页 > AI资讯 > 行业动态 > 刘聪:听懂方言的AI,科大讯飞中文语音识别背后推手|榜单人物

刘聪:听懂方言的AI,科大讯飞中文语音识别背后推手|榜单人物

新火种    2023-09-19

2019年1月21日,《麻省理工科技评论》公布了2018年“35岁以下创新35人”(Innovators Under 35 China)中国区榜单。从榜单中,我们看到更多中国创新科研力量的崛起,也看到跨学科、跨领域、并且对落地应用有更强烈企图心与使命感的科研创新,这其中涵盖人工智能研究与应用、NLP、脑科学、新材料、新能源、生命科学、生物科技、自动驾驶等多个不同领域。我们将陆续发出对35位获奖者的独家专访,介绍他们的科技创新成果与经验,以及他们对科技趋势的理解与判断。

关于Innovators Under 35 China榜单

自 1999 年起,《麻省理工科技评论》每年都会推出“35岁以下创新35人”(Innovators Under 35 China)榜单,旨在于全球范围内评选出被认为最有才华、最具创新精神,以及最有可能改变世界的 35 位年轻技术创新者或企业家,共分为发明家、创业家、远见者、人文关怀者及先锋者五类。2017年,该榜单正式推出中国区评选,遴选中国籍的青年科技创新者。新一届榜单正在征集提名与报名,截止时间2019年5月31日。详情请见文末。

近年来,科大讯飞通过讯飞输入法和讯飞听见等产品逐渐为人所知。它们的语音识别表现之所以能够在业界独占鳌头,其背后的中文语音识别系统功不可没。科大讯飞AI研究院常务副院长刘聪,就是打造相关技术的主要负责人之一,他曾在2016年、2018年带领团队连续包揽国际英文多通道语音分离和识别大赛 (CHiME-4、CHiME-5) 的所有项目冠军。

刘聪于2001年进入中国科学技术大学,攻读电子信息工程专业。大三时,他在机缘巧合之下听说了讯飞语音实验室,而后成功加入其中,开始了在语音识别领域的研究。2010年,刘聪博士毕业后正式成为讯飞研究院的一员,专心致力于大词汇量连续语音识别系统的构建和优化。2010年科大讯飞正式推出的“讯飞语音云”,凝聚了刘聪和团队在语音识别领域不断探索的成果,识别效果达到了当时业界领先的水平。

在刘聪加入讯飞语音实验室时,深度学习方兴未艾,语音识别技术还处于发展初期,主流的传统方法包括基于隐马尔可夫模型(HMM)的区分性训练等,但仍有很多尚未被挖掘的研究方向。这些都吸引了他继续学习和研究,曾多次短期访问微软亚洲研究院和加拿大约克大学,研究和优化语音识别技术的算法。

此后,随着深度学习技术的崛起,刘聪也将注意力转移到了该领域。从深度神经网络(DNN),到循环神经网络(RNN),再到卷积神经网络(CNN),刘聪和团队数年来持续更新着语音识别系统的框架和模型。2015年,在解决了训练收敛算法等技术难关后,他和团队提出了基于深度全序列卷积神经网络(DFCNN)的创新性语音识别框架,可以直接对整句语音而非局部的语音帧进行建模,同时因为卷积计算过程做了很大程度共享、使得可以设计非常深和宽的模型结构,以看到更长的历史和未来的语音上下文信息。此外,因为DFCNN模型相对于传统的RNN等模型可以同时抓住时域和频域的结构信息,因此在建模精度上也更胜一筹。

在大数据和新技术的加持下,讯飞语音识别系统实现了高速自动迭代,语音识别错误率保持每年30%的相对下降,目前一般场景下的识别准确率可达98%。在此基础上,刘聪还带领团队创造多种了中文方言识别、语音即修即改等实用性很强的语音功能,让科技更好地应用在生活中。

不过刘聪并没有止步于此,他关注到了深度学习的另一个应用方向:计算机视觉,并且敏锐地察觉到了两者之间的联系。在成为科大讯飞AI研究院副院长之后,他从语音识别转向计算机视觉,开始负责医学影像、视频分析和图文识别等技术的研发和应用。

“因为深度学习的发展,在这两个领域之间架起了一座桥梁,”刘聪在采访中解释道。依托于此前的深厚技术积累,他带领团队快速完成了语音识别到计算机视觉之间的算法框架迁移和借鉴。这虽然听起来简单,但实际操作起来,需要攻克很多技术难关。

例如刘聪发现,光学字符识别(OCR)与语音识别一样都可以归为序列识别的范畴,因此语音识别中属于序列建模的相关模型可以应用到OCR领域。同时OCR又是一个计算机视觉问题,近年来计算机视觉领域在特征表示学习方面取得了长足的进步。他和团队结合特征表示学习和序列建模的最新进展,大幅提升了OCR识别性能。

(来源:刘聪)

除了技术上的突破,刘聪还带领团队完成了多项技术落地应用,涉及语音识别、视频监控、图文识别和医学影像等多个领域,建树颇多。在他们的努力下,科大讯飞的医学影像辅助诊断系统已经进入了50余家医院,帮助医生提供辅助诊疗服务;讯飞听见已服务多场会议,进行语音和文字的即时转换。

谈到未来的发展,刘聪表示,他和团队将继续提升语音识别准确率,尤其是远场识别和噪音环境识别,在中英文混合识别和个性化识别领域继续优化和创新,并且专注于跨模态信息深度融合方向的探索,研究基于多模态信息的情感分析。

与好团队一起把握住技术的下一个趋势是刘聪的心愿之一:“我们很幸运可以成长在这样一个核心技术突破和产业应用爆发的时代,我们也希望借势浪潮,尽力为时代做出更多贡献。”

或许正是因为有很多像刘聪这样看重技术落地的人,我们才有幸能见到越来越多的技术改变了生活。

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。