讲座信息
5.27 | 基于结构化深度学习的抗噪鲁棒语音识别最新进展
2017.05.24
报告人钱彦旻,副教授,上海交通大学
时间:2017年5月27日上午10:30-12:00
地点:复旦大学张江校区第二教学楼307A
联系人:李伟 weili-fudan@fudan.edu.cu

摘要:

随着移动互联网的普及和人工智能的兴起,基于语音的交互方式已经变得方便且重要,从苹果的Siri到微软的Cortana,从Amazon的Echo到Google的Google Home,智能语音技术开始走进千家万户。其中,语音识别作为整个语音交互闭环的入口,地位不言而喻。目前,语音识别在很多近场且较为安静场景下性能已经基本可用;然而,在强噪声、人声干扰、远场等条件下,较低的信噪比使得语音识别系统性能极具下降,从而也直接影响整个语音交互的体验。本报告将主要介绍近两年,上海交通大学智能语音实验室在基于深度学习方法的抗噪鲁棒语音识别方面一些最新进展,包括结构化的特征降噪,模型的环境感知自适应,以及具有自主降噪机制的极深卷积神经网络设计等。并给出在加性噪声,信道失真,以及远场回声等各种条件下的实验结果对比。

 

钱彦旻:

上海交通大学计算机科学与工程系副教授,上海交大-思必驰联合实验室副主任。清华大学博士,英国剑桥大学工程系MIL机器智能实验室博士后,上海市青年英才扬帆计划获得者。现为IEEE、ISCA会员,同时也是国际开源项目Kaldi语音识别工具包的13位创始成员之一。担任InterSpeech, ISCSLP等国际会议的TPC委员;IEEE TASLP, IEEE JSTSP, IEEE SPL, ICASSP, InterSpeech等期刊和国际会议审稿人。有10余年从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作经验。在本领域的一流国际期刊和会议上发表学术论文60余篇,Google Scholar引用总数超1600次,申请多项专利,合作撰写和翻译多本外文书籍。作为负责人和主要参与者参加了包括国家自然科学基金、国家863、英国EPSRC等多个项目;所负责搭建的多类别复杂广播语音处理系统在MGB2015国际竞赛中获得语音识别,说话人分割聚类等全部4个单项的世界第一。2014年,因在智能语音技术产业化方面的贡献,获得中国人工智能学会颁发的“吴文俊人工智能科学技术奖”。目前的研究领域包括:语音识别,说话人和语种识别,语音情感感知,自然语言理解,深度学习建模,多媒体信号处理等。

© 2018 复旦大学计算机科学技术学院 地址:上海市张衡路825号 Tell:+86-21-51355555 Fax:+86-21-51355558 Emall:cs_school@fudan.edu.cn
复旦大学计算机科学技术学院
扫一扫了解学院