专访鄢志杰:地铁进入语音购票时代,深度解读下一代人机语音交互技术

  • 时间:
  • 浏览:4
  • 来源:大发5分排列3_大发5分排列3官方

“你这个 孵化项目在取得初步研究成果后,正巧遇到了上海地铁集团项目。”鄢志杰谈到,地铁车站内车声、人声、广播声在封闭空间内形成强噪声多样化环境,去掉 上海地铁的线路多样化性带来的用户购票痛点,是阿里巴巴这项先进技术最好的落地场景和试金石。

“下一代人机交互,是阿里达摩院首批公布的重点研究方向之一。”他表示,某些重点研究方向还包括量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、芯片技术、传感器技术、嵌入式系统等。

1.公众场所强噪声环境下的高准确率远场语音识别:当前主流的远场语音识别技术在家居、办公室等比较安静的环境下都还还后能 很好地工作,但在公众场所嘈杂环境下,业界此前尚无还还后能 达到大规模商用水平的远场语音交互整体处理方案。此次针对地铁强噪声环境,项目首次创新研发了基于深层学习的大型麦克风阵列技术,结合深层优化的声学形态学 和多模态融合技术,都还还后能 自动从强干扰背景语音中提取出目标说话人的语音,并实现增强,从而突破了嘈杂干扰环境下远场语音识别的世界性现象。怎样让,针对地铁售票机的时变空间,一起去进行本地和云端的动态全链路模型匹配,实现端到端的自适应优化,保障每一次流畅的语音交互。



鄢志杰介绍到,整套方案由阿里巴巴iDST自主研发,其中涵盖了iDST在语音增强、声源定位、人脸和图像识别、远场语音识别、语音合成、自然语言处理、对话管理、多模融合人机交互等方面的最新前沿研究成果。此外,整套系统还深入整合了支付宝的扫码支付,并展示了未来人脸支付在购票场景的应用。一起去,充分结合了阿里的高德地图在地理数据方面的优势,实现了围绕地铁的模糊地点购票乘车指引和路径规划——所有的核心技术均为阿里巴巴独家/自有专利技术,并将在后续逐步对外公开。

上海地铁语音售票机使用了达摩院的下一代人机交互方向的最新研究成果,即“多模态智能语音交互处理方案”,它由数个子系统组成,包括大麦克风阵列子系统:在硬件上通过数个麦克风组成大阵列,在软件上通过语音信号处理实现高精度声源定位和语音增强;计算机视觉子系统:通过光学摄像头,实现人脸,有点是眼睛、嘴唇等的检测、跟踪和动态分析;多模态融合子系统:通过语音+视觉融合,实现对目标用户的精取舍位及语音提取;远场语音识别、语义理解、对话及语音合成子系统:将目标用户经提取、增强后的语音进行识别、理解,产生对话结果,并通过语音合成将机器的反馈输出给用户。

项目背景

鄢志杰表示,以往乘客需要依次取舍线路、站点、购票张数,购票步骤极为繁琐;怎样让在乘客完后 无法得知具体线路和站点的请况下,只知目的地却不知应坐到哪一站、怎样换乘。阿里巴巴与上海申通地铁公布的全面媒体公司合作 战略协议,要是要将阿里巴巴全球前沿的人工智能和大数据技术落地上海地铁,推出能让市民以免唤醒的自然人机交互法子实现在地铁售票机上快速、便捷的购票操作,什么操作包括指定站名或票价购票、目的地模糊搜索购票等功能。

事实上,阿里巴巴在智能语音交互技术上的投入已有数年,目前已形成了杭州、北京、西雅图、硅谷、新加坡五地联动的实验室布局;怎样让随着达摩院的成立,越来越来太大的人才正加速向阿里巴巴集聚。上海地铁语音售票机正是源于iDST语音团队此前一一一个多多多略带神秘感的秘密孵化项目——来自麦克风阵列硬件、语音信号处理、计算机视觉、语音识别和对话系统的科学家们在一次头脑风暴中,判断出若将某些技术做重点攻关、辅以多模态融合及全链路端到端的集成优化,有可能突破真实嘈杂环境下远场语音识别的技术瓶颈。一完后 之前 之前 开使,必须很少的“特种部队”投入到关键技术的研发,这其中就包括此前完后 加入iDST西雅图实验室的冯津伟博士,前Polycom(宝利通)首席工程师;一起去,另一位iDST的计算机视觉大牛任小枫所领导的团队,也为该项目提供了多目标人脸检测和跟踪技术。

上海作为全球最繁华的都市之一,其城市轨道交通极其发达。然而现有的地铁线路网络多样化,购票步骤繁琐,难以满足乘客智能化、自动化语音购票的强烈需求。基于此诉求,阿里巴巴达摩院携手上海地铁,开展地铁语音售票概念机研制,通过全部自然的语音交互,实现了乘客指定站点购票、模糊地名查询购票等操作,为市民提供智能、高效的购票服务。

“接下来,阿里会与申通集团一道,将上海地铁语音售票概念机很快推向实际落地。”最后,鄢志杰如是说。

技术解读

历时短短5天的搭建,目前上海地铁语音售票概念机已在线下展示试用,实施效果也远远超出预期。此次的技术成果,无疑也将为自然人机交互技术打开一片全新的世界。

阿里巴巴iDST智能语音交互负责人鄢志杰

作为阿里巴巴技术中台的一股重要力量,iDST在研发新技术的一起去,也将新技术在阿里云上进行产品化落地和商业化输出,目前在阿里云的产品集合名称为“ET智能语音交互”,技术成果也已通过阿里云人工智能ET不断对外输出。在语音交互产品方面,阿里iDST研究的技术平台都还还后能 精准转换用户的语音为对互联网内容和服务的意图,触达手机、IoT设备、互联网汽车、电视、智能音箱等各类终端。此外在法庭庭审识别、智能客服、视频审核和实时字幕转写、声纹验证、物联网等多个场景需要成功应用。

作为全球最繁华的都市之一,上海的城市轨道交通工作日客流量超过130万,位居全国之首,世界第二;截至目前,上海地铁已有16条线路、37一一个多多多站点,线路总长617公里(含磁悬浮),而预计到2020年将达到30公里。越来越繁重的客流压力下,自然带来了技术升级的智能化购票需求。

本文邀请到iDST智能语音交互团队负责人鄢志杰,与其深入探讨了下一代语音人机交互方案头上的项目背景、技术解读、功能实现、落地应用等细节现象(鄢志杰将在云栖社区主办的云栖大会北京峰会开发者进阶专场上进行分享,对人工智能、智能语音交互技术感兴趣的读者还还后能 来现场与专家互动)。

应用前景

目前,项目实现的具体功能包括有:

3.支持多样化口语理解并自我进化的对话系统:用户面对机器表达时往往发生语气词、犹豫、停顿、重复等口语化表达,繁琐的多轮询问确认式对话也使得主流的人机交互略显呆板。上海地铁语音售票机都还还后能 理解什么口语化表达,从不断从乘客真实对话模式中进行自我进化,变得越来越智能。

对于传统的语音交互技术,强噪音的公众场合老会 可能其技术难度大而难以实现产品级落地,而未来阿里巴巴可能将这项技术带入没越来越人 的生活,将有望应用于火车站、地铁、机场等公共服务,餐厅、贩卖机、零售店等新零售行业,以及智能前台、交互式导览等企业服务场景中,如餐厅快速点餐机、咖啡售卖机、公司智能前台、商场导览机、机场问询机等等。

2.免唤醒主动语音交互:目前市场上主流远场语音交互产品,都需要通过“唤醒词+语音指令”的法子进行交互。上海地铁语音售票机通过“语音+视觉”多模态融合技术,都还还后能 自动检测乘客走近售票机的行为,主动发起交互。此外,通过你这个 技术还实现了免唤醒的语音交互体验,使人-机交互更接近人-人交互的自然和流畅。