对智能音箱说“唱首歌”,一首欢快的歌会播放;对地图App说“去虹桥机场”,关于行程的路径规划会出现......
日常生活中这些新兴的应用场景,都离不开语音AI技术。
7月14日,第三方研究机构IDC公布《中国AI云服务市场半年度研究报告,2019H2》,报告显示,阿里语音AI在市场上占据主导地位,阿里语音AI在智能语音、对话式AI两个领域市场份额均为第一,市占率分别为44%和57%。
阿里云达摩院语音实验室负责人鄢志杰对第一财经记者记者总结道,阿里语音AI这几年迅速崛起,离不开两个关键词:“被集成”+“自学习”。
传统语音厂商一般做的是端到端的场景智能化,场景相对单一。以政务领域典型的庭审场景为例,语音厂商的主要任务是把整个庭审的过程转换成文字,变得结构化,然而非AI的成分在这个场景里也有很多,比如需要做法官办案系统、卷宗管理系统、开庭时屏幕展示内容的应用系统等,这一部分会分散语音厂商大量的精力。
与“自产自销”的传统语音厂商相比,阿里采用了“被集成”模式。“被集成是我们在实践中摸索出来的,指我们不去过多做非AI的内容,比如在司法领域,我们同华宇、云嘉等行业内拥有深厚积累的头部集成商合作,然后做出一套综合的法院应用系统。”鄢志杰表示。
阿里云语音的另一个特点是“自学习”。阿里云探索出来的模式是,先做出行业通用模型(比如金融、政务、手机),加上细分行业里边的数据和知识,可以迅速做出一个领域的定制化模型。
鄢志杰表示,每个行业都有资深的实践者,他们常年深耕一个领域,拥有大量的知识、数据和经验的积累,阿里云不可能快速掌握,如果所有事情都由阿里云完成,阿里云会变成实践中的“瓶颈”。因此,在语音技术落地的过程中,阿里云转变思路,升级推出“自学习”产品,即便行业实践者没有很多语音领域的专业知识,也能够用阿里云自学习的产品,通过灌注入行业内的数据和知识,就能够获得所在行业不错的语音交互效果。
“我们的颗粒度会选择到领域通用模型,加上自学习,这就是我们的边界。”鄢志杰举例称,一家银行可以先把金融领域模型拷贝过来,客户利用自学习灌一些自己的数据进去,一键训练、一键部署,这就是专门为该银行定制的金融模型。
机器需要不断训练才能提高语音交互的准确率,针对语音AI部署在何处这一行业热点话题,鄢志杰表示:“具体是由客户来发起训练的,(训练计算)跑的软件是阿里云整套的软件,如果在公共云上,硬件是在阿里云上跑的;如果在专有云,可以部署到专有云的机器里边去跑。训练出来的模型也是属于客户自己的。”
截至目前,阿里云拥有5万多家语音客户,包括中移动、中央电视台、招商银行、字节跳动、小I机器人、天猫精灵等,这些客户已通过阿里云自主开发了3万多个语音模型。
第一财经记者了解到,阿里巴巴对语音AI的研发始于iDST(阿里达摩院前身),大致可以分为两个阶段:第一个阶段从2014年底开始,当时主要响应阿里经济体内部对语音AI的巨大需求,比如淘宝、天猫、蚂蚁的客服呼叫中心开始做语音智能化改造;第二个阶段从2017开始,阿里以AI上云的方式对外输出智能语音能力,达摩院内部当时的口号叫“技术零时差上云”,即阿里所有好的AI技术都会在最短时间内通过云的方式,提供给阿里云上所有的客户,而非阿里内部专享。
关于语音技术的准确率是否到了能大规模应用的阶段,IDC分析师卢言霞告诉第一财经记者:“这主要取决于应用的场景。比如智能家居,训练的语音库相对比较简单,95%的准确率用户可能就能接受,但在工业级制造环境中,要求非常高,否则可能导致安全事故,准确率至少要98%以上。”
卢言霞认为,语音AI领域市场前景广阔,还有很多技术有待突破,比如嘈杂环境的语音交互,同时也有很多场景有待落地,除了庭审、客厅、呼叫中心、消费级产品等场景外,语音AI还会在会议服务、医疗诊疗记录转文字、泛工业等领域陆续落地。