这是一群人工智能领域的创新青年,他们致力于用科技力量拓展公益事业空间——
让残障群体共享信息时代的阳光
【解码“新动力人群”】
2005年央视春晚上一支舞蹈《千手观音》,让听障者这个群体走入大众关注视野。
然而,人们不知道的是,坐回电视机前,由于春晚小品相声等实时直播节目没有字幕,《千手观音》舞者们与中国超过2000万听障人士一样,难以与家人共享同一份欢乐。
改变在2021年发生。春节前夕,由中国聋人协会指导研发、阿里巴巴达摩院免费提供语音技术的一款实时字幕机顶盒,让听障群体第一次看懂了春晚直播。
科技,正让无声世界变得生趣盎然。
自组建起,阿里巴巴达摩院人工智能团队就默默投身公益,努力让残障者能够参与到这个世界的对话中来。他们坚信,科技的发展,要让人跨越残障造成的鸿沟,再小的群体,也应该平等享受信息时代的红利。
1、让听障者听到:这个世界到底在“说”什么
2021年除夕之夜,在上海家中,《千手观音》舞者吕晓燕第一次看懂了春晚中岳云鹏的相声以及贾玲的小品。
从1983年央视举办第一届春晚开始,虽然电视从模拟技术发展到数字技术,从标清技术发展到高清、超高清,但春晚直播字幕却一直没有实现。
“听障群体的世界,不能没有字幕。”吕晓燕说,手语是他们这个群体的通用语言,而字幕能让他们知道,这个世界到底在“说”什么。
“2020年四五月间,有一个做字幕机顶盒的创业者与我们联系,提出给直播节目加字幕的合作请求。”达摩院语音实验室架构师唐璐说,用智能技术给直播节目同步加字幕看似简单,但一旦出现错字,对电视台来说就是一个播出事故,所以行业一直持审慎态度。
“另外,在商业上也无利可图,因为聋人群体太小众了,太容易被社会忽视。”唐璐说,“而开发一个安全的算法并提供算力支持,需要很大的成本,对一般研发公司来说,这是无法承受的代价。”
“对听障者群体来说,如果我们能让实时字幕得以实现,就可以为他们打开一扇连通世界的大门。”唐璐觉得,“这是一个公益项目,总需要有人做。”于是,他写了一个详细的材料,向公司申请,免费开放算力给这个项目。
不久后,达摩院向这个创业项目开放了免费语音接口。获得支持后,那个创业团队很快弄出一个实时字幕机顶盒,在春节前上线销售。
“为了达到最好的字幕效果,我们做了大量研发工作,针对新闻、娱乐、访谈等不同节目特点,以及娱乐口语、方言、俗语的特点,做了数十万小时时长的标注,成本至少花了几百万元。”唐璐说。
“由于字幕的误差小、延时低、便利性强,许多听障人士还利用这款机顶盒上网课、开会、远程办公,将其当作自己的‘社交助手’。”达摩院语音实验室负责人鄢志杰表示,“达摩院将持续输出最先进的语音技术,帮助听障群体消除与外部世界的信息鸿沟,为他们实现无障碍沟通、生活、工作提供长期公益支持。”
2、让视障者看到:这个世界正在发生着什么
2020年11月1日零点,数亿“尾款人”开始“双十一”冲浪。在浙江富阳,双目失明的蔡琼卉将手机抓在耳边,读屏速度调快了4倍,手指上下翻飞,抢购、满减、支付。靠耳朵,她在和几亿健康人一起“拼手速”抢购。
蔡琼卉是中国1700多万视障人群中的一员,像她一样,600多万视障人群已用上智能手机。信息技术,为他们铺就了一条互联网世界的“盲道”。
而这一切得以实现,要从2017年年底说起。这一天,达摩院视觉实验室“读光”团队负责人王永攀收到一封邮件。致信者是一位盲人,他在邮件中说,希望手机淘宝能让盲人也可以无障碍参与“双十一”抢购。
“打造一个‘盲人版’的淘宝,商业成本是非常高的。”王永攀解释说,“淘宝系统非常复杂,再全方位添加一层无障碍结构,在投入开发人员、增加服务器之外,还要面对系统稳定性、安全性的挑战。”
那么,这个事情做不做?
“团队是没有犹豫的。”王永攀说,“我们不能只做锦上添花的事情。对视障者而言,这具备着雪中送炭的意义,可以实实在在地帮助他们融入社会、参与社会。”
完成这项工作,到底有多难呢?
“网页上每天同时在架图片达500多亿张,类型包括广告图、商品图、表格图、图文注解图等。这就需要将文字、图片以合理顺序进行组织后,再为视障人士阅读,帮助他们正常理解。”王永攀说,“另一个挑战在于,信息转换一定要极度准确,因为一个微小的错误,都会给盲人造成很大的麻烦。”
夜以继日,“读光”团队不断突破原有技术的局限,终于在2018年“双十一”前成功为手机淘宝搭建了无障碍结构。后来,这一服务又推广到飞猪、咸鱼、支付宝、饿了么等平台,在更大范围让视障者享受到信息时代的便利。
“无障碍功能的开发,要深刻体察用户的真实需要。”达摩院视觉实验室“读光”产品经理傅诗楹介绍,针对残障群体,“读光”团队用文字图片识别技术,还开发了很多智能助残辅具产品。比如,团队与浙江大学合作,正在研发一款“读书灯”,灯上有一个摄像头,照到文字上即可用声音读出来,极大方便了盲人的学习与阅读。还有一款“智能手杖”,能够精确识别周边环境,并用语音提示出来,从而更好地帮助盲人走出家门,回归社会。
“信息时代的阳光,必须照进残障群体的生活。”王永攀说,“这才是科技进步的应有之义。”
3、让无助者感到:这个世界在关心着他
对一个在城市辛苦打拼的人来说,语音导航起的作用其实不只是导航。
“那天回家时超累超暴躁,这时手机导航里李佳琦说:‘佳琦的女孩一定要一直开心哦。’那一刻,我的心情顿时缓和了下来。”这是一位网友的感慨。
为什么现在的机器语音开始有了“感情”?
“以前通用语音合成,以信息传达为主,声音是非常冰冷的,比如医院叫号、语音报站等。但我们做的项目多了,就感到视障群体对声音非常敏感,他们渴望被温暖地对待。”达摩院语音实验室语音合成算法负责人李昊说,“技术的进步,要有社会责任感,让温暖的事情发生。”
鄢志杰说:“我们的语音合成技术与人工智能结合,已经可以实现很高水平的人机对话。达摩院在这方面做得非常前沿,已经通过准图灵测试,合成语言可以很好地表达情感、交流信息。”
“正因如此,相关技术的应用范围越来越广。”李昊介绍,“例如,只要有一分钟左右的语料素材,我们就可以将讲故事的声音合成为家长的,用于孩子的睡前伴读。”
这一技术还可以帮助一些视力下降的老人或颈椎不好暂时不方便看文字的人。在非常特殊的情况下,这一技术也可以帮助一些失去亲人的人,为他们保留一个再次听到逝者声音甚至与其交流对话的渠道,陪伴和慰藉他们,帮助他们慢慢从悲痛中走出来。
如今,因为达摩院读光团队的努力,数以百万计的视障人士在家中享受着足不出户,购遍全球的互联网新生活。“很多盲人朋友反馈说,‘独立购物、叫外卖解决了生活中的很多问题,让我觉得自己是一个独立的人了’。”傅诗楹说,“真正让用户能体会到科技对他们的关爱,这也让我们更有动力。”
“团队曾一度想专门给视障群体做一个简化版淘宝,结果盲人朋友们都说不要。”傅诗楹说,“这让我们意识到,残障群体其实希望参与到正常的社会生活中来。无论在线下还是线上,他们都不希望生活在一个封闭的世界里。”
“信息技术最令人欣慰之处,就是它给每个人带来平等。”鄢志杰说,“这也正是我们始终坚持的原则——让选择变得更容易,但是不能够剥夺任何群体选择的权利。”
(本报记者 罗旭) 【编辑:田博群】