国庆长假,看阅兵自然是重头戏。而在另一个舞台上,科技公司的“阅兵”也在如火如荼上演着。
各大媒体与科技公司合作,进行国庆献礼的方式,主要是与国庆热点以各种方式结合,在融媒体渠道进行创意传播。而在这场传播热浪中,AI技术则变成了当之无愧的主角。在各家纷纷亮出自己的AI+国庆创意后,我们也可以借由这个机会,审视不同企业对AI技术的差异化理解与应用。
比如说,京东牵手《人民日报》,在国庆档带来了一个名为“70年,我是主角”的创意H5。这个H5采用了目前火热的AI换脸技术。用户只需要输入照片,就可以随机生成6段微视频。这些视频是共和国诞生至今的一系列大事件。借由AI,用户可以穿过岁月,回到历史抉择的舞台中央,发现自己与共和国休戚与共的因缘瞬间,感受祖国70年的宏伟变迁。
在H5的创意和内容之外,我们还会发现,用AI技术完成的“跨时空光影”,背后是一系列机器视觉技术的跃迁与突破。这些技术已经系统性、大规模、全流程地部署在京东的零售、市政服务、融媒体等场景中,变成共和国真正的生产力。
或许我们可以把这个H5以及背后代表的京东AI技术、AI战略想象为一次跨栏。从起跳到落地,这背后还能读出更多关于京东AI的故事。
提到越来越火热的AI技术,或许每个人都会想起一些相关的公司。但可能很少有人会第一时间想到京东。把京东和AI联系到一起时,我们可能也更多会想到京东APP中的一些AI应用,以及物流领域的AI加持。
但如果我们品味一下“70年,我是主角”所展现出的AI技术,会发现它指向着机器视觉的深度应用与高可用性。一次生成6段视频的特征,一张图片数据匹配大量视频资源的深度交互模式,以及国庆热点中海量并发数据的处理,都让这份国庆献礼显示出庄重与激昂。
把逻辑倒回一点,如果我们将这次H5视作一次跨栏,那么,起跳其实是京东持续积累的AI战略与AI技术能力。事实上,京东已经在AI之路上,投注了相当可观的时间与资源。
2018年4月,京东发布了AI开放平台NeuHub。NeuHub的特色,是基于京东丰富的场景和海量数据,在实际应用中发展而出的,面向零售与零售基础设施领域的AI开放平台。
目前,NeuHub平台包含开发平台、应用平台和创新应用,以平台级的服务链接人工智能的供需两侧,提供能力、工具、SaaS等一站式人工智能服务和应用,以及面向不同场景的端到端集成创新产品和解决方案,以多层次的人工智能产品和应用,满足多维度人工智能需求。
依托于NeuHub对数据、算法,以及应用场景的结合,京东踏出了以业务场景为轴心的AI之路。2019年8月,在上海2019 WAIC世界人工智能大会开幕式上,科技部公布了最新一批国家人工智能开放创新平台名单,宣布依托京东集团建设智能供应链国家新一代人工智能开放创新平台,领衔智能供应链国家战略发展。入选“国家队”的京东,确定了NeuHub为核心载体,零售、物流、供应链为广泛应用场景,依托京东零售、物流、金融、云计算、IoT、大数据等能力和资源,全面向业界开放的AI战略体系。
京东集团副总裁、京东人工智能事业部总裁、京东人工智能研究院院长周伯文博士认为,京东智能供应链国家新一代人工智能开放创新平台将从基础资源、能力支撑、应用生态三个层面进行平台架构设计,形成“三三三”总体框架和任务。
即夯实算力、数据、算法三大基础资源;集成京东开发经验和开发组件、京东AI算法库及定制化模型工具三大核心能力;平台从工具、服务和组件三个方面,在智能生产、智能流通、智能消费三大应用场景支持和构建生态。
从夯实平台基础能力做起,面向零售产业与供应链实际场景提供可用性服务,强调技术与工具、服务的融合。这些特点构筑了京东AI的三大差异化特征。而这些特征,某种程度上非常生动的展现于这次“跨越时空”的H5当中。
厚积薄发的京东人工智能,决定在国庆舞台上展示一下身手。
让我们回到“70年,我是主角”的传播创意当中。
事实上,如今AI换脸类的玩法大多数读者已经并不陌生。视频换脸虽然火热,但最初的惊奇显然已经过去。然而正是在这样的时刻,我们可以更准备品读出换脸技术背后的差异化优势,从而透视技术提供者的产业供给能力。
从京东AI战略的起跳点出发,可以看到这次H5本身在技术上实现了3层技术跨越。这些技术应用带给了我们独特的国庆庆祝方式,也带我们看到了未来京东将要输出给产业的AI技术特征:
1、跨越运动:人脸检测算法ISRN
这次H5的一大特征,就是生成的电影片段里有大量奔跑镜头和频繁的姿态变化。我们知道,一般视频变脸模型,是很难处理快节奏运动的,高频运动基本意味着丢帧和算法捕捉失灵。
为了解决这个问题,让用户真正体会在历史大事件中奔跑的感觉,京东AI提出了全新的人脸检测算法“Improved Selective Refinement Network(ISRN)”。
ISRN在业界顶级人脸检测榜单“WIDER FACE”中的“Easy”、“Medium”和“Hard”三项评测集中,以96.3%AP,95.4%AP,90.3%AP的优异性能全部获得排名第一。在远景、动态以及快速姿态变化中保证了AI依旧能够高效准确工作。
2、跨越空间:人脸3d关键点检测
AI换脸的另一个关键问题在于,人脸是会进行空间运动的。也就是侧脸、转动头部、低头抬头等动作,都会让人脸识别和替换的空间关系发生变化。这经常会导致瞬时的模型失灵,降低视频换脸的体验。为了应对空间障碍,京东利用3D关键点检测技术,定位了人脸区域的5万多个关键点,并基于这些关键点对人脸进行重构。这一努力是这次“跨越时空”得以实现的关键。
由于3D数据难以获取且很难修正,京东提出了一种基于2D关键点辅助的3D关键点检测方法,性能超越了当前业界主流3D关键点检测算法,这使得完全侧脸的数据也可以准确进行3D检测。
3、跨越光影:纹理图像的融合处理
在视频换脸中,还有一个难点就是对光线的处理。由于电影中的光线明暗变化非常复杂,这给换脸的自然度带来了非常大的挑战,尤其是人脸关键点检测将非常困难。面对这样的问题,京东AI采用了在纹理图上进行融合处理的方式,使纹理生成独立于头部姿态变化,增强了换脸效果的鲁棒性,让用户的面孔,和时代的光影融合为一。
这三层跨越,可以总结为这样一个技术特征:在复杂场景中应用,与现实视频数据深度耦合的人脸识别与图像处理能力。藏在一个H5背后的三个飞跃,体现出了京东AI技术在商业落地方面的广阔可能。
落地:新商业,新AI
跨越技术难题,挑战极速准确电影换脸的京东AI,实际上正在广泛完成从AI起跳、技术飞跃,到商业落地的三部曲进化。
让我们回想一下前文讲述的三层技术跨越,不难发现这三个挑战,都是现实场景中人脸识别与图像处理工作里普遍面临的难题。比如零售场景中,要应对大量侧脸和低头的识别情况;安防场景中,快速运动其实是最需要准确识别的场景,但往往会成为困扰AI的难题。
如果把“70年,我是主角”视为一次技术阅兵。那么其背后展现出的,实际上是京东AI在人脸识别、视频分析与图像处理能力在现实场景中的深层应用。人脸识别与精准处理,将可以快速动态在复杂、高速、多角度的视频当中发挥识别和处理功能,这就将单一平面化的人脸技术,提升到了现实中的人脸识别+多元处理纪元。
把实验中看上去不错的悬空AI,变为到现实场景中的实战AI,这是京东AI的核心特征。事实上,H5中应用的机器视觉技术,已经广泛应用于京东在零售、安防等领域的产业布局。
比如在零售领域,京东AI的视联网各项产品中已经广泛应用人脸相关技术来提升用户体验和服务效率,比如增进拍照购精准度,在京东门店体系中进行人流与分析,在物流体系中进行配送分拣行为识别等等。
而在安防领域,京东AI的人脸技术已经与公共安全、交通城市、智能楼宇等场景广泛结合,形成了京东新的产业合作空间。
深度技术融合、面向现实问题、安全可信赖,这些关键词构成了京东AI的战略结构。“70年,我是主角”中,真正的主角其实是AI技术系统性、大规模、全流程的商业落地。这一通道,正在为京东和产业智能化的未来提供一个全新舞台。
新商业,新AI,京东正在触发一段新的科技旅程。