近日,由Google主办的2019 Google物体挑战赛结果正式揭晓,首次参赛的极链科技AI团队在仅剩两个月的时间下赢得一枚金牌。
去年,在MS COCO停止举办物体边框识别的比赛后,Google发布了自己的第一届物体识别的比赛,有400多名研究人员和机器学习研究人员参加。今年,作为ICCV的workshop之一,谷歌在Open Image V5数据集的基础上推出了第二届物体比赛,且测试集与第一届完全相同。
连续两年Google Open Images - Object Detection Track接棒COCO物体识别比赛,作为计算机视觉领域的“黄金标准型”,吸引了大量团队的参与,以获得在Open Images数据集上的最低的错误率,今年也是吸引了560余支队伍。同时,深度学习技术的突破更是使得图像识别任务取得令人瞩目的巨大进步,甚至超过了人类的准确度。
随着深度网络解决方案变得越来越深,越来越复杂,它们通常受到可用培训数据量的限制。考虑到这一点,为了刺激分析和理解图像的进步,Google公开发布了Open Images数据集。Open Images遵循了PASCAL VOC,ImageNet和COCO的传统,现已达到前所未有的规模。
作为CV(Computer Vision)领域的热门分支,物体识别有着广泛的应用场景,从已经十分成熟的车辆车牌识别、行人检测,到近些年来新兴的无人驾驶所需要的各种目标的识别。随着不断新增的需求,人们对识别准确率的要求也是水涨船高。2018年ECCV的Open Images Workshop中,谷歌团队解释了Open Image物体识别比赛和其他类似比赛的区别和具有挑战性的地方,即拥有更为大量的数据、标签种类、数据分布不均衡、提供标签从属关系信息以及数据标注不绝对完整。相比于COCO,此数据集的多样性要大得多,并且对最先进的实例识别方法构成了更大的挑战。基于这个数据集, Google号召全球的计算机视觉领域的科学精英共同参与,共同朝着更复杂的地标检测计算机视觉模型迈出巨大的一步。这也是目前最大、最详尽的公开数据。
作为极链的明星平台之一,「金目」用包括物体、场景等各个维度的识别为用户带来丰富且十分精准的体验。当然在其中,物体识别扮演着不可或缺的角色。出于对前沿技术、算法的不断探索,我们也借由这次比赛,夯实团队在物体识别上的能力。
针对本次比赛数据分布极为不均衡,我们对数量较少的标签进行了数据增广。在算法框架的选择上,目前Two stage的物体识别算法相比One stage在准确度上有较为明显的优势,而Cascade RCNN算法更是当下各个物体比赛的热门选择。不过Cascade级联的方式也导致了速度的下降,并不适用于实际场景。考虑到自身平台的实际应用场景,我们选择了速度更快也更为经典的Faster-RCNN。接下来是Backbone,当下大量针对比赛的选择基本趋于更深和更复杂的算法,比如为Fackbook创造Imagenet 84.5%(Top1)准确率的ResNeXt101(32x48d)、SENet等等。而这类模型有个共同的特点,非常的庞大,对训练和测试的时间也都有较大的增加。此外,为了达到更高的准确率,参赛者们更倾向于训练不同框架、不同Backbone的算法,通常为6个甚至更多,最后进行融合。这对整体的效率、性能的影响也是可想而知的。而比赛是为了更好地改善算法或技术的实际落地效果。基于这个初衷,我们仅选择了ResNeXt-101(64x4d)和ResNet-152这两个相对更平衡的Backbone。在测试阶段,用了多尺度测试以及内部各个周期的结果融合。此外,我们利用SoftNMS对两个算法的结果进行了融合得到了最终的结果。
极链科技作为全球视联网-视频商业操作系统的构建者,坚持以AI技术赋能视频中的信息,链接互联网信息、服务、购物、社交、游戏五大模式,实现基于视频的新互联网经济体与客户价值倍增。这次对Google AI Open Images - Object Detection Track竞赛的实践,是极链科技「金目」系统视频识别物体算法领域的优化,也是为了更好的支持视联网的服务与赋能。未来,极链也将持续探索前沿领域的技术突破,促进人工智能生态圈的持续快速发展。