2019年《中国人工智能基础数据服务行业白皮书》显示,2018年中国人工智能基础数据服务市场规模达到25.86亿元,预计到2025年市场规模或将突破113亿元。人工智能基础数据服务市场呈现出巨大发展潜力。但伴随着需求的不断膨胀,基础数据服务商在迎来机会的同时,也面临新的挑战——如何有效提升数据标注的产能。
面对良好的市场预期,基础数据服务供应商为提升产能纷纷做出积极尝试,2019年11月倍赛BasicFinder第二代云基础设施——全类型SaaS数据标注工具集上线,在基础数据服务领域探索出一条以工具赋能为核心的提升产能之路。或许创新工具的使用将为基础数据服务商打开新局面。
自始以来,算法、算力和数据就被认定为拉动人工智能发展的马车,而数据则是马车前进中不可缺少的轮子。由于算法和算力水平的不断提升,以往市场上流行的标注工具已经无法适应AI数据从简易到复杂的趋势变化,因此,标注工具平台的泛用性成为实现精准、高效标注的基本要素。
由于基础数据服务商从事的标注业务具有普遍多样性,单独工具无法满足业务需求。倍赛BasicFinder CEO 杜霖认为:作为SaaS标注工具,最基本的要求就是能对图像、文本、语音、视频以及点云数据做到一站式加工处理,没有完善的工具集,人机协作和提升产能将成为空谈。这也是为什么倍赛BasicFinder在SaaS平台上投入精力,设计出含2D框、分词标注、视频追踪、语音标注及点云标注工具等18款套件的原因,目的就是让平台使用者不必因更换项目而频繁切换工具平台。
人工智能在现实应用中多采用有监督学习模式,基于大量标注数据的模型训练能够帮助算法有效降低错误率。虽然现在AI科学家们在探索通过小样本数据以达到训练目的,但就目前的应用成果看,无监督学习或弱监督学习仍然不能取代有监督学习,这就使得在可预见的未来,市场对AI标注数据的需求将呈指数化持续增长,据IDC 统计,全球每年生产的数据量在2025年或将达到163ZB。紧张的产能需求迫使AI科技公司和基础数据服务商对数据生产手段做出积极地调整。其中部分企业通过增加人力的方式扩充产能,但随着人力不断扩充,边际收益逐渐递减,趋于0值。虽然个别企业希望培训机制可以进一步增加人效,却收效甚微。在企业的调整实践经验下,不难发现与增加人力相比,提升标注工具平台在人机协同方向的创新,或许是提升产能更“靠谱”的方式。
在工具平台的选择方面,也有部分AI科技企业和基础数据服务商通过改写开源工具以获得标注能力,但往往改写工具仅能满足当前最急迫的标注需求,长期却无法适应项目更替,原因在于每次标注需求的变动,都需要技术人员进行再次改写,开发时间周期和技术人力损耗在成本上加重了企业负担。在成本考量之外,开源工具在管理属性和灵活性层面也相对薄弱,而对于一款相对成熟的SaaS标注工具平台来说,“标”是平台基础;“管”是平台的灵魂;“活”则是工具的延伸。
以倍赛BasicFinder SaaS标注平台为例,其内部系统嵌入工作流模块。具体工作流为:任务发布、执行标注、结果审核、数据质检。平台通过每个环节的作业衔接,构建起流程管理系统,与单纯的标注工具相比,任务在SaaS平台中可以获得更快的流转速度。同时由于工序之间采用封闭节点构造,执行标注和审核工序的操作员无法对数据进行下载和传输,又进一步保证了数据的安全性。除流程管理外,该工具平台还具有绩效管理功能,尤其是AI企业或基础数据服务商的管理层用户,可以通过可视化面板了解项目的进度以及团队下每个标注员的工作效率和完成任务的准确度。绩效管理功能的加入,减少了项目经理因过度参与作业环节中的管理工作而耗费精力。之前一个项目经理能同时管理3个项目,在SaaS标注平台的使用下可拓展管理10个,甚至更多的项目。
在工具的灵活性方面,倍赛BasicFinder SaaS标注平台将标注标签、标注工具、标注特质项等功能设计成可自由拖拽的模板配置形式,以指定标注范畴,规范标注员的标签和工具使用,减少不必要的标注错误出现。除可自由配置模板,SaaS标注平台也为有能力开发预标模型的AI科技公司或数据服务商提供加速工具接口。在执行大规模的标注项目时,平台使用者可以通过接入预标模型,对大批数据进行预处理,而后人工进行补标,以增加操作员单位时间的作业频次,提高产能输出。
作为基础操作层面,标注工具能力的全面性将对数据加工者起到至关重要的作用。如倍赛BasicFinder曾为招商银行部署数据标注工具平台私有化系统,通过独立系统的配置,同时解决了招行关于标注工具、工序管理和数据安全三个方面的难题,一举帮助其建立起可以独立展开数据标注作业的能力。
在AI基础数据服务市场的激烈竞争下,数据的标记质量和项目的执行速率成为数据服务商获得竞争优势的关键。由于数据标注工具私有化部署成本相对较高,倍赛BasicFinder将其 SaaS 化,大大降低了工具的使用成本,普惠中小型AI科技公司和基础数据服务供应商,赋能AI基础行业。