魔变科技于2020年1月1日成立,团队全部来自于斗米,是斗米投资的AI数据服务公司。同时,魔变科技与黑龙江绥棱县政府共同打造300人规模全职自有标注中心。
说到人工智能数据采集标注业务,很多非专业人士可能不是很了解这个业务。举个例子,我们日常在快递柜领取快递,之前一般都是凭密码或扫描二维码领取,现在大部分都是基于扫描人脸领取,这个就是基于人脸识别鉴活。数据采集标注业务就是专门去采集相应数据标注后给计算机提供数据支持。基于后台的算法最终我们将快递领取。为我们的生活提高了便利。
采集标注完之后,这些被采集标注的数据,就会被人工智能企业拿去“喂养”人工智能算法,数据多了之后,人工智能工具就会像人类一样,识别语音、图像等。比如,你使用小米的小爱音箱,你跟它说的每一句话,它之所以能识别出来,并不是因为它真的懂,而是它已经被大量的类似语料库“训练”过,才能识别我们的问题,当然如果在语料库中或是无法检索的问题,就无法回答。
从上面的案例中不难发现,所有涉及人工智能研发、应用业务的公司,都需要用到被采集标注的数据,“喂养”自己的人工智能算法,让它的识别度和应答程度更加接近真人。因此,人工智能数据采集标注业务,就像我们学习的教材、试题一样,一定是非常基础、不可或缺的一环且市场空间巨大的。
根据艾瑞咨询最新的研究报告显示,2018年中国人工智能基础数据服务市场规模为25.86亿元,其中,数据资源定制服务占比86.2%,行业年复合增长率为23.5%,预计2025年市场规模将突破110亿元。
根据智研发布的《2019-2025年中国数据标注与审核行业市场专项分析研究及投资前景预测报告》,截止到2018年,我国数据标注与审核行业中,有三分之一是AI公司内部的标注部门承担,另外有三分之一被商务流程外包公司瓜分,剩下的三分之一由专门做数据采标的第三方公司。
尽管说目前是三足鼎立的局面,不过,未来随着人工智能行业的发展,专门做数据采标的第三方公司市场份额可能会有更大的占比。
魔变科技主攻AI人工智能数据采集业务,项目内容包括图像,音频,文本,视频相关方向的智慧家居、智慧交通、智能安防、自动驾驶等方面的数据采集标注业务。截止目前,数据采集标注业务覆盖全国及海外,交付过亿级合格数据,累计采集人次50万。
之所以能在短短两年的时间,就能取得如此快速的发展,除了有行业的快速发展红利之外,魔变科技的主要优势也非常明显。
(1)合规先行
无论是数据的采集还是使用,合规是第一准则。数据的合规使用是该行业企业发展的底线,魔变科技在立项之初,便会严格审核客户资质。根据相关法律法规,对客户资质、客户采集需求、目的等相关信息获得合法授权之后,才会实施采集工作。除此之外,魔变科技也会与被采集人员、数据采集执行人员分别签订授权书和承诺函,每一步都做到合法合规。
(2)保护隐私,用完即销毁
除了数据使用上的合规,站在个人或者被采集者的角度看,个人隐私也格外受到大众的重视。特别是移动互联网快速发展的这几年,国内外经常出现数据泄漏的社会事件。针对这种情况,魔变科技会在数据采集前,向被采集人员充分、详细的介绍数据采集的相关规则,采集过程中不留存、不缓存,使用结束后,得到合作伙伴认可后即完全销毁。
(3)标准化和规范化助力降本增效
数据采标行业的发展也在推动者人工智能行业的发展,在这个过程中,除了对数据采标的数量有要求,其实质量也非常关键。“喂养”人工智能算法的数据精准度越高,其算法的识别度也越高。
如何能提升数据的质量和数量,又不会增加成本、降低效率呢?魔变科技的制胜法宝就是标准化和规范化。在前文中曾提到,数据的采标主要是依赖于人工的采集标注,也就是说,投入的人力是制约数据质量和工作效率的关键要素。
魔变科技一方面依靠斗米的大流量和专业的线下服务团队,成为保障效率的支撑,而且,除了前文提到的黑龙江绥棱县标注中心,魔变科技也在积极探索与其他地方政府的合作;另一方面,在质量把控上,魔变科技分六步:数据清洗、整理筛查、人工审核、多重质检、结构化提取和交付验收。
这样一来,原本复杂的处理过程就变成了一条“流水线”,当年福特汽车“降本增效”的神话将会在魔变科技团队中再次出现。
魔变科技擅于用算法需求,真实还原场景的定制化数据采集标注业务。截至目前,已经为多家知名企业提供数据采集标注服务。
有一家客户公司需要一个车载异常行为数据集,但是并不能给出完整的需求,需要探索完善需求。面对这个难题,魔变科技根据相关项目的经验,以及对前期驾驶行为的调查,研究出了相关异常行为的场景和行为,并给到客户公司先行确认,提供建议。在充分的交流讨论之后,完善需求。
针对完善后的需求,魔变团队制定了数据采标计划、搭建采集场地,并且模拟采集场景,采集了一套完整的测试集。通过这套测试集对模型进行效果测试,根据反馈的结果,不断改变数据集占比。
为了又好又快的完成项目,助力客户企业的工作效率,魔变科技以日交付采集数据,次日客户公司审核通过后,立即进入数据标注流程,标注和质检同步进行,大大缩短了工作时间,提高效率。
在数据验收结束后,由公司DPO(数据安全)部门相关人员对备份数据进行销毁处理,并将相关证明材料发送至客户确认。
在整个采标过程中为了保证数据安全性,魔变科技采标基地24小时监控,所有进入工作区人员手机上交,进入采标基地均需通过安检,并做到同类项目交付团队不重合。
最后,魔变科技在原定的交付期内,完成百万级数据交付,交付合格率99%,超预期完成项目。
从上面的案例中可以感受到,魔变科技就像一个聪明、听话的“乖孩子”,每一步操作都非常规范、严谨,执行过程中的每一个细节都能考虑全面,真正做到合规、安全、保密。
如今,魔变科技已经正式独立成为一家公司,这就像刚走出大学校园的青年,朝气蓬勃,开始独自承担责任,不断“进化”成长。