大数据技术趋势下的“爬虫危机”日益得到有关部门的严肃重视。
所谓网络爬虫又名“网络蜘蛛”,是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到按照某种策略把互联网上所有的网页都抓取完为止的技术。
7月18日,立木征信法人及大部分员工被警方带走;9月6日,魔蝎科技高管被警方带走,新颜科技CEO黄向前被带走,聚信立被曝有警方进驻调查;9月11日,公信宝被杭州警方查封;9月12日,集奥聚合深圳分公司有10多人被带走,后北京办公室也被深圳警方带走多人;9月27日,同盾科技子公司信川科技高管被带走调查。
浪潮集团高级副总裁、浪潮云董事长兼CEO肖雪在接受第一财经记者采访时表示,随着数据汇集、规模变大、透明度变高,数据越权逐渐成为安全的核心问题,近期不断发生的爆雷事件核心便是来自于数据泄露、数据私下交易、以及隐私权泄露。具体包括数据在未授权的情况下超越权限使用数据,不正当使用数据,由于安全防护所带来的数据泄露等。
通过爬虫技术获取数据并可能用于不法用途的审查调查早已开始。2017年12月1日监管层下发整顿现金贷的141号文,行业渐有改善,但并未得到根治。2018年11月,现金贷系统供应商有脉金控失联;12月,消金技术服务商同牛科技失联。
基于此,相关部门加大对大数据滥用的围剿。中国互联网金融协会向会员单位下发《关于增强个人信息保护意识依法开展业务的通知》。要求不与违规收集和使用个人信息的第三方开展数据合作,不滥用、非法买卖和泄露消费者个人信息。
金融业务之外,更贴近普通受众的APP数据安全与隐私保护也被纳入监管范围。国家网络与信息安全通报中心再次发布《公安机关开展APP违法采集个人信息集中整治》通报,通报指出,2019年11月以来,公安部开展APP违法违规采集个人信息集中整治,下架整改100款违法违规APP。微店、天津银行、考拉海购、晋江小说阅读等APP名列其中,具体问题包括超范围收集、隐私协议不规范等。
云测数据总经理贾宇航对第一财经记者表示,在电子信息化时代中,个人信息的隐私问题逐渐受到重视。消费者在使用个人信息享受便利的同时个人信息也是一个人重要资产的一部分。大数据平台方原则上应遵循便民利民保护人民个人利益的前提进行合理的商业化运作。具体来讲,贾宇航称,一方面要做到完全透明,让消费者有数据授权后知情数据的最终流向;其次,尊重版权,对于无版权数据,不应进行商业变现。
大数据时代即将到来已经成为行业共识。2019(第十八届)中国企业领袖年会上,华兴资本董事长兼首席执行官包凡强调称,随着网民数量红利与市场红利渐趋瓶颈,互联网行业下一步发展方向与破局之点主要在于数据的应用。“过去二三十年里互联网把几乎所有的消费者带到了网上,这其中产生、沉淀了大量的数据,同时大量企业业务也基本上了云。如果我们把数据看作资源的话,其实地下的(待开采的)石油已经很多了,如何进一步地挖掘、应用好,一定是下一步创新企业需要解决的问题,也是我们未来的希望所在。”
然而,持续发生的大数据公司因随意爬取用户数据信息而被查封的消息频频诉诸报端,大数据公司的信息安全不可能一直以来监管,技术时代的到来前,如何确定安全红线?
对此,肖雪对第一财经记者表示, 技术层面,浪潮设立基于区块链的核心技术数据铁笼IDS(Inspur Date Seal ,数据封印系统),其作用包括两方面——可用不可见,以及无授权不使用。肖雪称,大数据确权结构难且复杂,包括所有权、使用权、交易权、以及处置权,非常难界定,过程中非常容易产生偏差,最好的办法就是将数据权属直接给到权属人来处理。
肖雪称,数据铁笼的落点正是数据“治理”和“服务”的安全保障。通过加密算法和区块链技术,IDS实现数据处理过程的封闭隔离,同时数据可以“用后即焚”,并将计算结果定向到指定位置,处理过程中所有数据来源都可以全程锁定和追溯。 “加密和解密永远没有止境,我们对这项技术的研发也会不断迭代和推进。”浪潮集团副总裁张晖谈到IDS时强调,目前IDS已运用到政府数据的共享和开放中。
同样在技术层面,贾宇航对第一财经记者表示,企业方应确保数据安全性,保证自己的数据资产不被商业盗取。合理构建拥有数据的核心壁垒,在金融风控全流程中,做到认证作用,而并非数据买卖。运用联邦学习等方式,在行业内,及用户允许的前提下,进行相关的技术迭代,增强行业及自身实力,做到为人民提供更多福利。
另外,针对近来火热的AI数据服务行业,贾宇航表示AI数据也属于数据行业,本质是提升让AI理解事物和世界的能力。而风控大数据服务更多是在金融借贷领域作为信用评级依据。贾宇航称,作为AI数据服务商应同样重视用户个人隐私、版权、数据安全三点:第一,隐私方面,如进行人体动作采集,注重被采集人员是否知情,并且签署对应的肖像授权协议,确保潜在法律风险;第二,版权方面,在进行数据采集后,数据公司要确保版权归属问题,若版权归属甲方AI人工智能企业,则不应在通过其他方式进行变现,在完成交付后应做到不留底;第三,作为重要的数据资产,AI数据也同样珍贵,做好安全防护,确保数据不被盗用。在企业内部工作中,通过工具实现工作人员只有处理数据权限,而不能获取数据。