AI时代的“数据隐私”与“算法歧视”

2019-09-08 10:04:17来源：亿欧

如果说近二十年来有哪一项科技成果能够媲美上个世纪电脑的发明，那么这份荣誉一定属于基于深度学习算法的AI技术，因为学习算法的诞生，才使得信息时代海量信息与数据第一次能够完整的为人们提供可商业化的价值，并将由此开启人类的“人工智能”时代。

但踏入人工智能时代的人们在获取诸多技术革新成果的同时也付出了自己的代价：在这个数据即生产力的时代，与互联网时刻链接的我们正在数据AI的时代中不停地“裸奔”。

AI智能：算法和数据

如今，随处可见的智能手机、街头监控、地铁安检等设备都不同程度上集成了AI技术，而事实上，当下的“AI智能”只是在线性规划法则下算法对大数据的高效“检索”的结果，并通过深度学习不断完善“检索模式”和“反馈模式”，不具备真正独立思考能力，因而也被称为“弱人工智能”或者“轻人工智能”。

然而，即便是不具备思考能力的AI，在海量数据的分析与处理上相比人力而言仍然具有“革命性”的优势。而数据、算法、算力作为数据驱动的“准人工智能”的三大要素则决定着AI的能力上限以及价值空间，其中，算法、算力是数据载体，如果将AI算法比作是一台引擎，那么数据本身则是AI的“燃料”。

对于大数据，百度百科这样定义：“指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”IBM则通过5V来表示大数据的特点，即：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。

AI与数据的联系尤为紧密，一方面，大数据为AI提供数据资源，使其不断成长进化，另一方面，AI通过数学模型分析，对庞大的数据库进行分析检索，充分发掘数据背后的潜在价值。维克托.迈尔-舍恩伯格在《大数据时代》中这样描述道：“大数据提供的不是最终答案，只是参考答案，为我们提供暂时的帮助，以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候，应当怀有谦恭之心，铭记人性之本。”

“数据AI”与个人隐私的“二元对立”

毫无疑问的是，如今已经逐步应用的“数据AI”技术已经很大程度上为我们的生活创造了巨大的便利，如线下人脸识别支付系统的便捷性体验、安防领域的AI人脸识别应用有效提高安检效率，基于用户数据画像的数字化营销等。基于“数据AI”人们得以实现有效的风险管控以及行为预测，而伴随着“数据AI”的商业化应用，人们在享受便利的同时也在承担着隐私泄露的风险和担忧。

试想一下，在数据的世界里，最了解你家庭和你社交关系的可能是你习惯性使用的社交软件，最了解你财务状况的可能是你常用的支付软件，而知道你购物习惯和消费你能力的则是你常常网购的平台，如果将这些数据综合起来，则是一个完整、精确的数据画像，这些数据一旦泄露，将使你“一丝不挂”完完全全暴露在数据的世界中，被陌生人窥视，甚至被用于非法的商业交易。

此前据《华尔街日报》报道，一位英国某集团子公司CEO接到“老板”电话，要求其必须在一个小时内转账给某“供应商”，成功被使用AI语音克技术的犯罪分子骗取22万欧元，

不仅AI语音存在着隐私以及安全性问题，事实上，AI视频换脸也同样有着隐私安全漏洞。以最近刷屏的AI换脸APP：ZAO为例，随着热度的飙升，其广为诟病的用户协议以及换脸合成视频的隐私安全问题也使其陷入舆论的漩涡。究其本因是因为换脸合成视频触及了人们心中的隐私红线：当视频也可伪造之时，还有什么样的证据辨别真实？

目前AI技术的发展需要人们开放数据，而另一方面，在现实中个人数据开放必然会导致数据泄露的风险。目前，大多公司通过其软件搜集用户信息必须通知用户和取得用户同意，而据一份调查统计显示，如果要充分阅读隐私条款则意味着每年消费者需要多花花费200个小时以上的时间，显然没有人愿意在这件事情上浪费自己的时间。

从本质上来看，数据开放与隐私保护二者之间原本就是二元对立的双方，一方的收益必定意味着另一方的风险和损失，而就现阶段来看来，并没有一种有效的“数据黑盒”机制来保证个人数据的绝对安全。而对于刚进入人工智能时代的人们来说，数据的开放也成为一种“趋势”，在数据生产力的时代中，由数据整合、流通、数据反馈等为主体的“数据价值创造”将带来飞跃式的效率提升。

数据价值与隐私权利的动态均衡“妥协”

人们对于数据的泄露的担忧源自于对切身利益的担忧，事实上，开放数据的人们也同样可以获得AI带来的便利服务，一份调查显示，在对自身没有任何影响，且能保证数据绝对安全的情况下，还是有相当一部分人愿意分享涉及隐私的相关数据。

另一方面，对于一些不愿意分享自身数据的人来说，路人无意识的行为也可在AI技术下造成个人数据泄露的可能，比如说在广场上牌照的人可能会拍到一些路人的面部数据，而在人脸识别技术下这些路人会被识别，数据会被储存，对于他们来说，未知意愿下创造的数据就决定了其在未来有数据泄露的风险。

另外，数据本身的价值也成为数据泄露的原因之一，事实上基于智能手机的信息采集要比其它方式更加容易，通过智能手机的后门软件，可以采集你的手机号，通讯录等信息。如果用户没有足够的安全意识，很多软件安装都默认采集各种信息的，通过智能手机唯一标识信息很容易做到数据的整合与身份信息定位。

由于AI时代的数据资源属性，大量的用户数据是企业机构广告投放优化的关键，因而数据开放则意味着巨大的商业价值，巨头们在生态布局下，通过全链式数据通路可获得精准、完整的用户画像，而巨头们在数据的商业化上也更加容易。

对于AI技术的提供者而言，数据价值导向下使得数据搜集是非常必要的，在初期，人们会因为数据被第三方使用而感到不安，从而主张自身的隐私权，实际上，如果数据本身的应用并没有给用户造成困扰，并且为其带来便利的服务，那么此时会有部分用户乐于接受分享数据，因而对于数据价值的商业化应用上，AI技术的提供者应该持有更谨慎的态度。

在笔者看来，AI数据时代中，数据的商业化价值和用户的隐私权利之间需要达到一种动态均衡，即在法律范围的临界点内，数据搜集方与用户之间需要有一种连接机制，以确保在数据产生者的掌控下，有限度的使用数据的商业价值发掘，在隐私保护与AI技术的便利之间达成妥协。而对于当前隐私法、物权法等相关法律并没有对数据归属权益等明确立法的现状下，有限度的使用数据仍然需要依靠企业的意识自觉。

数据算法偏差下的“AI歧视”

在大数据时代，数据有着极底的储存成本，这也意味着在数据驱动的AI时代，一旦有数据生成便很难彻底消除，在数据储存成本的规模递减效应下，彻底删除数据的成本反而更高，因而，数据存在的时间更长，甚至超过创造数据者本身的寿命。而随着储存成本的进一步降低，在不久的将来个人数据可能会实现无限期的储存。

大数据的意义在于不必深究事物“规律性”的同时对于数据分析结论的直接应用，因而大数据常常被用于结果预测，而事实上，基于数据的预测结果也具有时效性，而时效性失效的结果则是基于数据分析的AI交互失真。

也就是说，如果采集的数据本身就具有某种倾向性，则由此训练而来的AI也自然带有这样的倾向性。一项来自于美国的调查研究证明了这一点，在一项基于数据分析的族群预测算法中，算法在预测族群时，通常会把那些身处有歧视历史地区的人预测为黑人，而事实上,并非如此。

又如在一则STEM（科学、技术、工程、数学）领域招聘广告投放中，广告商发现，则这广告很少投放给女性，而事实上广告商则希望这则广告是性别中立的。而在“双曲贴现”效应下数据的时效性问题导致数据“失准”，进一步引发“算法歧视”的问题。

双曲贴现又称为非理性折现，是行为经济学的一个概念，这个现象描述折现率并不是一个不变量，具体是指人们在对未来的收益评估其价值时，倾向于对较近的时期采用更低的折现率，对较远的时期采用更高的折现率。

比如，大多数人可能倾向于选择今天收益60元，而不是一年后拿到100元，因为今天这60元收入可能更有价值，而如果让人们选择一年后拿到60元或者两年后拿到100元，则大多数人会选择两年后拿到100元。即人们会因为收益时间上的差异从而做出不同的决策。

因而，在双曲贴现的情况下，人们短期决策行为所产生的数据将会导致数据本身失准，从而更加容易导致在数据偏差引发的算法偏差后，在应用层面的“算法歧视”。因此，对于数据型AI的使用者而言，在算法的应用层面上也需多一份谨慎和细心。

无论是数据AI时代的个人隐私问题还是数据偏差下的“算法歧视”，都是大数据AI发展之路上不可避免的问题，对于人们来说，不论是数据采集端的隐私侵犯，还是AI应用层面的“算法歧视”都是有悖道德甚至法律的边缘试探。而对于如今尚处“幼年”中的AI技术而言，如何正确的引导、影响其发展，在符合人类价道德观念以及道德标准之下创造更大的价值，则是“AI造物主”们值得深思的问题。

2019大湾区国际科创峰会.jpg