云之变：让AI无处不在的云端训练师

2019-10-28 10:04:46来源：亿欧

随着《云之变》系列走向尾声，想必大家可以清晰地感受到，当前云服务的发展方向，无论是以IaaS、PaaS或SaaS等何种形式交付，其所追寻的产业价值一定离不开一个特质，那就是——“AI as a service”，AI即服务。

在这场大浪潮中，越来越多企业在寻求可以将AI集成到自有业务与产品中的渠道，无数开发者渴望抢先在AI舞台上释放创造力，然而面对深度学习为代表的巨型数据集，如果自建数据中心或个人电脑带不动AI这匹“算力怪兽”，该怎么办？

作为基础设施一般存在的云服务商，此时就被赋予了一个新的角色——AI训练师。

花式AIaaS，离不开“训练”二字

云计算的普及，让各种AI能力以“即服务”的形式出现在了各行各业之中。去年，RightScale的云研究报告指出，企业格外关注于AI技术体系中的机器学习。当被问询未来计划使用哪种类型的公有云服务时，绝大多数的受访者选择了机器学习，12%的受访者表示他们正在使用这一服务，46%的受访者则表示他们正在测试或计划部署机器学习服务。

目前看来，AI主要是以三种形式被“即服务”到产业当中：一种是Chatbot，比如苹果Siri、微软Cortana或亚马逊Alexa这样的智能语音助理，被业务集成后可以直接打通AI体验，解放人力；第二种是API。云服务商开发出的AI模型，如NLP、图片分类、视频识别等等，以应用程序编程接口（API）的形式集成到自身的平台上去，避免从零开发。目前广泛应用的人脸识别、语音翻译等都是以各种形式被普及的。第三种则是机器学习框架。开发人员利用云访问机器学习框架构建出模型，再基于自身现有的数据对模型进行训练，这种方式比起自建型算法模型更加便捷，节省时间。

显然，这些让AI全面开花的主流方式，依然依赖于一个环节，那就是训练。

我们知道，虽然目前绝大多数云服务商都提供多种AI模型来帮助各行各业实现智能化。但云服务商无法深入到产业肌理的每一个细微纹路，想要让AI落地时精准地匹配现实需求，高度定制化的数据训练就十分必要了。

即使云服务商有类似的平台模型可供企业客户调用，一个良好的模型依然需要具备可扩展、可训练性，也就是能够根据实际数据随时自我更新，不断提升性能，才能真正成为提质增效的神兵利器。

从这个层面看，面向企业和个人开发者的AI训练服务，几乎成了公有云无法绕开的关键能力。

上探AI训练，对公有云意味着什么？

今天，在公有云上进行深度学习训练可谓是人工智能的重要趋势，然而有能力向企业和个人开发者输出云端训练服务的云服务商可说是凤毛麟角。

例如亚马逊推出了AWS深度学习容器，也方便客户定制AI训练流程；谷歌和Facebook也推出了适合自身深度学习框架TensorFlow的训练平台；在中国，华为、百度、阿里、浪潮、腾讯等也让定制化AI训练服务走上了云端，整合到他们的企业服务解决方案中去。

我们知道，深度学习难以离开大数据和规模化训练的支撑，二者就像紧密结合的轮轴推动着算法向高性能、高精度的方向发展，进而影响整个社会的AI进程。但目前市面上只有少数几家头部公有云厂商有类似的服务。为什么云端AI训练如何“阳春白雪”？

其中很大一部分原因在于，定制化神经网络的训练任务，往往需要强大的计算能力，也就是GPU集群来保障。然而今天， AI算力依然是一种昂贵的计算资源，而云端训练往往会在不训练时将算力资源释放出去，实现弹性调配，服务商按照实际计算消耗进行付费，个人开发者与企业则可以省去购买计算单元或是自建数据中心的高昂开支，从而大大降低了AI落地的成本。

不过，目前用户可以选择的云端训练平台并不多。主要原因是用于神经训练的GPU芯片几乎由英伟达一家独大，云服务商建立训练平台的成本很高。后来谷歌、华为分别推出了自己的大规模计算单元，起到了一定了市场制衡作用。但整体而言，训练环节的云端芯片依然难以满足广泛的部署需求。

还有一个顾虑是云巨头在AI领域的投入与创新，正好具备了输出基础算力与应用工具的双重能力。大多企业想要AI，依然需要花费大量时间与精力、人力去熟悉相应的深度学习框架、标注数据、调教参数、设计容错等等，在一份Vanson Bourne公司的“企业人工智能状况”调查报告中，有34%的企业IT决策者表示他们没有合适的人才来支持技术的成功部署，30%缺乏实施的预算。

举个例子，大部分中小企业采用公有云来进行超大规模的AI训练，一个基本出发点就是试错和验证AI进入产业的新想法，因此时间成本就非常重要，这需要效率更高、扩展性更好的深度学习框架和专项加速来支撑。因此，想要帮助企业减少定制化训练的学习门槛与风险成本，只有少数有意愿、有实力的头部云技术巨头才能切入。

另外值得注意的是，无论是需要财报好看的企业，还是渴望拥抱AI的开发者，云平台面临的训练任务是五花八门的，接收到的数据资源也很可能放飞自我。不同的程序、业务模式可能对应着不同的访问模式和存储结构，因此，如何存储、处理、分析、最终输出基于任意类型数据的训练模型，这就要求云平台拥有构建和管理数据湖，来处理各种结构化或非结构化的数据，并统统投喂给神经网络。显然，想要积累如此庞大且丰满的全量数据，头部选手的表现更优且更完备。

总体来看，AI训练作为智能这座大厦所必备的原材料锻造过程，迫切需要一个灵活机动的全能选手“随叫随到”，就地完成特殊模块的精雕细琢然后就功成身退，而不是在材料原产地处理完再运往施工现场。

具备这种弹性作战能力的“工程队”，显然具备争夺市场的关键能力。这也是为什么今天几乎所有头部云厂商都开始纷纷输出自身的云端训练能力，甚至不惜“亏本赚吆喝”。

那么向AI的技术上游切入训练服务产业链，对于公有云厂商来说，究竟意味着什么？是以算法API和应用程序的方式“被连接”？还是提供工具和计算平台“被集成”？亦或者向更底层的芯片等“硬实力”进发？

如果某一朵云怀抱着的野望，是真正成为智能时代的容器与基础设施，构建全方位、立体化的AI技术体系，那么集硬件算力、软件技术、生态开发于一体的AI训练，虽然是复杂而漫长的冒险，却是中国AI产业真正进入千行万业所必要的投入与支撑。

一方面，云服务商需要开放自身的计算资源，为了不掣肘他人，就必须倒逼半导体产业自我升级。尤其时我国的短板，如承担训练任务的云端训练芯片，针对深度学习框架专项加速、提高性能的计算单元，高精度基础模型的释放等等，这些AI训练的必要支撑，伴随云服务商的产业上探实现系联动升级，正是当前的趋势。

另外，云端分布式训练、终端模型部署相结合，正在成为AI开发流程的全周期模式。企业利用公有云的算力、解决方案所训练的专有模型，大多需要在端、边侧部署和应用，在“从硬到软再到硬”的过程中，往往需要云平台协同综合考虑，这也让构建从训练到应用的产业闭环成为可能。而中国企业和开发者，以及各产业端的关键数据、创新应用等都得以在国产云环境中运行，在地域化情绪与环境不稳定的当下，也有着重要的产业安全战略意义。

由此，我们可以引出一个新的话题：一个好的云端AI训练平台，应用具备哪些能力？

让AI飞入寻常百姓家的云端“魔术手”

AI开始走进大众视野，是以阿尔法狗所代表的深度学习技术为起点。而云服务商所扮演的角色，就是不断将实验室中影影绰绰的技术“实体化”、工具化成一个个道具，运用一双虚实变幻、软硬结合的“魔术手”，将AI惊艳地呈现在各行各业、普罗大众眼前。

通过这双魔术之手，我们则可以反向去理解，“云端训练”在AI普惠的过程当中，都需要哪些条件的支持：

1.计算性能的持续升级。算力，是云端训练的基础保障，这里涉及两个基本命题，一是绝对规模，也就是硬件化计算能力，在训练时，数据会被分派给众多训练机器，再通过反馈及标志变量重新组合在一起，从而创建完整的训练模型，对GPU驱动、底层库之间的兼容性等硬件提出了不少挑战。第二需要考虑的则是精度，通过网络优化和超参组合，云平台可以利用少量数据就达到出色的训练效果和高性能的模型，这对于一些中小微开发者来说有着化不可能为可能的现实意义。

2.友好模式的开发态。简单来说，就是降低开发者的训练成本、学习门槛。一种方式是提供简单易上手的开发工具和交互界面。举个例子，神经网络训练的数据集往往达到1PB的数据量，即使用1G带宽的网络来传输也需要耗费将近4个月，黄花菜都要凉了，对此一些云巨头借助新的传输工具，如谷歌的Transfer Appliance ，就能在25 小时内将 1PB 的数据装入数据中心。还有一些自动化、可视化的任务管理工具，能够大大解放开发者的重复劳动，比如训练任务一站式托管，可以自动跟踪任务的训练状态，提供输出日志功能，开发者只需实时监控就可以了；

友好的第二种意义，则是云平台的兼容性。我们知道，目前深度学习框架有许多，开发者需要在不同的框架下完成特定的训练及推论任务，因此云平台的兼容并蓄就非常重要了。像是新的AWS容器就能够支持谷歌的TensorFlow、Apache的MXNet以及脸书的PyTorch等不同的机器学习架构，华为新发布的Atlas智能计算平台，也志在解决中国企业和开发者对算力与兼容性的难题。这意味着对每一种架构提供针对性的优化和加速，让特定的模型训练速度更上一层楼，这也有助于打消企业开发者的上云顾虑。

3.穿透各个场景的降本增效。一方面，成本控制作为云端训练的核心优势，在整个开发过程中是不可或缺的。这意味着云平台需要具备合理的扩展性与灵活度，让企业轻松获得自己所需要的AI资源并灵活合理地支付费用，如果试点项目没有成功，也可以很容易地关闭；而项目成功后，也可以很容易地扩大资源规模。

另外，基于原生场景数据的训练完成以后，如何将模型快速扩展到企业或产业其他业务部门及软硬件，这是困扰AI开发生态的落地难题。能够集中打通数据，让终端和云端在统一的智能基础设施上协同完成复杂任务处理的开发生态，将会在未来释放更具应用价值的能量。

4.云端数据训练的安全保障。定制化训练意味着企业和开发者需要将自身的关键敏感数据上传到云端，多个“租户”任务同时进行，不同训练任务数据之间的安全隔离就变得至关重要了。否则影响的不仅仅是模型的精度与性能，更可能在迁移、训练、存储中面临数据泄露风险。

云平台一方面需要确保自身数据的合规性，保证算法不因为地方法规的数据政策限制而失效；同时也需要应对潜在的网络攻击，采取数加密等手段来实现完善安全的服务调用。

总体而言，云端训练让AI得以在软硬件双重通道上得到淬炼，进而以低门槛、可应用的方式真正适配千行万业的智能化需求。同时我们应该看到的是，云服务想要描绘出赋能无数产业、抵达生活方方面面的AI普惠蓝图，还需要跨越一座座高耸的山峰。而在这一条时代的跑道上，需要的不仅是宣传口径上的华丽辞藻，更是浸透了汗水与泪水的砥砺前行。