两个月前,华为对外发布计算战略,宣布打造“一云两翼双引擎”的计算产业布局。作为其中关键一翼,华为在11月19日的2019全球数据基础设施论坛上正式对外宣布启动数据基础设施战略。
战略中,除了推出数据虚拟化引擎“河图”外,华为表示还会开源内核,开发者可以基于开源代码进行定制,包括数据源扩展、SQL执行策略等,实现应用快速对接,提升开发效率。这意味着,为了加快在计算生态中的推进速度,华为将把数据箱子中“家底”全部贡献出来。
“刚开始的时候,不去真正做的话,我们永远不知道怎么做。”华为智能数据与存储领域总裁周跃峰在“2会后接受第一财经采访时表示,鲲鹏计算产业生态拥有鲲鹏和昇腾处理器基础、也有GaussDB数据库,还有一个很好的架构,但真正要和业界Top级的数据库综合性能全面媲美,还需要一些时间。但一边做才知道问题在哪里,应用场景需要一个一个的去攻破。
华为Cloud&AI产品与服务总裁侯金龙则为这个生态“重构”的过程设定了一个期限。他对记者表示,为了迎接智能时代,希望能够在一到两年内将“数据基础设施”中所涉及的技术全部准备好。
打破“烟囱式IT”
在强手林立的计算领域,华为正在撕开一个口子。
侯金龙表示,启动数据基础设施战略并开源数据虚拟化引擎HetuEngine(河图引擎),是希望让合作伙伴像使用“数据库”一样使用“大数据”,让数据治理、使用更简单。
“我们认为现有的IT架构,满足不了数据增长、存储资源以及应用需求的矛盾,所以我们提出了重构数据基础设施,希望打破以前的边界。”侯金龙对记者表示,数据应用的核心包括存储和分析。而烟囱式IT业务系统带来两个问题,一方面是存的时候会产生多个冗余副本,且数据无法流动,存储成本高,另一方面是分析的时候会导致大量数据搬迁,分析效率低。
在华为看来,设置“河图”的目的是为了屏蔽数据类型差异、地域差异、语法差异。侯金龙说,这一名字得于“大禹得河图后始见清明”,传说大禹得到河图以后掌握了复杂的山川地貌,顺利完成治水大业。华为也希望“河图”引擎让数据治理和使用更简单。
从功能上看,“河图”引擎通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,与数据中台有着不一样的发展路径。
侯金龙对记者表示,更多的数据中台工作都仅局限在应用层面。“但怎么帮助客户更好地存数据,是我们在考虑的事情”。侯金龙说,以前数据存储都是适用的不同系统,这样会出现高成本低效率,华为首先想要打破这堵墙,统一管理一份数据,减少相互之间的拷贝,另外还有数据库和存储的墙,以及大数据和存储的分配墙。
“我们希望这种基础设施的重构,让数据在全生命周期内更好用,让每个比特的成本最优低,信息的价值能够发挥得最大。”侯金龙对记者说。
周跃峰则对记者表示,华为从2001年底开始进入数据库领域,到今天为止接近20年。最早的时候是围绕公司的电信业务展开,而后通过和工商银行、招商银行联合创新,分别推出了企业级的分布式OLAP数据库、分布式OLTP数据库产品,目前是第三阶段,希望打造开放的数据库产业生态。
“进入实体清单后,我们有很深的感悟,虽然高斯数据库在国内领先,但依然也有很多基础的问题要解决。”周跃峰说。
生态仍是最大挑战
国产计算机生态的搭建迎来时间窗口。
过去五年,通用CPU的发展遇到了许多技术瓶颈,单核性能平均每年提升不足10%。想要进一步实现提高技术能力,在晶体管上打主意太难,需要寻找其他路径。
对于华为而言,也是如此。不断走高的服务器成本让华为十多年前就启动了对计算产业的投资,最具标志性的事件是海思半导体成立。侯金龙表示,从投资研发第一颗嵌入式处理芯片开始,华为就按照“量产一代、研发一代、规划一代”的节奏投资芯片,持续演进。目前投入超过2万名工程师,这才形成了以“鲲鹏+昇腾”为核心的基础芯片族。
而为了形成产业聚集效应,华为在上半年开始对外提供主板、SSD、网卡、RAID卡、Atlas模组和板卡,优先支持合作伙伴发展服务器和PC等计算产品。而在服务器和PC机领域,还优先支持合作伙伴发展自己的品牌。据悉,在鲲鹏主板上,华为还开放了主板接口规范和设备管理规范,提供整机参考设计指南。对于TaiShan服务器以及华为终端的PC机,则聚焦做高端和内部配套。
条件成熟时,华为或将停止销售TaiShan服务器。
“这有点像手机里面,华为为其他手机厂商提供操作系统和交钥匙解决方案,其他厂商自己做组装和品牌,为的就是做大这个产业。”一位业内人士对记者说。
这一趋势在其他云计算厂商中蔓延。阿里巴巴此前也发布了自研分布式关系数据库OceanBase。
IDC近日发布的《2019年上半年中国AI基础架构市场跟踪报告》显示,上半年中国GPU服务器市场规模8.3亿美元,同比增长53.7%。IDC预测,到2023年中国GPU服务器市场规模将达到44.5亿美元,未来5年整体市场年复合增长率为27.8%。对此,国海证券指出,在增量领域上,人工智能的快速发展带来了新兴领域的GPU需求,比如云平台、超级计算机等云端需求以及机器人、智能汽车等终端需求。
而为了孵化鲲鹏计算产业生态,周跃峰表示将设置百万级别的悬赏资金,专门用于吸引人才打造自动驾驶的数据全生命周期处理和极致性价比的数据存储。
“随着移动互联网的发展,这几年人才的流向都去了应用层面,在数据基础设施上面我们与国际厂商的差距依然很大,生态的发展仅仅靠华为一家公司不够,希望更多的研究学者加入进入这个领域。”周跃峰说。