微软在AzureCon之前宣布了围绕其基于云的大数据处理功能的一些重大新进展,AzureCon是一项免费的虚拟活动,于9月29日开始。
其中之一是Azure Data Lake Store,它是Azure Data Lake的扩展,Azure Data Lake是公司用于大数据工作负载的基于云的存储库,于4月的Build大会上首次宣布。Microsoft Data Platform公司副总裁TK Rengarajan表示,Azure Data Lake Store旨在简化企业的大数据处理和分析。
Rengarajan在9月28日的公告中说:“ Data Lake Store提供了一个单一的存储库,您可以在其中轻松捕获任何大小,类型和速度的数据,而不必强制应用程序随数据规模的变化而变化。” “在商店中,可以安全地共享数据以进行协作,并且可以从HDFS [Hadoop分布式文件系统]应用程序和工具访问数据以进行处理和分析。”
HDFS是流行的Hadoop大数据处理平台的可扩展和分布式存储组件。微软计划在今年晚些时候提供Azure Data Lake作为预览。
Rengarajan表示,Azure Data Lake Store帮助为企业物联网(IoT)计划奠定了基础。“例如,可以从物联网解决方案的传感器和设备或在线购物网站将数据实时摄取到商店中,而不受帐户或文件大小的固定限制的限制,这与目前市场上的产品不同。”
此外,Azure Data Lake套件正在获得基于Apache YARN的名为Azure Data Lake Analytics的分析服务。YARN也称为MapReduce 2.0,是仅次于Apache Spark的第二受欢迎的数据处理引擎。
Rengarajan说:“这项服务将于今年晚些时候在预览版中提供,其中包括U-SQL,该语言将SQL的好处与用户代码的表达能力统一在一起。” “ U-SQL的可扩展分布式查询功能使您能够有效地分析存储中以及Azure,Azure SQL数据库和Azure SQL数据仓库中的所有SQL Server中的数据。”
他接着解释说,U-SQL是一种新的查询语言,融合了“ SQL的易用性和C#的强大表达能力”。“ U-SQL语言建立在为Microsoft内部大数据系统提供支持的同一分布式运行时上。”
最终,微软宣布了HDInsight在Linux上的全面上市。HDInsight支持许多开源分析引擎,包括HBase,Hadoop,Spark和Storm。Rengarajan说:“我们与Hortonworks和Canonical紧密合作,在Ubuntu操作系统上提供HDP(Hortonworks数据平台)发行版,该发行版为Data Lake中的Linux版本的HDInsight提供支持。”
他补充说:“这是微软迎接客户的又一个战略步骤,使您更容易在云中运行Hadoop工作负载。” 根据Rengarajan的说法,托管群集产品必须遵守99.9%的正常运行时间服务水平协议(SLA)。