公司正在以前所未有的速度推进数字化转型。Gartner Research最近的一项调查发现, 49%的CIO报告说他们的企业已经改变了他们的商业模式,以扩大他们的数字化努力,或者正在这样做。
随着公司不断推进这些转型,他们将数据科学和机器学习融入各种业务功能中。这不是一件容易的事。典型的企业数据科学项目非常复杂,需要部署跨学科团队,其中包括汇集数据工程师,开发人员,数据科学家,主题专家和具有其他特殊技能和知识的个人。
而且,这种人才稀缺而且代价高昂。事实上,只有少数公司成功建立了经验丰富的数据科学实践。而且,虽然构建这个团队需要时间和资源,但许多公司面临着更大的问题:超过 85%的大数据项目都失败了。
许多因素导致了这些失败,包括人为因素,以及时间,技能和影响方面的挑战。在这篇eWEEK数据点文章中,专注于企业数据科学自动化的硅谷科技创业公司dotData的创始人兼首席执行官Ryohei Fujimaki博士讨论了导致这些失败的五个关键因素。
数据点1:缺乏执行数据科学项目的资源
数据科学是一种跨学科的方法,涉及数学家,统计学家,数据工程,软件工程师,以及重要的主题专家。根据项目的规模和范围,公司可能会部署大量数据工程师,解决方案架构师,领域专家,数据科学家(或多个),业务分析师以及可能的其他资源。许多公司没有和/或没有能力部署足够的资源,因为雇用这些人才变得越来越具有挑战性,而且公司通常还有许多数据科学项目要执行,所有这些项目都需要数月才能完成。
数据点2:长期周转时间和前期努力,无法看到潜在价值
尽管缺乏对最终结果及其业务价值的可见性,但数据科学项目面临的最大挑战之一是需要大量的前期工作。传统的数据科学过程需要数月才能完成,直到评估结果。特别是,将业务数据转换为机器学习就绪格式的数据和特征工程过程需要大量的迭代工作。与此方法相关的长周转时间和大量前期工作通常会导致数月投资后项目失败。因此,企业高管对于应用更多资源犹豫不决。
数据点3:技术和商业期望的错位
大多数数据科学项目旨在为业务团队提供重要的见解。但是,通常项目开始时业务和数据科学团队之间没有明确的关于项目期望和目标的一致性,导致数据科学团队主要关注模型准确性,而业务团队更关注诸如经济利益,业务见解或模型可解释性。最后,业务团队不接受数据科学团队的成果。
数据点第4号:缺乏对生产,运营的建筑考虑
许多数据科学项目的开始都没有考虑如何将已开发的管道部署到生产中。之所以出现这种情况,是因为业务流程通常由IT团队管理,而IT团队无法深入了解数据科学流程,数据科学团队专注于验证其假设,并且没有生产和解决方案的架构视图积分。因此,许多数据科学项目不是集成到管道中,而是最终作为一次性的概念验证练习,无法实现真正的业务影响或导致大量成本增加以使项目生产。
数据点第5点:对技能,特定个人经验的严重依赖
传统的数据科学在很大程度上依赖于有经验的个人的技能,经验和直觉。特别是,数据和特征工程过程现在主要基于领域专家和数据科学家的手动努力和直觉。尽管这些有才能的人才是宝贵的,但考虑到这些经验丰富的人才的招聘挑战,依赖这些人的做法对于企业公司来说是不可持续的。因此,公司需要寻求解决方案来帮助数据科学民主化,使更多具有不同技能水平的参与者能够有效地执行项目。
数据点第6号:端到端数据科学自动化是一种解决方案
通过人工智能(AI)和机器学习(ML)计划实现更高投资回报的压力促使更多企业领导者为其数据科学管道寻求创新解决方案,例如机器学习自动化。选择一个能够提供数据科学过程端到端自动化的正确解决方案,包括自动化数据和特征工程,是数据驱动型公司成功的关键。数据科学自动化使得更快地执行数据科学过程成为可能,通常在几天而不是几个月内,更加透明,并提供可以持续改进的最小可行管道。因此,公司可以快速扩展其AI / ML计划,以推动变革性业务变革。