任何一家想要在医疗领域掘金的人工智能企业,必须要有身为拓荒者心理准备。在这个行业,当然有希望收获满满,但也得先干许多苦活。
“有许多数据科学家、机器学习方面的专业人员,在进行机器学习模型开发的时候,花了一半的时间来做数据准备的工作”,亚马逊AWS副总裁Swami Sivasubramanian接受第一财经记者采访时说,这些苦活、累活需要借助专门的平台型工具帮忙完成,比如给数据打注释、给数据做清洗等工作。
机器学习是人工智能的核心组成部分,而数据常被认为是人工智能的“燃料”,它是这项技术用于构建模型和改进算法的根基。
数据准备的工作通常包括数据清洗、数据格式统一化、数据合并等方面。非标准化的数据,意味着在数据准备阶段就要耗费大量的时间,延缓了人工智能技术部署速度和使用效率。
Swami所说的现象在人工智能落地的各个场景普遍存在,而非某个行业的个例。他的这一观点也得到了国内人工智能企业界的响应。
“他说的还是轻了,我觉得百分之七十或百分之八十的时间用于了(数据准备)这个事情。人工智能的技术已经可用,但大部分时间耗费在了数据上了”,第四范式的副总裁、主任科学家涂威威接受第一财经记者专访说,尽管这一问题普遍存在,但在一些特定行业里问题尤其突出,医疗领域就是如此。
从2018年开始,上海三甲医院瑞金医院与第四范式开始战略合作,使用人工智能技术筛查糖尿病,以期实现病人的尽早发现、尽早治疗。瑞金医院主导这一合作的是中国工程院院士、瑞金医院副院长宁光院士。
“宁光院士还是非常有远见的,他十年前就开始做医院数据的标准化。但无奈在之前那个阶段,信息化水平确实一般,我们合作项目里涉及到几十万病人的数据,相对(其他医院)来说已经是非常好的数据,但我们依然花了很多的精力来做数据的处理”
这些医疗数据已经实现无纸化,均是电子化的病例,但在这些数据基础上直接部署人工智能仍然困难。举例来说,不同医生对于同一疾病的症状描述差异,都可能意味着需要花时间重新甄别和筛选。
更深层次的原因在于,人工智能出现之前,既往医疗数据对于医生和医院来说价值并不大。
“原来医院搞的信息化质量堪忧,因为在人工智能技术出现之前,数据存下来对医院不能直接产生作用。医生坐诊、看病就够了,这些医疗数据对他们来说没有特别重要的意义”,涂威威表示。
“金融行业就不必花这么多时间(用于数据清理),因为金融领域的数据质地非常好“,第四范式的技术已经布署在金融、零售、互联网、医疗等不同行业,涂威威比较下来发现,”相比金融或互联网行业,医疗信息化还处于刀耕火种阶段。
医疗信息化需要在与数据使用方的合作磨合中逐步改进。目前瑞金医院的数据质量有了极大的提高。涂威威 认为,“慢慢的,数据的问题会越来越少。”
人工智能在数据可用性方面遭遇的问题,中外并无差异。
“数据准备其实是要进行机器学习模型开发的必备的阶段”,Swami对第一财经记者表示,不管哪个市场,数据底层的问题都是一样的,都要从数据的清洗到ETL(Extract-Transform-Load,数据从来源端经过抽取、转换、加载至目的端的过程),然后做好了数据的准备之后,才能够开始机器学习模型的建构。
经过数据筛查和清洗这个“苦活”、“累活”的阶段,人工智能就开始发挥比较大的作用了。据涂威威介绍,在一些慢病的筛查阶段,比如发现早期糖尿病,人工智能的准确率已经不亚于经验老道的医生,而人工智能无疑效率更高。
除了在医疗领域落地,人工智能在药物研发方面也有了进步。在这次疫情期间,机构开始使用机器学习来进行新冠病毒治疗方案的研发。
总部在深圳的晶泰科技,同时在北京、波士顿设有研发实验室。晶泰科技搭建了云端智能药物研发平台,在这个平台上,晶泰科技使用亚马逊的AWS GPU搭建机器学习框架,实现大规模的模型训练及参数优化。
在新冠疫情爆发后,晶泰科技对近3000个已通过美国药监局(FDA)审核的上市药物、以及超过1万种中药成分分子,进行了老药新用的扫描,找到了183个可能对新冠病毒有潜在治疗效果的药物。作为合作方,Swami介绍称:在这之后,晶泰科技对药物的活性进行了排序,然后通过更加高精度的计算方法,最终锁定了38个药物。
“在全球,人们正在使用人工智能应对人类所面临的一些重大的挑战。”Swami评价说。
亚马逊内部有一种广泛的认知,即人工智能还处于“Day One(第一天)”的阶段。“打个比方,就是我们刚醒过来,需要喝杯咖啡的阶段。即使在这么早期的阶段,机器学习领域就已经出现了非常多的创新了。