【观点】从IBM沃森的失败谈数据质量在医疗人工智能的重要性
2019-01-29 17:34 0 分享
【摘要】如果使用电子化病案为人工智能应用提供数据支持的话,那么了解其中数据的质量以及如何使用人工智能算法来适应数据质量问题将变得很重要。本文通过分析IBM沃森失败的案例提出如何有效处理AI中的大数据质量与算法训练问题的解决思路,分享数据治理技术观点与应用。
【关键词】人工智能,数据质量,数据治理

前言
众所周知,沃森是当下诸多人工智能技术和应用的典型代表,其重点领域是医疗(主攻癌症的预测与治疗)。在电子病历普及带来大数据的背景下,Watson健康部门和多家机构合作,期望Watson通过整合和分析医疗数据,为医生提供治疗建议等。由于主要定位在癌症的预测与治疗这个人类目前最难攻克的领域,所以沃森自面世以来便颇为引人关注。但七年过去了,沃森健康从火爆登场到饱受质疑,甚至在2018年年初,作为IBM沃森的最大客户,MD安德森癌症中心被曝出,由于投入6200万美元仍未达成目标,终止了与IBM沃森的合作。此次合作的破裂,甚至被认为这是人工智能在医疗领域的倒退。

人工智能的工作原理
人工智能系统需要基于数据调整参数,以达到最佳拟合效果,由于数据的复杂性和相对不可用性,人工智能的效用往往存在不确定性。同样对IBM沃森而言,当Watson获得足够多的‘条理清楚’的数据时,能通过不断学习给出可能有用的答案。但在实际操作中,一方面Watson使用的训练数据并不丰富,例如,训练肺癌治疗方案的数据仅有635例,其它疾病更是少得可怜。另一方面,由于患者就医记录没有全部联网,医生经验录入成为沃森分析最核心的来源,这意味着当它扫描大量文件时,必然要识别复杂的信息并从中抽取关键内容。例如,患者的病历可能包含医生的大量注释,这些注释又是由简写和短语构成的,机器想完全理解它们并非易事。

总结IBM沃森失败的原因,其算法算力毋庸置疑,而在数据处理上,除了收集的样本数据量不足,最大的问题便是在数据质量不高,几十万份病例下来,能够用的可能才几万份病例。这一切导致了沃森不能提供足够的敏感性、特异性和精准性,而这都是临床决策所必需的。那么,如何保障数据质量,使其真正服务于人工智能,推动智慧医疗呢? 

如何有效处理AI中的大数据质量与算法训练问题

(1)了解数据的质量
对数据的了解包括对其业务信息、设计信息的理解,有很多维度需要考虑,这个环节很重要却往往容易被忽略。通常情况下,企业需要结合业务规则去做数据的剖析,假如拥有非常完整的数据质量指标体系及评估体系,将有助于获得一个非常清晰的360度数据画像,这对了解数据至关重要。数据的优劣有多个关键的评估维度,这些评估维度都将通过业务规则,包括ABR(属性业务股则),EBR(实体业务规则)以及SBR(企业特定的业务规则),这三种业务规则基于不同权重去做的合规打分,形成量化的评估指标,最终得出数据质量的总评分。我们需要有这样一个量化机制来告诉企业这些数据质量好还是不好,有多好,具体表现在哪些方面不好,而权重则取决于这些不好的数据质量因素对企业影响有多大。
数据质量评估维度

数据质量评分KPI

(2)调动多种数据治理技术管理数据质量
发现了数据问题,接下来的关键动作就是落实全局的数据治理。而数据治理并不是单一的系统操作,往往涵盖元数据管理、数据质量、数据剖析等多种技术的相互协作,共同作用于企业数据治理水平的提升。以一个具体场景为例,在医院,保险公司和医院的理赔数据永远对不上,因为在计算方法上,医院方以8点钟入院就算一天理赔,但保险公司是按照9点钟以后入院才算一天,每个部门都说自己的数据是最对的,但这个数据却永远对不上。从这个天数一致性问题反推,通常需要用到数据治理的范围里面的相关技术,比如说用元数据管理精准定义数据,确保数据内容的一致性;还要用到数据剖析来检查多源数据的一致性,及时发现那些违规的、不符合规则定义的数据;而第三层技术,包括规则库的引擎以及行业规则库的应用,通常是确保业务理解的一致性,比如说病患在医院里面做出院数据检查的时候,如果医院的规则库里面已经定好了R点入院时间是一天,怎么调用这些规则并把它激活?这就要求医院在数据发现层面就能够联动业务规则来找到标准并筛查不合规质量不高的数据。综上所述,可以看到数据质量并不是单一的概念,它需要多层次技术共同作用去实现的。
华矩数据治理平台

(3)基于业务规则优化的数据治理发展体系
通常情况下,每一家企业开始都有专家协助建立用户规则,但是这个规则足以让你的数据良性走下去吗?我们还需要一个自动化的学习技术,这是一个循环过程。也就是说,我们在这一套体系里面怎么通过scan去发现data lake的数据问题,并发掘新的规则或者是调整规则,不断丰满我们的规则库,通过完善的规则库让这个循环变成良性的发展体系,这是一个数据治理逐步发展的过程。
基于业务规则优化的数据治理发展体系

(4)数据治理与风控AI模型的结合
回到人工智能,以下是基于最典型的风控模型建立的一个数据治理体系。风控肯定离不开校验的问题,风控管理的人工智能算法就是通过三层循环来实现自我学习的过程,而这个过程数据的质量至关重要,决定了整个模型的效果,如果没有优质的数据,人工智能也就只能形同虚设,无法真正发挥其效用。
基于数据治理的人工智能风控模型

结语
本文通过分析IBM沃森的失败原因为人工智能市场敲响警钟:如果使用电子化病案为人工智能应用提供数据支持的话,那么了解其中数据的质量以及如何使用人工智能算法来适应数据质量问题将变得很重要。医疗领域,历经长期信息系统标准不统一,数据质量参差不齐,临床术语开发无法跟进,健康数据碎片化、非结构化等因素困扰,越过数据质量谈人工智能确实有点天方夜谭,扎实做好数据治理基本功,保障数据质量才是医疗人工智能的唯一出路。华矩科技结合当前人工智能的发展瓶颈以及医疗大数据的应用场景,提出如何有效处理AI中的大数据质量与算法训练问题的解决思路,分享数据治理技术观点与应用。作为国内领先的数据治理技术与服务提供商,华矩数据治理包括元数据管理、数据质量剖析诊断、数据优化补全、业务规则库创建、数据质量持续监管、数据集成、数据存储、数据可视化分析等专业有效的数据处理服务与产品技术方案,服务行业涵盖电力业、金融业、医疗业、制造业等,已帮助多数500强企业全方位处理数据问题。
Copyright 2003-2022HuaJu.All right reserved. 粤ICP备13073666号-2
市场部:
marketing@hjbis.com
客服咨询:
400-038-1778
华矩微信服务号