华矩科技:数据质量驱动业务创新
2019-09-09 16:53 0 分享

本文根据谭海华先生在【DQMIS 2019第三届数据质量管理国际峰会】现场演讲内容整理而成。

图1.1 华矩科技创始人及董事长CEO-谭海华


演讲嘉宾介绍 - 谭海华
  • 曾任职IBM,埃森哲咨询,微软,致力企业管理咨询,信息化建设,大数据治理及相关行业信息化解决方案研究和实施
  • 华矩科技、华矩咨询创始人及董事长CEO
  • 中国管理科学研究院创新所大数据共享技术委员会主任及学术委员
  • 数据质量国际峰会 DQMIS的发起人及执行负责人
  • 数据共享联盟-数享汇创始人
  • 复旦大学保险科技人才专家委员会委员、国家发改委培训中心特聘大数据专家讲师。
  • 中国保信《保险大数据》、《中国保险报》、中保⽹特约撰稿人,中保信特聘技术专家
  • DAMA中国数据标准化与治理专家库首批成员
  • 广州市工业和信息化委员会大数据及人工智能专家团首批入库专家成员

演讲目录
  • 前言
  • 数据质量的认知发展
  • 数据剖析、数据质量与业务创新
  • 市场分析及案例分享
  • 预测与展望

谭海华:非常高兴,今天又能够跟很多老朋友、新朋友在这里相聚。可以说每年的这个时候,也是华矩科技向我们的一些老朋友,包括新朋友做汇报的时候。

我记得在第一年的时候,我跟大家分享的主题是“数据质量管理发展路径探究”,我不知道现场还有没有朋友参加过我们第一届,但包括王老师、张老师,我们很多老朋友都在。去年第二届的时候我汇报的是 “大数据时代的数据治理挑战及应对策略”,今天我跟各位汇报的是“数据质量驱动业务创新”。我看了一下今天下午很多嘉宾的演讲,我自己也稍微统计了一下。做数据的,大家可以看到有很多驱动都是由数据质量驱动的,包括怎么驱动我们数据治理、怎么驱动我们行业变革。我觉得我们尝试在把握中国有关数据治理,包括数据质量的脉搏方面,同时需要探究我们现在走到什么地步了。所以今天我想跟各位汇报的整个议题,会是这样子的。

首先我先讲讲数据质量认知的发展,这好像回归到一个很简单的问题,今天就非常有幸,我们请到了樊院士、刘院长、魏所长等等,其中有很多的思路我一看是一脉相承的。
图1.2

回到数据质量的问题,包括今天上午樊院士所提到的,在这里我先跟各位讲一下这个照片,这个照片是2018年,在全球EDW峰会上一位嘉宾的演讲截图,演讲人叫Ross,在业界可以叫做业务规则之父,他在那次峰会上的演讲题目是The Business View if Data&Data Quality,正好是讲到这个问题。

他讲的时候提到一句话:归根到底数据质量并不是讲你数据的问题,讲的是你行业词汇语义的问题,包括业务规则问题。我们在座的好多朋友,包括我们跟客户也有交流过,大家会发现,已经有很多企业在探讨元数据的管理,其中就包括商业词汇语义的问题。

究竟数据质量我们讲的是什么范畴?我们也会谈业务规则,这其实是我们经常会碰到也是经常会问的问题。我记得在6年前去跟我的客户谈数据质量的时候,他们也是一家在国内的大型外企公司。他问我,你们是做什么的?我说我是做数据质量的,他说你懂我们这个行业吗?你不懂我这个行业怎么来跟我谈数据质量呢?那是6年前,这里面有一个误区,就是在信息语义里面,业务人员在讲业务规则,数据人员在讲数据,但是这两者之间怎么打通?这个是很多时候我们在谈数据怎么能够跟业务直接发生关系,所遇到的问题,以及它的影响在哪里?


图1.3

我们看一下这个例子,是一个非常典型的例子,业务规则是这么写的:如果一个客户下了订单,他必须安排一个代理人跟进。这个例子是说在保险公司里,我相信你要使客户下订单,你必须派一个代理人去跟进他,这个是在我们整个业务层面上的一个业务规则。

但是我们从数据层面上把它分解了一下,如果在一个客户记录里面,所有的订单记录,假设你在客户记录表里面,你发现这个客人已经下了订单,那对应的这个客户的记录里面,应该就有一个用于标识是否已经被派遣了代理人的字段,以及必须要填上一个标志,这句话做IT的人比较好了解。

在这里面我们看到这个数据质量主要体现在哪里?其实这里面隐藏了在对比时候的一些问题。

比如说在客户数据治理里面,我们看到很多重复记录,因为重复记录你根本没有办法知道你现在所讲的这个究竟是不是你当前所遇到的问题,因为它产生的效果是一样的,但你找不到已经被派遣的代理人,这是一个问题。

第二个问题是系统认可,虽然大家看到已经分解的很细了,但是系统认可还是有产生歧义的可能性,有些是有配置表,有些是有标识。

第三个就是说你要有一个标识是放在这个字段里,那这里面就有标识一致性的问题。

图1.4

除了这几个问题,我们讲数据质量还会讲到六性的问题了,六性我不重复了,大家非常清楚了。


图1.5

我们现在要谈另外一个,这个叫做信息语义的属性。刚刚看到的那个表,它讲述了怎么样从数据和业务规则之间找到连通的地方,并进行我们数据的一些行为。这里我只讲一个,因为时间很紧张,没办法展开。我们就讲这个可信赖,可信赖里面,大家可以看到这个词,它是要遵从我们这个企业或者这个系统所有的业务规则,那我们这个数据究竟是不是可信任的?它肯定有相关的业务规则必须要遵从,那怎么样遵从?这里面怎么去进行约束?这是我们讲的可信赖。

数据规则的问题。刚刚我们从数据,包括业务、业务规则展开了讲述,但我们看到谈数据的时候会有三个层级的规则:


图1.6

字段级的,各位如果学计算机的,这个好理解。
实体,就是表级的。
企业的特定规则。

我们可以看看我们探查的范围在哪里?包括我们数据层面上的意义、信息层面上的意义、规则层面上的意义,这是我们做探查所涉猎的范围。

这个探查有些导向性,做数据探查的话,我们怎么看元数据?这里面是一个有关探查的一个深度问题,包括我们讲数据内容,包括数据结构、数据路径分析,这里面我相信各位在碰到很多问题就是我怎么分层理解的这些问题,这个就叫探查。


图1.7

后面我讲一些具体的例子。我们从数据的层面上来看,比如相关性与有效性,在理论上我们看相关性是怎么看的?但是实际上在我们整个元数据管理,右边是元数据相应的对应点,包括红圈是业务规则忠诚度,这都是我们在做数据检测及探查的时候,它能够在整个数据库里面进行比较分析,然后对应讲到的这些属性。当然这里面可能相对会抽象一点,右边是我们讲的字段元数据的管理。


图1.8

我们再看一个,这个是我们讲的一些业务规则相关层面的,我们通过业务规则层面去理解这种唯一性、精准性、可信赖性究竟在哪里体现?这是业务规则跟我们数据质量的问题。

回到这里,大家会看到一个完整的过程,这个过程就是说,我们从字段级、表级到业务规则是怎么把它串联在一起?串联在一起之后怎么形成对数据的完整分析?这是我们讲的数据诊断的一个情况。

回到这个数据质量跟业务的问题,我想今天讲的是数据质量怎么驱动业务创新。我记得刚刚我们讲到数据质量可能只是在解决一些问题,找到一些问题,但现在呢,它已经是个驱动力了,但究竟这个驱动力体现在哪里?它不仅仅是说,我在找茬、找bug,而是它已经在影响整个业务模式。这里面我想这个首先是打破常规,创新就是打破常规,什么叫常规?我们很多时候只看到一个局部,根本不知道常规在哪里?就算知道常规,还要找到怎么样去打破它的方向,这个就是我接下来跟各位汇报的一个情况。

这个认知的发展有三步,数据方面呢,我们会希望在我们解决数据问题时,在流程改进上会有一些变革性的发现。还有在词汇语义上面我们会产生业务模型的创新,还有包括商业模型、业务规则的创新。这里我跟各位汇报一下华矩科技在过去三年我们所接触的一些项目、一些例子。


图1.9

这里面有几个例子,这张图两个问题,我们已经列了数据类型,可能会导致不同的数据质量问题。这个是从左往右看,就是我看到比如说像缺失数据的所有权跟责任,缺失数据及业务流程集成,它既有可能导致一致性的问题,还有可能由于数据的一致性问题可能导致的其他问题。假如说我们发现这些数据一致性问题的时候,往往在我们企业的管理上,会产生比如说数据定义和标准不同的问题,我们无效的数据分类和关系分类的问题。当然我们在管理上的缺失自然会产生数据上的问题,尤其是必然会导致的一些数据不存在的问题。这是一个例子。


图1.10

还有一个例子,大家会看到在数据探查里面所对应的整个业务的环节,这是一个非常典型的SAP的一个例子,大家看第二步这个探查是必不可少了,如果你没有做这个探查,你是很难往下走下去的。另外一个同样的例子,我拿的是工业界SAP的例子,这里面数据探查已经起到了非常关键的作用。


图1.11

这个是上次我们去魏所那里开会提过的华矩科技在数据质量评测方面的一些研究。其实这个数据质量的评测研究,背后是离不开这个探查的,因为你不知道它最后的结果是什么。虽然我们是有条件、有指标、有KPI,但是你必须要去确认你的事实是不是跟你KPI相符?所以这里面的话,这是一个有关数据质量本身考核评判的一个算法、一个模型。这个模型是通过不同的业务规则的忠诚度来去反映企业数据质量的成熟度,包括它的水平。这个数据质量的评测跟接下来我们有关这个数据质量的成熟度模型,包括现在在谈的数据资产的交易、数据资产的定价,其实都是密切相关的,这个也是数据探查在这些领域的应用。


图1.12

最后,我就跟各位汇报一下华矩科技在过去三年我们做过的一些项目的一个分类汇总。这些都是真实的项目,这些项目我们抽样挑了31个客户,这里面我们整体的情况是这样子的。所有行业分布里,金融这个板块还是我们接触最多的,这个数据说明整个行业的关注度在那里。但是基本上我们看到的像金融、高科技、互联网、制造业、能源等,因为我们现在跟能源的合作还是比较多,所以这些就稍微多一点。

另外一个数字,我跟这些企业交流,看到的这些企业所反映出来的几个问题。第一个问题是说具体业务遇到了问题,尝试寻找解决方案,但是不知道怎么处理。我发现这个在我们接触的客户里面占了很大的比例,大家知道碰到问题了,要去解决,但是不知道从哪里去处理,希望从数据上去找到答案。这个是目前我们市场分析出来的。


图1.13

第二个是公司的整体规划需要着手做数据管理,这个一般出现在大型的企业里面,已经开始去做数据治理这个规划了,并不是说我现在遇到了没办法躲避的问题需要去做,而这只是它数字化转型的一部分,这是我们碰到的。

第三个情况是作为公司数据治理的一环,需要采购一些数据工具,这个是我们碰到的有一些为采购工具而采购工具的,但这个工具未来怎样去使用不清楚。
第四个问题是知道公司的数据有问题,但无从下手,不知道哪里迈开第一步。

第五个问题,初步了解,现在是有做数据转型的需要。

最后一种情况,非常清楚自己的问题,而且清楚应该怎么去解决,这样去找到一些专家,包括我们这些技术供应商去做。

这是我们的一个背景。


图1.14

这个数据是我们在做有关数据质量或者数据探查有关的类别。在这个探查的类别,我们判断有几类,一类是数据基本属性的探查,这个是占了我们最大的一个比例,大部分企业在讨论这个问题,也就是对企业整个数据健康度的一个检测。

第二个是做数据库的查重与匹配,这个是很有针对性的问题,包括我们订单的统计不准确、客户统计不准确、销售额统计不准确,这些问题都是困扰着企业以及是他们最直接抛出来的问题。

第三个是数据关联分析。

第四个是用户画像,包括业务规则探查,数据诊断等等。

最后一个,是很特别的,也我们经历的一个案子,用数据探查反向检测他们数据库设计的合理性,包括它的健壮性。用它的测试数据来反向验证数据库是否合理,存在的漏洞在哪里。

以上是我们客户的一些情况。接下来我具体跟大家分享四个案例。


图1.15

第一个是企业客服数据的管理,这个场景就是我前面提到的客户诉求之一,就是我想了解我的企业存在什么问题,未来数字化转型做些什么准备。但是我们帮他们做的时候,发现他们有一个客户连续五年在投诉,20%的人贡献了80%的投诉率,系统的BUG导致了这个客户画像的丢失。他通过诊断发现了这些问题,发现他有些数据为什么不准确,原来是因为部分数据收集流程上出现了一些问题,所以他们需要做的是对流程进行优化。他们会成立专题小组,怎么解决这20%投诉的问题,来提升它80%的满意度。最后这个结果也推动了他们客户画像项目的立项。


图1.16

第二个案例,我刚刚提到的软件系统数据库设计的健壮性。这个案例是这样子的,客户这个系统基本上要准备上线,也是一个大型金融系统,上线过程我们拿它的样本数据对这些系统进行一些检查,当然了这个检查只是它局部的系统,而这些样本数据可以讲是一个准生产数据了。基本上我们重点验证数据的准确性,包括检查可能存在的一些数据问题,我们在做测试的时候,有两类方法,一类方法我们是按脚本走,基本上是因因而果;但是我们跟客户交流时,他要求我们从数据的角度进行验证,不管你知不知道我的业务逻辑,但是我希望看到数据能看到的样子。

结果我们主要做了几个事情,一个叫数据结构的一致性诊断,当然这是针对关系型数据库。

还有通过测试数据关联分析来验证系统设计的一致性及合理性。严重的是,竟存在金额很敏感的字段里面小数点位置不一样的现象,这样最后统计的时候肯定出问题。

第三个是标识的规则问题,这个主要的成果是什么呢?这个发现其实有一个很特别的场景,因为企业基本上它所有的IT都是外包的,所以也可能我们在检测5个系统的时候,它是给了5家公司进行开发,这里面有关这些外包公司的管理就变成他们非常关注的问题,因为他们系统内部对数据格式的严谨程度跟不上。另外一个,就是要统一多部门商业词汇的一致性。

最后,他们成立了一个专题小组,扩大这个数据一致性的检查。这是我们的一个报告,这个报告大家可以很明显的看得到,投保系统、核保系统个险、佣金,这个只是代表它结构上不一致,有些用A结构,有些用B结构,所以我们随机挑了几个有代表性的字段,我们发现它结构上都不一致。不一致导致的问题就是它的数据最后肯定是不可能准确的,但好在他们在上线前做了这个工作,以及最后他们扩大到企业全系统进行数据的检验。

这是第二个案例。


图1.17

第三个案例就是有关SAP的,这个在我们工业界也是非常多的一个情况,大家可能上百度可以查一下,SAP物料清单表一码多物的问题。SAP早期设计的原理都是交易管理,我们非常多的系统都是交易管理,这里面设计天然有一个欠缺,但它已经突破传统不仅只是用在制造业,虽然设计基础已经是跟不上了,而现在它要用在客服里,用在设计里,还要用在他的产线部门,它这套机制也做到了,但就没有办法把四套体系的编码合在一起。

这个问题为什么会找到我们?其实有几个非常关键的,一个是他们目前的手工效率筛查问题是非常痛苦的,基本上没有办法将大量的人员投入到这里,另外一个,它的速度,主要是速度跟不上了,跟不上整个业务的发展。在这里面主要数据探查的方向在哪里呢?一个是数据剖析,包括数据质量的诊断。第二个对业务场景进行一些算法的设计,第三个将BOM表进行360度的数据可视化。形成的问题第一个是怎么改善工作流程,第二个是问题精准定位,这个是直接推导到企业怎么通过探查优化来改善我们的业务流程。


图1.18

最后一个案例,这个案例也是一个非常典型的案例,我相信在很多制造业里面,甚至是我们很多其他的商业行为里面都有的。就是我们的总部产品库存数据跟产销数据永远不一致,这个因为有人为的因素,因为分销商的数据有时候并不想全报。客户的问题就是说,比如我在全国30个经销商拿到的数据跟总数据是不一致的,每个月都要去核查。这个问题假如靠人工勉强能够处理,但是现在对于企业来讲,最难以忍受的是它的窗口时间,大家都明白这个窗口时间,尤其金融行业,你网上处理就只有7个小时,你7个小时必须把所有问题处理完了。这些问题对业务来讲是不能忍受的事情,因为窗口时间就7个小时,有限人工的效率远远不能满足。

我们主要在做什么呢?做数据的血缘分析,来分析数据变异在哪里?什么时候发生这些变异?通过数据关联,包括分析验证它的一些业务,它的来源复杂度,这些人为进行数据处理耗时是相当长的。我们后续的方法就是梳理数据的血缘关系,监控这个血缘关系,来确保跟踪这个数据上的变异。另外一个工作也是通过探查来提升它的业务管理。

我想我今天的汇报因为时间的关系就先到这,非常谢谢各位,也非常期待明年第四届会议。
Copyright 2003-2022HuaJu.All right reserved. 粤ICP备13073666号-2
市场部:
marketing@hjbis.com
客服咨询:
400-038-1778
华矩微信服务号