疫情查询工具盘点,深度解析地址数据在查询中的应用原理
2020-03-04 14:57 0 分享


在疫情爆发后,全社会迅速搭建了国家、省、市、区/县、乡/镇/街道甚至村/社区的多级、多部门的疫情防控数据平台,其中基于数据应用的疫情查询更成了公众亟需。本文中,我们调查了主流的几家疫情查询工具,并结合数据应用技术,观察地址数据处理在此次疫情考验中的应用逻辑,同时解析地址数据的商业应用环境。


疫情查询快速上线


1 月 31 日,天津百货商场聚集性传染报道后,阿里云同程 、人民日报客户端联合腾讯看点、新华网客户端联合腾讯健康、百度、今日头条联合高德地图、本地宝、华矩科技等媒体及互联网企业纷纷利用自身技术优势参与社区防疫应用的开发,以帮助公众更好守护个人健康。基于此,我们梳理出了这些主流应用的的时间线:


从上图我们可以知道,疫情查询分为2类:基于地址级别的人工查询与基于移动端的地理位置自动获取查询。疫情查询工具为处于恐慌状态的公众提供了防护措施,但从技术角度来说,两类查询工具又有着怎样的原理呢?


查询方法原理介绍


1

基于移动端的地理位置自动获取查询原理

自动获取地址定位查询工具中(如人民日报、新华网、今日头条、百度、腾讯、高德地图推出的“周边疫情”查询工具),用户不用任何输入便可知道附近疫情感染小区,帮助广大公众及时知晓周围疫情信息,并有针对性地采取防控措施(前提是用户打开了移动设备的地理位置)。


图:部分工具页面图


手机定位

手机信号是通过移动基站交互的,基于手机获取移动基站信号的数据以及从 GPS 的两点的定位经纬度及两点间耗费的时间,获取当前位置范围,并结合当前定点疫情数据进行匹配,从而快速形成可视化的定点疫情数据。


卫星定位

基于手机上的定位芯片获取的卫星信号,当结合卫星当前的位置数据,通过数学公式换算,修正时间误差,快速测算出用户当前所在位置,平台收到数据后进行实时数据匹配,从而快速形成可视化的定点疫情数据。


运营商数据定位

运营商有着最广的覆盖人数数据位置信息,通过用户手机号授权判断,通过用户上网 IP 地址+地理信息联合判断出用户所在的城市位置,平台进行数据匹配后快速形成可视化的定点疫情数据。


2

基于地址级别人工查询原理

用户在使用人工查询工具时(如人民日报、本地宝、360浏览器、华矩定点疫情查询宝等查询工具),先对省、市、区作出选择,平台收到前端用户的查询请求后,后台通过地址数据库快速匹配关联,将详细街道、小区等信息转换为相应的经纬度,对不规范的输入和错误输入进行自动化、半自动的清洗修正,获取查询地址的定点疫情数据展示给用户。


目前人工查询工具中的后端地址数据库皆以政府公开数据及网络爬虫抓取为主,需要与后端数据库进行解析后才能匹配,但在此之前需要先进行数据的标准化,当然这个问题也不是个例,实际上清洗修正匹配技术这个问题现在让很多大企业挠头的问题。究其原因,很大部分在于我国行政区域划分因素,每个城市的行政区域划分不同,有时会出现县级市与区、县平级的情况,尤其是“市辖区“中存在的只有通名而无专名、地名特征不明显、重名问题突出、“单区”问题严重等存在的地址数据问题。此外,因政治历史等原因发生的更名,以及行政区域及功能区域的模糊划分都产生了较多的不规范、错误的地址,而这些数据都不能被直接使用,在解析匹配上也是增加了相关难度。


在此,我们针对某个平台的地址数据进行了抓取分析,经华矩地址数据清洗后,我们发现了以下问题:


该平台在公布 10 个城市(2 月 1 日---2 月 13 日前全国迁入人口最多的 10 大城市)所管辖的 89 个区、县、市的 1020 条确诊数据中,存在地址错误较多,其中占比最多的是地址数据使用的一致性问题,如下图所示:

通过上面的例子分析,我们可以看到,由于未进行数据的标准化处理,因而造成前后端数据在进行解析匹配时,极易出现行政区域功能区混淆使用及错误地址的信息,如后端显示出的地址是“江苏省苏州市高新区浒墅关经济开发区”,实际经过解析匹配后,正确位置应该是“江苏省苏州市虎丘区浒墅关经济开发区”,这就是行政区域功能区混淆使用的问题。


从技术角度来说,这属于原始数据收集不规范的问题,可通过数据清洗技术进行修正。但定点疫情数据不同于商业数据应用,关乎公众的健康生命安全,如输入了不准确的数据,造成后端数据的匹配错误,从而输出错误的疫情位置,导致政府及公众防护不力,则会威胁到公众健康生命安全,而不仅仅是财产安全。


因此,在人工查询工具中,对地址数据的处理及准确性显得尤为重要,不仅要对行政级别进行标准划分,同时需要根据地图经纬度标记精准定位用户的标准坐标,并与后台疫情数据库进行快速匹配、解析,以输出定点疫情位置。在此,我们再以华矩定点疫情查询宝为例,解析其查询及技术原理:


图:华矩定点疫情查询宝页面

图:华矩定点疫情查询宝的查询原理


与大多数手动疫情查询工具不同的是,华矩定点疫情查询宝依托在数据处理方面尤其是数据清洗匹配核心技术以及自主维护的中国邮编地址库方面的优势,对前后端地址数据进行快速清洗、匹配及验证,以确保数据的准确性。


然而由于地址不规范、错误等引起的数据问题,不仅在此次疫情数据处理中有所凸显,在企业的实际应用中也有类似的问题存在,下面我们便从商业应用的角度来解析一下当前地址数据应用现状。


地址不规范、错误在商业应用中的痛点


疫情爆发带来业务激增的电商及配送业,伴随着业务量而来的是海量的地址数据,以及呈指数倍增长的新数据,如何与大数据技术手段联合,确保公众的衣食配送有效抵达,同时从营销的角度出发,能否尽快达到更多的用户覆盖、有效获取高价值客户,成为商业关注重点。


在商业应用中,相信以下几种场景经常出现:


  1. “客户资料不断增加及更新,人工处理难以对数据库客户地址信息进行更新和完善,删去重复和修正过时的信息,日积月累,补全最新的地址数据、保质保量的维护数据库客户地址信息成为了企业最头疼的问题;


  2. 大量重复、不完整、缺失等地址数据问题无穷无尽,行政区管辖变化或者街道改名造成的“被动错误“,不断阻碍配送时效,导致营销成本损失;


  3. 数据量大,客户跟踪不及时,客户通信地址信息更换、失效、错误、重复时无法及时更新替换,大量的重复数据、错误数据、失效数据,无法形成精准的产品或用户画像,容易造成营销活动的高成本低效率;


  4. 缺乏对地址数据情况的全面了解,只能在营销活动过后分析出问题后再人工处理,费时费力且成效,且出错率不能本质上解决。


地址数据管理,自动化处理方案价值凸显


虽然目前众多电商及配送业都已经开始重视数据管理软件,也有相关的数据管理软件,但大多数都依赖于人工进行客户地址数据管理,而随着业务量的爆发,人工处理的弊端逐渐被放大,企业数据管理压力倍增。在如此内忧外患之下,如何提升商品的有效配送率,减少人力资源及时间成本的浪费,快速满足疫情下公众的衣食配送需求,则成了当下亟需考虑的问题。


值此关键时期,华矩科技数据团队快速响应,将在疫情期内面向政府单位及所有企事业单位免费开放“批量用户地址清洗”服务,以期帮助当下企业突破地址数据管理及整合清洗等难题攻坚克难,不需要高昂的成本,没有技术学习的高门槛,也无需下载或安装软件,只需站内上传待处理地址数据资料与需求,短时间内便可获取经清洗的地址数据及数据质量分析诊断报告用以指导后续数据管理,非技术人员也能快速上手并理解数据问题。



作为一款轻型SaaS数据处理工具,华矩数据诊所的应用优势在于:

  • 简单,快,不需要写代码,业务人员也可快速上手;

  • 内置华矩自身维护的全国地址邮编库及地址清洗匹配先进技术,可对不统一、缺漏、错误的地址及自定义地址与数据库地址进行精准匹配及标准化,形成规整有效的地址数据;

  • 操作简单,只需要站内上传待处理地址数据资料与需求,便可快速完成数据清洗优化。


图:华矩数据诊所用户地址数据清洗能力闭环


华矩数据诊所“批量用户地址清洗”免费使用指南 
●工具免费使用通道:http://www.mydata-clinic.com/index
● 选择“批量用户地址清洗“服务,输入数据处理订单信息并上传待处理数据,
● 等待系统诊断数据
● 查看/下载报告


Copyright 2003-2022HuaJu.All right reserved. 粤ICP备13073666号-2
市场部:
marketing@hjbis.com
客服咨询:
400-038-1778
华矩微信服务号