“抽丝剥茧”:4步带你轻松应对疫情大数据

韩娟
2020年 3月 23日

前言

此次的新型冠状病毒肺炎对我们所有人都带来了巨大影响,这种影响既因为病毒的高传染性威胁到了每个人的健康,也因为在大数据时代,各种纷繁复杂的疫情数据扑面而来(比如卫健委公布的诊断数据,各运营商、头部社交媒体等平台发布的位置、出行信息以及疫情分析数据等),也对广大民众解读数据、破解迷惑的数据分析能力提出了挑战。

Kyligence作为耕耘大数据领域多年的专业厂商,今天特别邀请了我们的资深数据分析专家,以此次疫情数据为例,为大家介绍一种简单易上手的分析方法,帮助大家日常更好的解读各种数据背后的真相。

这个我们称为“点-线-面-体”分析法,是一种数据分析工作者常用的数据分析方法,更是一种从简单到复杂、局部到全局的一体化数据运营思维方式。通过抽丝剥茧般在繁琐的分析过程中形成清晰分析主线的方法,能够帮助数据分析工作快速、有效、全面、精准的落地和执行,也可以广泛应用于各类生活和工作分析场景中。

点:明确分析中的最基础元素,找到切入点,确定关键指标

点的发现关键在于各时段/时点数据的齐整规范,找出分析的基础指标,形成统计规范。然后通过分析工具将各时段的基础指标进行展示或者可视化供后续查询分析。 该环节需要完成两个核心事项:数据的规整化和统计时间窗口的选择。数据规整化直接影响数据的质量和分析结果的精准性,而统计时间窗口的选择是决定关键衡量指标的标准。

以当前疫情公布的数据为例:

相比于2003年的SARS疫情,多年来的政府大数据建设使得本次疫情数据的规整化较好,数据来源统一为国家卫健委,数据规范、标准一致;在齐整完善性方面,除了卫健委发布的疑似、确诊、治愈及死亡人数和医疗资源信息之外,还陆续完善了基于地域、社区等位置维度,这大大简化了我们整理数据的工作量。

数据统计时间窗口的确定,包含数据发生日期、统计日期和时间计算方式(时点/时段)的确定。确定统计时间窗口是数据分析中很重要的概念,在日常的数据分析工作中,尤其是金融行业,几乎所有的数据分析都会跟时间窗口挂钩,明细的数据级别都会有数据发生日期、统计日期的区分,便于进行不同时间跨度的计算,从而满足监管和经营分析的统计需求。

而同样的分析指标,不同统计时间窗口的选择也会解读出完全不同的结论。以疫情期间关键指标“病死率”为例,病死率的统计定义=当前时点死亡人数/确诊人数,如1月31日的当天累计死亡人数为259、截止到1月31日的累计确诊人数为11319,按照公式计算出病死率为2.2%。但从公布信息中得知新冠状病毒从确诊到死亡平均周期为7-8天,因此1月31日的当天死亡人数259如果要对应1月23日时点的确诊人数776,就会得到另一个病死率指标33.4%。

每个数据单独来看都是精准和规整的,而且都有具体的计算逻辑,为何两种计算方法得到病死率指标2.2%和33.4%如此巨大的差异?病死率真的有33.4%这么恐怖吗?

数据和图片来源:腾讯新闻微信端-疫情实时追踪

首先,我们能看到导致差异的原因在于统计时间窗口不一致,前者(2.2%)选择了统计日期一致的数据进行计算,后者(33.4%)选择了发生日期一致的数据进行计算,充分体现了不同的时间窗口统计数据会产生不同的计算结果,而不同结果代表的意义也非常不同。

其次,我们来看33.4%的病死率,既然是以发生日期作为时间窗口,那这个指标如果要成立还有个巨大的前提,就是1月31日当天259个死亡都发生于1月23日确诊的776人,这样才能表示两个数字的发生日期一致,但这显然很容易被证实是不可能的。所以,大家不要慌,33.4%这个结果是不靠谱的。不过,这一点很容易被忽略,也经常被网络上某些居心叵测的人用来作为制造恐慌的小伎俩。了解了时间窗口选择这个关键点,我们就能很容易发现其中的逻辑错误。

所以以统计日期一致的数据作为计算指标(2.2%)才能代表当前水平下的名义病死率,更具有统计学上的意义,各大权威媒体也是用的这种计算方式

线:识别数据中的异常点,结合分析目标实现基础指标的关联,形成一条清晰的数据分析时间线

线是点的连接,线的分析就是实现各基础数据指标在时间序列上的关联,也就是看趋势的过程,是实现数据时间价值与串联识别价值的过程。这是很简单易懂的数据分析方法,相信大家都已经轻松掌握了。但在进行连点成线的分析时,怎么识别时间序列变化中的异常数据、突增的影响因素、现有因素的波动分析等,确定异常点的处理方式,才是最终是否能画出一根合理趋势线的关键。

自然界有着著名的“黑天鹅”事件(17世纪之前的欧洲人认为天鹅都是白色的,但随着在澳大利亚第一只黑天鹅的发现,这个不可动摇的观念崩溃了,“黑天鹅”事件即指在未来某时刻出现的不可预知的事件,如历史上出现的87年股灾、次贷危机等),而“黑天鹅”事件的出现会对数据趋势再来巨大的影响,造成趋势的剧烈波动。

回到此次疫情中,日本的“钻石号邮轮”事件,可以说就是日本疫情统计数据的黑天鹅,使原本符合趋势的统计数据出现剧烈波动,而也对后面的预测带来了巨大干扰。所以可以看到,在媒体按区域统计确认病例中,“钻石号邮轮”的数据都是被单独列出来的,也就是为了屏蔽“黑天鹅”事件对解读和预测日本疫情发展带来的数据干扰。

再如浙江省的疫情数据。从之前公布数据看来,截至3月1日已经连续多日新增确认病例为0,按照此趋势可以预测疫情基本不会反弹,逐步调低防控应急响应机制。但3月1日浙江省确认的首位意大利归国华侨,使得趋势数据出现新的波峰。虽然波峰过后近几日浙江省新增病例仍保持零水平,考虑到传播后确诊的滞后性,民众不得不再次严肃起来。这对于浙江疫情趋势数据来说,就是一次明显的黑天鹅事件带来的数据波动,而这个数据应该怎么解读,特别是后续如果不断出现这种输入性的新增数据,在趋势分析上应该怎么处理,那就要见仁见智了。

数据和图片来源:腾讯新闻微信端-疫情实时追踪

从上面可以看出,对“黑天鹅”事件在带来的数据波动应该怎么处理,数据分析过程中根据分析的目标不同处理方式也不同。比如新型冠状病毒肺炎这一“黑天鹅”事件导致了国内口罩市场销量数据的异常,对疫情过后正常情况下的口罩市场销量的预测分析,不具有参考性,在数据处理过程需要过滤掉这部分数据;相反,如要预测后续全球疫情发展趋势和国外后续口罩市场的需求,这一“黑天鹅”事件反映的国内口罩市场数据信息则具有非常重要的参考意义,需要放进来更加精准的展示实际情况,且可以作为下一次突发疫情的历史参考及防御依据。

面:在“线”分析的基础上将外部“分析场景”考虑进来,形成对目标更周详的分析

面的分析是在点、线分析整合的基础上进行扩展和类比,并且引入其他运营场景的特征考量。在这里,一个场景就代表一个面,比如把中国的疫情发展趋势分析线扩展到对海外疫情的分析预测,在进行从线到面的扩展和预测时,应从各方影响因素全面考量,使得数据分析过程具备角色化和场景化。

比如继国内疫情大面积爆发之后,伊朗、意大利、韩国、德国等各国呈现井喷之势。以意大利为例,截至3月8日,媒体端报送意大利新冠肺炎累计确诊病例为7375例,死亡人数已达366人,病死率高达4.96%,为全球最高。是否可以直接利用国内1到3月的现有数据趋势来预测意大利疫情的发展趋势呢?

答案显然是不能,国内新冠肺炎的发展趋势可以作为参考,但不同的国家防疫情况不同,对发展趋势的预测还需要根据相应的场景,把其他特征数据“点”考虑进来,比如:

  • 欧洲分级诊疗的医疗体系,确诊时间周期比国内长,可以预测实际的确诊病例会更多:比如2月6日曾到过武汉的意大利回国旅客确诊,2月21日第4例确诊,确诊日期将近15天左右,相比之下国内是10天之内,可以预测意大利确诊病例的发展趋势跟国内并不一致;
  • 欧洲政府体制不一样,民众的防御不积极,难以实现武汉封城这样全民抗疫的行为,会导致R0值高于国内水平,如:自由游行、不戴口罩、集体运动等行为时长和次数都是需要作为趋势预测的考虑因素。
  • 同样,由于人种差异,以及诊疗体系带来的确诊到死亡的周期不同,防疫程度差异,我们目前也无法基于国内现有的数据样本精准的预测海外疫情病死率的发展趋势。

从上面的举例可以看出,国内疫情的历史趋势对于海外疫情的发展预测是有参考意义的,但不能生搬硬套,考虑到国情、文化等不同情况,可能需要抱着更加悲观的态度对海外疫情未来发展趋势进行预估。而另一方面,作为较早爆发的意大利疫情,期恶化趋势对其他西方国家的疫情防控反而有着更为重要的价值参考。

体:从多面角度出发,跳出该分析场景,能够从“旁观者”的角度看待整个分析过程

体的分析是能够考虑脱离目标场景之外的,找到有可能影响最终分析结果的其他因素点,从多方面角度出发,形成完整的分析体,这也是在大数据分析中经常提到的相关性分析。

比如,对于前面提到的浙江突然出现的输入型病例数据,对于一个地区的趋势数据来说,只是造成了一个小波动。但是,随着国内疫情好转新增病例的减少,北京、上海等各地输入性病例的持续出现和增加,输入性病例已从小概率事件逐渐转变为我国疫情趋势和防疫调控的重要影响因子。我们不但应该引入输入性病例来重新调整疫情回归零线的预测走势,并且还需要跳出这些被动数据之外,找出更多的外部数据来为后续的主动防疫措施进行指导。

比如,小编惊奇的发现,全球疫情地域分布和海外华人地域分布有着一定的相关性。截至3月7日全球各国疫情确诊排名/地域分布图和2014年全球华裔分布图,疫情感染严重地域和华裔人口数量地域分布有惊人的相似处。

数据和图片来源:人民日报新媒体和百度图库端

因此,依托从“面”到“体”的数据分析思维方式,我们应该充分借鉴以上示例的相关信息,在对输入性病例进行防控时,除了对当前已上榜的国家人员做好入境防疫措施之外,同时对没有上榜但华裔分布较多的国家的入境人员,也需要提前做好疫情数据的收集和入境防御,已充分做到未雨绸缪。

结语

综上,本文借助大家目前最关心的疫情数据(疫情分析不是本文重点,以上所有示例只是用来举例),对 “点-线-面-体”的数据分析法中进行了解读,“点”解决了基础分析指标的定义和统计方式;“线”根据分析目标处理突发的异动数据,实现时间序列的连续分析;“面”是依托于场景目标,带入场景特征因素,是分析结果更加全面;“体”是综合考虑大数据下场景生态圈的相关影响分析,整体形成了从数据-场景-外围生态的完整分析闭环,快速达到分析初衷。这种分析方法可利用在复杂多变的各种场景中,帮助大家理出清晰的主线,并能铺盖全局,达到事半功倍的目的。