2019年9月20日,中国大地保险信息科技部数据平台处处长助理张磊先生,应邀出席大数据分析技术及解决方案供应商 Kyligence 主办的首届金融科技沙龙,并为大家做了题为《中国大地保险的大数据应用架构演进之路》的演讲,分享了中国大地保险在大数据方面的实践与经验。

中国大地保险是全国性的财险公司,公司从2003年成立至今已有16年。2018年年底,中国大地保险西藏分公司的正式开业标志着公司保险业务覆盖全国,同年,中国大地保险保费规模达426亿,在业内位列第五。

中国大地保险四大数据应用场景

随着大数据时代的到来,各种类型的新数据源源不断出现,无论是出于业务驱动或商业竞争驱动,都需要对这些数据进行一些全新视角的分析与探索,助力企业实现“大数据为公司各业务场景赋能”的目标,这也是大数据时代下每个行业都正面临的问题和挑战。

中国大地保险的大数据应用场景一共有四部分:

●报表分析。自2017 年下半年起,中国大地保险借助轻量级报表/BI工具,开始了自助分析报表的推广之旅。目前,自助分析报表已经推广至全部36家分公司。

●数据挖掘。数据挖掘包含的内容比报表分析更为复杂,包括各种用户的行为探查、精准营销等。

●监管报送。监管报送对各家保险公司而言都是一项非常重要的工作,中国大地保险对此也非常重视,每年投入大量人力开展该项工作。

●风险管控。在基于大数据甄别和预判风险方面,中国大地保险近年来持续探索,如基于SNA(社交网络分析)的反欺诈系统,被纳入中国保险业信息化建设典型案例。

中国大地保险大数据技术演进历程

中国大地保险早在2014年之前就使用Oracle了,为提升Oracle的性能,在2014年引入华为一体机,并重新搭建数据仓库平台,不论是业务系统还是数仓、数据集市都建立在Oracle之上。

随着数据体量越来越大,基于Oracle的传统数据仓库越来越难以支撑业务发展,中国大地保险从2016年起开始探索Hadoop大数据平台的建设——最初搭建了包含5台服务器的集群,在经过实验后,将Oracle上的一些内容逐步转到Hadoop平台,同时把Impala作为SQL查询引擎。这样起步后,中国大地保险慢慢对Hadoop的应用范围越来越广,集群规模也日益扩大,但与此同时也暴露处Impala的一些问题。

2018年,在与众多厂商历时几个月地沟通、交流、考察、POC后,中国大地保险搭建了以Kyligence 产品构建应用层数据集的Hadoop MOLAP自助分析平台。

但中国大地保险的大数据发展之路并非一帆风顺,尤其是前两个阶段遇到过许多困难。

第一个阶段是基于华为一体机+Oracle的传统数仓阶段,该阶段的主要数据应用形式是多维分析和固定报表。同时,为业务用户提供了可以自助提取数据的环境和工具,让业务人员不必完全依赖技术人员就能获取到一些个性化清单类数据,这一做法大大提升了业务人员获取数据的灵活性,但也存在一些问题,如开放的工具是专业的报表工具ReportStudio,有较高的上手门槛。在这个阶段,有四个问题不得不提:

●Cube响应慢,70%的查询响应在分钟级别。

●并发性能差,中国大地保险使用Cognos Power Cube生成文件存储到磁盘上去,从本机磁盘到NAS共享存储、从磁盘阵列到闪存阵列都经历过,但随着数据量和用户数的增长,系统越来越难以支撑高并发。

●时效性不足,这一方面是由于Oracle的计算能力和扩展性不足,另一方面是由于过多过大的Cognos Power Cube的更新较慢,从而导致用户经常性等待数据,用户体验不佳。

●维护困难,中国大地保险的报表体量接近1000张,据了解,很多金融行业领军企业报表规模也在这个量级,报表维护的工作量巨大。

第二个阶段是以Impala为SQL引擎的Hadoop大数据平台。这个阶段很直观的问题是:

●Imapla的稳定性问题,最常见的是使用时前端应用突然报出查询错误。

●Imapla对内存和CPU资源的需求较大,以内存需求为例,小至几百GB、大至几个TB,导致硬件资源难以为继。

●业务使用受限问题,Kudu在字段数方面有较大限制,中国大地保险正在推广的自助分析,往往需要大量的维度、指标字段的支持,但Kudu + Imapla的方案确实存在较大的短板。

●维护困难,中国大地保险目前已开发了数百张宽表(含明细和汇总宽表)用以满足业务需求,每日更新、维护和迭代的工作量巨大。

以Kyligence构建应用层数据的大数据平台架构

上面提到的这些问题,在第三个阶段得到了比较好的解决。

第三个阶段是搭建以Kyligence构建应用层数据的大数据平台架构。中国大地保险将Kyligence应用在其现有的数据架构中,但整体的平台架构没有太大的调整,只把原先放在Hadoop上的集市层换成了Kyligence工具来实现,由于使用时间不长,因此目前只将访问量大、用户抱怨多的部分应用场景放上去,其他的包括底层的数据、存储、计算引擎、EDW模型均未做任何变化。

Kyligence的产品上线后,中国大地保险的大数据分析效率有了很大改善,极大地提升了用户体验,我们以一个实际应用场景为例来说明。

中国大地保险会对业务员进行一些考核、分析和数据挖掘,分析挖掘指对业务员做分群以确定高产能业务员的共性特征,例如学历、性别、工龄等等,据此,公司在招聘或新员工培训方面就有了更清晰的指导方向,也能让公司预估到何时是业务员高产期,可以说通过一系列的大数据分析和指导应用最终让业务员和公司同时获得良好发展。

为了达到这个目标,中国大地保险加工了一张30亿条记录的表,生成4TB大小的Cube,创建了40+个维度,包括产品、机构、渠道、人员的信息如年龄、性别、学历、入司时间等,30+个指标。

在使用Kyligence之前,基于现有的集群规模,用户操作的响应时间在分钟级,但基于Kyligence生成Cube之后,前端响应时间基本控制在10秒以内,不单单支持了考核,也很好地支持了数据分析、数据挖掘,真正实现了使用大数据指导业务部门提高产能、赋能业务。

中国大地保险的大数据成果如何?

判断一个工具是否具有价值最关键是看其好不好用,中国大地保险的该项目可以从IT人员视角和业务人员视角两个方面来说明其价值。

从业务人员的视角来看:

●首先,查询效率高且交互体验好,秒级响应与数分钟才能打开一张报表相比,业务人员的良好体验大大提升。

●其次,真正支持业务自主分析,IT只需将维度、指标加工好提供给业务人员,业务人员即可随心所欲分析数据,避免如之前业务部门有任何数据分析都需求必须通过IT实现,对IT的依赖很大,IT工作量也很大。

●第三,支持海量数据分析,无需再把历史数据与当前数据做拆分,不管是想看历史趋势或是同比数据,都可通过一个Cube来完成。

●第四,支持更细粒度分析,当并发支持能力和权限控制能力都提高后,平台可以支持更多人员察看和分析数据。

再从IT人员的角度,来看该项目带来的好处:

●首先,Kyligence的产品部署很快,解压即可运行,集群部署速度也比较快。

●其次,Kyligence提供了较好的配置界面,尤其是许多工具图形化的界面,方便用户使用与运维管理。

●第三,平台对资源的占用可以做很好的隔离, Imapla经常需要和其他应用抢资源,有时会因此拖垮整个集群,使用Kyligence后,Kyligence的产品最多占据平台八分之一的资源,这样可以确保平台不至于因用户量大量涌入而崩溃,当然,我们可以随着应用和用户的增加随时去调整资源配置。

●第四,与BI的对接非常方便,我们现在在Kyligence上至少对接了3个BI工具:Tableau、永洪BI、Cognos。

●第五,享受专业的技术服务,从2018年开始接触到POC及现在正式的合作,Kyligence的技术工程师基本随叫随到,支持非常到位。

中国大地保险未来的大数据发展规划

中国大地保险的大数据应用未来将朝以下三个方向迈进:

一是建立统一指标库。最近两年,中国大地保险已经尽可能的对统计指标进行统一加工,但由于技术原因,还是会存在一些指标结果不一致的情况。后续我们将对指标进行一轮梳理,然后借助Kyligence尽可能的生成一些通用的Cube解决指标不一致问题。

二是搭建数据服务平台。大家刚刚都提到数据中台,中国大地保险也在规划中。公司将打造全新的数据服务平台,在应用层数据上,计划仍然使用Kyligence产品构建,同时统一数据应用口径,从而努力打造一个让用户能够又快又好的获取到准确数据的平台。

三是进一步实现数据分析平民化,这是中国大地保险数据应用的重点工作,为了确保用户和自助分析平台交互效果,也须借助Kyligence产品。中国大地保险已经推广了一年多的自助化分析,现在需要做的是进一步推广以确保数据分析真正做到平民化,预计今年年底各个分公司都将更好的具备这方面的能力。