未来:Augmented Analytics

李扬
2019年 6月 11日

关于作者

李扬,Kyligence 联合创始人兼 CTO,大数据分析领域 10 多年实战经验。Apache Kylin 联合创建者及项目管理委员会成员 (PMC) , 主创团队架构师和技术负责人。专注于大数据分析,并行计算,数据索引,关系数学,近似算法,压缩算法等前沿技术。曾任 eBay 全球分析基础架构部大数据资深架构师;IBM InfoSphere BigInsights 的技术负责人,负责 Hadoop 开源产品架构。在过去 15 年的工作经历中,见证并直接参与了 OLAP 技术的发展 。

Gartner 在今年 2 月的数据分析峰会上提出了十项数据发展的趋势,其中“增强分析 Augmented Analytics ”被列在第一条。而在整个数据分析领域,OLAP (Online Analytical Processing) 作为一项重要技术,一直是数据仓库、大数据分析的核心技术和基础。Augmented Analytics 将给 OLAP 相关的数据分析领域带来哪些变化? 这些新技术对于企业来意味着什么? 希望这篇文章可以为正在从事大数据分析的企业提供一些参考。

首先简单回顾 OLAP 的发展历史。OLAP 这个词最早是关系数据库之父E.F. Codd在1993年提出的 ,90年代在数据分析领域是一门炽手可热的主流技术。而在5年前,传统OLAP技术的弊端就已经逐渐显现。以 eBay 为例,2014年eBay拥有1.57亿活跃用户,8 亿产品在线待售,基于大数据的精准营销是其利润增长的主要手段。为了支撑庞大的数据分析需求,eBay 全球有超过 500 名数据分析师和工程师,每年数据分析方面的总投入(包括人员、软件、运维、服务)超过千万美元

数据量的极大增长以及 Hadoop 技术的成熟,标志着 OLAP for Big Data 时代的到来。企业界也掀起了一大波大数据项目热潮。

然而,随着大数据技术的普及深入,OLAP for Big Data 时代所特有技术挑战也逐渐显现。如何使用有限和可控的成本保持企业在未来的数据决策竞争力,是当下所有企业家们面临的问题。CIO 、CTO 们面临典型的挑战有

  • 数据量爆发,技术平台难以及时响应业务决策需求数据量越来越大,企业的决策速度也越来越慢。在线分析上百亿数据,仅一次查询就可能耗时几分钟,而全面的分析决策则会花去几个整天。在商机稍纵即逝的今天,这对一个企业可能是致命的。
  • IT基础成本随数据量线性增长为了维持决策速度,MPP系统供应商会建议与数据量同步地增加IT基础成本。数据量翻倍,那么把计算集群也翻倍不就好了?但IT预算显然不容许这么做。
  • 高端数据人才资源紧缺人才也是业务扩张的必要资源。当需要新增一条业务线,那不仅意味着数据量的增加,也意味着需要招募更多的数据分析师和数据工程师。而人才有时候是花钱也不能快速买到的,阻碍了企业业务扩张的速度。

  • 新技术层出不穷,如何能踩对趋势,确保当下的技术投资不在未来贬值?
    大数据技术层出不穷,且平台建设投资高昂。如果今天投资的一种技术平台在两年后被另一种新技术全面超越,那将无疑是一个灾难。如何有前瞻性地押注在正确的赛道上,这是困扰所有CTO的难题。

Augmented  Analytics已来,这些问题将迎刃而解,而其中的 OLAP核心能力的突破,将是增强分析的关键。

Augmented OLAP 将技术人员的工作系统化,高效赋能业务人员 。 业务人员只需自助地使用 BI 工具直接分析即可。系统将自动地理解分析意图,并在后台透明地进行数据准备和加速。透明加速后的查询提速至几十倍到上百倍,满足业务人员交互式的即席分析需求。

Augmented OLAP 定位于 BI 决策工具和数据湖之间,从分层架构看,对应于数据集市和数据仓库产品。Augmented OLAP 属于 Gartner 报告中 Augmented Analytics 技术家族中的一个分支。请留意,Augmented OLAP 并不是指某个产品,而是指一类技术能力。

下面让我们来看看 Augmented OLAP 这个方向中,有哪些值得关注的技术能力,以及它们如何帮助企业应对成本和数据决策方面的挑战。

1、自动预计算技术和自动查询加速

预计算是大数据时代保障决策速度的关键技术。通过把决策所需的计算量分为预计算和在线计算两部分,预先完成大部分的预计算工作,从而成百倍地提升在线分析决策速度。人工 ETL 创建的数据汇总表、事先计算并保存的时间线、或者Cube多维立方体等都是典型的预计算技术。以 Cube 多维立方体为例,通过预先计算Cube,在线多维分析的响应时间可以稳定在亚秒级。也就是即便数据成倍增长,在线分析的速度也将基本不变。


传统的预计算技术需要人工的设计、实施与部署,落地周期长、应变慢,因此限制了其应用的广度和深度。

Gartner 研究报告指出,将会出现一类拥有“自动预计算”能力的 Augmented OLAP 产品。使用人工智能技术,这类产品能够从业务查询中自动提炼出预计算模型,并自动进行预计算加速,提供全自动查询透明加速的使用体验。

现有的 BI 分析工具可以无需任何修改,直接透过“自动预计算”技术访问海量数据,并获得几何倍数的查询效率提升。数据量将再也无法影响企业在线决策的速度。

2、自动化运维

新型的 Augmented OLAP 系统将基本告别人工运维。从数据入库、数据加工、到动态性能调优,绝大部分的人工运维都会被自动化替代。管理员主要的工作只剩下定义运维目标,比如期望的服务质量(平均查询响应时间、可用性等)、运维时间窗口(系统忙闲时间段)、计算资源配额和存储空间配额(运营成本限制)等等。

人工智能将根据管理员的要求自动维护整个系统。比如在集群负载过高时,及时地添加查询节点,扩容查询资源,提高服务质量;又或者在系统成本过高且不繁忙时,动态地使用“廉价”节点替换一部分计算资源,以控制总体运营成本。

自动化运维除了降低人力成本以外,最大的优势是方便业务的高速扩张。开辟一条新的业务线将不再需要配套的数据工程团队,有效解决了有钱也找不到人才的扩张窘境。

3、更低廉的成本模型

尽管还没有具体的数据支撑,Gartner 报告预测 Augmented OLAP 对比于今天的数据系统将有较大的成本优势。

一方面的成本优势来自于自动化运维。首先运维人工的节省就是一个不小的数目;其次人工智能加上资源自动伸缩,也是成本优化的利器。

另一方面的成本优势来自于预计算的大规模使用。一次查询的计算成本被分为预计算成本和在线计算成本。由于预计算结果可以被复用,所以一次计算之后,后续类似查询的预计算部分都可以认为是免费的。例如,“按月的同比环比利润分析”与“年利润增长分析”都是利润在时间维度上的分析,可以共享同一份预计算结果。这就产生了数据分析成本的规模效应,分析规模越大、同类型查询越多,成本越低。这种“重复计算不收费”的成本模型可能是绝无仅有的。

综合以上,尤其是预计算带来的成本节省,Augmented OLAP 技术有可能帮助企业打破 IT 基础成本随数据量线性增长的魔咒。

4、可以被验证的“未来”

没有技术可以保证自己在将来一定领先,包括所有的 Augmented OLAP 技术。但是受益于云计算的普及,企业决策者们将可以容易地在云上验证一个 Augmented OLAP 产品是否能满足企业在“未来”的业务需求,只要这种需求能够被清晰的定义。

例如,企业预测在 2 年内,业务数据量将翻 10 倍,并且在线的并发分析访问量翻 200 倍。那么在云上部署一套系统,随机生成测试数据,并测试足量的并发分析压力,收集系统性能和运行成本报告,将会是一件非常容易的事情。

Augmented OLAP 产品将提供这种可验证性,甚至提供自动化工具来帮助实施这种验证。这样的验证保证了即使 Augmented OLAP 产品在未来不是最好的,但至少也是相当可用的,不会浪费企业今天的技术投资。

增强的数据分析(Augmented Analytics)被 Gartner 誉为“数据和分析的未来”。由人工智能辅助的在线分析决策技术 — Augmented OLAP — 将在不远的将来彻底改造企业对数据的分析和决策能力。

要想了解更多Augmented Analytics,

快来参加我们首届Kylin Data Summit吧!

大会即将在 7 月 12 日,上海浦东香格里拉召开,就“增强技术 Augmented Analytic” 这个话题,大会特别邀请了 Gartner 以及 20+ 企业技术大咖为大家解读技术趋势以及企业的落地场景。另外大会还设有 4 个行业论坛(金融、互联网、零售、制造) 点击了解会议详情