Apache Kylin在国美在线的应用

10/23/2016 - Less than a minute read

作者简介:路加,国美在线大数据平台部经理。2012年硕士毕业于东北大学,曾在华为2012实验室-香浓实验室进行情景感知平台的研发工作,2014年加入国美在线,主要负责大数据平台的建设,目前重点关注在OLAP分析平台的开发和管理工作,助力公司的数据化运营。

双十一每年都是检验各个公司技术平台实力的重要时刻,在今年,使用Apache Kylin构建的国美在线大数据查询系统稳定的支持了双十一3天的海量查询需求,“非常稳定的度过,数据查询上完全没掉链子”,国美在线大数据平台经理,路加评价道,在11月25-26日的World Of Tech 2016 大数据技术峰会上,路加进行了题为“Apache Kylin在国美在线的应用”的分享,介绍了Apache Kylin在国美的应用,选型过程及技术架构等,同时也分享了双十一三天的查询性能、热力图应用等内容,是非常不错的的Apache Kylin应用案例参考.

1

国美大数据

国美大数据平台:

2

国美大数据平台架构:

3

大数据OLAP的挑战:

  • 百亿级的数据规模
  • 维度和指标的需求变化
  • 问题数据修复
  • 查询效率

Apache Kylin的引入

  • 高效查询
  • 保持现有组件
  • JDBC接口
  • 完整性组件
  • 交互界面

Model & Cube:

4

Job Monitor:

5

6

7

Insight:

8

Apache Kylin架构:

9

Apache Kylin基本原理:

10

Apache Kylin的OLAP分析平台实践

11

Cube优化:

  • 减少膨胀率
  • 提高查询效率
  • 减少cube构建的时间

12

  • Aggregation Groups

13

  • Mandatory Dimensions
  • Hierachy Dimensions
  • Joint Dimensions

14

15

includes中的所有维度=

Mandatory Dimensions + Hierarchy Dimensions + Joint Dimensions

16

Apache Kylin的引入:

  • Rowkey的顺序
  • Segment合并

17

18

遇到的坑:

  • Segment无法拆分
  • 非星型模型的关联查询
  • 版本升级
  • Job Server单节点

Kylin待发展的方面:

  • 高基维度的查询支持
  • 丰富聚合函数
  • 明细查询
  • 非星型模型的支持

实际案例

19

双11三天的查询统计:

20

全站热力图:

21

点击热力图:

22

总结

  • Kylin的输入是星型模型
  • Kylin暴露的是Hive的元数据
  • Cube优化是用好Kylin的重点