Azure Marketplace 部署 Kyligence Enterprise 4 快速上手

手把手引导您从 Azure Marketplace 快速启动 Kyligence Enterprise 4。

部署 Kyligence Enterprise 4

  1. 将 Kyligence Enterprise 部署到新的 HDInsight 集群
  • 在 Azure Marketplace 中,搜索并选择 Kyligence Enterprise 以获取其产品详情。点击 Kyligence Enterprise 详情页左下角的创建以创建 HDInsight 集群。
  • 填写基本页面所有必填信息,以配置集群的基本设置,然后点击确定
  • 集群配置页面设置集群的参数。请选择 Hadoop Spark 作为集群类型,版本可选择64.0。填写完后,点击确定进入下一步。

  • 集群部署配置页面设置您的存储账号容器名称,并点击确定
  • 进入摘要页面,确定您的设置无误后,点击确定以开始创建集群。集群的创建可能需要二十分钟或更长时间。
  1. 进入 Kyligence Enterprise 的应用界面
  • 部署成功后,在 Azure 门户的仪表板中,在所有资源/所有订阅中点击您创建的新群集的名称。如果找不到,请点击查看更多,在搜索框中搜索您创建的集群名称。

  • 在控制台左侧,点击设置下的 Applications。然后,在应用程序列表中点击 Portal 进入 Kyligence Enterprise 的应用界面。

  1. 申请试用许可证
  • 打开 Kyligence Enterprise 的应用界面时,将弹出一个更新许可证的窗口。点击窗口右上角的申请许可证,以申请 Kyligence Enterprise 的试用许可证。若您已有 Kyligence Enterprise 许可证,请将许可证文件拖拽入或点击窗口中间虚线区域进行上传,或点击输入许可证内容直接输入。
  • 提交您的企业邮箱公司名称用户名称,为您提供的为期两个月的试用许可证将立即生效。

  1. 登录 Kyligence Enterprise
  • 使用 Kyligence Enterprise 管理员账号的默认用户名“ADMIN”和默认密码“KYLIN”进行登录。
  • 初次登录后,系统会提示您修改密码。请记住新密码,以便将来登录。

基本概念

  1. Table – 源数据表。在创建模型并加载数据之前,系统需要从数据源(通常为 Hive)同步表的元数据,包含表名、列名、列属性等。
  2. Model – 模型,也是逻辑语义层。模型是一组表以及它们间的关联关系 (Join Relationship)。模型中定义了事实表、维度表、度量、维度、和一组索引。模型和其中的索引定义了加载数据时要执行的预计算。系统支持基于星型模型雪花模型的多维模型。
  3. Index – 索引,在数据加载时将构建索引,索引将被用于加速查询。索引分为聚合索引与明细索引。
    1. Aggregate Index聚合索引,本质是多个维度和度量的组合,适合回答聚合查询,比如某年的销售总额。
    2. Table Index – 表明细索引,本质是大宽表的多路索引,适合回答精确到记录的明细查询,比如某用户的最近 100 笔交易。
  4. Load Data – 加载数据。为了加速查询,需要将数据从源表加载入模型,在此过程中也将构建索引,整个过程即是数据的预计算过程。每一次数据加载将产生一个 Segment。载入数据后的模型可以服务于查询,由于预计算,在模型上执行的查询将获得极大的加速。
    1. Incremental Load – 增量数据加载。在事实表上可以定义一个分区日期或时间列。根据分区列,可以按时间范围对超大数据集做增量加载。
    2. Full Load全量加载。如果没有定义分区列,那么源表中的所有数据将被一次性加载。
    3. Rebuild Index – 重建索引。用户可以随时调整模型和索引的定义。对于已加载的数据,其上的索引需要按新的定义重新构建。如果用户要求加速某些查询,系统也可能优化模型和索引,进而触发重建索引。
  5. Accelerate Query – 加速查询,指通过自动优化模型和索引来加速查询的能力。系统可以依据历史查询模式和数据集特征来自动优化模型和索引。这样可以大量节省用户手工设计模型和索引的时间。
  6. Project Mode系统提供两种项目模式。
    1. Expert Mode – 专家模式,此模式由用户主导建模,由用户手工设计模型并定义索引。系统也可以在用户定义的基础上进一步优化索引,加速一些查询,但不会修改模型。专家模式适合高级用户,提供完全可控的、手动自动一体的建模体验。
    2. Smart Mode – 智能模式,此模式由系统主导建模,系统将主动创建模型和索引,并迭代自动优化。用户只需要发送查询,并要求系统智能加速即可。模型概念对于用户是不可见的。智能模式适合平民数据科学家,提供低学习曲线的大数据洞察能力。

 

智能模式指导

Kyligence Enterprise 4.0 开始提供两种项目模式,分别是由用户主导建模的专家模式,和由人工智能主导建模的智能模式。本节我们为您介绍 智能模式 中产品使用的基本方法。主要内容如下:

 

准备工作

  1. Kyligence Enterprise 4.0 提供两种项目模式:智能模式专家模式
    1. 智能模式:系统将根据您的查询习惯和数据特征,自动创建模型和索引,并通过预计算来加速查询,极大地加速大数据洞察,降低学习曲线,赋能平民数据科学家。
    2. 专家模式:您可以主导模型设计的环节,手动创建满足业务分析需求的模型。同时,您可以手动设计索引,并让系统在此基础上根据查询习惯和数据的特征,辅助推荐新索引,实现手动、自动一体化建模的工作。您可以在专家模式指导了解详细方法。
  2. 我们将使用 Kyligence Enterprise 自带的样例数据介绍智能模式的项目,您可以在快速启动章节了解导入样例数据的具体方法。
  3. 在建立智能模式的项目之前,我们建议您完整观看 Web 界面上 帮助 -> 新手指引 -> 智能模式 中的演示。该演示以 SSB (Star Schema Benchmark) 样例数据示例,完整地向您展示了智能模式下 添加项目 -> 同步表的元数据 -> 创建模型 -> 加载数据 的过程。

添加项目

项目是 Kyligence Enterprise 的一级管理单位。在一个项目中,您可以设计多个模型并进行查询分析。

请您点击产品左上方项目列表右侧的 + 按钮来添加一个项目,在弹窗中选择选择智能模式,并填写项目名称和项目描述。其中项目名称为必须填写项,项目描述为选择填写项。建议您填写项目描述,这有助于日后项目的维护。

至此,您已完成一个智能模式的项目的创建,界面停留在 建模中心 -> 数据源 界面,为下一步添加数据源做准备。

添加数据源

项目创建完毕,您需要为项目添加数据源表。之后您在查询分析的阶段都将用到此处添加的数据源表。

添加数据源的同时会同步源表的元数据。表的元数据是指描述表特征的数据,如表名、列名、列类型等。

  1. 导入表的元数据

请您在 建模中心 -> 数据源 界面,点击左上方添加数据源按钮,为您的项目添加数据源表。

  1. 选择数据源类型:我们暂时支持 Hive 数据源,其余的数据源正在研发中。

提示:如果必须对接 MySQL、Kafka 等其他数据源,请使用 Kyligence Enterprise 3.x 版本。

  1. 选择目标数据源表:展开数据库列表,并选择目标数据源表。

更多与数据源相关的操作请您查看数据源章节。

  1. 表抽样

在同步表的元数据过程中 Kyligence Enterprise 默认开启源表数据抽样,您可以在 监控 -> 任务 界面查看自动触发的抽样表数据任务。任务执行完毕后,您就可以在 建模中心 -> 数据源 界面查看源表的抽样数据了。您可以在数据抽样章节了解更多。

您可以通过表抽样初步了解源表数据特征,这将有助于之后的查询分析。 通常来说,表抽样将回答类似如下问题:

  1. 表里有多少行?
  2. 每一列的基数是多大?即不重复的数据数量。
  3. 每一列的列值都有哪些特性?
  1. 数据源界面

如下图所示,我们添加了 Hive 中样例数据集 SSB 中的所有表。左侧为数据源区域,右侧为指定源表的信息。

您可以在右侧查看源表信息,其中存储信息中可以看出源表数据是否经过加载,其中所有列为源表字段的特征信息,抽样数据展现了源表中每列数据的形态。

加载数据

Kyligence Enterprise 应用预计算技术实现大数据时代查询的亚秒级响应。源表数据需要经过加载才会进入系统,加载数据的过程即是构建索引、进行预计算的过程。您可以查看加载数据章节了解更多数据加载的具体方法。

在智能模式下,源表导入后默认设置即为全量加载。但由于其上还没有通过加速查询功能产生索引,因此不会触发数据加载和构建索引的任务。此时,尽管没有预计算和加速,您已经可以查询和分析数据。建议您仔细阅读下面关于增量加载的说明,并在事实表上设置时间分区列,这样才能增量加载事实表中的数据。

  1. 加载数据的原则
    1. 时间分区列:对于按时间递增的数据源表,建议选择一个合适的日期列作为源表的分区列。如在订单表中会随着时间增加新的订单,一般选取订单日期作为时间分区列。请在同步源表的元数据之后添加时间分区列。
    2. 增量加载:在加载具有时间分区列的源表的数据时,您可以选择按批次增量加载新的业务数据,比如每天增量加载订单表中的新数据。增量加载不用重新加载已完成预计算的数据,可以提高工作效率,节省对资源的使用。您可以查看按日期/时间加载章节了解更多。
    3. 全量加载:在智能模式下,源表导入后默认设置即为全量加载。由于不具有时间分区列,表中的数据总是被全量地加载。您可以查看全量加载章节了解更多。
  2. 加载数据的方法

加载数据并构建索引的途径有以下几种。

    1. 增量加载数据:要增量加载数据,请先在源表上设置时间分区列,然后在导航栏 建模中心 -> 数据源界面加载源表的数据。您可以选择一个时间范围,要求系统加载其中的数据。如果该表上有定义索引(通过加速查询产生),那么系统会启动任务将对应时间段数据载入并在同时构建索引。注意:如果源表的存储类型为尚未载入,表示您没有通过加速引擎构建与该源表中的数据相关的索引,此时您不能加载该源表的数据。
    2. 全量加载数据:源数据表默认即全量加载。每当索引定义变化时,全量加载表上的索引内容将被自动重新计算。无需额外人工操作。
    3. 加速查询:加速查询同时也是创建新索引或优化已有索引的方法。在导航栏 建模中心 -> 加速引擎 界面加速 SQL 语句时,系统会根据 SQL 的特征,自动创建或优化索引,并触发任务重新构建已加载数据上的索引内容。
  1. 加载数据的存储大小

如下图所示,您可以在导航栏 建模中心 -> 索引 界面查看已加载数据的索引的存储大小。如果存储大小为00 KB,则表示该索引还没有加载数据,这在索引刚被创建时是正常的。如果存储大小大于 0.00 KB,则表示已经对该索引加载数据,即该索引拥有预计算好的数据。

如下图所示,索引组 AUTOMODELPLINEORDER1 已经加载数据,索引组 AUTOMODELLINEORDER_1 尚未加载数据。则您的任何查询都不能击中索引组 AUTOMODELLINEORDER_1

数据探索

您可以提交一条查询来体验在 Kyligence Enterprise 中分析您的业务数据。智能模式下,所有源表默认即全量加载,因此尽管还没有加速,导入源表后立刻就可以开始数据分析了。

  1. 查询分析原则

Kyligence Enterprise 支持标准的 SQL 查询,当您添加数据源表之后您就可以查询数据了,由于尚未构建任何索引,此时查询将以未加速的方式下压至 Hive 数据源执行,当数据量大且集群资源不充足,或者查询较复杂时,可能会导致查询执行时间较长。您可以查看查询分析章节了解 SQL 查询的具体讲解。

您可以在 Kyligence Enterprise 中加速被捕捉到的查询。当查询被加速之后,再次执行类似的 SQL 查询,此时查询将使用已经完成加载的预计算数据。我们将在本节的下一小段加速查询中介绍加速查询的方法。

您的历史查询将保存在 查询 -> 查询历史 界面,您可以查看查询历史章节了解更多。

  1. 查询分析示例

我们以新手指引演示中的第一条 SQL 查询为例,您可以导航栏 查询 -> 分析 界面的 查询编辑器 输入以下SQL 查询。我们使用的数据源 SSB 数据集模拟了在线商城的交易数据。该 SQL 语句能够查询 1993 年指定折扣力度下订购数量小于 25 的商品销售收益。

select sum(lo_revenue) as revenue
fromlineorder left join ssb.dates on lo_orderdate = d_datekey
where d_year = 1993
and lo_discount between 1 and 3
and lo_quantity < 25

查询结果如下图所示,您可以在查询信息中发现查询对象为 Hive,即查询下压至 Hive 数据源。查询结果展示了在线商城中指定条件下的销售收益。

 

加速查询

即使对一些有经验的分析师,设计模型和构建索引任然是一件有挑战且技术性要求较高的工作。分析师可能只是想查询分析,而设计模型和构建索引只是中间过程。

智能模式下,系统将主动创建模型和索引,并迭代自动优化。系统能够根据您的查询习惯和数据特征,遵照定义好的加速规则,一键加速查询并根据查询自动预计算索引,极大地减少了模型设计的工作,同时满足加速查询分析需求。您可以在加速引擎章节了解更多。

您可以在导航栏 建模中心 -> 加速引擎 查看查询过的 SQL 语句并加速指定 SQL 语句,加速的过程即优化模型和索引,并数据进行预计算的过程。加速完成后,再次查询该条 SQL 语句,预计算好的数据就可以回答查询从而达到快速获得查询结果的效果。

下图所示为加速引擎的界面。加速上述 SQL 查询后再次查询该条 SQL 语句,您会发现查询速度显著提升,查询对象由 Hive 变为系统自动构建的索引,您可以在 建模中心 -> 索引 界面查看索引的详细信息。

任务监控

在使用 Kyligence Enterprise 的过程中会触发不同的任务,如构建索引、加载数据、抽样表数据的任务。您可以在导航栏 监控 -> 任务 界面查看任务列表。更多详细说明请您查看任务监控章节。

任务监控可以帮助您有效的管理 Kyligence Enterprise 的使用。您可以查看任务的状态来判断操作是否完成、运行环境是否稳定等。下图展示了新手指引演示中当所有的任务都成功完成时的任务监控界面。

 

想知道 Kyligence 能为你做些什么吗?