云上大数据分析服务 – 机遇、能力与最佳实践

2019年 10月 24日

为什么需要在云上进行大数据分析?

大数据时代,企业比以往任何时候都更重视数据的收集与利用。这些数据已经不限于企业的业务系统,也不限于传统结构化的数据类型,可能来自网站、手机、在线系统、应用程序、甚至物联网。

然而,传统的数据仓库架构在面对如今庞大、多样化的数据时显得不堪重负。分析人员通常等待 24 小时甚至更长时间,来让数据流入数据仓库,之后才能进行分析;然后可能需要更长时间,在这些数据之上做复杂的查询和计算。与此同时,传统数仓的存储和计算资源在处理这样的负载时显得捉襟见肘。为了避免宕机,用户和工作负载必须排队等候,这又会导致更长的延迟。另一方面,为了满足当今不断增长的存储和工作负载需求,在扩展常规数据仓库上的花销也极其昂贵。

近年来,随着云计算的蓬勃发展,越来越多的企业考虑在云上构建自己的IT业务系统及企业应用平台。通过云上的灵活架构实现敏捷、高效、试错成本低、成本可控的新型云上IT架构。在数据分析场景中,企业也期望借助云上快速演进的大数据技术及其可扩展的分布式架构,满足与日俱增的数据存储和数据分析探索需求,另一方面,云上原生生成的各类业务应用数据使用云上的数据分析服务进行对接时也更加顺畅。

云上大数据分析服务需要具备什么能力?

企业在搭建云上大数据分析服务/平台时需要考虑诸多问题,例如:

  • 云上大数据系统如何部署?
  • 本地及云上数据如何迁移、接入并进行整合管理?
  • 数据如何快速对接各种数据应用进行交互式和探索式分析?
  • 如何满足海量数据高并发下的分析查询性能?
  • 如何简化运维,降低管理成本?
  • 如何实现数据权限隔离,保证数据安全性?

因此,企业如何选择合适的云上大数据分析服务,支撑企业数据业务将显得至关重要。一个优秀的云上大数据分析服务通常需要具备什么能力呢?

按需启停、弹性伸缩

云上大数据分析相对于传统本地分析的优势,很大程度上是灵活弹性的资源配置与调度能力所带来的。平台负载增加时扩展集群配置,保障服务稳定高效;平台负载降低时自动收缩集群规模,实现成本优化。

然而,并非所有云上数据服务都拥有相同的弹性架构。市面上许多的云数仓和云上大数据分析服务将计算资源与存储资源绑定,这就限制了用户调整资源配置的灵活性,例如当用户只需扩展计算资源时,这种绑定的架构就迫使用户不得不同时升级存储资源,导致成本的升高和资源的浪费。

能够同时做到弹性伸缩资源和资源充分分离、自由按需配置,才是云上大数据分析服务的最佳实践。

深度整合云上资源

云上大数据分析服务依托于各个云厂商平台,如何充分利用和整合对接云平台的资源,某种程度上决定了服务的成败。例如,在 Azure 平台支持原生的 SQLServer 数据库、SQL Data Warehouse 数据仓库、Blob Storage 对象存储等作为数据源,利用 HDinsight 或 Spark 服务简化大数据处理,就可以最高效率地对于云上的大数据资产进行分析;还可以结合原生的 AutoML、认知服务等对分析之后的数据做进一步的消费,充分发挥大数据资产的价值。

无缝对接 BI 工具

大数据分析服务的服务对象是数据的消费者,他们通常使用诸如 Tableau、Power BI 或 Excel 等 BI 工具进行数据的分析洞察,所以与这些 BI 工具对接集成的能力是云上大数据分析服务必不可少的。这就对云上大数据服务的数据接口支持提出了要求,能够支持常用的数据接口如 JDBC、ODBC、Rest API、甚至是MDX 便能够更好地对接 BI 工具,服务于终端数据消费者。

高性能高并发

解决大数据分析中的性能瓶颈是企业将大数据分析从本地转向云端的初衷之一,更强大的查询分析性能永远都会是选择云上数据服务的最重要标准之一。试想在几秒钟甚至更短的时间就能够得到基于海量数据的查询结果,从而快速得到业务洞察,而这原本在本地可能需要数小时甚至更久,这将给企业的业务带来令人兴奋的提升。

同时,随着业务需求的不断增长,消费数据的用户必然也会不断增加,这就对数据服务的高并发能力提出了要求。优秀的云上大数据分析服务必然需要具备这样的高并发能力,以支持大型企业数百人同时数据消费的需求,乃至支持嵌入式分析中高达上万用户的同时访问。

统一的业务语义层

统一的业务语义层将技术概念翻译成业务有好的定义,使得数据消费者不再需要关心底层技术细节,而可以直接消费构建在语义层上的数据资产,可通过他们最喜欢的BI工具来直接进行业务分析,支撑业务决策。

企业级安全能力

企业在云上部署数据分析服务时也需要遵守企业整理的安全规范,任何云上使用的应用都需要对接如Azure Active Directory 或 AWS Identityand Access Management (IAM) 等访问管理系统,这样可以保证企业的IT管理员可以安全的控制谁可以访问哪些数据,资源。此外更大规模的企业在部署云上数据服务时也会要求服务实现系统单点登录,多租户的资源隔离等更多企业级部署需求。

极速的云上大数据分析服务 – Kyligence Cloud 3

Kyligence Cloud 3 是一站式云端大数据联机分析 (OLAP) 服务,利用云原生的计算和存储,在任意数据湖上构建快速、弹性、成本高效的创新型大数据分析应用。从数据接入到数据分析,新一代 Kyligence Cloud 服务极大地简化了云上大数据分析的复杂度,几分钟内用户即可完成集群创建、数据接入及数据分析。同时,云原生技术移除了对云端 Hadoop 服务的依赖,充分利用云端计算与存储分离特性,结合弹性计算能力极大地降低用户数据上云的整体拥有成本 (TCO) 。

基于上述的设计,Kyligence Cloud 3 能够给企业带来以下价值,帮助企业实现极速的云上大数据分析。

一站式大数据分析:深度整合云上计算和存储资源,直连云上数据源,运用新一代大数据分析引擎,无缝集成主流 BI 工具,并辅以内置的可视化分析工具,提供端到端一站式大数据分析体验,赋能业务用户和分析师轻松获得大数据分析洞察。

高性能 OLAP服务:在云端提供亚秒级响应的高性能大数据联机分析 (OLAP) 服务,在亚秒级返回对海量数据的查询,助力业务用户在任何地方、任何时间都能够在海量数据集上即时获得极速洞察。

降低总体拥有成本:针对分析场景的需求,优化了云环境。数据存储与计算资源分离,仅在需要计算资源时启动集群。平台负载增加时可一键扩展集群配置,保障服务稳定;负载降低时自动收缩集群规模,实现成本优化。通过集群按需分配必要资源,有效降低企业总体拥有成本(TCO) 。

极速部署简单易用:仅需几分钟即可完成极速一键部署,简单直观的部署界面,大大加速系统上线时间。自动化的集群运维管理和基于规则的集群弹性伸缩,彻底解放IT 管理员和云基建团队运维负担。零代码交互界面实现数据准备、建模、分析的端到端自助式分析流程。AI 增强的自动建模及优化大大降低使用门槛,赋能自助分析。

此外,全新的 Kyligence Cloud 3.0 支持以下能力,从数据接入到数据分析,新一代 Kyligence Cloud 服务极大地简化了云上大数据分析的复杂度。

  • 端到端的一站式服务

数据源无缝接入:深度整合云上计算和存储资源,无缝连接云上数据仓库和云存储,如 AWS S3、Azure BlobStorage、Alibaba Cloud OSS、Google CloudStorage、Azure SQL Data Warehouse、Snowflake 等。

BI 可视化无缝集成:通过SQL、MDX及Rest API等多种接口, 无缝对接各类主流 BI 产品,更内置提供丰富的数据可视化和自助式服务工具,帮助业务用户和分析师轻松地分析和获取大数据洞察。

支持主流云平台:充分利用各云厂商的计算基础设施资源,现已在主流云平台的全球区域上线,如 Azure、AWS、阿里云、Google 云平台等。

  • 更高性能,更低成本

高性能、高并发:支持在亚秒级返回对海量数据的查询,赋能业务用户获得对海量数据的即时洞察。同时能够轻松支撑数千在线用户的超高并发。

弹性资源分配:平台负载增加时支持一键扩展集群配置,保障服务稳定;负载降低时自动收缩集群规模,实现成本优化。

全栈 Spark 架构:基于 Apache Spark 的查询和任务引擎,针对预计算场景深度优化,大大提升了服务的时间响应的及时性。同时消除了对平台的依赖,为企业客户降低采购成本和运维成本。

  • 极速部署,简单易用

分钟级一键部署:仅需几分钟即可完成极速一键部署,简单直观的部署界面,大大加速系统上线时间。

图形化智能建模:零代码交互界面实现数据准备、建模、分析的端到端自助式分析流程。AI 增强的自动建模及优化大大降低使用门槛,赋能自助分析。

统一的语义层:统一的业务语义层保证企业级数据管制,防止数据孤岛,为业务提供统一的指标分析库。

由此,Kyligence Cloud 3 可以完美适用于业务洞察、数据挖掘、多维分析、移动应用、机器学习等各种业务场景,助力企业打造云上的数据分析服务。Kyligence Cloud 3.0 支持在 Azure、AWS、阿里云、Google Cloud Platform 等公有云平台进行部署。欢迎用户质询试用。