企业数据上云后,还需要做哪些准备?

2020年 3月 25日

数据是当今每一个商业决策的基石。 随着越来越多企业开始启动上云战略,利用数据湖和云计算进行数字化转型,企业的数据管理仍充满挑战。 挑战在于企业最有价值的数据资产被隔离在本地计算机、数据中心以及云服务中;这些数据缺乏统一的数据及指标定义。

如何从杂乱的海量数据中解放,找到数据价值最大化?

随着云计算的发展,越来越多的企业考虑在云上构建自己的 IT 业务系统及企业应用平台,以通过云上快速演进的大数据技术及其可扩展的分布式架构实现敏捷、高效、成本可控的新型云上 IT 架构。

困境

  • 数据规模日益增长,分析时效性如何保障?
  • 如何实现成本最优化?
  • 如何实现统一数据管理,赋能跨部门协作?
  • 技术架构如何应对未来挑战?

4 步选型云上大数据分析服务

1)分析引擎

性能保障:在大数据时代,企业数据规模爆炸式增长,不仅带来了数据量级从 TB 到 PB 的扩大,更带来了数据复杂度的提升。分析引擎是否能提供海量数据下高并发、高性能的分析能力,是企业在追求精益化数据分析道路上考虑的必要方面。

企业需根据现有及未来需求对性能进行考量。对第三方软件在考量其并发及性能表现同时,在云端,还应考察其与云上服务如计算、存储等的集成程度。

成本控制:据 Flexera 2019 年云状况调查报告结果显示,企业云服务使用费用普遍存在35%左右的浪费。造成巨大成本浪费的原因往往有超额配置、资源闲置、虚机全天候运转等。目前市面上已有很多云成本管理软件如 Nutanix Beam、Turbonomic、ParkMyCloud 等,同时大部分云厂商也有相应的原生服务如 Azure Cost Management、Amazon CloudWatch 等。

云上大数据分析服务成本中计算资源往往占较重部分,常见成本控制机制一是通过第三方云成本管理软件进行监控、手动调优,二则是大数据分析服务主动通过其内在调优机制进行智能调优。

2)数据管理

统一业务逻辑:随着数据从业者和数据应用的增长,各业务线都在搭建自己的数据体系以驱动业务增长。基于使用方偏好,IT 支持的不同业务部门使用不同的 BI 工具及数据集市来支撑其业务分析。由于数据平台建设的历史原因及部门级需求的驱动,每个 BI 工具需单独开发语义信息,易割裂形成不同的数据分析孤岛。

同时,当企业过渡到云计算时,数据杂乱的情况突显,从本地数仓到世界各地不同云区域都是孤立的,如果在数据定义和度量标准上没有达成共识,无法统一分析造成无法看到业务全局、数据分析结果无法令人信服,那么为数据驱动做出的努力最后都会付诸东流。如何避免数据孤岛、让来自不同业务部门的数据消费者对数据资源形成统一的理解和认知,对于数据管理工作来说格外重要。

若企业希望搭建统一的大数据分析平台,则需考量产品/服务是否可与企业现有 BI 工具无缝集成,提供友好、标准的接口,保证业务部门使用习惯及分析效率;同时是否可以帮助建造统一的语义层以使业务逻辑共享。

安全策略:随着越来越多的企业规划将数据统一存储在大数据平台上形成企业统一的数据湖,可预见到个人身份信息(PII),详细的财务数据以及其他类型的专有和受保护的数据都会集中到大数据平台上,CIO 势必会越来越关注安全策略,数据访问控制和审计需求。为帮助用户在统一的数据服务上,对不同用户实现不同的数据视图,企业级云上数据分析技术需能提供细粒度访问控制,从而在企业数据平台统一、高效的前提下,最大程度保障数据隐私;同时,若能将安全策略统一,即用户和数据访问管理可以统一配置在大数据平台的数据资产层并作用到所有上层业务应用,使 IT 无需对下游系统再配置额外的数据访问控制,会是一个选型上的加分项。

3)技术架构

云原生架构:企业设计技术架构需要具备前瞻性,即技术架构既要满足眼前的挑战,又可以足够灵活以应对未来未知的挑战。Gartner 的分析报告《How to use Semantics to Drive the Business Value of Your Data》指出,数据库管理系统的部署和创新越来越以云部署优先或仅限云上部署的。

提到云就不得不提“云原生”。“云原生”的概念于2013年被提出后一直沿用至今,它旨在采用专为云上敏捷的交付模型而专门优化的技术和管理方法,实现高效和持续的服务能力。越来越多企业偏好云原生架构,以充分利用开放的云计算技术生态,降低交付风险,更好地应对未来的未知挑战。

4)技术生态

目前,在企业数据分析生态中已有诸多成熟的解决方案,包括云平台、数据源、数据处理、数据分析等。开放的大数据架构可使企业充分利用各家优势,组成端到端技术架构。可通过与市场主流软件 API 支持情况及与主流数据处理框架集成情况对数据分析服务开放程度进行评估。

基于以上企业的切实需求,Kyligence 量需裁剪,持续优化其极速云上大数据洞察服务—— Kyligence Cloud,为用户云上数据分析需求带来产品及咨询服务。

Kyligence Cloud 是一站式云端数据管理和分析服务,利用云原生的计算和存储,帮助企业在任意数据湖上构建快速、弹性、成本高效的创新型大数据分析应用。Kyligence Cloud 可以有效提高数据分析的时效性、节省 IT 总成本、通过统一数据服务赋能跨部门协作,并灵活应对未来数据量和业务发展可能带来的挑战。全面集成 Spark 生态,既实现数据分析应用落地,又为上线机器学习、人工智能应用做好了准备。

Kyligence Cloud 参考部署架构

想要了解更多 Kyligence Cloud 应对上述挑战的架构思考,及在安全等方面的技术设计细节,点击下载《云上数据管理和分析服务技术选型指南》白皮书Kyligence Cloud