语义层:2020 年不可不知的 BI 趋势

Author
何京珂
Kyligence 产品总监,数据分析资深从业者
2020年 6月 30日

数据是当今每一个商业决策的基石。 越来越多企业开始利用数据湖和云计算等技术进行数字化转型,然而当今前所未有的数据体量和分布使得企业的数据管理充满挑战。 挑战在于企业最有价值的数据资产被隔离在本地计算机、数据中心以及云服务中;这些数据缺乏统一的数据及指标定义,这使得企业很难有效的挖掘其数据资产的价值,企业如果以这样的数据管理方式进行数据驱动转型,企业将收获的只是一座座“数据孤岛”

在更细的粒度,每个做过数据仓库建设的行家都理解数仓内的数据对于业务的用户是多么的难以理解,技术元数据如表名、列名、数据类型对于业务用户来说如天书般。

因此数据仓库似乎并不是赋能业务进行数据分析的唯一解药,那在业务人员和数据仓库之间还缺少了什么呢?


什么是语义层?

解药就是语义层,什么是语义层呢?从业务人员的角度,他们需要一层在技术实现层上的业务抽象,一个模型层来统一维护业务的逻辑,业务定义的字段,数据层级,衍生计算等,使得业务人员无需关心底层的技术复杂度和实现。对于企业内的数据消费者来说,不论他/她的数据分析能力如何都需要更容易的发现,理解和利用可信赖的数据,这就是语义层应帮助企业做到的。 

Gartner 在分析报告《如何使用语义驱动数据的商业价值》(How to use Semantics to Drive the Business Value of Your Data) 中,也指出了用好语义层对数据和分析的管理者来说的必要性:来自不同业务线的自助式分析数据消费者,使得对于数据资产形成统一的理解和认知变得格外重要。
而语义层可以帮助企业实现: 

  • 创建数据资产之间的关联以获得对数据更全面的视角;
  • 利用语义实现更广泛的对数据业务理解的一致性,避免理解的偏差。


语义层应具备的关键能力

说了这么多,语义层仍是一个逻辑上的概念,听起来仍旧虚无缥缈,对于数据和分析的管理者来说究竟应该如何落地语义层,实现上文美好的愿景呢? 语义层应具有以下关键能力: 

  • 共享的业务逻辑
    语义层应包含业务分析所需的核心逻辑,将底层的数据模型转化为用户熟悉的业务信息(维度、度量、层级结构)并包含更多业务经过二次加工才可直接使用的衍生度量,如常见的同环比,月累计,年累计等。 

  • 实现语义在不同下游应用的复用性
    通过开发多种通用的查询接口,将统一的语义层复用到业务进行数据分析,业务洞察的终端,这个终端可能是一个 BI 工具,也可能是一个微信小程序,提供定期的业务洞察推送,重要的是通过统一的语义层满足全企业内对不同人员的不同场景下的分析需求。 

  • 统一的安全策略
    这确保了用户和数据访问管理可以统一配置在语义层并作用到所有下游的分析或业务应用,IT 无需对下游系统再额外配置数据访问控制。
     
  • 对接高性能引擎支撑业务计算的能力
    当全企业的数据消费者都在通过统一的语义层访问数据时,其访问量和将随着业务的场景的增加而叠加,另一方面统一的语义层带来了更全面数据视角,对于海量详细的数据的查询也会对查询性能提出要求。 

除了企业方面对于语义层有迫切需求外,各路厂家也不约而同推出了语义层的能力。首先,让我们看看BI领导者们是如何帮助企业落地语义层的。


BI 软件是怎样提供语义层的?

Tableau 的语义层能力:增强的复杂建模能力 

在 Tableau 2020.2 的发布版本中,Tableau 推出了一个逻辑(语义层)模型层,帮助用户关联更多的数据模型,该功能的引入使得每个 Tableau 数据源从过去的支持单个事实表的模型到可以支持多事实表的分析,并支持复杂的分析场景如多对多关系等。 

可以看到,Tableau 提供的新的语义层可以加强其复杂建模分析的能力,满足 Gartner 提到的关联更多数据源的目标,且通过 Tableau 本身的数据源发布能力,这个全新推出的数据源将可以在 Tableau 的软件生态中进行复用,通过将这个逻辑模型层发布到 Tableau Server 端,更多的业务用户可以通过浏览器使用共享的数据源中的逻辑模型, IT 可以对发布的数据源进行监控,同时业务人员可被授权修改和迭代数据源。 

Tableau 提供的这种语义建模能力兼顾了 IT 为中心的模型管理及业务人员的自助式能力,且建模过程简单易用,使用门槛低,这种透明的无缝的建模方式使得 Tableau 的语义层非常易用。当然另一方面来看,Tableau 的语义层和其他方案相比会更专注于其软件生态中的复用,当在企业内有其他 BI 平台存在时(不同部门拥有不同 BI 平台是很多大企业的常态),这个语义层能力将比较难以在更大范围内复用。


Power BI 的语义层能力:复用到多个应用的统一语义 

在2020年3月,Power BI 最新发布了预览功能读写XMLA 终端,该功能在 Power BI Premium 版有效,可以帮助第三方读写 Power BI 的数据集,赋能 Power BI 用户打造以 Power BI 的数据集为核心的唯一事实的语义层,该功能已公开开放给公众使用,这意味着任何第三方供应商都可以通过读写 XMLA 终端来消费(读)或者同步(写)Power BI 的语义层。

通过 Power BI 发布的预览图我们可以看到,在写入端 Power BI 可以接受第三方工具定义,管理和诊断 Power BI 的语义层,在读取端其他可视化工具(包括图中展示的Tableau, Excel)都可以读取并复用 Power BI 的语义层。 

可以看到 Power BI 最新推出的读写 XMLA 终端能力加强了 Power BI Premium 作为企业级 BI 的核心平台的能力,加强了 Power BI 模型的复用性,结合 Power BI 本来就支持的超复杂模型建模能力,其语义层将更适合企业级的 BI 部署。


MicroStrategy 的语义层能力:联邦分析打造 IT 监管的统一分析平台 

MicroStrategy 自 2019 以来开始强调其联邦分析能力,通过可复用的实体和语义定义层,同时能够将语义层复用到不同 BI,实现底层离散数据源的统一的同时,提供统一的数据事实。

然而整体上来说 BI 工具的发展千变万化,考虑长期的投资的复用性,企业应在实现语义层时避免单一 BI 工具语义层带来的厂商锁定;另一方面,把语义层和 BI 工具中剥离可以提供更高的灵活性和扩展性。企业在选择部署语义层时数据和分析的管理者仍需考虑以下几个因素: 

  • 语义层生态开放性
    语义层存在的宗旨之一即是让企业内不同数据消费者都能够统一的访问一套业务语义,如果语义层仅仅能够在某个固定的厂商软件中使用而不能在丰富的各种生态中则有违了语义层的初衷。 

  • 支持云上部署语义层
    随着云架构越来越成为企业 IT 的主流选择,而同时企业需要面对数据在不同存储中,包括云上原生的存储,能够支持云上部署的语义层确保了其符合当下云端部署企业的诉求,以及未来 IT 架构的发展趋势。 


Kyligence: 统一的语义即服务能力

Kyligence 团队在服务企业级客户的分析场景时,也发现了语义层能力在企业级部署场景下带来的价值,并通过以下能力为企业提供可落地的大数据语义层: 


支持 SQL,MDX,Rest API 多种查询接口 

现代的语义层将复杂的数据映射为业务语言,并以服务的形式为每一个数据消费方在 PB 级别数据规模上提供统一的数据定义及行业标准的访问接口(标准 SQL 及 MDX)。   


统一的安全策略 

通过将割裂的 BI 分析负载集中到大数据平台上,Kyligence 也帮助企业降低数据分散在不同业务系统带来的数据安全风险。用户和数据访问管理可以统一配置在大数据平台的数据资产层并作用到所有上层业务应用。因此 IT 无需对下游系统再配置额外的数据访问控制。 


AI 增强引擎 

Kyligence 利用 Hadoop 集群的计算能力对数据进行预计算,基于AI的智能引擎能够自动识别用户的查询模式并自动在后台进行计算。Kyligence 利用 Hadoop 的分布式架构进行数据处理,以及低廉的集群资源进行存储,这些聚合会自动创建并存储在大数据集群中。 

基于机器学习,Kyligence 能够从 SQL 历史记录、分析师行为、数据采样及运行时指标中自动发现和查找黄金数据。 


本地或云端:灵活的部署模式

未来已来,在这个数据分析的后浪时代,云上部署将越来越成为数据管理和分析的主要部署模式,为了包括今天的技术投资不在未来贬值,企业在选择语义层时也应考虑其能否原生适配云上的整体架构,从数据源的接入、转换、语义建模、到对接下游应用 Kyligence 能够助力企业形成端到端的云上大数据分析,并提供统一的云上语义层。 


小结:语义层应有的能力

通过行业领先的 BI 厂商对于语义层的能力定义,可以看到语义层所具有的共性特征为:

  1. 语义的可复用性  
  2. 统一离散数据源,提供单一版本数据事实 
  3. 提多种接口服务企业内各类数据消费人群 
  4. 统一的 IT 安全和管控 

这样的语义层能力是面向的企业级的数据分析平台,能够打通企业内的所有数据孤岛形成统一的分析能力。在实际企业客户的部署环境中,一个企业通常都具有不止一种 BI 分析工具,且将数据整合在一起的时候,数据量都非常庞大,因此企业在选择语义层方案时还需要考虑:

  1. 多种 BI 对接能力和丰富的开放接口 
  2. 支持海量数据的处理或支持对接海量数据计算引擎 
  3. 支持云上的部署模式,适应未来 IT 发展趋势,保证技术投资不在未来贬值。 

参考文献

[1] How to Use Semantic to Drive the Business Value of Your Data: https://www.gartner.com/en/documents/3894095/how-to-use-semantics-to-drive-the-business-value-of-your[2] 10 Enterprise Analytics Trends to Watch in 2020 https://www.microstrategy.com/getmedia/462cb6e5-129c-4678-bdac-c321149bd075/MicroStrategy-10-Enterprise-Analytics-Trends-to-Watch-in-2020_FINAL.pdf [3] Tableau for the Enterprise: An overview for IT https://www.tableau.com/sites/default/files/whitepapers/963212_enterprise_it_how_to_scale_a_culture_whitepaper_updated.pdf [4] The Tableau Data Model: https://help.tableau.com/v2020.2/pro/desktop/en-us/datasource_datamodel.htm#star-and-snowflake-schema-analysis [5] MicroStrategy 2019 Whitepaper: https://www.microstrategy.com/getmedia/4b9fbd76-952b-4da5-8f8d-489278abd59c/MicroStrategy-2019-whitepaper


关于作者

何京珂,Kyligence 产品总监,数据分析资深从业者 。