当前位置:首页>资讯中心>
数据血缘:构建数据生态的基石
发布时间:2024-11-06浏览次数:
【大】【中】【小】视力保护色:

在数字化转型的浪潮中,数据已成为政府和企业最宝贵的资产之一。然而,随着数据量的爆炸性增长和数据来源的多样化,如何有效管理和利用这些数据成为企业面临的重要挑战。数据血缘作为数据治理的重要组成部分,正逐渐成为政府和企业构建数据生态的基石。

一、什么是数据血缘?

数据血缘是在数据的加工、流转过程产生的数据与数据之间的关系。提供一种探查数据关系的手段,用于跟踪数据流经路径。数据血缘通常包括以下关键信息:

1.数据来源:数据最初是从哪里产生的,比如数据库、文件、外部系统或手动输入等。

2.处理过程:数据在流转过程中经历了哪些处理步骤,包括转换、清洗、聚合等操作。

3.流转路径:数据在系统内部或系统之间流转的路径,涉及的各个系统、表、字段和程序。

4.数据去向:数据最终被用于何处,比如报告、分析模型、业务决策支持等。

二、数据血缘的组成

1.数据节点

数据血缘中的节点,可以理解为数据流转中的一个个实体,用于承载数据功能业务。例如数据库、数据表、数据字段都是数据节点。

按照血缘关系划分节点,主要有以下三类:流出节点->中间节点->流入节点

流出节点: 数据提供方,血缘关系的源端节点。

中间节点: 血缘关系中类型最多的节点,既承接流入数据,又对外流出数据。

流入节点: 血缘关系的终端节点,一般为应用层,例如可视化报表、仪表板或业务系统。

2.节点属性

当前节点的属性信息,例如表名,所属数据库,所属数据源等。

3.流转路径

数据流转路径通过表现数据流动方向、数据更新量级、数据更新频率三个维度的信息,标明了数据的流入流出信息:

数据流动方向: 通过箭头的方式表明数据流动方向

数据更新量级: 数据更新的量级越大,血缘线条越粗,说明数据的重要性越高。

数据更新频率: 数据更新的频率越高,血缘线条越短,变化越频繁,重要性越高。

三、数据血缘价值和应用场景

1.流程定位,追踪溯源

通过可视化方式,将目标表的上下游依赖进行展示,一目了然。

2.确定影响范围

通过当前节点的下游节点数量以及类型可以确定其影响范围,可避免出现上游表的修改导致下游表的报错。

3.评估数据价值、推动数据质量

通过对所有表节点的下游节点进行汇总,排序,作为数据评估依据,可重点关注输出数量较多的数据节点,并添加数据质量监控。

4.提供数据下架依据

例如以下数据节点,无任何下游输出节点,且并无任何存档需求,则可以考虑将其下架删除。

5.归因分析,快速恢复

当某个任务出现问题时,通过查看血缘上游的节点,排查出造成问题的根因是什么。同时根据当前任务节点的下游节点进行任务的快速恢复。

6.梳理调度依赖

可以将血缘节点与调度节点绑定,通过血缘依赖进行ETL调度。

7.数据安全审计

数据本身具有权限与安全等级,下游数据的安全等级不应该低于上游的安全等级,否则会有权限泄露风险。

可以基于血缘,通过扫描高安全等级节点的下游,查看下游节点是否与上游节点权限保持一致,来排除权限泄露、数据泄露等安全合规风险。

四、数据血缘如何建设

1.‌定义元数据模型‌:首先需要确定需要管理的元数据类型,如数据库表、字段、ETL过程、数据仓库模型等,并定义元数据的属性,包括名称、描述、数据类型、来源、去向等。

2.‌收集元数据‌:从各种数据源(如数据库、数据仓库、ETL工具、数据湖等)中提取元数据,利用元数据抽取工具或服务自动化地收集元数据。

3.‌建立血缘关系模型‌:确定血缘关系的类型,如上游/下游关系、父子关系、依赖关系等,设计血缘关系图模型,以图形化的方式表示元数据之间的关系。

4.‌追踪数据流动‌:通过对数据清洗、数据流向等任务的分析,提取数据流动和流向的血缘数据,同时支持自动和手动方式,最终实现应用程序血缘的数据采集。

5.‌可视化分析‌:将收集到的元数据和血缘关系以可视化的方式展示,便于理解和分析。

6.‌持续更新和维护‌:对数据血缘进行持续的更新和维护,确保数据的最新状态被准确记录。

7.‌应用分析结果‌:将分析结果应用于实际的数据管理和优化中,如新旧表切换、字段口径探查、指标自动化拆解等。

智政数智平台,提供了完整的数据血缘功能,支持从数据调度任务以及元数据等不同的角度去查看数据血缘关系,满足不同场景的需求。通过数据血缘图谱,可以对数据的流转流向关系进行清晰的查看。从而为数据治理、数据清洗等提供全面的数据关系服务。

推荐信息
智能问答
无障碍
人才招聘
公众号
返回顶部