开源软件Datahub中文社区
微信号:DatahubCN
QQ群:528386897
Datahub组成
-
Datahub平台由下图所示的组件组成。
元数据存储
元数据存储负责存储构成元数据图的实体和方面。这包括 公开用于引入元数据、按主键提取元数据、搜索实体和提取 实体。它由一个Spring Java服务组成,托管一组 Rest.li API端点,以及 MySQL,Elasticsearch和Kafka用于主存储和索引。元数据模型
元数据模型是定义构成元数据图的实体和方面的形状以及它们之间的关系的模式。它们被定义 使用 PDL,一种在形式上与 Protobuf 非常相似的建模语言,同时序列化为 JSON。实体表示特定类别的元数据 数据集、仪表板、数据管道等资产。实体的每个实例都由称为 .方面表示附加的相关数据包 到实体的实例,例如其描述、标记等。在此处查看当前支持的实体集。元数据摄入框架
摄入框架是一个模块化、可扩展的 Python 库,用于从外部源系统(例如 Snowflake,Looker,MySQL,Kafka),将其转换为DataHub的元数据模型,并通过以下方法将其写入DataHub。 Kafka 或直接使用元数据存储 Rest API。数据中心支持广泛的源连接器列表可供选择,以及 一系列功能,包括架构提取、表和列分析、使用情况信息提取等。摄入框架入门非常简单:只需定义 YAML 文件并执行命令。
GraphQL API
GraphQL API 提供了一个强类型、面向实体的 API,可以与包含元数据的实体进行交互 图形简单,包括用于添加和删除标签,所有者,元数据实体链接等的API!最值得注意的是,用户界面(下面讨论)使用此API来实现搜索和发现,治理,可观测性。 等等。用户界面
DataHub带有一个React UI,包括一组不断发展的功能,使发现,治理和调试数据资产变得简单而愉快。