开源软件Datahub中文社区
微信号:DatahubCN
QQ群:528386897
Datahub架构
-
DataHub 是第三代元数据平台,支持数据发现、协作、治理和端到端可观测性 这是为现代数据堆栈构建的。DataHub采用模型优先的理念,重点是解锁两者之间的互操作性 不同的工具和系统。
架构特点
DataHub的架构有三个主要特点。-
元数据建模的架构优先方法
DataHub 的元数据模型使用与序列化无关的语言进行描述。REST 和 GraphQL API-s 都受支持。此外,DataHub支持基于AVRO的API通过Kafka来传达元数据更改并订阅它们。我们的路线图包括一个里程碑,即将支持无代码元数据模型编辑,这将允许更易于使用,同时保留类型化 API 的所有优势。在元数据建模中阅读元数据建模。 -
基于流的实时元数据平台
DataHub的元数据基础设施是面向流的,允许在几秒钟内在平台内传达和反映元数据的变化。您还可以订阅 DataHub 元数据中发生的更改,从而允许您构建实时元数据驱动的系统。例如,您可以构建一个访问控制系统,该系统可以观察以前全局可读的数据集,添加一个包含 PII 的新架构字段,并锁定该数据集以进行访问控制审查。 -
联合元数据服务
DataHub附带单个元数据服务(gms)作为开源存储库的一部分。但是,它还支持可以由不同团队拥有和运营的联合元数据服务 - 事实上,这就是LinkedIn内部运行DataHub的方式。联合服务使用 Kafka 与中央搜索索引和图形通信,以支持全局搜索和发现,同时仍支持元数据的分离所有权。这种架构非常适合正在实施数据网格的公司。
-