一款简洁的数据流引擎,让数据自由流转 - 程序员

TUhjnbcbe - 2020/11/8 8:00:00

大家好，我是你们的章鱼猫。

今天推荐一个简洁优雅的数据流引擎工具Dagster，它的目标是帮助大家构建与时俱进的数据类应用，通过该工具能够让数据科学家、数据工程师以及其他人员在同一个数据管道上进行合作协同。

Dagster拥有优雅的编程模型、增量可扩展能力以及方便易用的UI，其创建团队中一名成员参与过GraphQL的开发。

优雅的编程模型

Dagster定义了一系列的抽象类型，帮助我们构建自描述、可测试和可靠的数据类应用。重要的是，该工具将可测试的能力定义为工具的原生能力。

增量可扩展能力

Dagster能够方便的集成现有的工具和基础设施，比如Spark、Python、Jupyternotebook、SQL等。同时也能与其他的流程引擎进行集成，比如Airflow。

漂亮易用的UI

Dagster定义了一套简洁易用的本地开发界面，能够方便数据工程师、机器学习工程师、数据分析师使用。

以下是一个简单的数据流示例。其中pipeline对应一个数据流水线，而其中的solid对应一直执行单元，按照一定的规则输入和输出，无其他的副作用。通过定义数据的流向，也就是将不同的solid的输入和输出进行串联，最终可以构建一个数据的处理流程。下图的代码能够直接转换成对应的数据流图，方便分析和可视化。

更多项目详情请查看如下链接。

开源项目