Jupyter笔记本和造纸厂辅助气流中的ETL [英] ETL in Airflow aided by Jupyter Notebooks and Papermill

查看:40
本文介绍了Jupyter笔记本和造纸厂辅助气流中的ETL的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

所以我的问题是,我在气流中构建ETL管道,但真正要先在Jupyter笔记本中开发和测试提取、转换和加载功能。因此,我总是在Airflow Python操作符代码和Jupyter笔记本之间来回复制粘贴,效率相当低!我的直觉告诉我,所有这些都可以自动完成。

基本上,我希望用Jupyter编写我的提取、转换和加载函数,并让它们保留在那里,同时仍然在气流中运行管道,并显示提取、转换和加载任务,以及重试和气流提供的所有开箱即用的好东西。

造纸厂能够对笔记本进行参数化,但我真的想不出这对我的情况有什么帮助。有人能帮我把这些点连起来吗?🙏🏻

JupyterLab

[免责声明:我是上述开放源码项目的提交者之一。]我们创建了Elyra--一组推荐答案扩展--来简化这类工作。我们刚刚发布了2.1版,它提供了一个可视化编辑器,您可以使用它从笔记本和Python脚本组装管道(R支持应该很快就会推出),并在Apache Airflow、Kubeflow Pipeline或JupyterLab本地运行它们。对于Airflow(在Kubernetes上运行),我们创建了一个custom operator,它负责内务管理和执行。我写了一篇关于它的摘要文章,您可以找到here,如果您有兴趣尝试一下,我们还有几篇introductory tutorials

这篇关于Jupyter笔记本和造纸厂辅助气流中的ETL的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆