hadoop中的数据沿袭报告 [英] Data Lineage Report in hadoop

查看:226
本文介绍了hadoop中的数据沿袭报告的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在使用Python-Django框架在ELT工具上工作。



在该工具中,我们可以安排该作业并将其发布在Apache Oozie中。



我需要为每个作业执行数据沿袭报告。一般来说,我已经在wiki中探索了什么是数据沿袭。



我需要帮助 - 我应该如何实现这个数据谱系?没有使用任何外部工具和Apache Falcon。

解决方案

由于您正在使用Python-Django Framework并且正在使用Oozie进行大部分的工作调度,因此建议使用Lineage跟踪使用猎鹰。它很容易在hadoop生态系统中使用和跟踪谱系。



但是,如果您不希望使用Apache Falcon,您可以随时实现任何Graph Database(Neo4J或TitanDB)并使用D3.js绘制图形。为此,您需要以特定模式将Graphage(graph)变量存储在GraphDB中。一旦在GraphDB中设置了一切,就很容易编写D3 java脚本来检索它们并绘制图形。



您可以在这里阅读更多关于D3:



http://chimera.labs.oreilly.com/books/1230000000345/index.html


I'm working on an ELT Tool using the Python-Django Framework.

In that tool, we can schedule the job and publish it in the Apache Oozie.

I need to Implement the Data Lineage Report for each job. In general, I've explored, "what is Data Lineage" in wiki.

I need help - how should I implement this Data lineage? Without using any external tools and Apache Falcon.

解决方案

Because you are using Python-Django Framework and are doing most of your job scheduling using Oozie it is suggested to use the Lineage tracking using Falcon. It is easy to use and track lineage in the hadoop ecosystem.

However, if you wish not to use Apache Falcon you can always implement any Graph Database (Neo4J or TitanDB) and draw the graph using D3.js. For doing so you need to store the lineage (graph) variables in the GraphDB in a specific pattern. Once everything is set in the GraphDB it is easy to write D3 java scripts to retrieve them and draw the graph.

You can read more about D3 here:

http://chimera.labs.oreilly.com/books/1230000000345/index.html

这篇关于hadoop中的数据沿袭报告的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆