oozie相关内容

为建立基于hadoop的数据管道安排工具的建议

在Apache Oozie, Spotify / Luigi 和 airbnb / airflow ,他们每个人的优点和缺点是什么? 过去我使用oozie和airflow来建立一个使用PIG和Hive的数据摄入管道。目前,我正在构建一个查看日志并提取有用事件并将其置于红移的管道。 我发现气流更容易使用/测试/设置。它有一个更酷的用户界面,并允许用户从用户界面本身执行操作,这与Oozie ..
发布时间:2018-05-31 19:41:33 分布式计算/Hadoop

Sqoop自由格式查询在Hue / Oozie中导致无法识别的参数

我试图用自由格式查询运行sqoop命令,因为我需要执行聚合。它通过Hue界面提交,作为Oozie工作流程。以下是命令和查询的缩小版本。处理命令时,“--query”语句(用引号括起来)导致查询的每个部分被解释为无法识别的参数,如命令后面的错误所示。另外,目标目录被误解。什么阻止了它的运行,以及可以采取哪些措施来解决它? $ {env}和$ {shard}变量正在被正确解析,正如最后一条错误消息所反 ..
发布时间:2018-05-31 19:40:09 分布式计算/Hadoop

如何在oozie中指定多个jar文件

我需要一个针对以下问题的解决方案: 我的项目有两个罐子,其中一个jar包含所有bean类,比如Employee等,其他jar包含使用第一个jar bean类的MR作业,所以当iam试图运行MR作为一个简单的java程序时,我面临的类未找到问题(com.abc.Employee类未找到,因为它在另一个jar )所以任何人都可以为我提供解决方案,如何解决问题....实时可能会有很多罐子不是1或2如何 ..
发布时间:2018-05-31 19:36:04 分布式计算/Hadoop

我可以动态地重命名oozie作业名称吗?

我们有一个Hadoop服务,我们有多个应用程序。我们需要通过重新执行相同的工作流程来处理每个应用程序的数据。这些计划将在一天的同一时间执行。问题是当这些作业运行时很难知道作业运行/失败/成功的应用程序。当然,我可以打开工作配置并知道它,但这需要时间,因为有10个应用程序在该服务下运行。 oozie中有任何选项可以动态在执行作业时传递工作流的名称(或其一部分),例如 oozie job ..
发布时间:2018-05-31 19:33:44 分布式计算/Hadoop

在一个目录中是否可以有两个oozie workflow.xml文件?

在一个目录中是否有两个oozie workflow.xml文件? 如果是这样,我该如何指导oozie runner运行哪一个? 解决方案 您可以有两个工作流文件(只给它们唯一的名称),然后您可以通过设置 oozie.wf.application.path 在你的配置文件中的值: oozie.wf.application。 path = hdfs:// namenode:900 ..
发布时间:2018-05-31 19:23:04 分布式计算/Hadoop

无法从配置单元客户端找到由oozie配置单元操作创建的表,但可以在HDFS中找到它们

我试图通过Oozie Hive Action运行配置单元脚本,我在我的script.q中创建了一个配置单元表'test',oozie作业成功运行,我可以在hdfs路径下找到由oozie作业创建的表/用户/蜂巢/仓库。但是我无法通过Hive Client中的命令“show tables”找到'test'表。 我认为我的metastore配置有问题,但我无法弄清楚。 有人可以帮忙吗? ..
发布时间:2018-05-31 19:22:34 分布式计算/Hadoop

外部客户如何通过HTTP回调来通知Oozie工作流

假设我们有一个Oozie工作流程由3个Java动作节点启动的情况。每个Java操作都将对Oozie / Hadoop集群外部的外部Web服务(例如google.com,yahoo.com等公开的某些Web服务)进行异步HTTP调用。我认为这是可行的,因为Oozie支持自定义操作节点。 现在,我不想让Oozie不时地轮询外部Web服务,工作是在外部Web服务中完成的。我想要有外部Web服务(让 ..
发布时间:2018-05-31 19:22:29 分布式计算/Hadoop

oozie如何处理依赖关系?

我有几个关于oozie 2.3共享库的问题: 目前,我在coordinator.properties中定义了共享库: oozie.use.system.libpath = true oozie.libpath = 以下是我的问题: 将共享库复制到其他数据节点时,有多少数据节点将获得共享库? 共享库根据协调员作业中的w ..
发布时间:2018-05-31 19:18:43 分布式计算/Hadoop

Oozie SSH操作

Oozie SSH行动问题: 问题: 我们正尝试在我们的特定主机上运行少量命令簇。我们同样选择了SSH Action。一段时间以来,我们一直面临着这个SSH问题。这里真正的问题是什么?请指向我的解决方案。 logs: AUTH_FAILED:执行操作[ssh -o PasswordAuthentication = no -o KbdInteractiveDevices = no ..
发布时间:2018-05-31 19:11:18 分布式计算/Hadoop

IOException:运行oozie工作流时,Filesystem关闭异常

我们正在oozie中运行一个工作流程。 它包含两个操作:第一个是在hdfs中生成文件的map reduce作业,第二个是应该将文件中的数据复制到数据库的作业。 这两个部分都成功完成,但oozie在结尾处引发异常,将其标记为失败的进程。 这是例外情况: 2014-05-20 17:29:32,242错误org.apache.hadoop.security.UserGroupIn ..
发布时间:2018-05-31 19:08:07 分布式计算/Hadoop

用Oozie使用sqoop观察重复项

我已经构建了一个sqoop程序,以便使用预先构建的sqoop作业将数据从MySQL导入到HDFS中: sqoop job -fs $ driver_path -D mapreduce.map.java.opts =“-Duser.timezone = Europe / Paris”\ --create job_parquet_table - import -m $ nodes_nu ..
发布时间:2018-05-31 19:01:59 分布式计算/Hadoop

Oozie与Hadoop 2,作业挂在“正在运行”

我有一个java动作节点的工作流作业。使用Hadoop 2.1.0.2.0.4.0-38和Oozie 3.3.2.2.0.4.0运行 当我提交作业时,在Hadoop Resource Manager屏幕中看到2行。 1.原始作业名称 2.带有Oozie作业名称。 具有Oozie作业名称的任务挂在“RUNNING”状态 具有原始名称的任务处于“已接受”状态。 我在日志中看到的所有内容 ..
发布时间:2018-05-31 18:58:45 分布式计算/Hadoop

Oozie> Java动作>为什么财产oozie.launcher.mapred.child.java.opts不起作用

我正在使用Java操作来处理Oozie。 Java操作应该使用Java选项-Xmx15g。因此,我将属性oozie.mapreduce.map.memory.mb设置为25600(25G),以防需要额外的内存。 经过这个简单的设置,我运行了Oozie作业,然后在Java运行时出现OutofMemory(堆空间不足)错误。 因此,我根据以下链接将oozie.launcher.mapred ..
发布时间:2018-05-31 18:39:33 Java开发

如何使用多个映射器为多输入路径配置oozie工作流

任何人都可以帮助我使用Map-Reduce操作配置工作流程,这需要多个输入路径,每个输入路径都与一个Mapper关联,就像MultipleInputs.addInputPath api采用输入路径和映射器一样。 我用java操作尝试了这个,但它只会执行一个map任务。但在这里输入路径包含巨大的数据,所以在这种情况下,java行为不会成为我们。 有没有办法处理这种情况? 问候, ..
发布时间:2018-05-31 18:38:29 分布式计算/Hadoop

Apache Oozie无法加载ShareLib

我得到了以下oozie.log: org.apache.oozie.service.ServiceException:E0104:无法完全初始化服务[org.apache.oozie.service.ShareLibService],无法缓存sharelib。管理员需要使用oozie-setup.sh安装sharelib,并发出'oozie admin'CLI命令更新sharelib ..
发布时间:2018-05-31 18:38:04 分布式计算/Hadoop