oozie相关内容

Oozie从外壳作业操作中压制日志?

我有一个运行Shell脚本的简单工作流程(见下文). Shell脚本运行pyspark脚本,该脚本将文件从本地移动到hdfs文件夹. 当我运行shell脚本本身时,它可以完美运行,通过shell脚本中的> spark.txt 2>& 1将日志重定向到文件夹. 但是,当我按照以下工作流程提交oozie作业时,shell的输出似乎被抑制了.我试图重定向所有可能的oozie日志(-verbo ..
发布时间:2020-05-03 08:00:51 其他开发

使用keytab提交oozie作业

我正在使用一个keytab文件绕过kerberos,从而通过oozie运行shell脚本. Shell脚本包含hbase shell命令,因此我需要在运行hbase shell命令之前先进行一次kinit.这对我来说很好. 因此,在我使用协调器启动作业并使用keytab(服务帐户)在工作流中包含多个shell脚本的情况下,oozie是否会发生冲突?因为我使用oozie coordinator ..
发布时间:2020-04-25 11:13:06 其他开发

oozie java api提交作业,kerberos身份验证错误

我有hadoop-2.7集群,oozie-4.0.1以安全模式运行(使用kerberos). 一切都很好.我可以使用cli命令提交作业,如下所示: 初始化myuser oozie作业-oozie https://10.1.130.10:21003/oozie -config job.properties -运行 但是我使用oozie java api提交作业,发生kerberos异常 ..
发布时间:2020-04-25 11:11:38 其他开发

oozie与配置单元导入的sqoop动作

我有一个sqoop操作,它从postgres数据库中提取数据,然后导入配置单元表。当我执行oozie工作流时,scoop将来自postgres的数据拖入HDFS。但它无法将数据导入配置单元表。日志没有任何用处,因为我只是获取Main类[org.apache.oozie.action.hadoop.SqoopMain],从oozie Web控制台UI中退出代码[1]。我们实际上可以在sqoop动作中 ..
发布时间:2018-06-12 14:19:39 其他开发

使用Oozie使用Hive / Hadoop安排即席查询

Oozie是否支持用户通过REST API调度特定的Hive查询? 我们正在构建一个系统,用户可以在其中搜索文档Hadoop,支持用户(可选)指定要搜索的数据的某些属性,使用Hive执行针对Hadoop的查询。由于对可选字段的这种支持,我们并不知道Hive查询会是什么样子(就Hive查询中将使用哪些表而言)。我们有一个服务,在运行时,我们处理用户的查询以生成相应的Hive查询。 我们希 ..
发布时间:2018-06-12 14:15:45 Java开发

Oozie工作流程:未找到Hive表,但它确实存在

我有一个oozie工作流程,运行在一台由4台机器组成的CDH4集群上(一台主机一台,三台“哑巴”工人)。配置单元Metastore使用mysql(驱动程序存在)在主服务器上运行,oozie服务器也使用mysql在主服务器上运行。使用Web界面,我可以按预期方式导入和查询配置单元,但是当我在oozie工作流程中执行相同的查询时,它会失败。即使添加“IF EXISTS”也会导致下面的错误。我尝试将连接 ..
发布时间:2018-06-12 13:49:27 其他开发

如何为oozi java工作流程启用/设置log4j?

我正在运行一个Oozie Java工作流程(jar文件位于HDFS中),我想为我的应用程序添加日志记录功能。有人知道该怎么做吗?我应该在哪里放置我的“log4j.properties”文件?我如何使log4j将日志输出到HDFS中的某个位置? /oozie.apache.org/docs/3.3.0/AG_OozieLogging.html“rel =”nofollow noreferrer“>本 ..
发布时间:2018-06-06 11:18:21 Java开发

动态计算oozie参数(MR动作减速器的数量)

在我的oozie工作流程中,我动态地创建一个配置表格,比如说T1。这个配置单元动作之后是一个map-reduce动作。我想设置reducers属性的数量(mapred.reduce.tasks)等于字段say(T1.group)的不同值。任何想法如何动态设置一些oozie参数的值,以及如何从配置单元不同的操作中获取参数的值到oozie参数? 解决方案 我希望这可以帮助: 创建配置单元 ..
发布时间:2018-06-01 12:44:23 分布式计算/Hadoop

如何用hadoop-2.2在oozie中执行mapreduce程序

在ubuntu中2.2.0和oozie-4.0.0。我无法在oozie中执行mapreduce程序。 我是oozie中jobtracker 8032的uisng资源管理器端口号。 在oozie中调度运行状态和运行在纱线也有一段时间后,我得到这样的错误(下面)在hadoop日志,仍然在oozie日志中运行 错误: 2014-05-30 10:38:14,322 INFO [ ..
发布时间:2018-06-01 12:36:08 分布式计算/Hadoop

安装oozie sharelib

作为测试设置的一部分,我希望将oozie sharelib安装到HDFS,而无需构建oozie软件包。我无法在任何thre库中找到oozie-sharelib.tar.gz。 任何想法都可以在不下载/构建oozie的情况下完成? 感谢! 解决方案 由于每个人都提及其不推荐,但如果你想要获得SharedLib转储,您必须从Oozie网站下载相同的Oozie版本,因为ShareLi ..
发布时间:2018-06-01 12:35:07 分布式计算/Hadoop

将数据配置到Hadoop MR / Pig中的作业

我有三种不同类型的作业在HDFS上的数据上运行。 这三项工作必须在当前情况下单独运行。 现在,我们希望通过将一个作业的OUTPUT数据传输到另一个作业而无需在HDFS中写入数据来改进架构和整体性能,从而一起运行三个作业。 欢迎您提出任何建议。 PS:Oozie不适合工作流程。由于可伸缩性问题,也排除了级联框架。 谢谢 解决方案 Hadoop在M / R步骤之后固有写入存储( ..
发布时间:2018-05-31 20:28:14 分布式计算/Hadoop

OOZIE中的多输入路径配置

我正在尝试在oozie中配置一个Mapreduce作业。该作业有两种不同的输入格式和两个输入数据文件夹。我用这个帖子如何配置oozie具有多个映射器的多输入路径工作流程 并将这些属性添加到我的workflow.xml中: mapred.input.dir.formats 文件夹/ data / *; org.apach ..
发布时间:2018-05-31 20:23:26 分布式计算/Hadoop

Oozie工作流配置单元动作卡在RUNNING中

我从Hortonworks发行版运行Hadoop 2.4.0,Oozie 4.0.0,Hive 0.13.0。 我有多个Oozie协调器作业可以启动工作流程大约在同一时间。协调器作业每个都监视不同的目录,当_SUCCESS文件显示在这些目录中时,工作流将启动。 工作流运行Hive操作,从外部目录读取并复制东西。 SET hive.exec.dynamic.partition = ..
发布时间:2018-05-31 20:20:58 分布式计算/Hadoop

Oozie - 任务日志不显示

使用CDH 5,当我运行我的oozie工作流程时,我不再看到来自映射器(log4j,slf4j)的日志语句。我什至试过System.out.println - 我仍然没有看到这些陈述。有没有我缺少的设置? 解决方案 事实证明,日志仍然存在,除非您需要手动指向您的浏览器。例如,单击map-reduce动作仍会打开作业日志页面,如( http:// localhost:50030 / jobd ..
发布时间:2018-05-31 20:17:30 分布式计算/Hadoop

缩短Oozie工作流程

我使用Oozie将一组MapReduce作业串起来。由于需要大量的属性,每个作业的单独存根长约400行。这些属性中的大多数在作业之间是相同的,并使用在config-default.xml中设置的配置。我希望能够缩短每个存根并集中共同属性,因为在创建新作业时必须计算出哪些属性是常见的,这是非常不切实际的。 显而易见的解决方案是通过将常用属性放入每个存根中使用job-xml标签调用的job.xm ..
发布时间:2018-05-31 20:16:33 分布式计算/Hadoop

在Oozie中优化多个Hive QL

我对蜂房不够熟悉,所以我在这里。我们正在使用Oozie来链接一堆配置单元。我的任务是优化已在我们的生产环境中运行的应用程序。业务合作伙伴不希望花费比1.5小时更长的时间。我注意到的第一件事情之一就是在这一个工作流程中大约有90个oozie动作。我们还与其他应用程序共享纱线队列。其中一半是hive2操作,每个Hive QL操作只能执行一个HQL语句。 HiveQL操作之间有时会出现延迟,因为Oozi ..
发布时间:2018-05-31 20:13:29 Java开发