oozie相关内容

强制Oozie作业在特定节点上运行

我有一个6节点的群集。 当试图运行一个oozie作业时,它会在6个节点中的任何一个中触发作业 有没有办法指定应该触发oozie shell动作的节点? 解决方案 您可以为此使用oozie的spark-action。 请参阅: https://oozie.apache.org/docs/4.2.0/DG_SparkActionExtension.html ..
发布时间:2018-05-31 20:11:39 分布式计算/Hadoop

Oozie工作流程中的多个JAVA操作

我读过文档,说不可能在工作流中创建一个循环,但我需要每次使用列表项时分别调用main方法 - 因此需要创建一个循环。 一个解决方案是使用子工作流程再次调用工作流程。 是否有其他解决方案?像使用协调员工作? 解决方案 按照您的说法创建一个自定义java操作,该操作使用Oozie Client API运行多个工作流程(列表中的每个项目都有一个工作流程)。然后,您可以并行或串行运 ..
发布时间:2018-05-31 20:09:16 分布式计算/Hadoop

Distcp - 容器运行超出物理内存限制

我已经用distcp挣扎了好几天,我发誓我的搜索引擎已经够用了。这里是我的用例: USE CASE 我在某个位置有一个主文件夹, em> / hdfs / root ,有很多subdirs(深度不固定)和文件。 卷:200,000个文件〜= 30 GO p> 我需要在另一个位置复制一个客户端的子集 / hdfs / root ,例如/ hdfs / dest 这个子集是由 ..

以Oozie工作流的变量捕获Oozie中的Spark Action Node的控制台输出

有没有办法在Oozie中捕获火花任务的控制台输出?我想在spark工作后的下一个action节点中使用特定的打印值。 我在想我可能会使用 $ {wf:actionData(“action-id”)[“Variable”]} 但似乎oozie没有能力捕获spark动作节点的输出,使用 echo“var = 12345”,然后调用oozie中的wf:actionData以用作整个工作流程中的Oo ..
发布时间:2018-05-31 20:03:59 分布式计算/Hadoop

通过Oozie命令行指定多个过滤条件

我试图通过命令行来搜索某些特定的oozie作业。 我使用以下语法来查看同一个元素: $ oozie jobs -filter status = RUNNING; status = KILLED 然而,该命令仅返回正在运行的作业而不是杀死作业。需要帮助解决为什么多个条件是没有工作(我期待的结果为运行和杀死作业进行ORed中提到的官方oozie文档) 我在这里错过了一些明显的东西吗 ..
发布时间:2018-05-31 20:03:07 分布式计算/Hadoop

你如何追踪oozie工作日志?

$ oozie job -oozie http:// localhost:8080 / oozie - 日志14-20090525161321-oozie-joe 这将打印所有内容。但是我想只看到最后几行。 我如何尾巴oozie工作日志? 谢谢 解决方案 正如克里斯在上面所建议的,使用它来打印最后10行 $ oozie job -oozi ..
发布时间:2018-05-31 19:59:41 分布式计算/Hadoop

Sqoop导出Oozie工作流失败,未找到文件,从控制台运行时运行

我有一个6节点的hadoop集群。我将数据从MSSQL中提取出来,然后通过Sqoop返回到MSSQL中。 Sqoop导入命令正常工作,并且我可以从控制台(在其中一个hadoop节点上)运行sqoop export命令。下面是我运行的shell脚本: SQLHOST = sqlservermaster.local SQLDBNAME = db1 HIVEDBNAME = db1 ..
发布时间:2018-05-31 19:56:34 分布式计算/Hadoop

Oozie shell脚本操作

我正在探索Oozie管理Hadoop工作流程的功能。我试图设置一个调用一些配置单元命令的shell动作。我的shell脚本hive.sh如下所示: #!/ bin / bash hive -f hivescript 其中hive脚本(已独立测试)创建一些表格等等。我的问题是在何处保留hivescript,然后如何从shell脚本中引用它。 我尝试了两种方式, ..
发布时间:2018-05-31 19:56:15 分布式计算/Hadoop

Hadoop作业失败,资源管理器不能识别AttemptID

我试图在Oozie工作流中汇总一些数据。然而,汇总步骤失败。 我在日志中发现了两点兴趣:第一个错误(?)似乎反复出现: 在容器完成后,它会被杀死,但会以非零的退出代码143退出。 完成: 2015-05-04 15:35:12,013信息[49697上的IPC服务器处理程序7] org.apache.hadoop.mapred.TaskAttemptListenerImp ..
发布时间:2018-05-31 19:56:03 分布式计算/Hadoop

org.apache.hadoop.mapreduce.counters.LimitExceededException:太多计数器:121 max = 120

我得到如下错误: org.apache。 我正在运行一个hadoop作业(来自oozie),它有很少的计数器和多输出。 hadoop.mapreduce.counters.LimitExceededException:计数器太多:121 max = 120 然后我删除了所有有计数器的代码,并且将mout.setCountersEnabled设置为false。 并且将hadoop配置中的 ..
发布时间:2018-05-31 19:53:16 Java开发

Oozie shell操作不会以提交用户身份运行

我编写了一个Oozie工作流,运行BASH shell脚本来执行一些配置单元查询并对结果执行一些操作。脚本运行但在访问某些HDFS数据时抛出权限错误。提交Oozie工作流的用户拥有权限,但脚本以纱线用户身份运行。 是否可以让Oozie以提交工作流的用户身份执行脚本? Hive和Java动作都以提交的用户身份执行,只是shell的行为有所不同。 以下是我的Oozie动作的大致轮廓 ..
发布时间:2018-05-31 19:52:43 分布式计算/Hadoop

导出Oozie Web控制台中列出的作业

如果这个问题听起来很基本,我很抱歉,我完全是Hadoop环境中的新手。 > 就我而言,计划每天都有计划运行的作业,并且我希望每天在Excel表格中导出失败的作业列表。 我如何查看工作流程作业? 目前我使用Oozie Web控制台查看作业,我没有/看到一个选项导出。此外, 我无法从 Oozie文档。 然而,我发现作业可以使用命令列出,比如 $ oozie jobs - ..
发布时间:2018-05-31 19:50:09 分布式计算/Hadoop

关于Oozie / Sqoop的问题

我有几个问题: 1。为什么Sqoop中的MapReduce进程将数据从HDFS加载到MySQL? 例如 数据在HDFS中目录: / foo / bar 为了加载MySQL栏表中的数据, MapReduce进程? sqoop export --connect jdbc:mysql:// localhost / hduser --ta ..
发布时间:2018-05-31 19:43:29 分布式计算/Hadoop

Python与oozie子进程

我试图在一个 python 脚本中使用 subprocess ,我在 oozie shell动作。 Subprocess 应该读取存储在Hadoop HDFS中的文件。 我正在使用hadoop-1.2。 1以伪分布模式和oozie-3.3.2。 这是 python 脚本,名为 connected_subprocess.py : #!/ usr / bin / python ..
发布时间:2018-05-31 19:42:54 Python

并行运行Oozie操作

我使用Hue中的工作流编辑器来开发Oozie工作流程。有一些行为应该并行执行。 是否可以同时执行两个或多个操作? 如何设置它在Hue? 解决方案 是的,这是可能的。在各种 Oozie工作流节点中,有两个控制节点 fork 和加入: fork节点将执行的一个路径分割为多个并发执行路径。 一个连接节点等待,直到前一个分叉节点的每个并发执行路径到达它为止。 fork ..
发布时间:2018-05-31 19:41:46 分布式计算/Hadoop