oozie相关内容
日期 $ {coord:formatTime(coord:dateOffset(coord:nominalTime(),-1, 'DAY'),“yyyy-MM-dd”)} 我的配置单元操作是: <脚本> /abc/test.hql
..
我有一个6节点的群集。 当试图运行一个oozie作业时,它会在6个节点中的任何一个中触发作业 有没有办法指定应该触发oozie shell动作的节点? 解决方案 您可以为此使用oozie的spark-action。 请参阅: https://oozie.apache.org/docs/4.2.0/DG_SparkActionExtension.html
..
是否可以编写EL函数来读取oozie中的HDFS文件 是的,您可以编写任何EL函数你喜欢,请参阅本博客文章以获得指示。
..
我读过文档,说不可能在工作流中创建一个循环,但我需要每次使用列表项时分别调用main方法 - 因此需要创建一个循环。 一个解决方案是使用子工作流程再次调用工作流程。 是否有其他解决方案?像使用协调员工作? 解决方案 按照您的说法创建一个自定义java操作,该操作使用Oozie Client API运行多个工作流程(列表中的每个项目都有一个工作流程)。然后,您可以并行或串行运
..
当试图执行一个sqoop作业时,我的Hadoop程序作为一个jar文件在 -jarFiles 参数中传递,执行过程中出现以下错误。任何解决方案似乎都不可用。 org.apache.hadoop.yarn.exceptions.YarnRuntimeException:java.io .FileNotFoundException:文件不存在:hdfs://sandbox.hortonwork
..
我已经用distcp挣扎了好几天,我发誓我的搜索引擎已经够用了。这里是我的用例: USE CASE 我在某个位置有一个主文件夹, em> / hdfs / root ,有很多subdirs(深度不固定)和文件。 卷:200,000个文件〜= 30 GO p> 我需要在另一个位置复制一个客户端的子集 / hdfs / root ,例如/ hdfs / dest 这个子集是由
..
有没有办法在Oozie中捕获火花任务的控制台输出?我想在spark工作后的下一个action节点中使用特定的打印值。 我在想我可能会使用 $ {wf:actionData(“action-id”)[“Variable”]} 但似乎oozie没有能力捕获spark动作节点的输出,使用 echo“var = 12345”,然后调用oozie中的wf:actionData以用作整个工作流程中的Oo
..
我试图通过命令行来搜索某些特定的oozie作业。 我使用以下语法来查看同一个元素: $ oozie jobs -filter status = RUNNING; status = KILLED 然而,该命令仅返回正在运行的作业而不是杀死作业。需要帮助解决为什么多个条件是没有工作(我期待的结果为运行和杀死作业进行ORed中提到的官方oozie文档) 我在这里错过了一些明显的东西吗
..
$ oozie job -oozie http:// localhost:8080 / oozie - 日志14-20090525161321-oozie-joe 这将打印所有内容。但是我想只看到最后几行。 我如何尾巴oozie工作日志? 谢谢 解决方案 正如克里斯在上面所建议的,使用它来打印最后10行 $ oozie job -oozi
..
我的oozie作业使用2个jar x.jar 和 y.jar ,以下是我的job.properties文件。 oozie.libpath = / lib oozie.use.system.libpath = true 当两个罐子在HDFS的 /lib/x.jar 和 /lib/y.jar 现在我有两个放置在不同位置的罐子 /lib/1/x.jar 和 /
..
我有一个6节点的hadoop集群。我将数据从MSSQL中提取出来,然后通过Sqoop返回到MSSQL中。 Sqoop导入命令正常工作,并且我可以从控制台(在其中一个hadoop节点上)运行sqoop export命令。下面是我运行的shell脚本: SQLHOST = sqlservermaster.local SQLDBNAME = db1 HIVEDBNAME = db1
..
我正在探索Oozie管理Hadoop工作流程的功能。我试图设置一个调用一些配置单元命令的shell动作。我的shell脚本hive.sh如下所示: #!/ bin / bash hive -f hivescript 其中hive脚本(已独立测试)创建一些表格等等。我的问题是在何处保留hivescript,然后如何从shell脚本中引用它。 我尝试了两种方式,
..
我试图在Oozie工作流中汇总一些数据。然而,汇总步骤失败。 我在日志中发现了两点兴趣:第一个错误(?)似乎反复出现: 在容器完成后,它会被杀死,但会以非零的退出代码143退出。 完成: 2015-05-04 15:35:12,013信息[49697上的IPC服务器处理程序7] org.apache.hadoop.mapred.TaskAttemptListenerImp
..
我得到如下错误: org.apache。 我正在运行一个hadoop作业(来自oozie),它有很少的计数器和多输出。 hadoop.mapreduce.counters.LimitExceededException:计数器太多:121 max = 120 然后我删除了所有有计数器的代码,并且将mout.setCountersEnabled设置为false。 并且将hadoop配置中的
..
我编写了一个Oozie工作流,运行BASH shell脚本来执行一些配置单元查询并对结果执行一些操作。脚本运行但在访问某些HDFS数据时抛出权限错误。提交Oozie工作流的用户拥有权限,但脚本以纱线用户身份运行。 是否可以让Oozie以提交工作流的用户身份执行脚本? Hive和Java动作都以提交的用户身份执行,只是shell的行为有所不同。 以下是我的Oozie动作的大致轮廓
..
我尝试使用 Java客户端提交Oozie作业来自另一个Job的java动作的API 。该群集正在使用Kerberos。 以下是我的代码: //获取OozieClient for本地Oozie 字符串oozieUrl =“http://hadooputl02.northamerica.xyz.net:11000/oozie/”; AuthOozieClient wc = new
..
如果这个问题听起来很基本,我很抱歉,我完全是Hadoop环境中的新手。 > 就我而言,计划每天都有计划运行的作业,并且我希望每天在Excel表格中导出失败的作业列表。 我如何查看工作流程作业? 目前我使用Oozie Web控制台查看作业,我没有/看到一个选项导出。此外, 我无法从 Oozie文档。 然而,我发现作业可以使用命令列出,比如 $ oozie jobs -
..
我有几个问题: 1。为什么Sqoop中的MapReduce进程将数据从HDFS加载到MySQL? 例如 数据在HDFS中目录: / foo / bar 为了加载MySQL栏表中的数据, MapReduce进程? sqoop export --connect jdbc:mysql:// localhost / hduser --ta
..
我试图在一个 python 脚本中使用 subprocess ,我在 oozie shell动作。 Subprocess 应该读取存储在Hadoop HDFS中的文件。 我正在使用hadoop-1.2。 1以伪分布模式和oozie-3.3.2。 这是 python 脚本,名为 connected_subprocess.py : #!/ usr / bin / python
..
我使用Hue中的工作流编辑器来开发Oozie工作流程。有一些行为应该并行执行。 是否可以同时执行两个或多个操作? 如何设置它在Hue? 解决方案 是的,这是可能的。在各种 Oozie工作流节点中,有两个控制节点 fork 和加入: fork节点将执行的一个路径分割为多个并发执行路径。 一个连接节点等待,直到前一个分叉节点的每个并发执行路径到达它为止。 fork
..