分布式计算/Hadoop

Presto unnest json

回答这个问题:如何交叉加入unnest一个json数组presto 我尝试运行提供的示例,但是 我得到并且出错,同时这样做 SQL命令: 从 中选择xn unnest(cast (json_extract('{“payload':[{”type“:”b“,”value“:”9“}, {”type“:”a“,”value“:”8“}] }','$。payload')as a ..
发布时间:2018-05-31 20:12:16 分布式计算/Hadoop

Nutch在Hadoop 2.x中

我有一个运行Hadoop 2.2.0和HBase 0.98.1的三节点集群,我需要在其上使用Nutch 2.2.1爬行程序。但它只支持1.x分支的Hadoop版本。现在我可以向我的集群提交一个Nutch作业,但是它失败了,并且java.lang.NumberFormatException异常。 所以我的问题很简单:我如何让Nutch在我的环境中工作? 现在它是不可能将Nutch 2.2.1(Go ..
发布时间:2018-05-31 20:12:07 分布式计算/Hadoop

hdfs-site.xml上的配置属性是否适用于hadoop中的NameNode?

我最近为 hadoop 设置了一个测试环境集群 - 一个主控和两个从属。 不是数据节点(尽管有些使用主节点作为主节点和从节点)。 所以基本上我有2个datanodes。复制的默认配置是3. 最初,我没有更改 conf / hdfs-site.xml 上的任何配置。我得到错误只能复制到0节点而不是1 。 然后我改变了我的主站和从站的 conf / hdfs-site.xml 中的配置,如 ..
发布时间:2018-05-31 20:12:04 分布式计算/Hadoop

将正常列转换为配置单元中的分区列

我有一个3列的表。现在我需要修改其中一列作为分区列。 有没有可能?如果不是,我们如何将分区添加到现有表中。我使用了下面的语法: create table t1(eno int,ename string)以'\ t'结尾的行格式分隔字段; 将数据本地'/....path/'加载到表t1中; alter table t1添加分区(p1 ='india'); .. 任何人都知道如何将 ..
发布时间:2018-05-31 20:11:57 分布式计算/Hadoop

强制Oozie作业在特定节点上运行

我有一个6节点的群集。 当试图运行一个oozie作业时,它会在6个节点中的任何一个中触发作业 有没有办法指定应该触发oozie shell动作的节点? 解决方案 您可以为此使用oozie的spark-action。 请参阅: https://oozie.apache.org/docs/4.2.0/DG_SparkActionExtension.html ..
发布时间:2018-05-31 20:11:39 分布式计算/Hadoop

将可执行jar发送到hadoop集群并作为“hadoop jar”运行

我通常使用main方法创建一个可执行的jar包,并通过命令行“hadoop jar Some.jar ClassWithMain输入输出”运行。 在这个主要方法中,Job并且可以配置Configuration,Configuration类有一个setter来指定映射器或reducer类,比如conf.setMapperClass(Mapper.class)。 然而,在提交作业的情况下远 ..
发布时间:2018-05-31 20:11:29 分布式计算/Hadoop

查询avro-backed hive表时出错:java.lang.IllegalArgumentException

我试图在从BigQuery中的原始Google Analytics数据导出的avro文件中创建天蓝色HDInsight上的配置单元表。 它似乎有效。我可以创建表格,并且在运行DESCRIBE时没有错误。但是当我尝试选择结果时,即使我只选择两个非嵌套列,我也会得到一个错误:“java.lang.IllegalArgumentException”。 我创建了表格: DROP TAB ..
发布时间:2018-05-31 20:11:27 分布式计算/Hadoop

hbase复制和快照命令之间的区别

我在hbase中有一个包含大量数据的表,所以我希望在这种情况下使用表的背面,这是很好的 1--复制命令以获取表格的备份 2 - 获取该表格的快照 还请解释快照的内部机制是简单的重命名表? 问候 Amit 解决方案 快照最好。 HBase快照允许您在不影响Region Server的情况下拍摄表的快照。快照,克隆和恢复操作不涉及数据复制。另外,将快照导出到另一个群 ..
发布时间:2018-05-31 20:11:24 分布式计算/Hadoop

如何使用Hive / Pig / MapReduce来展开递归层次结构

我有以表格格式存储的不平衡树数据,如: 父,子 a,b b,c c,d c,f f,g 树的深度是未知的。 以扁平化该层次结构,其中每行包含从一个行中的叶节点到根节点的整个路径,如下所示: 叶节点,根节点,中间节点 d,a,d:c:b f,a,e:b 使用配置单元,猪或mapreduce解决上述问题的任何建议 ..
发布时间:2018-05-31 20:11:21 分布式计算/Hadoop

如何获取Hive数据库中的所有表定义?

我正在寻找Hive中的所有表格定义。我知道,对于单表定义,我可以使用类似于 - 描述> 描述扩展> 但是,我找不到获取所有表定义的方法。在megastore中是否有任何类似于MySQL中的Information_Schema的表或者是否有命令来获取所有表定义? 解决方案 您可以执行此操作通过编写一个简单的ba ..
发布时间:2018-05-31 20:11:09 分布式计算/Hadoop

如何防止`hadoop fs rmr< uri>`创建$ folder $文件?

我们正在使用Amazon的Elastic Map Reduce来执行一些大型文件处理作业。作为我们工作流程的一部分,我们偶尔需要从S3中删除可能已经存在的文件。我们使用hadoop fs接口,如下所示: hadoop fs -rmr s3:// mybucket / a / b / myfile.log 这会从S3中适当地移除文件,但在它的位置留下一个名为“ S3:// ..
发布时间:2018-05-31 20:10:52 分布式计算/Hadoop

Flume阅读Facebook页面/ feed / post

任何人都知道如何使用水槽,以便它从Facebook页面读取数据? 实际上,我希望有一个能够读取特定Facebook页面并提取所有信息(如post / feed)并将数据推送到Hadoop数据库的渠道代理。 解决方案 正如来自Facebook的Flume流数据。 情感分析项目包含以下内容: 1)用于Facebook的示例PHP代码获取和发布 $ b Facebook Faceb ..
发布时间:2018-05-31 20:10:44 分布式计算/Hadoop

组合器是否适用于多个映射器的结果?

如果多个映射器在同一个节点上执行,合并器会合并多个映射器的结果吗? 我无法在文档或书籍中找到答案。我能找到的合并器示例似乎都有所作为,即使它只能聚合来自一个映射器的结果。 解决方案 措辞在雅虎的教程中(在Leonard的回答中提到)似乎是误导性的。 到目前为止,我们为每个地图任务获得一个组合器。这个问题建议的功能仍在开发中: https://issues.apache.org/ ..
发布时间:2018-05-31 20:10:37 分布式计算/Hadoop

如何实施复杂的编校?

Hadoop只能通过修改HDFS配置来支持简单的编辑,例如:有一个卡号A:“1234-5678-8765-4321”,它可以是由正则表达式识别,然后替换为预定义的表达式,如:“XXXX-XXXX-XXXX-XXXX”,如下所示: “1234-bng” 5678-XXXX-4321“而不是预定义的表达式? 解决方案 您可以使用()来获取模式, $ 1 $ 2 ... $ n 将它们重新 ..
发布时间:2018-05-31 20:10:35 分布式计算/Hadoop