分布式计算/Hadoop 第18页 - IT屋-程序员软件开发技术分享社区

Presto unnest json

回答这个问题：如何交叉加入unnest一个json数组presto 我尝试运行提供的示例，但是我得到并且出错，同时这样做 SQL命令：从中选择xn unnest（cast （json_extract（'{“payload'：[{”type“：”b“，”value“：”9“}， {”type“：”a“，”value“：”8“}] }'，'$。payload'）as a ..

发布时间：2018-05-31 20:12:16 json hadoop hive prestodb presto 分布式计算/Hadoop

我有一个运行Hadoop 2.2.0和HBase 0.98.1的三节点集群，我需要在其上使用Nutch 2.2.1爬行程序。但它只支持1.x分支的Hadoop版本。现在我可以向我的集群提交一个Nutch作业，但是它失败了，并且java.lang.NumberFormatException异常。所以我的问题很简单：我如何让Nutch在我的环境中工作？现在它是不可能将Nutch 2.2.1（Go ..

发布时间：2018-05-31 20:12:07 hadoop hbase cluster-computing nutch 分布式计算/Hadoop

hdfs-site.xml上的配置属性是否适用于hadoop中的NameNode？

我最近为 hadoop 设置了一个测试环境集群 - 一个主控和两个从属。不是数据节点（尽管有些使用主节点作为主节点和从节点）。所以基本上我有2个datanodes。复制的默认配置是3. 最初，我没有更改 conf / hdfs-site.xml 上的任何配置。我得到错误只能复制到0节点而不是1 。然后我改变了我的主站和从站的 conf / hdfs-site.xml 中的配置，如 ..

发布时间：2018-05-31 20:12:04 hadoop mapreduce hdfs 分布式计算/Hadoop

将正常列转换为配置单元中的分区列

我有一个3列的表。现在我需要修改其中一列作为分区列。有没有可能？如果不是，我们如何将分区添加到现有表中。我使用了下面的语法： create table t1（eno int，ename string）以'\ t'结尾的行格式分隔字段; 将数据本地'/....path/'加载到表t1中; alter table t1添加分区（p1 ='india'）; .. 任何人都知道如何将 ..

发布时间：2018-05-31 20:11:57 hadoop hive partitioning hdfs hiveql 分布式计算/Hadoop

没有函数被映射到名称“coord：formatTime”

日期 $ {coord：formatTime（coord：dateOffset（coord：nominalTime（），-1， 'DAY'），“yyyy-MM-dd”）} 我的配置单元操作是： <脚本> /abc/test.hql ..

发布时间：2018-05-31 20:11:44 hadoop oozie 分布式计算/Hadoop

强制Oozie作业在特定节点上运行

我有一个6节点的群集。当试图运行一个oozie作业时，它会在6个节点中的任何一个中触发作业有没有办法指定应该触发oozie shell动作的节点？解决方案您可以为此使用oozie的spark-action。请参阅： https://oozie.apache.org/docs/4.2.0/DG_SparkActionExtension.html ..

发布时间：2018-05-31 20:11:39 hadoop oozie 分布式计算/Hadoop

猪存储具有自定义行/记录分隔符的文件

我有一个ctrlB作为记录分隔符的文件。我能够通过在Pig存储中重写LoaderInputFormat类和getInputFormat（）方法来读取猪中的文件。但我无法使用ctrlB作为记录分隔符存储文件。阅读 ctrl + b strong>分隔记录 SET textinputformat.record.delimiter'\\\ ' x = LOAD'xyz'使用PigStorage ..

发布时间：2018-05-31 20:11:37 hadoop mapreduce apache-pig 分布式计算/Hadoop

在配置单元中创建数据库时，权限被拒绝错误

我试图在配置单元中使用数据库，但是当我在HIVE中查询下面时： CREATE DATABASE BIGDATA; 我收到以下错误消息： FAILED：元数据错误：MetaException（消息：出现异常：org.apache.hadoop.security.AccessControlException org.apache.hadoop.securi ..

发布时间：2018-05-31 20:11:32 hadoop 分布式计算/Hadoop

将可执行jar发送到hadoop集群并作为“hadoop jar”运行

我通常使用main方法创建一个可执行的jar包，并通过命令行“hadoop jar Some.jar ClassWithMain输入输出”运行。在这个主要方法中，Job并且可以配置Configuration，Configuration类有一个setter来指定映射器或reducer类，比如conf.setMapperClass（Mapper.class）。然而，在提交作业的情况下远 ..

发布时间：2018-05-31 20:11:29 hadoop cloud bigdata 分布式计算/Hadoop

查询avro-backed hive表时出错：java.lang.IllegalArgumentException

我试图在从BigQuery中的原始Google Analytics数据导出的avro文件中创建天蓝色HDInsight上的配置单元表。它似乎有效。我可以创建表格，并且在运行DESCRIBE时没有错误。但是当我尝试选择结果时，即使我只选择两个非嵌套列，我也会得到一个错误：“java.lang.IllegalArgumentException”。我创建了表格： DROP TAB ..

发布时间：2018-05-31 20:11:27 hadoop hive google-bigquery hadoop2 avro 分布式计算/Hadoop

hbase复制和快照命令之间的区别

我在hbase中有一个包含大量数据的表，所以我希望在这种情况下使用表的背面，这是很好的 1--复制命令以获取表格的备份 2 - 获取该表格的快照还请解释快照的内部机制是简单的重命名表？问候 Amit 解决方案快照最好。 HBase快照允许您在不影响Region Server的情况下拍摄表的快照。快照，克隆和恢复操作不涉及数据复制。另外，将快照导出到另一个群 ..

发布时间：2018-05-31 20:11:24 hadoop hbase 分布式计算/Hadoop

如何使用Hive / Pig / MapReduce来展开递归层次结构

我有以表格格式存储的不平衡树数据，如：父，子 a，b b，c c，d c，f f，g 树的深度是未知的。以扁平化该层次结构，其中每行包含从一个行中的叶节点到根节点的整个路径，如下所示：叶节点，根节点，中间节点 d，a，d：c：b f，a，e：b 使用配置单元，猪或mapreduce解决上述问题的任何建议 ..

发布时间：2018-05-31 20:11:21 hadoop mapreduce hive apache-pig 分布式计算/Hadoop

无法在CDH 5.7.5中安装Spark 2.0

我试图在我的CDH 5.7.5群集中安装SPARK 2.0。虽然这样做我得到的误差 CDH（低于5.12）SPARK2所需的包裹（2.0.0.cloudera1-1 .cdh5.7.0.p0.113931）不可用 PS：后续 documentation 解决方案根据Cloudera的支持，它是5.7和5.8中的一个bug。添加到@Ruslan答案 ..

发布时间：2018-05-31 20:11:18 hadoop apache-spark cloudera cloudera-cdh 分布式计算/Hadoop

如何使用定制的Oozie EL函数读取HDFS文件

是否可以编写EL函数来读取oozie中的HDFS文件是的，您可以编写任何EL函数你喜欢，请参阅本博客文章以获得指示。 ..

发布时间：2018-05-31 20:11:16 hadoop hdfs el oozie 分布式计算/Hadoop

如何获取Hive数据库中的所有表定义？

我正在寻找Hive中的所有表格定义。我知道，对于单表定义，我可以使用类似于 - 描述> 描述扩展> 但是，我找不到获取所有表定义的方法。在megastore中是否有任何类似于MySQL中的Information_Schema的表或者是否有命令来获取所有表定义？解决方案您可以执行此操作通过编写一个简单的ba ..

发布时间：2018-05-31 20:11:09 hadoop hive bigdata 分布式计算/Hadoop

索引7中的权限非法字符：hdfs：// localhost：9000 with hadoop

Configuration configuration = new Configuration（）; configuration.set（“fs.default.name”，this.hdfsHost）; fs = FileSystem.get（configuration）; hdfsHost是127.0.0.1:9000。我有另一个运行相同代码 ..

发布时间：2018-05-31 20:11:02 exception hadoop hdfs 分布式计算/Hadoop

如何防止`hadoop fs rmr< uri>`创建$ folder $文件？

我们正在使用Amazon的Elastic Map Reduce来执行一些大型文件处理作业。作为我们工作流程的一部分，我们偶尔需要从S3中删除可能已经存在的文件。我们使用hadoop fs接口，如下所示： hadoop fs -rmr s3：// mybucket / a / b / myfile.log 这会从S3中适当地移除文件，但在它的位置留下一个名为“ S3：// ..

发布时间：2018-05-31 20:10:52 hadoop 分布式计算/Hadoop

Flume阅读Facebook页面/ feed / post

任何人都知道如何使用水槽，以便它从Facebook页面读取数据？实际上，我希望有一个能够读取特定Facebook页面并提取所有信息（如post / feed）并将数据推送到Hadoop数据库的渠道代理。解决方案正如来自Facebook的Flume流数据。情感分析项目包含以下内容： 1）用于Facebook的示例PHP代码获取和发布 $ b Facebook Faceb ..

发布时间：2018-05-31 20:10:44 facebook hadoop flume bigdata 分布式计算/Hadoop

组合器是否适用于多个映射器的结果？

如果多个映射器在同一个节点上执行，合并器会合并多个映射器的结果吗？我无法在文档或书籍中找到答案。我能找到的合并器示例似乎都有所作为，即使它只能聚合来自一个映射器的结果。解决方案措辞在雅虎的教程中（在Leonard的回答中提到）似乎是误导性的。到目前为止，我们为每个地图任务获得一个组合器。这个问题建议的功能仍在开发中： https://issues.apache.org/ ..

发布时间：2018-05-31 20:10:37 hadoop mapreduce 分布式计算/Hadoop

如何实施复杂的编校？

Hadoop只能通过修改HDFS配置来支持简单的编辑，例如：有一个卡号A：“1234-5678-8765-4321”，它可以是由正则表达式识别，然后替换为预定义的表达式，如：“XXXX-XXXX-XXXX-XXXX”，如下所示： “1234-bng” 5678-XXXX-4321“而不是预定义的表达式？解决方案您可以使用（）来获取模式， $ 1 $ 2 ... $ n 将它们重新 ..

发布时间：2018-05-31 20:10:35 hadoop 分布式计算/Hadoop