分布式计算/Hadoop 第21页 - IT屋-程序员软件开发技术分享社区

CombineFileInputFormat始终只启动一个映射Hadoop 1.2.1

我试图用CombineFileInputFormat测试来处理每个8 MB的小文件（20个文件）。我遵循此博客中给出的示例。我能够实施和测试它。最终结果是正确的。但令我感到意外的是，它总是以一张地图结束。我尝试设置属性“mapred.max.split.size”各种值，如16MB，32MB等（当然以字节为单位），没有任何成功。还有什么我需要做的或者它是正确的行为吗？我正在运行一个默认复制 ..

发布时间：2018-05-31 20:05:35 hadoop mapreduce 分布式计算/Hadoop

名称节点处于安全模式

我提到这些问题名称节点在安全模式。无法离开和 SafeModeException：名称节点处于安全模式。我执行的命令在显示安全模式已关闭，但紧接着的下一个命令显示名称节点处于安全模式。和ls / root显示在下面如何解决这个问题？解决方案这是否总是发生或者仅在开始时才启动hadoop？如果只是在开始的时候，然后等待一段时间，以便NameNo在访问hd ..

发布时间：2018-05-31 20:05:26 hadoop 分布式计算/Hadoop

使用Hbase配置Hive

我需要使用配置单元在HBase上执行查询。我已经下载了HBase并配置了我的HMaster，运行良好;我需要知道我需要为配置单元使用HBase作为后端数据库进行哪些配置更改。任何链接教程将不胜感激。在此先感谢。解决方案 apache Hive wiki很好地解释了它 https://cwiki.apache.org/confluence/display/Hive/HBaseInteg ..

发布时间：2018-05-31 20:05:21 hadoop hive hbase 分布式计算/Hadoop

槽的Dir可以在远程机器上吗？

每当新文件到达特定文件夹时，我都试图从远程计算机将文件提取到我的hdfs。我遇到了水槽中的阀芯目录的概念，如果阀芯目录位于水槽代理运行的同一台机器上，它工作正常。是否有任何方法在远程机器上配置spool dir？请帮助。解决方案您可能知道flume可以产生多个实例，也就是说您可以安装几个传递数据的flume实例它们之间。因此，要回答您的问题：不，flume无法访问远程假 ..

发布时间：2018-05-31 20:05:16 hadoop hdfs bigdata flume spool 分布式计算/Hadoop

我有一个Hadoop数据存储，我在Pig中访问，并没有很多文档，另外我是Pig的新手，所以我正在寻找Pig的“SHOW TABLES”。当我连接到一个MySQL数据库时，我可以做到这一点，并获得有关数据的一般意义;我发现了几个教程，但没有任何关键。如果没有，有没有其他方法可以让我自己定位到一个我一无所知的Hadoop数据存储？ ETA：这是在交互模式下运行Pig时，而不是加载脚本。可能很明显 ..

发布时间：2018-05-31 20:05:11 hadoop apache-pig 分布式计算/Hadoop

Hadoop级联：CascadeException“级联中没有允许循环”当cogroup管道两次

我正在尝试编写Casacading（v1.2）casade（ http://docs.cascading.org/cascading/1.2/userguide/htmlsingle/#N20844 ）由两个流程组成：第一个流程输出 url s到一个数据库表（在这个表中它们通过一个自动递增的id值自动分配给id）。这个流程还将成对的网址输出到 SequenceFile 中，其中字段名称 ..

发布时间：2018-05-31 20:05:06 hadoop cascading 分布式计算/Hadoop

插入覆盖目录的Hive Case声明

当尝试使用以下逻辑运行HQL脚本时，我收到错误： ParseException line 4：0 can not识别'CASE'附近的输入当在serde属性说明中给出'mytable' 脚本逻辑 INSERT OVERWRITE DIRECTORY'/ example / path' ROW FORMAT DELIMITED FIELDS TERMINATE ..

发布时间：2018-05-31 20:04:58 hadoop parameters hive case hiveql 分布式计算/Hadoop

如何在context.write（k，v）中输出值

但是，如果我这样编码： context.write（data，null）在我的mapreduce作业中，我只想输出一些行。 ; 程序会抛出java.lang.NullPointerException。我不想像下面的代码： context.write（data，new Text（“”））; 因为我必须修剪输出文件中每一行的空格。有没有什么好方法可以解决它？提前致谢 ..

发布时间：2018-05-31 20:04:56 hadoop mapreduce output 分布式计算/Hadoop

PigLatin中的STRSPLIT和REGEX_EXTRACT_ALL

我有以下文件：文件 ---- 12-3约翰121 5-1山姆122 该文件是选项卡（ \ t ）分隔。我将行加载为 line：chararray ，因为我希望数据不会分割到单个字段中。现在，我想将细节（12-3和5-1）作为单独的数据进行抽取和存储。我试着用 STRSPLIT 和 REGEX_EXTRACT_ALL ，但是数据似乎不匹配。 ..

发布时间：2018-05-31 20:04:53 hadoop apache-pig 分布式计算/Hadoop

Spark工作在YARN模式下失败

我有一个用Scala编写的Spark程序，它从HDFS读取一个CSV文件，计算一个新列并将其保存为一个parquet文件。我正在YARN集群中运行程序。但是每次我尝试启动它时，执行程序都会在某个时候出现此错误。您能帮我找到可能导致此错误的原因吗？ b $ b 从执行程序登录 16/10/27 15:58:10 WARN storage .BlockManager：将块rdd_1 ..

发布时间：2018-05-31 20:04:46 scala hadoop apache-spark hdfs yarn 分布式计算/Hadoop

使用python的CentOS流示例上的Hadoop - / mapred / local / taskTracker上的权限被拒绝

我已经能够用python mapper& amp; amp;减速器。 mapred文件夹的位置是/ mapred / local / taskTracker 都是root&被映射的用户对该文件夹&子文件夹然而，当我运行我的流时，它创建了映射但没有缩小，并给出以下错误无法运行程序 / mapred / local /的TaskTracker /根/ jobcache / job_20 ..

发布时间：2018-05-31 20:04:38 hadoop hadoop-streaming 分布式计算/Hadoop

Distcp - 容器运行超出物理内存限制

我已经用distcp挣扎了好几天，我发誓我的搜索引擎已经够用了。这里是我的用例： USE CASE 我在某个位置有一个主文件夹， em> / hdfs / root ，有很多subdirs（深度不固定）和文件。卷：200,000个文件〜= 30 GO p> 我需要在另一个位置复制一个客户端的子集 / hdfs / root ，例如/ hdfs / dest 这个子集是由 ..

发布时间：2018-05-31 20:04:29 hadoop jvm oozie hortonworks-data-platform distcp 分布式计算/Hadoop

理论上可以在配置单元中使用并置连接（a-la-netezza）吗？

当您连接分布在同一个键上的表并在联接条件中使用这些键列时，netezza中的每个SPU（机器）都会独立于另一个工作（参见 nz-interview ）。在配置单元中，有 bucketed地图连接，但是将表示这些表的文件分配给datanode是HDFS的责任，它不是根据hive CLUSTERED BY键完成的！假设我有两个表，由相同的密钥组成，我通过这个密钥加入 - 可以从HDFS获得一个 ..

发布时间：2018-05-31 20:04:22 hadoop hive netezza 分布式计算/Hadoop

如何为现有的hadoop集群部署ambari

正如我在这个标题中提到的那样，我可以跳过安装hadoop集群的步骤，该集群已经存在，哪个在服务？ > Ambari依靠'Stack'定义来描述Hadoop集群包含的服务。 Hortonworks定义了一个定制的Ambari堆栈，它被称为HDP。您可以定义自己的堆栈并使用您想要的任何服务和相应版本。有关定义堆栈和服务的更多信息，请参阅Ambari Wiki。这就是说，我认为不可能在A ..

发布时间：2018-05-31 20:04:19 hadoop ambari 分布式计算/Hadoop

FIWARE-Cosmos的headnode的SSH访问

我遵循此指导Hadoop / FIWARE-Cosmos，我对Hive部分有疑问。我可以访问旧集群（ cosmos.lab.fiware .org ）通过SSH的headnode，但是我不能为新的集群做。我尝试了 storage.cosmos.lab.fiware.org 和 computing.cosmos.lab.fiware.org 并且失败连接。我试图通过SSH连接的意图是 ..

发布时间：2018-05-31 20:04:17 hadoop hive fiware fiware-cosmos 分布式计算/Hadoop

将1亿个文件写入s3

我的主要目标是根据每条记录的ID将记录分成文件，现在有超过150亿条记录可以增加。我需要一个使用Amazon EMR的可扩展解决方案。我已经完成了一个拥有大约9亿条记录的较小数据集。输入文件采用csv格式，其中一个字段必须是输出中的文件名。所以说有以下输入记录： awesomeId1，somedetail1，somedetail2 awesomeID1，somedetail ..

发布时间：2018-05-31 20:04:09 hadoop amazon-s3 elastic-map-reduce amazon-emr emr 分布式计算/Hadoop

Hadoop输入拆分为压缩块

如果我有一个可拆分的1GB压缩文件，并且默认情况下块大小和输入拆分大小为128MB，则会创建8个块和8个输入拆分。当压缩块通过map reduce读取时，它是未压缩的，并且在解压缩之后块的大小变为200MB。但是这个分配的输入分割是128MB，那么82MB的剩余部分是如何处理的。是否由下一个输入处理拆分？是否增加了相同的输入拆分大小？解决方案这里是我的理解：让我们假设1 ..

发布时间：2018-05-31 20:04:04 hadoop input-split 分布式计算/Hadoop

以Oozie工作流的变量捕获Oozie中的Spark Action Node的控制台输出

有没有办法在Oozie中捕获火花任务的控制台输出？我想在spark工作后的下一个action节点中使用特定的打印值。我在想我可能会使用 $ {wf：actionData（“action-id”）[“Variable”]} 但似乎oozie没有能力捕获spark动作节点的输出，使用 echo“var = 12345”，然后调用oozie中的wf：actionData以用作整个工作流程中的Oo ..

发布时间：2018-05-31 20:03:59 scala hadoop apache-spark oozie 分布式计算/Hadoop

如何以高效的方式将大数据集划分为Hadoop中的多个小文件

我有一个大数据集，每个文件包含1M个记录，我想将它分成一些文件，每个文件在Hadoop中有1000个记录。我正在研究实现此目标的不同场景。一种是将分割大小设置得很小，这样每个映射器只需要几条记录（约1000条记录），然后输出它们。这需要运行许多效率不高的映射器。另一种解决方案是考虑一个reducer并将所有记录发送给它，并在那里进行拆分。这对映射精简也是反直觉的，因为所有的工作都只由一个节点完成。 ..

发布时间：2018-05-31 20:03:53 hadoop mapreduce 分布式计算/Hadoop

什么是“客户” Hadoop / HDFS究竟意味着什么？

我理解它背后的一般概念，但我想要更多的澄清以及对“客户”是什么的清晰定义。例如，如果我只是在终端上编写hdfs命令，它仍然是一个“客户端”吗？是指用于与Hadoop文件系统进行通信的接口。 Hadoop可以使用不同类型的客户端来执行不同的任务。基本文件系统客户端 hdfs dfs 用于连接到Hadoop文件系统，执行基本的文件相关任务。它使用ClientProtocol与N ..

发布时间：2018-05-31 20:03:34 hadoop hdfs 分布式计算/Hadoop