分布式计算/Hadoop

CombineFileInputFormat始终只启动一个映射Hadoop 1.2.1

我试图用CombineFileInputFormat测试来处理每个8 MB的小文件(20个文件)。我遵循此博客中给出的示例。我能够实施和测试它。最终结果是正确的。但令我感到意外的是,它总是以一张地图结束。我尝试设置属性“mapred.max.split.size”各种值,如16MB,32MB等(当然以字节为单位),没有任何成功。还有什么我需要做的或者它是正确的行为吗? 我正在运行一个默认复制 ..
发布时间:2018-05-31 20:05:35 分布式计算/Hadoop

名称节点处于安全模式

我提到这些问题名称节点在安全模式。无法离开和 SafeModeException:名称节点处于安全模式。 我执行的命令在 显示安全模式已关闭,但紧接着的下一个命令显示名称节点处于安全模式。 和ls / root显示在下面 如何解决这个问题? 解决方案 这是否总是发生或者仅在开始时才启动hadoop? 如果只是在开始的时候,然后等待一段时间,以便NameNo在访问hd ..
发布时间:2018-05-31 20:05:26 分布式计算/Hadoop

使用Hbase配置Hive

我需要使用配置单元在HBase上执行查询。我已经下载了HBase并配置了我的HMaster,运行良好;我需要知道我需要为配置单元使用HBase作为后端数据库进行哪些配置更改。任何链接教程将不胜感激。 在此先感谢。 解决方案 apache Hive wiki很好地解释了它 https://cwiki.apache.org/confluence/display/Hive/HBaseInteg ..
发布时间:2018-05-31 20:05:21 分布式计算/Hadoop

槽的Dir可以在远程机器上吗?

每当新文件到达特定文件夹时,我都试图从远程计算机将文件提取到我的hdfs。我遇到了水槽中的阀芯目录的概念,如果阀芯目录位于水槽代理运行的同一台机器上,它工作正常。 是否有任何方法在远程机器上配置spool dir?请帮助。 解决方案 您可能知道flume可以产生多个实例,也就是说您可以安装几个传递数据的flume实例它们之间。 因此,要回答您的问题:不,flume无法访问远程假 ..
发布时间:2018-05-31 20:05:16 分布式计算/Hadoop

是否有一个相当于“SHOW TABLES”的阿帕奇猪?

我有一个Hadoop数据存储,我在Pig中访问,并没有很多文档,另外我是Pig的新手,所以我正在寻找Pig的“SHOW TABLES”。当我连接到一个MySQL数据库时,我可以做到这一点,并获得有关数据的一般意义;我发现了几个教程,但没有任何关键。如果没有,有没有其他方法可以让我自己定位到一个我一无所知的Hadoop数据存储? ETA:这是在交互模式下运行Pig时,而不是加载脚本。可能很明显 ..
发布时间:2018-05-31 20:05:11 分布式计算/Hadoop

Hadoop级联:CascadeException“级联中没有允许循环”当cogroup管道两次

我正在尝试编写Casacading(v1.2)casade( http://docs.cascading.org/cascading/1.2/userguide/htmlsingle/#N20844 )由两个流程组成: 第一个流程输出 url s到一个数据库表(在这个表中它们通过一个自动递增的id值自动分配给id)。 这个流程还将成对的网址输出到 SequenceFile 中,其中字段名称 ..
发布时间:2018-05-31 20:05:06 分布式计算/Hadoop

如何在context.write(k,v)中输出值

但是,如果我这样编码: context.write(data,null)在我的mapreduce作业中,我只想输出一些行。 ; 程序会抛出java.lang.NullPointerException。 我不想像下面的代码: context.write(data,new Text(“”)); 因为我必须修剪输出文件中每一行的空格。 有没有什么好方法可以解决它? 提前致谢 ..
发布时间:2018-05-31 20:04:56 分布式计算/Hadoop

PigLatin中的STRSPLIT和REGEX_EXTRACT_ALL

我有以下文件: 文件 ---- 12-3约翰121 5-1山姆122 该文件是选项卡( \ t )分隔。我将行加载为 line:chararray ,因为我希望数据不会分割到单个字段中。 现在,我想将细节(12-3和5-1)作为单独的数据进行抽取和存储。 我试着用 STRSPLIT 和 REGEX_EXTRACT_ALL ,但是数据似乎不匹配。 ..
发布时间:2018-05-31 20:04:53 分布式计算/Hadoop

Spark工作在YARN模式下失败

我有一个用Scala编写的Spark程序,它从HDFS读取一个CSV文件,计算一个新列并将其保存为一个parquet文件。我正在YARN集群中运行程序。但是每次我尝试启动它时,执行程序都会在某个时候出现此错误。 您能帮我找到可能导致此错误的原因吗? b $ b 从执行程序登录 16/10/27 15:58:10 WARN storage .BlockManager:将块rdd_1 ..
发布时间:2018-05-31 20:04:46 分布式计算/Hadoop

使用python的CentOS流示例上的Hadoop - / mapred / local / taskTracker上的权限被拒绝

我已经能够用python mapper& amp; amp;减速器。 mapred文件夹的位置是/ mapred / local / taskTracker 都是root&被映射的用户对该文件夹&子文件夹 然而,当我运行我的流时,它创建了映射但没有缩小,并给出以下错误 无法运行程序 / mapred / local /的TaskTracker /根/ jobcache / job_20 ..
发布时间:2018-05-31 20:04:38 分布式计算/Hadoop

Distcp - 容器运行超出物理内存限制

我已经用distcp挣扎了好几天,我发誓我的搜索引擎已经够用了。这里是我的用例: USE CASE 我在某个位置有一个主文件夹, em> / hdfs / root ,有很多subdirs(深度不固定)和文件。 卷:200,000个文件〜= 30 GO p> 我需要在另一个位置复制一个客户端的子集 / hdfs / root ,例如/ hdfs / dest 这个子集是由 ..

理论上可以在配置单元中使用并置连接(a-la-netezza)吗?

当您连接分布在同一个键上的表并在联接条件中使用这些键列时,netezza中的每个SPU(机器)都会独立于另一个工作(参见 nz-interview )。 在配置单元中,有 bucketed地图连接,但是将表示这些表的文件分配给datanode是HDFS的责任,它不是根据hive CLUSTERED BY键完成的!假设我有两个表,由相同的密钥组成,我通过这个密钥加入 - 可以从HDFS获得一个 ..
发布时间:2018-05-31 20:04:22 分布式计算/Hadoop

如何为现有的hadoop集群部署ambari

正如我在这个标题中提到的那样,我可以跳过安装hadoop集群的步骤,该集群已经存在,哪个在服务? > Ambari依靠'Stack'定义来描述Hadoop集群包含的服务。 Hortonworks定义了一个定制的Ambari堆栈,它被称为HDP。 您可以定义自己的堆栈并使用您想要的任何服务和相应版本。有关定义堆栈和服务的更多信息,请参阅Ambari Wiki。 这就是说,我认为不可能在A ..
发布时间:2018-05-31 20:04:19 分布式计算/Hadoop

FIWARE-Cosmos的headnode的SSH访问

我遵循此指导Hadoop / FIWARE-Cosmos,我对Hive部分有疑问。 我可以访问旧集群( cosmos.lab.fiware .org )通过SSH的headnode,但是我不能为新的集群做。我尝试了 storage.cosmos.lab.fiware.org 和 computing.cosmos.lab.fiware.org 并且失败连接。 我试图通过SSH连接的意图是 ..
发布时间:2018-05-31 20:04:17 分布式计算/Hadoop

将1亿个文件写入s3

我的主要目标是根据每条记录的ID将记录分成文件,现在有超过150亿条记录可以增加。我需要一个使用Amazon EMR的可扩展解决方案。我已经完成了一个拥有大约9亿条记录的较小数据集。 输入文件采用csv格式,其中一个字段必须是输出中的文件名。 所以说有以下输入记录: awesomeId1,somedetail1,somedetail2 awesomeID1,somedetail ..

Hadoop输入拆分为压缩块

如果我有一个可拆分的1GB压缩文件,并且默认情况下块大小和输入拆分大小为128MB,则会创建8个块和8个输入拆分。当压缩块通过map reduce读取时,它是未压缩的,并且在解压缩之后块的大小变为200MB。但是这个分配的输入分割是128MB,那么82MB的剩余部分是如何处理的。 是否由下一个输入处理拆分? 是否增加了相同的输入拆分大小? 解决方案这里是我的理解: 让我们假设1 ..
发布时间:2018-05-31 20:04:04 分布式计算/Hadoop

以Oozie工作流的变量捕获Oozie中的Spark Action Node的控制台输出

有没有办法在Oozie中捕获火花任务的控制台输出?我想在spark工作后的下一个action节点中使用特定的打印值。 我在想我可能会使用 $ {wf:actionData(“action-id”)[“Variable”]} 但似乎oozie没有能力捕获spark动作节点的输出,使用 echo“var = 12345”,然后调用oozie中的wf:actionData以用作整个工作流程中的Oo ..
发布时间:2018-05-31 20:03:59 分布式计算/Hadoop

如何以高效的方式将大数据集划分为Hadoop中的多个小文件

我有一个大数据集,每个文件包含1M个记录,我想将它分成一些文件,每个文件在Hadoop中有1000个记录。我正在研究实现此目标的不同场景。一种是将分割大小设置得很小,这样每个映射器只需要几条记录(约1000条记录),然后输出它们。这需要运行许多效率不高的映射器。另一种解决方案是考虑一个reducer并将所有记录发送给它,并在那里进行拆分。这对映射精简也是反直觉的,因为所有的工作都只由一个节点完成。 ..
发布时间:2018-05-31 20:03:53 分布式计算/Hadoop

什么是“客户” Hadoop / HDFS究竟意味着什么?

我理解它背后的一般概念,但我想要更多的澄清以及对“客户”是什么的清晰定义。 例如,如果我只是在终端上编写hdfs命令,它仍然是一个“客户端”吗? 是指用于与Hadoop文件系统进行通信的接口。 Hadoop可以使用不同类型的客户端来执行不同的任务。 基本文件系统客户端 hdfs dfs 用于连接到Hadoop文件系统,执行基本的文件相关任务。它使用ClientProtocol与N ..
发布时间:2018-05-31 20:03:34 分布式计算/Hadoop