分布式计算/Hadoop

可视化来自hadoop的xml数据

在我的HDFS中,我将执行xml处理。即处理一个xml文件并提取2个节点。这将是我的x和y来绘制一个图。 我怎么能这样做。从hdfs输出生成图。我想使用Rapid miner.how我可以做这个任何想法... 或其他 是有一种方法可以显示我的hadoop数据HDFS的工作方式是将文件分割成预定义大小的块。它就像做一个 split -b 64M file.xml ..
发布时间:2018-06-01 12:40:51 分布式计算/Hadoop

在注视namenode时出现ExitCodeException

我在Solaris 10服务器上配置了hadoop。我在这台服务器上配置了Hadoop 2.7.1。现在,当我通过使用start-dfs.sh datanode启动hadoop守护进程并且secondaryNamenode正在启动但Namenode未启动时。我检查了namenode日志,它给了我以下错误信息: 2015-12-08 16:24:47,703 INFO org.apach ..
发布时间:2018-06-01 12:40:48 分布式计算/Hadoop

Hadoop在Hadoop 2.7上添加每个容器多于1个核心

我听说有一种方法可以在Hadoop 2.7纱线中添加32个核心,或者将核心添加到1个容器中。 这是可能的吗?有一个示例配置,我需要更改以实现此目的? 测试将是terasort,将我的40个内核添加到1个容器作业中。 解决方案 对于vCore,以下是配置: $ b yarn.scheduler.maximum- allocation-vcores - 为每个容器请求指定vCo ..
发布时间:2018-06-01 12:40:43 分布式计算/Hadoop

Hadoop错误拖延作业减少过程

在我的双节点集群设置中,我一直在运行Hadoop作业(字数统计)几次,到现在为止工作情况良好。我一直收到一个RuntimeException,它将reduce进程拖延为19%: 2013-04-13 18:45:22,191 INFO org .apache.hadoop.mapred.Task:完成任务:attempt_201304131843_0001_m_000000_0。并正在提交 ..
发布时间:2018-06-01 12:40:38 分布式计算/Hadoop

Hadoop - 使用PIG加载Hive表

我想使用Pig加载Hive表。我认为我们可以通过 HCatLoader 来实现,但我使用xml文件加载猪。为此,我必须使用 XMLLoader 。我可以使用两个选项来加载Pig中的XML文件。 我使用自己的UDF从XML文件中提取数据,一旦我们提取所有数据,我必须加载Hive表格中的猪数据。 我不能使用HIVE来提取XML数据,因为我收到的XML非常复杂,我写了自己的UDF来解析XML ..
发布时间:2018-06-01 12:40:33 分布式计算/Hadoop

如何指定一个mapreduce应该运行的单个任务路径(节点)?

在mapreduce作业中,单个任务将在随机节点上运行,是否有任何方法可以限制任务应运行的节点? 解决方案 Hadoop不会选择随机运行任务的节点。数据局部性被考虑,否则会有很多网络开销。 任务和它们运行的​​节点之间没有亲缘关系。 Hadoop不提供任何此类功能。 ..
发布时间:2018-06-01 12:40:28 分布式计算/Hadoop

Hadoop没有看到输入文件夹

我试图在Ubuntu Server 14.04.3 LTS上安装hadoop 2.7.1(独立模式)。继主要的apache教程( https:// hadoop .apache.org / docs / stable / hadoop-project-dist / hadoop-common / SingleCluster.html ),我可以启动该进程并在端口50070看到dfshealth.h ..
发布时间:2018-06-01 12:40:21 分布式计算/Hadoop

通过分布式缓存访问Mapper中的文件

我想在Mapper中访问分布式文件的内容。以下是我编写的用于生成分布式缓存文件名称的代码。请帮助我访问文件的内容 public class DistCacheExampleMapper扩展MapReduceBase实现Mapper { Text a = new Text(); Path []日期=新路径[0]; pu ..
发布时间:2018-06-01 12:40:18 分布式计算/Hadoop

学习MapReduce的最佳途径

我很熟悉,并曾与Hive,Pig,HBase合作过。我也通过了Hadoop权威指南。我熟悉核心Java,MapReduce体系结构和MapReduce内部。但是,我没有任何关于MapReduce的经验,我需要根据实际情况学习MapReduce。有什么书或链接,你会推荐?我将不胜感激任何帮助或建议。谢谢!! 解决方案 你可以按照这本书。这包含不同的mapreduce场景和代码片段。 Map ..
发布时间:2018-06-01 12:40:16 分布式计算/Hadoop

Simple Hive查询是空的

我有一个csv日志文件。使用以下语句将它加载到Hive中: CREATE EXTERNAL TABLE iprange(id STRING,ip STRING)行格式界限字段终止'\,'存为文本文件位置'/ user / hadoop / expandediprange /'; 我想要执行一个简单的查询,如: select * from iprange wher ..
发布时间:2018-06-01 12:40:13 分布式计算/Hadoop

我们如何计算地图函数在mapreduce程序中调用的次数?

我必须对输入数据执行某些操作,并使用mapreduce程序将其写入hdfs。 我的输入数据看起来像 abc 某些数据 某些数据 一些数据 def 其他数据 其他数据 其他数据 并以相同的方式继续,其中 abc , def 是标题,一些数据是带有标签空间的记录。 我的任务是消除标题并将其附加到其下面的记录中,如 某些数据abc 某些数据abc 某 ..
发布时间:2018-06-01 12:40:06 分布式计算/Hadoop

解析数以百万计的小型XML文件

我有1000万个小XML文件(300KB-500KB)。我在Mapreduce中使用Mahaout的XML输入格式来读取数据,并使用SAX解析器进行解析。但处理速度非常慢。使用输入文件的压缩(lzo)会提高性能吗?每个文件夹都包含80-90k xml文件,当我启动该进程时,它会为每个文件运行映射器。有什么方法可以减少映射器? 解决方案 您可以按照以下三种方法之一引用 li> Hadoop存 ..
发布时间:2018-06-01 12:40:01 分布式计算/Hadoop