分布式计算/Hadoop
Hadoop版本为2.7.1 修改hdfs.xml,添加两个属性: dfs.namenode.http-address HADOOP-MASTER:50070 dfs.namenode.secondary.http-address HADOOP-
..
我尝试用AvroSerDe创建一个表格。 我已经试过下面的命令来创建表: CREATE EXTERNAL TABLE gaSession ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STORED AS INPUTFORMAT'org.apache.hadoop.hive.ql.io.avro.A
..
我无法sqoop导出按时间戳分区的配置单元表。 我有一个按时间戳分区的配置单元表。它创建的hdfs路径包含空间,我认为这是造成sqoop问题。 fs -ls 2013-01-28 16:31 / user / hive / warehouse / my_table / day = 2013-01-28 00%3A00%3A00 来自sqoop export的错误: 'p>
..
任何人都可以让我知道必须具有Core-site.xml,hdfs-site.xml,mapred-site.xml和yarn-site.xml的属性,但没有这些属性,hadoop无法启动? 解决方案 以下设置适用于独立和伪节点设置的Hadoop 2.xx。 核心-site.xml fs.default.name
..
在我的HDFS中,我将执行xml处理。即处理一个xml文件并提取2个节点。这将是我的x和y来绘制一个图。 我怎么能这样做。从hdfs输出生成图。我想使用Rapid miner.how我可以做这个任何想法... 或其他 是有一种方法可以显示我的hadoop数据HDFS的工作方式是将文件分割成预定义大小的块。它就像做一个 split -b 64M file.xml
..
我在Solaris 10服务器上配置了hadoop。我在这台服务器上配置了Hadoop 2.7.1。现在,当我通过使用start-dfs.sh datanode启动hadoop守护进程并且secondaryNamenode正在启动但Namenode未启动时。我检查了namenode日志,它给了我以下错误信息: 2015-12-08 16:24:47,703 INFO org.apach
..
我在日志coodinator中有错误: 错误文件不存在 Pig日志文件转储: 后端错误消息 错误:java.io.FileNotFoundException:File does不存在:/user/hdfs/jay/part-0.tmp settingan协调员:
..
我听说有一种方法可以在Hadoop 2.7纱线中添加32个核心,或者将核心添加到1个容器中。 这是可能的吗?有一个示例配置,我需要更改以实现此目的? 测试将是terasort,将我的40个内核添加到1个容器作业中。 解决方案 对于vCore,以下是配置: $ b yarn.scheduler.maximum- allocation-vcores - 为每个容器请求指定vCo
..
在我的双节点集群设置中,我一直在运行Hadoop作业(字数统计)几次,到现在为止工作情况良好。我一直收到一个RuntimeException,它将reduce进程拖延为19%: 2013-04-13 18:45:22,191 INFO org .apache.hadoop.mapred.Task:完成任务:attempt_201304131843_0001_m_000000_0。并正在提交
..
我想使用Pig加载Hive表。我认为我们可以通过 HCatLoader 来实现,但我使用xml文件加载猪。为此,我必须使用 XMLLoader 。我可以使用两个选项来加载Pig中的XML文件。 我使用自己的UDF从XML文件中提取数据,一旦我们提取所有数据,我必须加载Hive表格中的猪数据。 我不能使用HIVE来提取XML数据,因为我收到的XML非常复杂,我写了自己的UDF来解析XML
..
在mapreduce作业中,单个任务将在随机节点上运行,是否有任何方法可以限制任务应运行的节点? 解决方案 Hadoop不会选择随机运行任务的节点。数据局部性被考虑,否则会有很多网络开销。 任务和它们运行的节点之间没有亲缘关系。 Hadoop不提供任何此类功能。
..
我正在访问的表有一个' xxdatetime'列中添加了unix时间戳和'eventdate'列,日期为yyyy-mm-dd。 在Impala中,答案很简单: where eventdate> to_date(days_sub(now(),10)) 我在Hive中使用了它的一个变体,因为我猜它正在扫描整个表格并且表格是MASSIVE: where dated
..
查询 'set hive.exec.dynamic.partition = true; set hive.exec.dynamic.partition.mode = nonstrict; set hive.execution.engine = tez; INSERT OVERWRITE TABLE table1 PARTITION(date)select col1,CONCAT(COA
..
我试图在Ubuntu Server 14.04.3 LTS上安装hadoop 2.7.1(独立模式)。继主要的apache教程( https:// hadoop .apache.org / docs / stable / hadoop-project-dist / hadoop-common / SingleCluster.html ),我可以启动该进程并在端口50070看到dfshealth.h
..
我想在Mapper中访问分布式文件的内容。以下是我编写的用于生成分布式缓存文件名称的代码。请帮助我访问文件的内容 public class DistCacheExampleMapper扩展MapReduceBase实现Mapper { Text a = new Text(); Path []日期=新路径[0]; pu
..
我很熟悉,并曾与Hive,Pig,HBase合作过。我也通过了Hadoop权威指南。我熟悉核心Java,MapReduce体系结构和MapReduce内部。但是,我没有任何关于MapReduce的经验,我需要根据实际情况学习MapReduce。有什么书或链接,你会推荐?我将不胜感激任何帮助或建议。谢谢!! 解决方案 你可以按照这本书。这包含不同的mapreduce场景和代码片段。 Map
..
我有一个csv日志文件。使用以下语句将它加载到Hive中: CREATE EXTERNAL TABLE iprange(id STRING,ip STRING)行格式界限字段终止'\,'存为文本文件位置'/ user / hadoop / expandediprange /'; 我想要执行一个简单的查询,如: select * from iprange wher
..
我必须对输入数据执行某些操作,并使用mapreduce程序将其写入hdfs。 我的输入数据看起来像 abc 某些数据 某些数据 一些数据 def 其他数据 其他数据 其他数据 并以相同的方式继续,其中 abc , def 是标题,一些数据是带有标签空间的记录。 我的任务是消除标题并将其附加到其下面的记录中,如 某些数据abc 某些数据abc 某
..
我有一个mapreduce应用程序,它处理来自HDFS的数据并将输出数据存储在HDFS中。但是,现在我需要将输出数据存储在mongodb中,并且存储它进入HDFS 可以任何一个让我知道该怎么做吗? 谢谢 MAPPER CLASS package com.mapReduce; import java.io.IOException; import org.ap
..
我有1000万个小XML文件(300KB-500KB)。我在Mapreduce中使用Mahaout的XML输入格式来读取数据,并使用SAX解析器进行解析。但处理速度非常慢。使用输入文件的压缩(lzo)会提高性能吗?每个文件夹都包含80-90k xml文件,当我启动该进程时,它会为每个文件运行映射器。有什么方法可以减少映射器? 解决方案 您可以按照以下三种方法之一引用 li> Hadoop存
..