分布式计算/Hadoop 第4页 - IT屋-程序员软件开发技术分享社区

为什么我无法访问http：// hadoop-master：50070当我定义dfs.namenode.http-address

Hadoop版本为2.7.1 修改hdfs.xml，添加两个属性： dfs.namenode.http-address HADOOP-MASTER：50070 dfs.namenode.secondary.http-address HADOOP- ..

发布时间：2018-06-01 12:41:05 hadoop 分布式计算/Hadoop

发出Hive AvroSerDe tblProperties最大长度

我尝试用AvroSerDe创建一个表格。我已经试过下面的命令来创建表： CREATE EXTERNAL TABLE gaSession ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STORED AS INPUTFORMAT'org.apache.hadoop.hive.ql.io.avro.A ..

发布时间：2018-06-01 12:41:02 hadoop hive avro 分布式计算/Hadoop

问题与sqoop出口与蜂巢表分区的时间戳

我无法sqoop导出按时间戳分区的配置单元表。我有一个按时间戳分区的配置单元表。它创建的hdfs路径包含空间，我认为这是造成sqoop问题。 fs -ls 2013-01-28 16:31 / user / hive / warehouse / my_table / day = 2013-01-28 00％3A00％3A00 来自sqoop export的错误： 'p> ..

发布时间：2018-06-01 12:40:56 hadoop hive hdfs sqoop 分布式计算/Hadoop

必须具有核心站点hdfs-site mapred-site和yarn-site.xml的属性

任何人都可以让我知道必须具有Core-site.xml，hdfs-site.xml，mapred-site.xml和yarn-site.xml的属性，但没有这些属性，hadoop无法启动？解决方案以下设置适用于独立和伪节点设置的Hadoop 2.xx。核心-site.xml fs.default.name ..

发布时间：2018-06-01 12:40:53 hadoop yarn hadoop2 分布式计算/Hadoop

可视化来自hadoop的xml数据

在我的HDFS中，我将执行xml处理。即处理一个xml文件并提取2个节点。这将是我的x和y来绘制一个图。我怎么能这样做。从hdfs输出生成图。我想使用Rapid miner.how我可以做这个任何想法... 或其他是有一种方法可以显示我的hadoop数据HDFS的工作方式是将文件分割成预定义大小的块。它就像做一个 split -b 64M file.xml ..

发布时间：2018-06-01 12:40:51 xml hadoop hdfs 分布式计算/Hadoop

在注视namenode时出现ExitCodeException

我在Solaris 10服务器上配置了hadoop。我在这台服务器上配置了Hadoop 2.7.1。现在，当我通过使用start-dfs.sh datanode启动hadoop守护进程并且secondaryNamenode正在启动但Namenode未启动时。我检查了namenode日志，它给了我以下错误信息： 2015-12-08 16：24：47,703 INFO org.apach ..

发布时间：2018-06-01 12:40:48 hadoop 分布式计算/Hadoop

在设置协调器oozie时如何解决文件不存在时的错误

我在日志coodinator中有错误：错误文件不存在 Pig日志文件转储：后端错误消息错误：java.io.FileNotFoundException：File does不存在：/user/hdfs/jay/part-0.tmp settingan协调员： ..

发布时间：2018-06-01 12:40:46 hadoop apache-pig oozie-coordinator 分布式计算/Hadoop

Hadoop在Hadoop 2.7上添加每个容器多于1个核心

我听说有一种方法可以在Hadoop 2.7纱线中添加32个核心，或者将核心添加到1个容器中。这是可能的吗？有一个示例配置，我需要更改以实现此目的？测试将是terasort，将我的40个内核添加到1个容器作业中。解决方案对于vCore，以下是配置： $ b yarn.scheduler.maximum- allocation-vcores - 为每个容器请求指定vCo ..

发布时间：2018-06-01 12:40:43 hadoop mapreduce yarn 分布式计算/Hadoop

Hadoop错误拖延作业减少过程

在我的双节点集群设置中，我一直在运行Hadoop作业（字数统计）几次，到现在为止工作情况良好。我一直收到一个RuntimeException，它将reduce进程拖延为19％： 2013-04-13 18:45:22,191 INFO org .apache.hadoop.mapred.Task：完成任务：attempt_201304131843_0001_m_000000_0。并正在提交 ..

发布时间：2018-06-01 12:40:38 hadoop 分布式计算/Hadoop

Hadoop - 使用PIG加载Hive表

我想使用Pig加载Hive表。我认为我们可以通过 HCatLoader 来实现，但我使用xml文件加载猪。为此，我必须使用 XMLLoader 。我可以使用两个选项来加载Pig中的XML文件。我使用自己的UDF从XML文件中提取数据，一旦我们提取所有数据，我必须加载Hive表格中的猪数据。我不能使用HIVE来提取XML数据，因为我收到的XML非常复杂，我写了自己的UDF来解析XML ..

发布时间：2018-06-01 12:40:33 hadoop hive apache-pig hcatalog 分布式计算/Hadoop

如何指定一个mapreduce应该运行的单个任务路径（节点）？

在mapreduce作业中，单个任务将在随机节点上运行，是否有任何方法可以限制任务应运行的节点？解决方案 Hadoop不会选择随机运行任务的节点。数据局部性被考虑，否则会有很多网络开销。任务和它们运行的节点之间没有亲缘关系。 Hadoop不提供任何此类功能。 ..

发布时间：2018-06-01 12:40:28 hadoop mapreduce 分布式计算/Hadoop

你如何获得'活动日期>当前日期 - 10天）在HiveQL？

我正在访问的表有一个' xxdatetime'列中添加了unix时间戳和'eventdate'列，日期为yyyy-mm-dd。在Impala中，答案很简单： where eventdate> to_date（days_sub（now（），10））我在Hive中使用了它的一个变体，因为我猜它正在扫描整个表格并且表格是MASSIVE： where dated ..

发布时间：2018-06-01 12:40:26 sql hadoop hive hiveql impala 分布式计算/Hadoop

配置单元运行时错误：无法反序列化缩小输入密钥

查询 'set hive.exec.dynamic.partition = true; set hive.exec.dynamic.partition.mode = nonstrict; set hive.execution.engine = tez; INSERT OVERWRITE TABLE table1 PARTITION（date）select col1，CONCAT（COA ..

发布时间：2018-06-01 12:40:23 hadoop hive hiveql hdinsight 分布式计算/Hadoop

我试图在Ubuntu Server 14.04.3 LTS上安装hadoop 2.7.1（独立模式）。继主要的apache教程（ https：// hadoop .apache.org / docs / stable / hadoop-project-dist / hadoop-common / SingleCluster.html ），我可以启动该进程并在端口50070看到dfshealth.h ..

发布时间：2018-06-01 12:40:21 hadoop ubuntu-14.04 分布式计算/Hadoop

通过分布式缓存访问Mapper中的文件

我想在Mapper中访问分布式文件的内容。以下是我编写的用于生成分布式缓存文件名称的代码。请帮助我访问文件的内容 public class DistCacheExampleMapper扩展MapReduceBase实现Mapper { Text a = new Text（）; Path []日期=新路径[0]; pu ..

发布时间：2018-06-01 12:40:18 hadoop 分布式计算/Hadoop

学习MapReduce的最佳途径

我很熟悉，并曾与Hive，Pig，HBase合作过。我也通过了Hadoop权威指南。我熟悉核心Java，MapReduce体系结构和MapReduce内部。但是，我没有任何关于MapReduce的经验，我需要根据实际情况学习MapReduce。有什么书或链接，你会推荐？我将不胜感激任何帮助或建议。谢谢!! 解决方案你可以按照这本书。这包含不同的mapreduce场景和代码片段。 Map ..

发布时间：2018-06-01 12:40:16 hadoop mapreduce 分布式计算/Hadoop

Simple Hive查询是空的

我有一个csv日志文件。使用以下语句将它加载到Hive中： CREATE EXTERNAL TABLE iprange（id STRING，ip STRING）行格式界限字段终止'\，'存为文本文件位置'/ user / hadoop / expandediprange /'; 我想要执行一个简单的查询，如： select * from iprange wher ..

发布时间：2018-06-01 12:40:13 hadoop hive 分布式计算/Hadoop

我们如何计算地图函数在mapreduce程序中调用的次数？

我必须对输入数据执行某些操作，并使用mapreduce程序将其写入hdfs。我的输入数据看起来像 abc 某些数据某些数据一些数据 def 其他数据其他数据其他数据并以相同的方式继续，其中 abc ， def 是标题，一些数据是带有标签空间的记录。我的任务是消除标题并将其附加到其下面的记录中，如某些数据abc 某些数据abc 某 ..

发布时间：2018-06-01 12:40:06 hadoop mapreduce 分布式计算/Hadoop

如何使用mongoDB中的mapReduce作为输出存储hdfs中的处理数据

我有一个mapreduce应用程序，它处理来自HDFS的数据并将输出数据存储在HDFS中。但是，现在我需要将输出数据存储在mongodb中，并且存储它进入HDFS 可以任何一个让我知道该怎么做吗？谢谢 MAPPER CLASS package com.mapReduce; import java.io.IOException; import org.ap ..

发布时间：2018-06-01 12:40:04 mongodb hadoop 分布式计算/Hadoop

解析数以百万计的小型XML文件

我有1000万个小XML文件（300KB-500KB）。我在Mapreduce中使用Mahaout的XML输入格式来读取数据，并使用SAX解析器进行解析。但处理速度非常慢。使用输入文件的压缩（lzo）会提高性能吗？每个文件夹都包含80-90k xml文件，当我启动该进程时，它会为每个文件运行映射器。有什么方法可以减少映射器？解决方案您可以按照以下三种方法之一引用 li> Hadoop存 ..

发布时间：2018-06-01 12:40:01 xml hadoop mapreduce hdfs 分布式计算/Hadoop