hadoop2相关内容
我试图将文件从本地复制到 hdfs。在/ / user / hduser / hadoop中使用命令 hadoop dfs -copyFromLocal 显示以下错误消息。请帮助找到问题。 DEPRECATED:不推荐使用此脚本执行hdfs命令。 改为使用hdfs命令。 15/02/02 19:22:23 WARN hdfs.DFSClient :DataStreamer
..
是否有可能在浮点数或双精度数的小数点后删除某个区域? 例如:结果将是2.67894 =>我希望结果为2.6(四舍五入不是2.7)。 解决方案 为此写一个UDF(用户定义的函数)。 $ b $ p 一个非常简单的python UDF(numformat.py): @outputSchema('value:double') def格式(数据): return round(da
..
我试图使用Elephantbird json loader在输入(在这个输入中有2条记录)解析 $ b [{“node_disk_lnum_1 “:36,”node_disk_xfers_in_rate_sum“:136.40000000000001,”node_disk_bytes_in_rate_22“: 187392.0,”node_disk_lnum_7“:13}] $ b
..
寻找Hadoop 2.x安装模式的最快方法是什么? 我只想学习在我登录时找到模式的最佳方式第一次进入Hadoop安装的机器。 解决方案 在hadoop 2中 - 转到/ etc / hadoop / conf文件夹并检查Fs core-site.xml中的.defaultFS和yarn-site.xml中的Yarn.resourcemanager.hostname属性。这些属性的值决
..
我已经用python编写了mapper和reducer,可以很好地工作。 下面是一个示例: echo“hello hello world here here hello here world here hello”| wordmapper.py | sort -k1,1 | wordreducer.py hello 4 here 3 world 2 现在,当
..
我遵循这个教程来安装Hadoop。不幸的是,当我运行 start-all.sh 脚本时 - 在控制台上输出以下错误: hduser @ dennis-HP:/ usr / local / hadoop / sbin $ start-all.sh 此脚本已弃用。请使用start-dfs.sh和start-yarn.sh hadoop配置脚本运行... hdfs脚本运行... 配置
..
这是使用mapReduce和hadoop提取包含特定值的行的后续问题 Mapper函数 public static class MapForWordCount扩展Mapper { private IntWritable saleValue = new IntWritable(); 私人文本rangeValue =
..
我正在关注此链接将数据插入到我的hbase中。我遵循了所有步骤,并编写了下面的代码: import java.io.IOException; import java.util.ArrayList; import java.util.List; 导入org.apache.hadoop.conf.Configuration; 导入org.apache.hadoop.hbase.HB
..
我试图在从BigQuery中的原始Google Analytics数据导出的avro文件中创建天蓝色HDInsight上的配置单元表。 它似乎有效。我可以创建表格,并且在运行DESCRIBE时没有错误。但是当我尝试选择结果时,即使我只选择两个非嵌套列,我也会得到一个错误:“java.lang.IllegalArgumentException”。 我创建了表格: DROP TAB
..
我有一个映射器,它发出一个Text(水果名称)键和一个自定义复合值city:count。我想在计数器到达减速器之前对合成值进行排序,这样减速器可以快速确定哪个城市的计数最高。 复合值类是WritableComparable的扩展,并且有检索计数和城市的方法。 减速器当前接收到的数据: reducer 1 - oranges:
..
我搜索了一段时间,我发现使用hadoop2 + yarn的MapReduce集群具有以下并发映射数量并减少了每个节点: 并发地图#= yarn.nodemanager.resource.memory-mb / mapreduce.map.memory.mb 并发减少#= yarn.nodemanager.resource.memory-mb / mapreduce.reduce.memor
..
我使用Java作为查询Hbase的客户端。 我的Hbase表设置为这样: ROWKEY | HOST | EVENT ----------- | -------------- | ---------- 21_1465435 | host.hst.com |点击 22_1463456 | hlo.wrld.com |拖动 。 。 。 。 。 。 。 。 。
..
我为我的文件设置了复制因子,如下所示: hadoop fs -D dfs.replication = 5 -copyFromLocal file.txt / user / xxxx 当 NameNode 重新启动,它确保复制的块被复制。 因此文件的复制信息被存储(可能在 nameNode 中)。如何获取这些信息?解决方案尝试使用命令 hadoop fs -stat%r
..
任何人都可以告诉我,如果我正在使用java应用程序通过Namenode HA安装程序向HDFS请求一些文件上载/下载操作,那么这个请求首先放到哪里?我的意思是客户如何知道哪个namenode是活动的? 如果您提供一些工作流类型图或详细解释请求步骤(从开始到结束)。 解决方案 如果hadoop集群配置了HA,那么它将在hdfs-site.xml中具有namenode ID,如下所示:
..
我在虚拟机中使用Flume 1.6.0,在另一台虚拟机中使用Hadoop 2.7.1。 当我将Avro Events发送到Flume 1.6.0并尝试在Hadoop 2.7.1 HDFS系统上编写代码时。发生以下异常: $ b $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $进程(HDFSEventSink.java:455)] HDFS IO错误 org.apache
..
我们正试图将我们的工作从Hadoop 1.0.3迁移到Hadoop 2(准确地说,Hadoop 2.8.1,单节点集群)。我们使用YARN来管理我们的地图缩减工作。我们注意到的差异之一是每个映射存在两个Linux进程或减少计划执行的任务。例如,对于我们的任何reduce任务,我们可以找到这两个执行过程: hadoop 124692 124690 0 12:33? 00:00:00 / bin
..
我试图将MySQL数据库导入到Hive中,根据 Blog 有几种方式可以做到这一点 > 所以我决定采用'非实时'方法,并且我已经设置了4节点的Hadoop集群, Sqoop和Hive可以与以下版本一起使用 名称 版本 Apache Hadoop 2.6.0 $ b Apache Hive hive-0.14.0 $ b Apache Sqoop > sqoop-1.4.
..
关于 HDFS联盟,我有几个基本问题。 是否有可能从位于集群联合中的其他名称节点读取在一个名称节点上创建的文件? 当前版本的 Hadoop 是否支持此功能? 解决方案 我解释名称节点联合如何工作的每阿帕奇网站 NameNode: 为了水平缩放名称服务,联邦使用多个独立的Namenodes /名称空间。 Namenodes是联合的; Namenodes是独立
..
我使用本教程在Windows 8.1上设置了一个节点Hadoop 2.6.0群集 - https ://wiki.apache.org/hadoop/Hadoop2OnWindows 。 所有守护程序都已启动并正在运行。我可以使用 hadoop fs -ls / 访问hdfs,但是我还没有加载任何东西,所以现在没有任何东西可以显示。 但是当我运行一个简单的map reduce程序时,我
..
我可以正确地重命名我的reducer输出文件,但r-00000仍然存在。 我在Reducer类中使用了MultipleOutputs。 以下是详细信息。不确定我缺少什么或者我需要额外做些什么? public class MyReducer扩展了Reducer { private Logger logger
..