hadoop相关内容

YARN Resourcemanager不连接到nodemanager

Hadoop 2.2 zookeeper 3.4.5 Hbase 0.96 Hive 0.12 当我访问http://:50070时,我能够正确地看到2个节点正在运行。 问题是,当我转到http://:8088时,它显示0个节点正在运行。 据我所知:8088反映了resourcemanager并显示了正在运行的nodemanagers的数量。守护进程都开始了,但看起来nod ..
发布时间:2018-05-31 18:34:18 分布式计算/Hadoop

将数据插入到Hive表中

我是蜂房新手。我已经成功地为开发目的设置了一个单节点hadoop集群,并且在它之上,我已经安装了hive和pig。 我在配置单元中创建了一个虚拟表: p> create table foo(id int,name string); 现在,我想将数据插入到此表中。我可以一次添加数据,就像sql一样吗? insert into foo(id,name)VAL ..
发布时间:2018-05-31 18:34:14 分布式计算/Hadoop

为自定义Hadoop类型实现ArrayWritable

如何为自定义Hadoop类型定义ArrayWritable?我试图在Hadoop中实现一个倒排索引,使用自定义Hadoop类型来存储数据。 我有一个个人发布类,它存储文档ID和文档字词偏移量列表。 我有一个发布类,它具有文档频率(这个词出现在文档的数量)和单独发布的列表 我已经定义了一个LongArrayWritable,它扩展了ArrayWritable类的字节偏移量列表 In ..
发布时间:2018-05-31 18:34:11 分布式计算/Hadoop

Hadoop - 复合键

假设我有一个制表符分隔的文件,其中包含用户活动数据,格式如下: timestamp user_id page_id action_id 我想编写一个hadoop作业来计算每个页面上的用户操作,所以输出文件应该如下所示: user_id page_id number_of_actions 我需要这里的组合键 - 它将包含user_id和page_ ..
发布时间:2018-05-31 18:34:09 分布式计算/Hadoop

基于mapreduce框架决定是否启动组合器

按照定义“组合器可能在映射器和缩减器之间的每个键上被调用0次,1次或多次”。 我想知道,基于mapreduce框架决定cobiner将被启动多少次。 解决方案 简单地说,泄漏到磁盘的数量。排序发生在 MapOutputBuffer 填满之后,同时进行组合。 您可以调整使用参数 io.sort.mb , io.sort.spill.percent , io.sort.record ..
发布时间:2018-05-31 18:34:06 分布式计算/Hadoop

计算地图中的中值减少

有人可以举例说明地图中中位数/分位数的计算是否减少? 我Datafu的中位数的理解是, 'N' 映射器排序 数据和发送数据为 “1” 减速器,其负责排序 所有来自n个mappers的数据并找到中位数(中间值) 我的理解是否正确?如果是的话,这种方法是否为 海量数据,因为我可以清楚地看到单个减速器 正在努力完成最终任务。 由于 解决方案 试图找到在一系列的中位数(中间号码)将需 ..
发布时间:2018-05-31 18:34:04 分布式计算/Hadoop

Hadoop:不能使用Jps命令

问题是: hduser @ saket -K53SM:/ usr / local / hadoop $ jps 程序'jps'可以在以下软件包中找到: * openjdk-6-jdk * openjdk-7-jdk 尝试:sudo apt-get install 我的配置是 hduser @ saket-K53SM ..
发布时间:2018-05-31 18:34:01 Java开发

使用Hadoop 2.0 Apis读写Sequence文件

实际上,我需要知道如何使用这些函数 我正在寻找一个使用新API读取和写入序列文件的示例。 > createWriter(Configuration conf,org.apache.hadoop.io.SequenceFile.Writer.Option ... opts) 旧定义不适用于我: SequenceFile.createWriter(fs,conf,p ..
发布时间:2018-05-31 18:33:59 分布式计算/Hadoop

活动任务是Spark UI中的负数

使用 spark- 1.6.2 和 pyspark 的问题,I看到这个: 你看到的是主动任务是一个负数(总负载与已完成任务的差值)。 这个错误的来源是什么? 我拥有很多执行程序的节点。然而,似乎有一项任务似乎已经空闲(我没有看到任何进展),而另一项相同的任务正常完成。 这也是相关的: mail 我可以证实很多任务正在创建,因为我使用的是1k或2k的执行程序。 我遇到的 ..
发布时间:2018-05-31 18:33:56 Python

Hadoop namenode:单点故障

Hadoop架构中的Namenode是单点故障。 拥有大型Hadoop集群的人如何应对这个问题? 是否有行业认可的解决方案能够很好地工作,其中一个次要的名称节点接管主要节点失败的情况? 解决方案Yahoo在特定推荐中针对不同群集大小的配置设置采取了NameNode失败考虑到。例如: Hadoop集群中的单点故障是NameNode。虽然任何其他机器(间歇或永久)的丢失不会导致数据丢 ..
发布时间:2018-05-31 18:33:54 分布式计算/Hadoop

减速器的默认数量

在Hadoop中,如果我们没有设置数量的reducer,那么会创建多少个数量的reducer? 像mappers的数量取决于(总数据大小)/(输入拆分大小), 例如如果数据大小为1 TB并且输入分割大小为100 MB。那么mappers的数量将是(1000 * 1000)/ 100 = 10000(万)。 减速机的数量取决于哪些因素? 解决方案 多少减少量 strong>(来 ..
发布时间:2018-05-31 18:33:49 分布式计算/Hadoop

将csv数据加载到Hbase中

我对hadoop和hbase非常陌生,并且在我找到的每个教程中都有一些概念性问题让我失望。 我有hadoop和hbase运行在我的win 7系统上的一个Ubuntu VM内的单个节点上。我有一个csv文件,我想加载到一个hbase表中。 列是:loan_number,borrower_name,current_distribution_date,loan_amount 我知道我需 ..
发布时间:2018-05-31 18:33:47 分布式计算/Hadoop

Hadoop - namenode未启动

我试图以root用户身份运行hadoop,当Hadoop文件系统运行时,我执行了namenode格式命令 hadoop namenode -format 。 在此之后,当我尝试启动名称节点服务器时,它显示如下所示的错误 13/05/23 04:11:37错误namenode.FSNamesystem:FSNamesystem初始化失败。 java.io.IOException:N ..
发布时间:2018-05-31 18:33:44 分布式计算/Hadoop

Hbase客户端无法连接远程Hbase服务器

我为远程服务器编写了一个hbase客户端类: System.out.println(“Hbase Demo Application” ); // CONFIGURATION //确保正在运行 try { HBaseConfiguration config = new HBaseConfiguration(); config.clear(); config.set ..
发布时间:2018-05-31 18:33:42 Java开发

非DFS使用的含义是什么?

这是我最近在Web UI上看到的 已配置容量:232.5 GB 已用DFS:112.44 GB 使用的非DFS:119.46 GB 剩余的DFS:613.88 MB 使用的DFS百分比:48.36% 剩余的DFS百分比:0.26% 我很困惑,非dfs Used占用了一半以上的容量, 花费了无谓的时间搜索之后,我只是格式化了namenode,并从头开始。 ..
发布时间:2018-05-31 18:33:39 分布式计算/Hadoop

$ HADOOP_HOME已弃用

我开始了一个hadoop集群。 我得到这个警告信息: $ HADOOP_HOME已被弃用 我已将 export HADOOP_HOME_WARN_SUPPRESS =“TRUE”添加到 hadoop-env.sh 当我启动群集时,我看不到任何更多的警告消息。 但是,当我运行 hadoop dfsadmin -report 时,它会再次显示。在你的.bashrc文件中,用“H ..
发布时间:2018-05-31 18:33:34 分布式计算/Hadoop

用hadoop指定内存限制

我试图在Hadoop集群上运行高内存作业(0.20.203)。我修改了mapred-site.xml以强制限制内存。 mapred.cluster.max.map.memory.mb 4096 mapred.cluster.max.reduce.memory.mb 4 ..
发布时间:2018-05-31 18:33:27 Java开发

Spark RDD - 是否总是在RAM中进行分区?

我们都知道Spark在内存中进行计算。 如果我创建10 RDD 在HDFS的pySpark shell中,是否所有这些10 RDD 的数据都驻留在Spark Workers Memory上?如果我不删除 RDD ,它会永远在内存中吗? / li> 如果我的数据集(文件)大小超过了可用的RAM大小,数据将存储在哪里? 解决方案 如果我在HDFS的pySpark shell中创 ..
发布时间:2018-05-31 18:33:24 分布式计算/Hadoop