hadoop 第235页 - IT屋-程序员软件开发技术分享社区

YARN Resourcemanager不连接到nodemanager

Hadoop 2.2 zookeeper 3.4.5 Hbase 0.96 Hive 0.12 当我访问http：//：50070时，我能够正确地看到2个节点正在运行。问题是，当我转到http：//：8088时，它显示0个节点正在运行。据我所知：8088反映了resourcemanager并显示了正在运行的nodemanagers的数量。守护进程都开始了，但看起来nod ..

发布时间：2018-05-31 18:34:18 hadoop mapreduce yarn resourcemanager 分布式计算/Hadoop

将数据插入到Hive表中

我是蜂房新手。我已经成功地为开发目的设置了一个单节点hadoop集群，并且在它之上，我已经安装了hive和pig。我在配置单元中创建了一个虚拟表： p> create table foo（id int，name string）; 现在，我想将数据插入到此表中。我可以一次添加数据，就像sql一样吗？ insert into foo（id，name）VAL ..

发布时间：2018-05-31 18:34:14 sql insert hadoop hive 分布式计算/Hadoop

为自定义Hadoop类型实现ArrayWritable

如何为自定义Hadoop类型定义ArrayWritable？我试图在Hadoop中实现一个倒排索引，使用自定义Hadoop类型来存储数据。我有一个个人发布类，它存储文档ID和文档字词偏移量列表。我有一个发布类，它具有文档频率（这个词出现在文档的数量）和单独发布的列表我已经定义了一个LongArrayWritable，它扩展了ArrayWritable类的字节偏移量列表 In ..

发布时间：2018-05-31 18:34:11 hadoop mapreduce 分布式计算/Hadoop

Hadoop - 复合键

假设我有一个制表符分隔的文件，其中包含用户活动数据，格式如下： timestamp user_id page_id action_id 我想编写一个hadoop作业来计算每个页面上的用户操作，所以输出文件应该如下所示： user_id page_id number_of_actions 我需要这里的组合键 - 它将包含user_id和page_ ..

发布时间：2018-05-31 18:34:09 hadoop composite-key 分布式计算/Hadoop

基于mapreduce框架决定是否启动组合器

按照定义“组合器可能在映射器和缩减器之间的每个键上被调用0次，1次或多次”。我想知道，基于mapreduce框架决定cobiner将被启动多少次。解决方案简单地说，泄漏到磁盘的数量。排序发生在 MapOutputBuffer 填满之后，同时进行组合。您可以调整使用参数 io.sort.mb ， io.sort.spill.percent ， io.sort.record ..

发布时间：2018-05-31 18:34:06 hadoop mapreduce combiners 分布式计算/Hadoop

计算地图中的中值减少

有人可以举例说明地图中中位数/分位数的计算是否减少？我Datafu的中位数的理解是， 'N' 映射器排序数据和发送数据为 “1” 减速器，其负责排序所有来自n个mappers的数据并找到中位数（中间值）我的理解是否正确？如果是的话，这种方法是否为海量数据，因为我可以清楚地看到单个减速器正在努力完成最终任务。由于解决方案试图找到在一系列的中位数（中间号码）将需 ..

发布时间：2018-05-31 18:34:04 hadoop statistics mapreduce apache-pig median 分布式计算/Hadoop

Hadoop：不能使用Jps命令

问题是： hduser @ saket -K53SM：/ usr / local / hadoop $ jps 程序'jps'可以在以下软件包中找到： * openjdk-6-jdk * openjdk-7-jdk 尝试：sudo apt-get install 我的配置是 hduser @ saket-K53SM ..

发布时间：2018-05-31 18:34:01 java hadoop Java开发

使用Hadoop 2.0 Apis读写Sequence文件

实际上，我需要知道如何使用这些函数我正在寻找一个使用新API读取和写入序列文件的示例。 > createWriter（Configuration conf，org.apache.hadoop.io.SequenceFile.Writer.Option ... opts）旧定义不适用于我： SequenceFile.createWriter（fs，conf，p ..

发布时间：2018-05-31 18:33:59 hadoop 分布式计算/Hadoop

活动任务是Spark UI中的负数

使用 spark- 1.6.2 和 pyspark 的问题，I看到这个：你看到的是主动任务是一个负数（总负载与已完成任务的差值）。这个错误的来源是什么？我拥有很多执行程序的节点。然而，似乎有一项任务似乎已经空闲（我没有看到任何进展），而另一项相同的任务正常完成。这也是相关的： mail 我可以证实很多任务正在创建，因为我使用的是1k或2k的执行程序。我遇到的 ..

发布时间：2018-05-31 18:33:56 python hadoop apache-spark distributed-computing bigdata Python

Hadoop namenode：单点故障

Hadoop架构中的Namenode是单点故障。拥有大型Hadoop集群的人如何应对这个问题？是否有行业认可的解决方案能够很好地工作，其中一个次要的名称节点接管主要节点失败的情况？解决方案Yahoo在特定推荐中针对不同群集大小的配置设置采取了NameNode失败考虑到。例如： Hadoop集群中的单点故障是NameNode。虽然任何其他机器（间歇或永久）的丢失不会导致数据丢 ..

发布时间：2018-05-31 18:33:54 hadoop mapreduce hdfs yarn hadoop2 分布式计算/Hadoop

减速器的默认数量

在Hadoop中，如果我们没有设置数量的reducer，那么会创建多少个数量的reducer？像mappers的数量取决于（总数据大小）/（输入拆分大小），例如如果数据大小为1 TB并且输入分割大小为100 MB。那么mappers的数量将是（1000 * 1000）/ 100 = 10000（万）。减速机的数量取决于哪些因素？解决方案多少减少量 strong>（来 ..

发布时间：2018-05-31 18:33:49 hadoop mapreduce hdfs 分布式计算/Hadoop

将csv数据加载到Hbase中

我对hadoop和hbase非常陌生，并且在我找到的每个教程中都有一些概念性问题让我失望。我有hadoop和hbase运行在我的win 7系统上的一个Ubuntu VM内的单个节点上。我有一个csv文件，我想加载到一个hbase表中。列是：loan_number，borrower_name，current_distribution_date，loan_amount 我知道我需 ..

发布时间：2018-05-31 18:33:47 hadoop hbase 分布式计算/Hadoop

Hadoop - namenode未启动

我试图以root用户身份运行hadoop，当Hadoop文件系统运行时，我执行了namenode格式命令 hadoop namenode -format 。在此之后，当我尝试启动名称节点服务器时，它显示如下所示的错误 13/05/23 04:11:37错误namenode.FSNamesystem：FSNamesystem初始化失败。 java.io.IOException：N ..

发布时间：2018-05-31 18:33:44 hadoop 分布式计算/Hadoop

Hbase客户端无法连接远程Hbase服务器

我为远程服务器编写了一个hbase客户端类： System.out.println（“Hbase Demo Application” ）; // CONFIGURATION //确保正在运行 try { HBaseConfiguration config = new HBaseConfiguration（）; config.clear（）; config.set ..

发布时间：2018-05-31 18:33:42 java hadoop hbase Java开发

非DFS使用的含义是什么？

这是我最近在Web UI上看到的已配置容量：232.5 GB 已用DFS：112.44 GB 使用的非DFS：119.46 GB 剩余的DFS：613.88 MB 使用的DFS百分比：48.36％剩余的DFS百分比：0.26％我很困惑，非dfs Used占用了一半以上的容量，花费了无谓的时间搜索之后，我只是格式化了namenode，并从头开始。 ..

发布时间：2018-05-31 18:33:39 hadoop hdfs 分布式计算/Hadoop

在加载配置单元表时，跳过csv的第一行

我使用以下命令在hive中创建了表格 - CREATE TABLE db.test （ fname STRING， lname STRING，年龄STRING， mob BIGINT ）行格式定界字段终止BY'\t'存储AS文本文件; 现在从文件加载表格中的数据，我正在使用以下命令 - 载入数据local inpath'/home/cluster/ ..

发布时间：2018-05-31 18:33:37 hadoop hive hiveql 分布式计算/Hadoop

$ HADOOP_HOME已弃用

我开始了一个hadoop集群。我得到这个警告信息： $ HADOOP_HOME已被弃用我已将 export HADOOP_HOME_WARN_SUPPRESS =“TRUE”添加到 hadoop-env.sh 当我启动群集时，我看不到任何更多的警告消息。但是，当我运行 hadoop dfsadmin -report 时，它会再次显示。在你的.bashrc文件中，用“H ..

发布时间：2018-05-31 18:33:34 hadoop warnings deprecated 分布式计算/Hadoop

如何在Pig中将一个组拼成一个单独的元组？

由此： pre $ code>（1，{（1,2），（1,3），（1,4 ）}）（2，{（2,5），（2,6），（2,7）}） ...我们如何生成这个？ $ $ $ $ $ $ $ $ $ $ $ $（（1,2），（ 1,3），（1,4））（（2,5），（2,6），（2,7）） ...我们怎么能产生这个？（1， 2，3，4）（2,5,6,7） ..

发布时间：2018-05-31 18:33:29 hadoop apache-pig 分布式计算/Hadoop

用hadoop指定内存限制

我试图在Hadoop集群上运行高内存作业（0.20.203）。我修改了mapred-site.xml以强制限制内存。 mapred.cluster.max.map.memory.mb 4096 mapred.cluster.max.reduce.memory.mb 4 ..

发布时间：2018-05-31 18:33:27 java hadoop Java开发

Spark RDD - 是否总是在RAM中进行分区？

我们都知道Spark在内存中进行计算。如果我创建10 RDD 在HDFS的pySpark shell中，是否所有这些10 RDD 的数据都驻留在Spark Workers Memory上？如果我不删除 RDD ，它会永远在内存中吗？ / li> 如果我的数据集（文件）大小超过了可用的RAM大小，数据将存储在哪里？解决方案如果我在HDFS的pySpark shell中创 ..

发布时间：2018-05-31 18:33:24 hadoop apache-spark pyspark hdfs rdd 分布式计算/Hadoop

hadoop相关内容