hadoop2相关内容
是否有一种方法或任何命令可以用来了解每个数据节点的磁盘空间或总群集磁盘空间? 我尝试了命令 dfs -du -h / 但是似乎我没有权限在许多目录中执行它,因此无法获取实际的磁盘空间. 解决方案 从用户界面: http://namenode:50070/dfshealth.html#tab-datanode --->将为您提供有关datanode的所有详细信息.
..
我是Hadoop的新手,我有一个文件可以通过命令行导入到hadoop中(我通过SSH访问机器) 如何在hadoop中导入文件? 以后如何检查(命令)? 解决方案 导入csv文件的2个步骤 使用winscp或cyberduck将csv文件移动到hadoop sanbox(/home/username). 使用-put命令将文件从本地位置移动到hdfs. hdf
..
我正在尝试在Amazon EMR集群(AMI版本3.2.0/Hadoop版本2.4.0)上安装sqoop 2(版本1.99.3).启动sqoop服务器时,我在localhost.log中看到此错误: Sep 10, 2014 4:55:56 PM org.apache.catalina.core.StandardContext listenerStart SEVERE: Exception
..
据我了解,sqoop用于将表/数据从数据库导入或导出到HDFS或Hive或HBASE. 我们可以直接导入单个表或表列表.内部mapreduce程序(我认为只有map任务)将运行. 我的疑问是什么是sqoop direct,什么时候使用sqoop direct选项? 解决方案 只需阅读Sqoop文档! 一般原则位于此处用于导入和有用于出口 某些数据库可以更高性能的方式
..
我正在使用hadoop-2.7.2和oozie-4.0.1,oozie工作流程的job.properties文件中的jobTracker值应该是多少.我引用了此链接; http://hadooptutorial.info/apache-oozie-installation -on-ubuntu-14-04/ 指出,在YARN架构中,作业跟踪程序在8032端口上运行,而我目前正在使用它.
..
如何使用Oozie检查HDFS位置中的文件是否存在? 在我的HDFS位置,每天晚上11点我都会得到一个类似test_08_01_2016.csv的文件. 我要检查11.15 PM之后该文件是否存在.我可以使用Oozie协调器作业来计划批处理. 但是如何验证HDFS中是否存在该文件? 解决方案 您可以在oozie中使用EL表达式,例如:
..
我正在做一个大型hadoop项目,并且有一个小的KPI,在这里我只需要编写reduces输出中的前10个值. 为了满足这一要求,我使用了一个计数器,并在计数器等于11时中断了循环,但是reducer仍然将所有值写入HDFS. 这是一个非常简单的Java代码,但是我被卡住了:( 为了进行测试,我创建了一个独立的类(java应用程序)来执行此操作,并且该类已经在这里工作了;我想知道为什么它
..
我试图了解MR Job经历的各个阶段.我阅读了相同的在线文档. 基于此,我对序列的理解如下: map()->分区程序->排序(在mapper机器上)->随机播放->排序(在reducer机器上)-> groupBy(Key)(在reducer机器上)-> reduce() 这是执行MR作业的正确顺序吗? 解决方案 地图的各个阶段都会减少工作量: 地图阶段: 从
..
我正在使用map reduce实现左联接功能.左侧大约有6亿条记录,而右侧大约有2300万条记录.在mapper中,我使用左连接条件中使用的列制作键,并将键值输出从mapper传递给reducer. 由于两个表中的映射器键的值都很高(例如分别为456789和78960),我遇到了性能问题.即使其他减速机完成了工作,这些减速机仍可运行更长的时间. 多个reducer是否可以并行处理来自mapper的
..
我开始使用Hadoop,但是我不知道在哪里以及如何做.我正在OS X上工作,我遵循一些教程来安装Hadoop,它已经完成并且可以工作,但是现在我不知道该怎么办. 是否有要安装的IDE(也许是日食)?我找到了一些代码,但没有任何效果,而且我不知道我必须在项目中添加什么,等等... 您能给我一些信息或指导我完成一个完整的教程吗? 解决方案 如果您想学习Hadoop框架,那么我建议您
..
我想将1GB(1000万条记录)的CSV文件加载到Hbase中.我为此写了Map-Reduce程序.我的代码工作正常,但需要1个小时才能完成. Last Reducer耗时超过半小时.有人可以帮我吗? 我的代码如下: Driver.Java package com.cloudera.examples.hbase.bulkimport; import org.a
..
我在HDFS中有一个目录(最终目录),每分钟都会加载一些文件(例如:10 mb). 一段时间后,我想将所有小文件合并为一个大文件(例如:100 mb).但是用户不断将文件推送到Final Dir.这是一个连续的过程. 因此,我第一次需要将前10个文件合并为一个大文件(例如:large.txt),然后将文件保存到Finaldir. 现在我的问题是我将如何获取除前10个文件之外的接下来的1
..
我是hadoop的新手,正在尝试了解它.我说的是hadoop2.当我有一个要执行MapReduce的输入文件时,在MapReduce程序中我说了Split的参数,这样它将进行与splits一样多的地图任务,对吗? 资源管理器知道文件在哪里,并将任务发送到拥有数据的节点,但是谁说多少个节点将执行任务?在将映射放回之后,会进行混洗,哪个节点将执行还原任务,由执行哈希映射的分区程序决定,对吗?有多
..
我拥有低于kafka的制作人Api程序,并且对kafka本身还是陌生的.下面的代码从API之一获取数据并将消息发送到kafka主题. package kafka_Demo; import java.util.Properties; import java.io.BufferedReader; import java.io.InputStream; import java.io.InputS
..
我在OS X 10.10.5上运行hadoop 2.6.1。 我收到此警告: WARN util.NativeCodeLoader:无法为您的平台加载native-hadoop库...使用builtin-java类,其中适用 我已经读过这个问题可能是由运行32位本机库libhadoop.so.1.0.0和64位版本的hadoop引起的。我已经检查了我的libhadoop.so.1.0
..
我在Windows上安装了spark,但无法运行显示以下错误: :16:error:not found:value sqlContext import sqlContext.sql ^ 我尝
..
我有一个包含 id 和 year 的文件。我的字段由,和。分隔。我可以使用,和。吗? 解决方案 这可以使用RegexSerDe。 code>蜂房> CREATE EXTERNAL TABLE citiesr1(id int,city_org string,ppl float) ROW FORMAT SERDE'org.apache.hadoop.hive.serde2.RegexS
..
我有一个以ORC文件格式存储的配置表。我想将数据导出到Teradata数据库。我研究了sqoop,但找不到导出ORC文件的方法。 是否有办法让ORC的sqoop工作?或者有没有其他工具可以用来导出数据? 谢谢。 解决方案 您可以使用Hcatalog $ b $ sqoop export --connect“jdbc:sqlserver:// xxxx:1433; database
..
我已经部署了一个MR作为配置单元执行引擎的CDH-5.9集群。我有一个名为“users”的配置表格,有50行。每当我执行查询 select * from users 可以正常工作,如下所示: 蜂房>从用户中选择*; OK Adam 1 38 ATK093 CHEF Benjamin 2 24 ATK032 SERVANT Charles 3 45 ATK107 CA
..
你好,我有我的火花数据框的输出,它创建文件夹结构并创建部分文件。 现在我必须合并文件夹内的所有零件文件,并将该文件重命名为文件夹路径名。 这就是我如何分区 df.write.partitionBy(“DataPartition”,“PartitionYear”) .format(“csv”) 。 (“codec”,“gzip”) .save(“hdfs:”) /// user
..