hadoop2相关内容

知道hadoop中数据节点的磁盘空间吗?

是否有一种方法或任何命令可以用来了解每个数据节点的磁盘空间或总群集磁盘空间? 我尝试了命令 dfs -du -h / 但是似乎我没有权限在许多目录中执行它,因此无法获取实际的磁盘空间. 解决方案 从用户界面: http://namenode:50070/dfshealth.html#tab-datanode --->将为您提供有关datanode的所有详细信息. ..
发布时间:2020-07-14 02:50:46 其他开发

将CSV文件导入Hadoop

我是Hadoop的新手,我有一个文件可以通过命令行导入到hadoop中(我通过SSH访问机器) 如何在hadoop中导入文件? 以后如何检查(命令)? 解决方案 导入csv文件的2个步骤 使用winscp或cyberduck将csv文件移动到hadoop sanbox(/home/username). 使用-put命令将文件从本地位置移动到hdfs. hdf ..
发布时间:2020-07-11 21:50:03 其他开发

sqoop中的--direct模式是什么?

据我了解,sqoop用于将表/数据从数据库导入或导出到HDFS或Hive或HBASE. 我们可以直接导入单个表或表列表.内部mapreduce程序(我认为只有map任务)将运行. 我的疑问是什么是sqoop direct,什么时候使用sqoop direct选项? 解决方案 只需阅读Sqoop文档! 一般原则位于此处用于导入和有用于出口 某些数据库可以更高性能的方式 ..
发布时间:2020-07-09 21:09:19 其他开发

oozie的job.properties中的jobTracker属性

我正在使用hadoop-2.7.2和oozie-4.0.1,oozie工作流程的job.properties文件中的jobTracker值应该是多少.我引用了此链接; http://hadooptutorial.info/apache-oozie-installation -on-ubuntu-14-04/ 指出,在YARN架构中,作业跟踪程序在8032端口上运行,而我目前正在使用它. ..
发布时间:2020-05-20 18:32:51 其他开发

如何使用oozie检查文件是否存在于HDFS位置?

如何使用Oozie检查HDFS位置中的文件是否存在? 在我的HDFS位置,每天晚上11点我都会得到一个类似test_08_01_2016.csv的文件. 我要检查11.15 PM之后该文件是否存在.我可以使用Oozie协调器作业来计划批处理. 但是如何验证HDFS中是否存在该文件? 解决方案 您可以在oozie中使用EL表达式,例如: ..
发布时间:2020-05-20 18:31:56 其他开发

计数器在减速器代码中不起作用

我正在做一个大型hadoop项目,并且有一个小的KPI,在这里我只需要编写reduces输出中的前10个值. 为了满足这一要求,我使用了一个计数器,并在计数器等于11时中断了循环,但是reducer仍然将所有值写入HDFS. 这是一个非常简单的Java代码,但是我被卡住了:( 为了进行测试,我创建了一个独立的类(java应用程序)来执行此操作,并且该类已经在这里工作了;我想知道为什么它 ..
发布时间:2020-05-05 15:49:23 Java开发

MR工作各个阶段的顺序正确吗?

我试图了解MR Job经历的各个阶段.我阅读了相同的在线文档. 基于此,我对序列的理解如下: map()->分区程序->排序(在mapper机器上)->随机播放->排序(在reducer机器上)-> groupBy(Key)(在reducer机器上)-> reduce() 这是执行MR作业的正确顺序吗? 解决方案 地图的各个阶段都会减少工作量: 地图阶段: 从 ..
发布时间:2020-05-05 15:48:48 其他开发

在mapper的单个输出上运行多个reducer

我正在使用map reduce实现左联接功能.左侧大约有6亿条记录,而右侧大约有2300万条记录.在mapper中,我使用左连接条件中使用的列制作键,并将键值输出从mapper传递给reducer. 由于两个表中的映射器键的值都很高(例如分别为456789和78960),我遇到了性能问题.即使其他减速机完成了工作,这些减速机仍可运行更长的时间. 多个reducer是否可以并行处理来自mapper的 ..
发布时间:2020-05-05 15:48:43 其他开发

Hadoop:如何开始我的第一个项目

我开始使用Hadoop,但是我不知道在哪里以及如何做.我正在OS X上工作,我遵循一些教程来安装Hadoop,它已经完成并且可以工作,但是现在我不知道该怎么办. 是否有要安装的IDE(也许是日食)?我找到了一些代码,但没有任何效果,而且我不知道我必须在项目中添加什么,等等... 您能给我一些信息或指导我完成一个完整的教程吗? 解决方案 如果您想学习Hadoop框架,那么我建议您 ..
发布时间:2020-05-05 15:48:27 其他开发

花费1个小时将1GB数据加载到hbase中

我想将1GB(1000万条记录)的CSV文件加载到Hbase中.我为此写了Map-Reduce程序.我的代码工作正常,但需要1个小时才能完成. Last Reducer耗时超过半小时.有人可以帮我吗? 我的代码如下: Driver.Java package com.cloudera.examples.hbase.bulkimport; import org.a ..
发布时间:2020-05-05 15:42:01 Java开发

合并Hadoop中的小文件

我在HDFS中有一个目录(最终目录),每分钟都会加载一些文件(例如:10 mb). 一段时间后,我想将所有小文件合并为一个大文件(例如:100 mb).但是用户不断将文件推送到Final Dir.这是一个连续的过程. 因此,我第一次需要将前10个文件合并为一个大文件(例如:large.txt),然后将文件保存到Finaldir. 现在我的问题是我将如何获取除前10个文件之外的接下来的1 ..
发布时间:2020-05-05 15:36:50 其他开发

Hadoop如何确定有多少节点将执行Map and Reduce任务?

我是hadoop的新手,正在尝试了解它.我说的是hadoop2.当我有一个要执行MapReduce的输入文件时,在MapReduce程序中我说了Split的参数,这样它将进行与splits一样多的地图任务,对吗? 资源管理器知道文件在哪里,并将任务发送到拥有数据的节点,但是谁说多少个节点将执行任务?在将映射放回之后,会进行混洗,哪个节点将执行还原任务,由执行哈希映射的分区程序决定,对吗?有多 ..
发布时间:2020-05-05 15:35:03 其他开发

Hadoop 2.6.1警告:WARN util.NativeCodeLoader

我在OS X 10.10.5上运行hadoop 2.6.1。 我收到此警告: WARN util.NativeCodeLoader:无法为您的平台加载native-hadoop库...使用builtin-java类,其中适用 我已经读过这个问题可能是由运行32位本机库libhadoop.so.1.0.0和64位版本的hadoop引起的。我已经检查了我的libhadoop.so.1.0 ..
发布时间:2019-01-09 22:46:39 Java开发

Hadoop:读取ORC文件并放入RDBMS?

我有一个以ORC文件格式存储的配置表。我想将数据导出到Teradata数据库。我研究了sqoop,但找不到导出ORC文件的方法。 是否有办法让ORC的sqoop工作?或者有没有其他工具可以用来导出数据? 谢谢。 解决方案 您可以使用Hcatalog $ b $ sqoop export --connect“jdbc:sqlserver:// xxxx:1433; database ..
发布时间:2018-06-12 14:07:45 其他开发

如何合并由SPARK数据框创建的文件夹中的所有零件文件并在scala中重命名为文件夹名称

你好,我有我的火花数据框的输出,它创建文件夹结构并创建部分文件。 现在我必须合并文件夹内的所有零件文件,并将该文件重命名为文件夹路径名。 这就是我如何分区 df.write.partitionBy(“DataPartition”,“PartitionYear”) .format(“csv”) 。 (“codec”,“gzip”) .save(“hdfs:”) /// user ..
发布时间:2018-06-06 11:20:27 其他开发