hadoop2相关内容

在一台计算机上运行Hadoop群集

我是Hadoop环境的新手。 我想知道是否可以使用虚拟机在单个计算机上运行群集(包含2个或3个节点)。 欢迎任何澄清。 谢谢您。 推荐答案 来自Virtual Hadoop Wiki: 需要分别检查云和虚拟化,但在所有情况下,答案都是“是的,您可以虚拟化,是的,您可以部署到云,但您需要了解后果并制定相应的计划”。 此维基页面是您开始考虑如何在虚拟机上设置Hado ..

是否将文件划分为数据块以存储在HDFS中?

我了解到HDFS中的挡路系统是位于底层文件系统之上的逻辑分区。 但是,当我发出cat命令时,如何检索文件。 假设我有一个1 GB的文件。我的默认HDFS挡路大小为64 MB。 我发出以下命令: hadoop -fs copyFromLocal my1GBfile.db input/data/ 上述命令将文件my1GBfile.db从我的本地计算机复制到HDFS: 中的inp ..
发布时间:2022-02-27 17:49:47 其他开发

Hadoop gen1 与 Hadoop gen2

我对 tasktracker 在 Hadoop-2.x 中的位置有点困惑. Hadoop-1.x 中的守护进程是 namenode、datanode、jobtracker、taskracker 和 secondarynamenode Hadoop-2.x 中的守护进程是 namenode、datanode、resourcemanager、applicationmaster、second ..
发布时间:2022-01-14 08:10:50 其他开发

组合器在哪里组合映射器输出 - 在 Map-reduce 作业的 map 阶段或 reduce 阶段?

我的印象是,combiner 就像是作用于本地 map 任务的 reducer,即聚合单个 Map 任务的结果,以减少输出传输的网络带宽. 通过阅读 Hadoop- The权威指南第 3 版,我的理解似乎是正确的. 来自第 2 章(第 34 页) 组合函数许多 MapReduce 作业受到集群上可用带宽的限制,因此尽量减少在 map 和 reduce 任务之间传输的数据是值得的. ..
发布时间:2022-01-13 23:48:34 其他开发

登录 MapReduce 作业的标准做法

我正在尝试找到登录 MapReduce 作业的最佳方法.我在我的其他 Java 应用程序中使用带有 log4j appender 的 slf4j,但是由于 MapReduce 作业在集群中以分布式方式运行,我不知道应该在哪里设置日志文件位置,因为它是一个访问受限的共享集群特权. 是否有任何记录 MapReduce 作业的标准做法,以便您可以在作业完成后轻松查看整个集群的日志? 解决方案 ..
发布时间:2022-01-13 23:39:36 Java开发

在 Hadoop 中提高 MapReduce 作业性能的技巧

我有 100 个映射器和 1 个减速器在一个作业中运行.如何提高工作绩效? 据我了解:使用组合器可以在很大程度上提高性能.但是我们还需要配置什么来提高作业性能? 解决方案 由于本题数据有限(输入文件大小、HDFS块大小、平均map处理时间、Mapper槽数和集群中Reduce槽数等).),我们无法建议提示. 但是有一些通用的指导方针可以提高性能. 如果每个任务花费的时间少 ..
发布时间:2022-01-13 23:29:45 其他开发

Hadoop 2.2.0 中的 MapReduce 不工作

在伪分布式模式下安装和配置我的 Hadoop 2.2.0 后,一切都在运行,您可以在 jps 中看到: $ jps第2287章1926 资源管理器第2162章1834 数据节点1756 名称节点3013 日元 然后我用 运行 wordcount 示例 hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-exampl ..
发布时间:2022-01-13 23:27:22 其他开发

Hadoop 如何决定有多少节点将执行 Map 和 Reduce 任务?

我是 hadoop 新手,我正在努力理解它.我说的是hadoop 2.当我有一个想要做MapReduce的输入文件时,在MapReduce程序中我说的是Split的参数,所以它会做尽可能多的map任务,对吧? 资源管理器知道文件在哪里,并将任务发送到拥有数据的节点,但谁说有多少节点将执行任务?在映射完成后,有一个 shuffle,哪个节点将执行 reduce 任务由执行哈希映射的分区器决定, ..
发布时间:2022-01-13 23:21:26 其他开发

如何从 hive cli 将 hive sql 查询作为 mr 作业提交

我已经部署了一个 CDH-5.9 集群,使用 MR 作为 hive 执行引擎.我有一个名为“users"的配置单元表,有 50 行.每当我执行查询 select * from users 工作正常如下: hive>从用户中选择*;行亚当 1 38 ATK093 厨师本杰明 2 24 ATK032 仆人查尔斯 3 45 ATK107 收银员常春藤 4 30 ATK384 仆人琳达 5 23 ATK ..
发布时间:2021-12-28 23:58:54 其他开发

Hive 查询结果中的 NULL 列名

我已经从 NOAA 下载了天气 .txt 文件,看起来喜欢: WBAN,日期,时间,StationType,SkyCondition,SkyConditionFlag,可见性,VisibilityFlag,WeatherType,WeatherTypeFlag,DryBulbFarenheit,DryBulbFarenheitFlag,DryBulbCelsius,DryBulbCelsius ..
发布时间:2021-12-28 23:57:46 其他开发

在hadoop中合并小文件

我在 HDFS 中有一个目录(最终目录),其中每分钟加载一些文件(例如:10 mb).一段时间后,我想将所有小文件合并为一个大文件(例如:100 mb).但是用户不断地将文件推送到最终目录.这是一个持续的过程. 所以我第一次需要将前 10 个文件组合成一个大文件(例如:large.txt)并将文件保存到 Finaldir. 现在我的问题是我将如何获得不包括前 10 个文件的接下来的 1 ..
发布时间:2021-12-28 23:41:22 其他开发

Hadoop 2.2.0 中的 MapReduce 不起作用

在伪分布式模式下安装和配置我的 Hadoop 2.2.0 后,一切都在运行,正如您在 jps 中看到的: $ jps第2287章1926 资源管理器2162 节点管理器1834 数据节点1756 名称节点3013 日元 然后我用 运行 wordcount 示例 hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-e ..
发布时间:2021-12-15 19:23:08 其他开发

如何使用`ssc.fileStream()`读取镶木地板文件?传递给 `ssc.fileStream()` 的类型是什么?

我对Spark的fileStream()方法的理解是它以三种类型为参数:Key、Value和Format.对于文本文件,适当的类型是:LongWritable、Text 和 TextInputFormat. 首先,我想了解这些类型的本质.直觉上,我猜在这种情况下 Key 是文件的行号,而 Value 是该行上的文本.因此,在以下文本文件示例中: 你好测试另一个测试 DStream 的第一 ..
发布时间:2021-12-15 19:16:45 其他开发

如何将 AWS 访问密钥 ID 和秘密访问密钥指定为 amazon s3n URL 的一部分

我将输入和输出文件夹作为参数传递给来自网页的 mapreduce 字数统计程序. 出现以下错误: HTTP 状态 500 - 请求处理失败;嵌套异常是java.lang.IllegalArgumentException:AWS 访问密钥 ID 和秘密必须将访问密钥指定为用户名或密码(分别)一个 s3n URL,或通过设置 fs.s3n.awsAccessKeyId或 fs.s3n.aw ..
发布时间:2021-12-15 19:14:12 其他开发

Datanode 未正确启动

我正在尝试以伪分布式模式安装 Hadoop 2.2.0.当我尝试启动 datanode 服务时,它显示以下错误,谁能告诉我如何解决这个问题? **2**014-03-11 08:48:15,916 INFO org.apache.hadoop.hdfs.server.datanode.DataNode:块池(storage id unknown) service to localhost/127 ..
发布时间:2021-12-15 19:03:18 其他开发

Hadoop 如何决定执行 Map 和 Reduce 任务的节点数量?

我是 hadoop 的新手,我正在努力理解它.我说的是hadoop 2.当我有一个输入文件想要做一个MapReduce时,在MapReduce程序中我说Split的参数,所以它会做和split一样多的map任务,对吧? 资源管理器知道文件在哪里,并将任务发送给拥有数据的节点,但谁说有多少节点会执行任务?映射完之后就是shuffle,哪个节点做reduce任务是由做hash映射的partiti ..
发布时间:2021-12-15 19:00:11 其他开发