hadoop2 - IT屋-程序员软件开发技术分享社区

NoSuchMethodError：org.apache.hadoop.conf.Configuration.reloadExistingConfigurations()V

我在我的项目中使用的是带Detla版本0.8.0的<；spark.version>；3.0.2<；/spark.version>；。并与一起运行 export SPARK_HOME=/pkg/spark-3.0.2-bin-hadoop2.7-hive1.2 $SPARK_HOME/bin/spark-submit --master yarn --deploy-mode ..

发布时间：2022-04-11 16:04:40 apache-spark databricks hadoop2 delta-lake 其他开发

在一台计算机上运行Hadoop群集

我是Hadoop环境的新手。我想知道是否可以使用虚拟机在单个计算机上运行群集(包含2个或3个节点)。欢迎任何澄清。谢谢您。推荐答案来自Virtual Hadoop Wiki：需要分别检查云和虚拟化，但在所有情况下，答案都是“是的，您可以虚拟化，是的，您可以部署到云，但您需要了解后果并制定相应的计划”。此维基页面是您开始考虑如何在虚拟机上设置Hado ..

发布时间：2022-02-28 21:44:56 hadoop virtual-machine cluster-computing bigdata hadoop2 其他开发

是否将文件划分为数据块以存储在HDFS中？

我了解到HDFS中的挡路系统是位于底层文件系统之上的逻辑分区。但是，当我发出cat命令时，如何检索文件。假设我有一个1 GB的文件。我的默认HDFS挡路大小为64 MB。我发出以下命令： hadoop -fs copyFromLocal my1GBfile.db input/data/ 上述命令将文件my1GBfile.db从我的本地计算机复制到HDFS: 中的inp ..

发布时间：2022-02-27 17:49:47 hadoop hdfs hadoop2 其他开发

ApplicationMaster退出代码杀死的容器是143

我在几种情况下都收到以下错误： 2017-03-23 11:55:10,794 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_1490079327128_0048_r_000003 ..

发布时间：2022-02-23 23:47:17 hadoop hive mapreduce hadoop2 其他开发

Hadoop 错误 - 所有数据节点都在中止

我使用的是 Hadoop 2.3.0 版本.有时当我执行 Map reduce 作业时，会显示以下错误. 14/08/10 12:14:59 信息 mapreduce.Job:任务 ID:尝试_1407694955806_0002_m_000780_0，状态:失败错误:java.io.IOException:所有数据节点 192.168.30.2:50010 都是错误的.中止...在 org.a ..

发布时间：2022-01-14 08:13:08 hadoop mapreduce hdfs hadoop-yarn hadoop2 其他开发

Hadoop gen1 与 Hadoop gen2

我对 tasktracker 在 Hadoop-2.x 中的位置有点困惑. Hadoop-1.x 中的守护进程是 namenode、datanode、jobtracker、taskracker 和 secondarynamenode Hadoop-2.x 中的守护进程是 namenode、datanode、resourcemanager、applicationmaster、second ..

发布时间：2022-01-14 08:10:50 hadoop mapreduce hadoop-yarn hadoop2 其他开发

组合器在哪里组合映射器输出 - 在 Map-reduce 作业的 map 阶段或 reduce 阶段?

我的印象是，combiner 就像是作用于本地 map 任务的 reducer，即聚合单个 Map 任务的结果，以减少输出传输的网络带宽. 通过阅读 Hadoop- The权威指南第 3 版，我的理解似乎是正确的. 来自第 2 章(第 34 页) 组合函数许多 MapReduce 作业受到集群上可用带宽的限制，因此尽量减少在 map 和 reduce 任务之间传输的数据是值得的. ..

发布时间：2022-01-13 23:48:34 hadoop mapreduce hadoop2 其他开发

登录 MapReduce 作业的标准做法

我正在尝试找到登录 MapReduce 作业的最佳方法.我在我的其他 Java 应用程序中使用带有 log4j appender 的 slf4j，但是由于 MapReduce 作业在集群中以分布式方式运行，我不知道应该在哪里设置日志文件位置，因为它是一个访问受限的共享集群特权. 是否有任何记录 MapReduce 作业的标准做法，以便您可以在作业完成后轻松查看整个集群的日志? 解决方案 ..

发布时间：2022-01-13 23:39:36 java hadoop mapreduce hadoop2 mapr Java开发

在 Hadoop 中提高 MapReduce 作业性能的技巧

我有 100 个映射器和 1 个减速器在一个作业中运行.如何提高工作绩效? 据我了解:使用组合器可以在很大程度上提高性能.但是我们还需要配置什么来提高作业性能? 解决方案由于本题数据有限(输入文件大小、HDFS块大小、平均map处理时间、Mapper槽数和集群中Reduce槽数等).)，我们无法建议提示. 但是有一些通用的指导方针可以提高性能. 如果每个任务花费的时间少 ..

发布时间：2022-01-13 23:29:45 performance hadoop mapreduce hadoop2 其他开发

Hadoop 2.2.0 中的 MapReduce 不工作

在伪分布式模式下安装和配置我的 Hadoop 2.2.0 后，一切都在运行，您可以在 jps 中看到: $ jps第2287章1926 资源管理器第2162章1834 数据节点1756 名称节点3013 日元然后我用运行 wordcount 示例 hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-exampl ..

发布时间：2022-01-13 23:27:22 hadoop mapreduce hadoop2 其他开发

Hadoop 如何决定有多少节点将执行 Map 和 Reduce 任务?

我是 hadoop 新手，我正在努力理解它.我说的是hadoop 2.当我有一个想要做MapReduce的输入文件时，在MapReduce程序中我说的是Split的参数，所以它会做尽可能多的map任务，对吧? 资源管理器知道文件在哪里，并将任务发送到拥有数据的节点，但谁说有多少节点将执行任务?在映射完成后，有一个 shuffle，哪个节点将执行 reduce 任务由执行哈希映射的分区器决定， ..

发布时间：2022-01-13 23:21:26 hadoop mapreduce hadoop2 其他开发

如何从 hive cli 将 hive sql 查询作为 mr 作业提交

我已经部署了一个 CDH-5.9 集群，使用 MR 作为 hive 执行引擎.我有一个名为“users"的配置单元表，有 50 行.每当我执行查询 select * from users 工作正常如下: hive>从用户中选择*；行亚当 1 38 ATK093 厨师本杰明 2 24 ATK032 仆人查尔斯 3 45 ATK107 收银员常春藤 4 30 ATK384 仆人琳达 5 23 ATK ..

发布时间：2021-12-28 23:58:54 hive mapreduce hiveql hadoop2 cloudera-cdh 其他开发

Hive 查询结果中的 NULL 列名

我已经从 NOAA 下载了天气 .txt 文件，看起来喜欢: WBAN，日期，时间，StationType，SkyCondition，SkyConditionFlag，可见性，VisibilityFlag，WeatherType，WeatherTypeFlag，DryBulbFarenheit，DryBulbFarenheitFlag，DryBulbCelsius，DryBulbCelsius ..

发布时间：2021-12-28 23:57:46 hive hiveql hadoop2 其他开发

在hadoop中合并小文件

我在 HDFS 中有一个目录(最终目录)，其中每分钟加载一些文件(例如:10 mb).一段时间后，我想将所有小文件合并为一个大文件(例如:100 mb).但是用户不断地将文件推送到最终目录.这是一个持续的过程. 所以我第一次需要将前 10 个文件组合成一个大文件(例如:large.txt)并将文件保存到 Finaldir. 现在我的问题是我将如何获得不包括前 10 个文件的接下来的 1 ..

发布时间：2021-12-28 23:41:22 hadoop mapreduce hive hdfs hadoop2 其他开发

Hadoop 2.2.0 中的 MapReduce 不起作用

在伪分布式模式下安装和配置我的 Hadoop 2.2.0 后，一切都在运行，正如您在 jps 中看到的: $ jps第2287章1926 资源管理器2162 节点管理器1834 数据节点1756 名称节点3013 日元然后我用运行 wordcount 示例 hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-e ..

发布时间：2021-12-15 19:23:08 hadoop mapreduce hadoop2 其他开发

只能复制到 0 个节点而不是 minReplication (=1).有 4 个数据节点正在运行，此操作中未排除任何节点

我不知道如何解决这个错误: 顶点失败，vertexName = initialmap，vertexId = vertex_1449805139484_0001_1_00，诊断= [任务失败，的TaskID = task_1449805139484_0001_1_00_000003，诊断= [AttemptID:attempt_1449805139484_0001_1_00_000003_0信息: ..

发布时间：2021-12-15 19:21:25 hadoop hdfs hadoop-yarn hadoop2 apache-tez 其他开发

如何使用`ssc.fileStream()`读取镶木地板文件?传递给 `ssc.fileStream()` 的类型是什么?

我对Spark的fileStream()方法的理解是它以三种类型为参数:Key、Value和Format.对于文本文件，适当的类型是:LongWritable、Text 和 TextInputFormat. 首先，我想了解这些类型的本质.直觉上，我猜在这种情况下 Key 是文件的行号，而 Value 是该行上的文本.因此，在以下文本文件示例中: 你好测试另一个测试 DStream 的第一 ..

发布时间：2021-12-15 19:16:45 scala hadoop apache-spark spark-streaming hadoop2 其他开发

如何将 AWS 访问密钥 ID 和秘密访问密钥指定为 amazon s3n URL 的一部分

我将输入和输出文件夹作为参数传递给来自网页的 mapreduce 字数统计程序. 出现以下错误: HTTP 状态 500 - 请求处理失败；嵌套异常是java.lang.IllegalArgumentException:AWS 访问密钥 ID 和秘密必须将访问密钥指定为用户名或密码(分别)一个 s3n URL，或通过设置 fs.s3n.awsAccessKeyId或 fs.s3n.aw ..

发布时间：2021-12-15 19:14:12 hadoop amazon-web-services amazon-s3 mapreduce hadoop2 其他开发

Datanode 未正确启动

我正在尝试以伪分布式模式安装 Hadoop 2.2.0.当我尝试启动 datanode 服务时，它显示以下错误，谁能告诉我如何解决这个问题? **2**014-03-11 08:48:15,916 INFO org.apache.hadoop.hdfs.server.datanode.DataNode:块池(storage id unknown) service to localhost/127 ..

发布时间：2021-12-15 19:03:18 hadoop hadoop2 其他开发

Hadoop 如何决定执行 Map 和 Reduce 任务的节点数量?

我是 hadoop 的新手，我正在努力理解它.我说的是hadoop 2.当我有一个输入文件想要做一个MapReduce时，在MapReduce程序中我说Split的参数，所以它会做和split一样多的map任务，对吧? 资源管理器知道文件在哪里，并将任务发送给拥有数据的节点，但谁说有多少节点会执行任务?映射完之后就是shuffle，哪个节点做reduce任务是由做hash映射的partiti ..

发布时间：2021-12-15 19:00:11 hadoop mapreduce hadoop2 其他开发

hadoop2相关内容