hadoop-yarn相关内容

单个应用程序可以有多少个 SparkSession?

我发现,随着 Spark 运行和表的大小(通过联接)增长,spark 执行器最终会耗尽内存,整个系统崩溃.即使我尝试将临时结果写入 Hive 表(在 HDFS 上),系统仍然没有释放太多内存,并且我的整个系统在大约 130 个连接后崩溃. 然而,通过实验,我意识到如果我将问题分解成更小的部分,将临时结果写入 hive 表,并停止/启动 Spark 会话(和 spark 上下文),那么系统的资 ..
发布时间:2021-11-14 21:29:35 其他开发

在不安全的 YARN 集群中运行 Spark 时访问安全的 Hive

我们有两个 cloudera 5.7.1 集群,一个使用 Kerberos 保护,一个不安全. 在访问存储在安全集群中的 hive 表时,是否可以使用不安全的 YARN 集群运行 Spark?(Spark 版本是 1.6) 如果是这样,能否请您解释一下如何配置它? 更新: 我想稍微解释一下我的问题背后的最终目标.我们的主要安全集群被大量使用,我们的工作无法在合理的时间内获得 ..
发布时间:2021-11-12 05:46:30 其他开发

我应该为 Spark 选择哪种集群类型?

我是 Apache Spark 的新手,我刚刚了解到 Spark 支持三种类型的集群: 独立 - 意味着 Spark 将管理自己的集群 YARN - 使用 Hadoop 的 YARN 资源管理器 Mesos - Apache 的专用资源管理器项目 我想我应该先尝试独立.以后需要搭建一个大集群(上百个实例). 我应该选择哪种集群类型? 解决方案 我认为最好的回答是那些在 ..

Apache Spark:内核数量与执行程序数量

我试图了解在 YARN 上运行 Spark 作业时内核数量和执行程序数量之间的关系. 测试环境如下: 数据节点数:3 数据节点机器规格: CPU:Core i7-4790(核心数:4,线程数:8) 内存:32GB (8GB x 4) 硬盘:8TB (2TB x 4) 网络:1Gb Spark 版本:1.0.0 Hadoop 版本:2.4.0 (Hortonwo ..
发布时间:2021-11-12 05:42:01 其他开发

Apache Spark:设置执行程序实例不会更改执行程序

我有一个 Apache Spark 应用程序在集群模式下运行在 YARN 集群上(spark 在这个集群上有 3 个节点). 当应用程序运行时,Spark-UI 显示 2 个执行程序(每个运行在不同的节点上)和驱动程序正在第三个节点上运行.我希望应用程序使用更多的执行程序,因此我尝试将参数 --num-executors 添加到 Spark-submit 并将其设置为 6. spark ..
发布时间:2021-11-12 05:36:37 其他开发

纱线概念理解的火花

我想了解 spark 如何在 YARN 集群/客户端上运行.我有以下疑问. 是否需要在yarn集群的所有节点上都安装spark?我认为应该是因为集群中的工作节点执行任务并且应该能够解码驱动程序发送到集群的 spark 应用程序中的代码(spark API)? 它在文档中说“确保 HADOOP_CONF_DIR 或 YARN_CONF_DIR 指向包含 Hadoop 集群(客户端)配置文 ..
发布时间:2021-11-12 05:36:29 其他开发

如何在 Spark 中获取地图任务的 ID?

有没有办法在 Spark 中获取地图任务的 ID?例如,如果每个地图任务调用一个用户定义的函数,我是否可以从该用户定义的函数中获取该地图任务的 ID? 解决方案 我不知道你说的地图任务 ID 是什么意思,但你可以使用 TaskContext 访问任务信息: import org.apache.spark.TaskContextsc.parallelize(Seq[Int](), 4).m ..
发布时间:2021-11-12 05:36:08 其他开发

Spark yarn 集群与客户端 - 如何选择使用哪一个?

火花 docs 具有以下内容描述纱线客户端和纱线集群区别的段落: 有两种部署模式可用于在 YARN 上启动 Spark 应用程序.在集群模式下,Spark 驱动程序在集群上由 YARN 管理的应用程序主进程中运行,客户端可以在启动应用程序后离开.客户端模式下,驱动程序运行在客户端进程中,应用master只用于向YARN请求资源. 出于某种原因,我假设有两种选择.如果是这样,您如何选择使 ..
发布时间:2021-11-12 05:34:41 其他开发

尝试提交时,成功的任务会生成 mapreduce.counters.LimitExceededException

我有一个在 MapReduce 模式下运行的 Pig 脚本,它一直收到一个我无法修复的持久性错误.该脚本生成多个 MapReduce 应用程序;运行几个小时后,其中一个应用程序注册为 SUCCEEDED,但返回以下诊断消息: 我们在成功提交后崩溃了.正在恢复. 导致失败的步骤是尝试对大约 100GB 的数据集执行 RANK,分为来自先前脚本的大约 1000 个 mapreduce 输出 ..
发布时间:2021-11-12 04:11:44 其他开发

Spark Streaming 应用程序因 KafkaException:字符串超过最大大小或 IllegalArgumentException 而失败

TL;博士: 我非常简单的 Spark Streaming 应用程序在驱动程序中失败,并显示“KafkaException:字符串超出最大大小".我在执行程序中看到了相同的异常,但我也在执行程序日志的某个地方发现了一个 IllegalArgumentException,其中没有其他信息 完整问题: 我正在使用 Spark Streaming 从 Kafka 主题中读取一些消息.这 ..

在 YARN 集群中提交作业之前,Flink TaskManager 不会启动

我正在使用 Amazon EMR 在 YARN 上运行 Flink 集群.我的设置包括用于 1 个主节点和 2 个核心节点的 m4.large 实例.我已经使用以下命令在 YARN 上启动了 Flink CLuster:flink-yarn-session -n 2 -d -tm 4096 -s 4. Flink 作业管理器和应用程序管理器启动,但没有运行任务管理器.Flink Web 界面 ..
发布时间:2021-11-12 01:02:28 其他开发

为什么 flink 容器 vcore 大小总是 1

我正在纱线上运行 flink(更准确地说是在 AWS EMR 纱线集群中). 我阅读了 flink 文档和源代码,默认情况下,对于每个任务管理器容器,flink 将请求每个任务管理器的插槽数作为从纱线请求资源时的 vcore 数.而且我也从源代码中确认: //worker 容器的资源需求int taskManagerSlots = taskManagerParameters.numSlot ..
发布时间:2021-11-12 00:59:06 其他开发

Apache Hadoop YARN 中“mapreduce.map.memory.mb"和“mapred.map.child.java.opts"之间的关系是什么?

我想知道mapreduce.map.memory.mb和mapred.map.child.java.opts参数之间的关系. 是mapreduce.map.memory.mb > mapred.map.child.java.opts吗? 解决方案 ma​​preduce.map.memory.mb 是 Hadoop 允许分配给映射器的内存上限,以兆字节为单位.默认值为 512.如果超 ..
发布时间:2021-11-11 05:12:22 服务器开发