apache-spark相关内容

在多个 Spark SBT 项目中创建可共享的代码

我有一些代码想在不同的 Spark 项目中使用.我正在使用 sbt 创建 .jar 文件. 我看到了这个想法 将共享代码放入另一个项目中,该项目构建自己的 JAR文件,并在两个项目中使用它. 但是那篇文章已经过时了,而且还专门针对 Java...我想知道是否有更好的方法适合我的场景. 解决方案 我已经解决了这个问题,在 build.sbt 文件中添加以下内容: lazy ..
发布时间:2022-01-24 22:05:35 其他开发

SBT 程序集 jar 排除

我正在使用 spark(在 java API 中)并且需要一个可以推送到集群的 jar,但是 jar 本身不应包含 spark.部署作业的应用程序当然应该包括 spark. 我想要: sbt run - 一切都应该被编译和执行 sbt smallAssembly - 创建一个没有火花的罐子 sbt 组装 - 创建一个包含所有内容(包括 spark)的 uber jar,以便于部署. ..
发布时间:2022-01-24 21:52:57 其他开发

使用 SBT 制作 Spark Fat Jar 的正确方法

我需要一个带有 Spark 的 Fat Jar,因为我正在为 Knime 创建一个自定义节点.基本上它是一个在 Knime 内部执行的独立 jar,我认为 Fat Jar 是生成本地 Spark Job 的唯一方法.最终我们将继续向远程集群提交作业,但现在我需要它以这种方式生成. 也就是说,我用这个做了一个 Fat Jar:https://github.com/sbt/sbt-组装 我 ..
发布时间:2022-01-24 21:49:07 其他开发

在本地加载 Spark 数据 不完整的 HDFS URI

我在本地 CSV 文件中加载 SBT 时遇到问题.基本上,我在 Scala Eclipse 中编写了一个 Spark 程序,它读取以下文件: val 搜索 = sc.textFile("hdfs:///data/searches") 这在 hdfs 上运行良好,但出于调试原因,我希望从本地目录加载此文件,我已将其设置为项目目录中. 所以我厌倦了以下内容: val 搜索 = sc.tex ..
发布时间:2022-01-24 21:48:54 其他开发

如何使用 SBT、Spark 和“提供"高效工作依赖?

我正在使用 Scala 构建一个 Apache Spark 应用程序,并且我正在使用 SBT 来构建它.事情是这样的: 当我在 IntelliJ IDEA 下开发时,我希望将 Spark 依赖项包含在类路径中(我正在启动一个带有主类的常规应用程序) 当我打包应用程序(感谢 sbt-assembly)插件时,我确实不希望 Spark 依赖项包含在我的胖 JAR 中 当我通过 sbt tes ..
发布时间:2022-01-24 21:40:18 其他开发

为什么 Spark 应用程序失败并显示“ClassNotFoundException:无法找到数据源:kafka"作为带有 sbt 程序集的 uber-jar?

我正在尝试运行像 StructuredKafkaWordCount.我从 Spark 结构化流式编程指南开始. 我的代码是 包 io.boontadata.spark.job1导入 org.apache.spark.sql.SparkSession对象 DirectKafkaAggregateEvents {val FIELD_MESSAGE_ID = 0val FIELD_DEVICE_ ..

Spark on YARN 资源管理器:YARN Containers 和 Spark Executors 之间的关系

我是 YARN 上的 Spark 新手,不了解 YARN Containers 和 Spark Executors 之间的关系.我根据 yarn-utils.py 脚本的结果尝试了以下配置,可用于找到最佳集群配置. 我正在开发的 Hadoop 集群 (HDP 2.4): 1 个主节点: CPU:2 个 CPU,每个 CPU 6 个内核 = 12 个内核 内存:64 GB SSD: ..

Spark - 迭代算法的奇怪行为

我正在尝试使用 Spark 编写迭代算法.该算法包含一个主循环,其中使用了不同的 Spark 命令以实现并行性.如果每次迭代只使用一个 Spark 命令,那么一切正常.当使用多个命令时,Spark 的行为会变得非常奇怪.主要的问题是,一个带有 2 个项目的 RDD 上的 map 命令不会导致 2,而是导致许多函数调用. 似乎 Spark 在迭代 x 中执行从迭代 1 到迭代 x-1 的每个命 ..
发布时间:2022-01-24 12:12:45 其他开发