apache-spark相关内容
我正在使用 Scala 2.11、Spark 和 Scallop(https://github.com/scallop/scallop).我使用 sbt 构建了一个没有 Spark 提供的依赖项的应用程序 fat jar(位于:analysis/target/scala-2.11/dtex-analysis_2.11-0.1.jar) 我可以在 sbt 中正常运行程序. 我尝试从命令行
..
我有一些代码想在不同的 Spark 项目中使用.我正在使用 sbt 创建 .jar 文件. 我看到了这个想法 将共享代码放入另一个项目中,该项目构建自己的 JAR文件,并在两个项目中使用它. 但是那篇文章已经过时了,而且还专门针对 Java...我想知道是否有更好的方法适合我的场景. 解决方案 我已经解决了这个问题,在 build.sbt 文件中添加以下内容: lazy
..
我无法访问包中的 SparkConf.但我已经导入了 import org.apache.spark.SparkConf.我的代码是: 导入 org.apache.spark.SparkContext导入 org.apache.spark.SparkContext._导入 org.apache.spark.SparkConf导入 org.apache.spark.rdd.RDD导入 org.ap
..
..
我正在尝试运行我自己的 spark 应用程序,但是当我使用 spark-submit 命令时出现以下错误: Users/_name_here/dev/sp/target/scala-2.10/sp_2.10-0.1-SNAPSHOT.jar --stacktracejava.lang.ClassNotFoundException:/Users/_name_here/dev/sp/mo/src/m
..
我正在使用 spark(在 java API 中)并且需要一个可以推送到集群的 jar,但是 jar 本身不应包含 spark.部署作业的应用程序当然应该包括 spark. 我想要: sbt run - 一切都应该被编译和执行 sbt smallAssembly - 创建一个没有火花的罐子 sbt 组装 - 创建一个包含所有内容(包括 spark)的 uber jar,以便于部署.
..
我需要一个带有 Spark 的 Fat Jar,因为我正在为 Knime 创建一个自定义节点.基本上它是一个在 Knime 内部执行的独立 jar,我认为 Fat Jar 是生成本地 Spark Job 的唯一方法.最终我们将继续向远程集群提交作业,但现在我需要它以这种方式生成. 也就是说,我用这个做了一个 Fat Jar:https://github.com/sbt/sbt-组装 我
..
我在本地 CSV 文件中加载 SBT 时遇到问题.基本上,我在 Scala Eclipse 中编写了一个 Spark 程序,它读取以下文件: val 搜索 = sc.textFile("hdfs:///data/searches") 这在 hdfs 上运行良好,但出于调试原因,我希望从本地目录加载此文件,我已将其设置为项目目录中. 所以我厌倦了以下内容: val 搜索 = sc.tex
..
..
..
我使用 sbt 构建了一个简单的 Spark 应用程序.这是我的代码: 导入 org.apache.spark.sql.SparkSession对象你好世界{def main(args: Array[String]): Unit = {val spark = SparkSession.builder().master("local").appName("BigApple").getOrCreat
..
当我使用 sbt 运行 spark 作业时遇到问题,我已经完成编译,但是当我运行命令 run 时,我遇到了以下问题 [error] (run-main-0) java.lang.NoSuchMethodError: scala.collection.immutable.HashSet$.empty()Lscala/collection/immutable/HashSet;java.lang.N
..
当我尝试使用 scalatest 在 SBT 窗口上对我的 spark 流代码执行单元测试时遇到异常. sbt testOnly > * * * * * * 2018-06-18 02:39:00 错误执行程序:91 - 阶段 3.0 (TID 11) 中的任务 1.0 异常java.lang.NoSuchMethodError: net.jpo
..
我正在使用 Scala 构建一个 Apache Spark 应用程序,并且我正在使用 SBT 来构建它.事情是这样的: 当我在 IntelliJ IDEA 下开发时,我希望将 Spark 依赖项包含在类路径中(我正在启动一个带有主类的常规应用程序) 当我打包应用程序(感谢 sbt-assembly)插件时,我确实不希望 Spark 依赖项包含在我的胖 JAR 中 当我通过 sbt tes
..
Spark对json4s 3.2.10有依赖,但是这个版本有几个bug,我需要使用3.2.11.我在 build.sbt 中添加了 json4s-native 3.2.11 依赖,一切都编译得很好.但是当我提交我的 JAR 时,它为我提供了 3.2.10. build.sbt 导入 sbt.Keys._名称:=“sparkapp"版本:=“1.0"scalaVersion := "2.10
..
我运行了 spark 应用程序并想将测试类打包到 fat jar 中.奇怪的是我成功地运行了“sbt assembly",但是当我运行“sbt test:assembly"时却失败了. 我尝试了 sbt-assembly : 包括测试类,但没有成功对于我的情况. SBT 版本:0.13.8 build.sbt: 导入 sbtassembly.AssemblyPlugin._名称
..
我正在尝试运行像 StructuredKafkaWordCount.我从 Spark 结构化流式编程指南开始. 我的代码是 包 io.boontadata.spark.job1导入 org.apache.spark.sql.SparkSession对象 DirectKafkaAggregateEvents {val FIELD_MESSAGE_ID = 0val FIELD_DEVICE_
..
我注意到我的 scala 编译器有一个奇怪的行为.编译类时偶尔会抛出 OutOfMemoryError.这是错误消息: [info] 将 1 个 Scala 源代码编译到/Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes...java.lang.OutOfMemoryError: PermGen
..
我是 YARN 上的 Spark 新手,不了解 YARN Containers 和 Spark Executors 之间的关系.我根据 yarn-utils.py 脚本的结果尝试了以下配置,可用于找到最佳集群配置. 我正在开发的 Hadoop 集群 (HDP 2.4): 1 个主节点: CPU:2 个 CPU,每个 CPU 6 个内核 = 12 个内核 内存:64 GB SSD:
..
我正在尝试使用 Spark 编写迭代算法.该算法包含一个主循环,其中使用了不同的 Spark 命令以实现并行性.如果每次迭代只使用一个 Spark 命令,那么一切正常.当使用多个命令时,Spark 的行为会变得非常奇怪.主要的问题是,一个带有 2 个项目的 RDD 上的 map 命令不会导致 2,而是导致许多函数调用. 似乎 Spark 在迭代 x 中执行从迭代 1 到迭代 x-1 的每个命
..