apache-spark 第6页 - IT屋-程序员软件开发技术分享社区

HDFS中的电光类路径

对于在纱线(纱线客户端)上运行的电光作业，是否可以使用hdfs中的jar指定类路径有点像使用Map Reduce作业： DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs) 推荐答案来自SparkContext文档： defaddJar(路径：string) ..

发布时间：2022-02-27 17:54:43 hadoop apache-spark hdfs hadoop-yarn 其他开发

电光-当应用程序JAR在HDFS中时提交不起作用

我正在尝试使用bin/电光-Submit运行电光应用程序。当我在本地文件系统中引用我的应用程序JAR时，它可以工作。但是，当我将应用程序JAR复制到HDFS中的目录时，我收到以下异常：警告：跳过远程JAR hdfs://localhost:9000/user/hdfs/jars/simple-project-1.0-SNAPSHOT.jar. java.lang.ClassNotFound ..

发布时间：2022-02-27 17:48:08 hadoop apache-spark hdfs 其他开发

在电光的子串中使用LENGTH函数

我正在尝试使用DataFrame中的子字符串函数内的LENGTH函数但它给出错误 val substrDF = testDF.withColumn("newcol", substring($"col", 1, length($"col")-1)) 下面是错误 error: type mismatch; found : org.apache.spark.sql.Column ..

发布时间：2022-02-25 22:14:14 scala apache-spark dataframe substring string-length 其他开发

如何使用电光的默认日志配置文件：org/apache/spark/log4j-defaults.properties"；消息消除(&Q；)？

我正在尝试禁止显示该邮件 Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 当我运行电光应用程序时。我已经成功地重定向了信息消息，但是这条消息一直在显示。如果您有任何想法，我们将不胜感激。推荐答案好的，我已经想出了一种方法。基本上，我最初有自己的log4j.xml ..

发布时间：2022-02-25 11:44:39 log4j apache-spark 其他开发

PySpark-从值列表中添加列

我必须根据值列表将列添加到PySpark DataFrame。 a= spark.createDataFrame([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],["Animal", "Enemy"]) 我有一个名为Rating的列表，它是对每只宠物的评级。 rating = [5,4,1] 我需要向数据帧追加一个名为Rat ..

发布时间：2022-02-21 14:22:09 python list apache-spark pyspark apache-spark-sql Python

如何在电光sql中表示名称中包含空格的列？

我们已尝试用方括号[column name]、单引号和双引号和反号将列名括起来，但都不起作用。电光是否支持名称包含空格的列？推荐答案反引号似乎工作正常： scala> val df = sc.parallelize(Seq(("a", 1))).toDF("foo bar", "x") df: org.apache.spark.sql.DataFrame = [foo ..

发布时间：2022-02-21 14:20:21 apache-spark pyspark apache-spark-sql 其他开发

DataProc不解压缩作为存档传递的文件

我正在尝试使用.NET电光作业提交数据过程。命令行如下所示： gcloud dataproc jobs submit spark --cluster= --region= --class=org.apache.spark.deploy.dotnet.DotnetRunner --jars=gs://bucket ..

发布时间：2022-02-21 13:13:19 .net apache-spark google-cloud-platform google-cloud-dataproc C#/.NET

如何将活生生的可乐笔记本嵌入网站？

我想构建一个网站并将其部署到GitHub页面或Heroku。我的问题是：是否可以在我将要托管的网站中嵌入一个实时(我可以在那里运行代码)Google Colab笔记本？我想让这个嵌入式CoLab笔记本执行电光代码！！谢谢！推荐答案即使回答有点晚，我也遇到了同样的问题，并且得出的结论是目前仍不可能做到这一点。但是，不久前有一个功能请求打开here。我认为你最多只能 ..

发布时间：2022-02-21 11:27:20 apache-spark web deployment data-science embed 其他开发

将JAR文件添加到电光作业-电光-提交

正确.这件事已经讨论了很多。然而，有很多模棱两可的地方，并且提供了一些答案……包括在JARS/Executor/Driver配置或选项中复制JAR引用。不明确和/或省略的详细信息每个选项都应澄清以下不明确、不清楚和/或遗漏的详细信息：如何影响ClassPath 驱动程序执行器(用于任务运行) 两者都完全没有分隔符：逗号、冒号、分号如果自动分发提供 ..

发布时间：2022-02-20 19:09:17 java scala apache-spark jar spark-submit Java开发

Apache Spark GCS 连接器的速率限制

..

发布时间：2022-01-25 20:36:19 apache-spark google-cloud-storage google-cloud-platform pyspark google-hadoop 其他开发

如何在 Scala 中同时使用 gcs-connector 和 google-cloud-storage

..

发布时间：2022-01-25 20:25:14 scala apache-spark google-cloud-storage 其他开发

“方案没有文件系统:gs"在本地运行火花作业时

..

发布时间：2022-01-25 19:40:40 apache-spark hadoop google-cloud-storage google-cloud-dataproc google-hadoop 其他开发

比较两个 RDD

我有两个 RDD[Array[String]]，我们称它们为 rdd1 和 rdd2.我将创建一个新的 RDD，其中仅包含 rdd2 的条目，而不是 rdd1(基于键).我通过 Intellij 在 Scala 上使用 Spark. 我用一个键将rdd1和rdd2分组(我将只比较两个rdds的键): val rdd1Grouped = rdd1.groupBy(line => line(0 ..

发布时间：2022-01-25 09:28:23 scala apache-spark compare rdd 其他开发

尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 spark 中运行它. 我正在关注这个教程. 当尝试使用 sbt 作为 here 构建 jar 文件时，我面临以下错误 [info] 解决 org.apache.spark#spark-core_2.10.4;1.0.2 ...[警告] 未找到模块:org.apache.spark#spark-core_2.10.4;1.0.2[警告] == ..

发布时间：2022-01-24 22:31:08 scala sbt apache-spark 其他开发

spark-cassandra-connector 2.0.2 的 sbt 未解决依赖关系

build.sbt: val sparkVersion = "2.1.1";libraryDependencies += "org.apache.spark" %% "spark-core" % sparkVersion % "provided";libraryDependencies += "org.apache.spark" %% "spark-sql" % sparkVersion % " ..

发布时间：2022-01-24 22:25:42 scala apache-spark sbt spark-cassandra-connector 其他开发

使用 xgboost 构建 spark scala 的 sbt 失败

./build/sbt 清理包给出以下错误: 解决 org.fusesource.jansi#jansi;1.4 ...[警告] ::::::::::::::::::::::::::::::::::::::::::::::[警告] :: 未解决的依赖关系 ::[警告] ::::::::::::::::::::::::::::::::::::::::::::::[警告] :: ml.dmlc.xg ..

发布时间：2022-01-24 22:25:34 scala apache-spark sbt xgboost 其他开发

错误:无法使用 Spark-submit 加载主类

我的代码在下面 import org.apache.spark.SparkContext;导入 org.apache.spark.SparkConf；对象字计数器 {def main(args: Array[String]) {val conf = new SparkConf().setAppName("Word Counter").setMaster("local")val sc = 新 Sp ..

发布时间：2022-01-24 22:25:28 scala apache-spark sbt word-count spark-submit 其他开发

杰克逊版太旧了

我有以下 build.sbt 文件: name := "myProject"版本:=“1.0"scalaVersion := "2.11.8"javaOptions ++= Seq("-Xms512M", "-Xmx2048M", "-XX:MaxPermSize=2048M", "-XX:+CMSClassUnloadingEnabled")依赖覆盖 ++= 设置(“com.fasterxml ..

发布时间：2022-01-24 22:14:04 scala apache-spark sbt 其他开发

在 spark 应用程序中捆绑到 jar 中的 log4j 属性文件被忽略

我需要从 src/resources 中读取自定义 log4j.properties，但这不起作用尝试{val inStream :InputStream=className.this.getClass.getClassLoader.getResourceAsStream("log4j.properties");logCfgProps.load(inStream)} 抓住 {案例 e: Thr ..

发布时间：2022-01-24 22:11:46 intellij-idea apache-spark sbt classloader getresource 其他开发

何时使用“sbt assembly"?和 "sbt 编译 &&sbt 包"?

我想知道什么时候应该使用 sbt assembly 以及什么时候应该使用 sbt compile &&sbt 包? 我正在使用 Intellij IDEA 在我的本地计算机上编写一个程序，并且我正在使用 sbt compile && 编译它sbt 包，然后我将它上传到集群并使用spark-submit 运行它.这是最好的方法吗?什么时候应该使用 sbt 汇编? 解决方案我想知道 ..

发布时间：2022-01-24 22:10:22 scala apache-spark sbt 其他开发

apache-spark相关内容