spark-submit - IT屋-程序员软件开发技术分享社区

EMR-5.32.0上的Spark未生成请求的执行器

我在EMR(版本5.32.0)上的(Py)Spark中遇到了一些问题。大约一年前，我在EMR集群上运行了相同的程序(我认为发行版一定是5.29.0)。然后，我能够使用spark-submit参数正确配置我的PySpark程序。但是，现在我正在运行相同/相似的代码，但是spark-submit参数似乎没有任何效果。我的集群配置：主节点：8个VCORE，32 GiB内存，仅EBS存储E ..

发布时间：2022-05-25 17:44:50 apache-spark pyspark configuration amazon-emr spark-submit 其他开发

从第二个R笔记本中调用数据库中的R笔记本

在使用spark-submit传递参数时，我尝试在Databricks上调用R笔记本。我的方法如下： com ..

发布时间：2022-04-11 15:45:41 sparkr databricks spark-submit 其他开发

将JAR文件添加到电光作业-电光-提交

正确.这件事已经讨论了很多。然而，有很多模棱两可的地方，并且提供了一些答案……包括在JARS/Executor/Driver配置或选项中复制JAR引用。不明确和/或省略的详细信息每个选项都应澄清以下不明确、不清楚和/或遗漏的详细信息：如何影响ClassPath 驱动程序执行器(用于任务运行) 两者都完全没有分隔符：逗号、冒号、分号如果自动分发提供 ..

发布时间：2022-02-20 19:09:17 java scala apache-spark jar spark-submit Java开发

我的代码在下面 import org.apache.spark.SparkContext;导入 org.apache.spark.SparkConf；对象字计数器 {def main(args: Array[String]) {val conf = new SparkConf().setAppName("Word Counter").setMaster("local")val sc = 新 Sp ..

发布时间：2022-01-24 22:25:28 scala apache-spark sbt word-count spark-submit 其他开发

提交火花时出现 ClassNotFoundException scala.runtime.LambdaDeserialize

..

发布时间：2022-01-24 21:46:20 scala apache-spark sbt spark-submit 其他开发

如何从 Lambda 函数在亚马逊 EMR 上执行 spark 提交?

我想根据 S3 上的文件上传事件在 AWS EMR 集群上执行 spark 提交作业.我正在使用 AWS Lambda 函数来捕获事件，但我不知道如何通过 Lambda 函数在 EMR 集群上提交 spark 提交作业. 我搜索的大多数答案都谈到在 EMR 集群中添加一个步骤.但我不知道我是否可以在添加的步骤中添加添加任何步骤来触发“spark submit --with args". ..

发布时间：2021-11-27 10:07:57 amazon-web-services apache-spark aws-lambda amazon-emr spark-submit 其他开发

将 jars 添加到 Spark 作业 - spark-submit

确实......已经讨论了很多. 然而，有很多含糊之处，并且提供了一些答案......包括在 jars/executor/driver 配置或选项中复制 jar 引用. 模棱两可和/或遗漏的细节应为每个选项澄清以下模棱两可、不清楚和/或遗漏的细节: ClassPath 受到的影响司机 Executor(用于正在运行的任务) 两者完全没有分隔符:逗号、冒 ..

发布时间：2021-11-25 14:45:18 java scala apache-spark jar spark-submit Java开发

我的 spark sql 限制很慢

我使用spark从elasticsearch中读取数据.就像 select col from index limit 10; 问题是索引非常大，包含1000亿行.而spark生成数千个任务来完成工作. 我只需要 10 行，即使 1 个任务也返回 10 行可以完成工作.我不需要这么多任务. 限制是非常慢的，即使是限制 1. 代码: sql = select col from index ..

发布时间：2021-11-14 22:56:11 apache-spark elasticsearch apache-spark-sql spark-submit 其他开发

将 jars 添加到 Spark 作业 - spark-submit

是的……已经讨论了很多. 然而，有很多含糊之处，并且提供了一些答案......包括在 jars/executor/driver 配置或选项中复制 jar 引用. 模棱两可和/或遗漏的细节应为每个选项澄清以下模棱两可、不清楚和/或遗漏的细节: ClassPath 受到的影响司机 Executor(用于正在运行的任务) 两者完全没有分隔符:逗号、冒号、分号 ..

发布时间：2021-11-12 05:24:20 java scala apache-spark jar spark-submit Java开发

如何停止在 Spark 控制台上显示 INFO 消息?

我想停止在 spark shell 上发送各种消息. 我尝试编辑 log4j.properties 文件以阻止这些消息. 这里是log4j.properties 的内容 # 使用appender文件定义根记录器log4j.rootCategory=警告，控制台log4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.a ..

发布时间：2021-11-12 05:24:02 apache-spark log4j spark-submit 其他开发

在气流 (1**.1*.0.35) 中运行来自不同集群 (1**.1*.0.21) 的 Spark Submit 程序.如何在气流中远程连接其他集群

我一直在尝试在 Airflow 中 SparkSubmit 程序，但 Spark 文件在不同的集群 (1**.1*.0.21) 中，而气流在 (1**.1*.0.35) 中.我正在寻找有关此主题的详细说明和示例.我无法将任何 xml 文件或其他文件复制或下载到我的气流集群. 当我尝试使用 SSH 钩子时，它说.虽然我对使用 SSH Operator 和 BashOperator 有很多疑问. ..

发布时间：2021-10-26 18:04:00 apache-spark pyspark airflow remote-server spark-submit 其他开发

使用 Spark-Submit 在 kubernetes 上安装 PySpark 软件包:找不到常春藤缓存文件错误

我整天都在和它斗争.我能够安装和使用带有 spark shell 或连接的 Jupiter 笔记本的包(graphframes)，但我想通过 spark-submit 将其移动到基于 kubernetes 的 spark 环境.我的spark 版本:3.0.1我从 spark-packages 下载了最后一个可用的 .jar 文件(graphframes-0.8.1-spark3.0-s_2.12 ..

发布时间：2021-06-25 18:32:22 apache-spark pyspark ivy spark-submit graphframes 其他开发

在 Pyspark 中添加一个 python 外部库

我正在使用 pyspark (1.6) 并且我想使用 databricks:spark-csv 库.为此，我尝试了不同的方法，但都没有成功 1- 我尝试添加从 https://下载的 jarspark-packages.org/package/databricks/spark-csv，然后运行 pyspark --jars THE_NAME_OF_THE_JARdf = sqlCon ..

发布时间：2021-06-24 20:42:37 pyspark spark-submit 其他开发

spark-submit 与特定的 python 库

我有一个依赖于第三方库的 pyspark 代码.我想在 mesos 下运行的集群上执行此代码. 我的 Python 环境确实有一个压缩版本，它位于我的集群可访问的 http 服务器上. 我在指定我的 spark-submit 查询以使用此环境时遇到了一些麻烦.我使用 --archives 加载 zip 文件和 --conf 'spark.pyspark.driver.python=pa ..

发布时间：2021-06-24 20:41:33 python pyspark spark-submit Python

Python:将熊猫数据帧作为参数传递给子进程

如何使用子进程将数据帧作为参数发送到带有 spark-submit 的 python 脚本.我已经尝试了下面的代码，但没有成功，因为我们无法连接字符串和对象. def spark_submit(self, test_cases, email):命令 = 'spark-submit TestRunner.py '+test_cases+" "+email打印(命令)process = subpro ..

发布时间：2021-06-13 20:24:12 python pandas pyspark subprocess spark-submit Python

火花提交错误:ClassNotFoundException

build.sbt lazy val commonSettings = Seq(组织:="com.me"，版本:="0.1.0"，scalaVersion:="2.11.0")惰性val计数器=(文件("counter")中的项目).设置(commonSettings:_ *) counter/build.sbt name:=“计数器"mainClass:= Some("Counter ..

发布时间：2021-04-08 20:21:07 scala apache-spark spark-submit 其他开发

如何在Virtualenv中为pyspark运行spark-submit?

在virtualenv中，是否可以运行 spark-submit (来自HDP 3.1.0的spark v2.3.2)?出现以下情况:在virtualenv中具有使用python3(和某些特定的lib)的python文件(以将lib版本与系统其余部分隔离).我想使用/bin/spark-submit 运行此文件，但尝试这样做我得到... [me @ airflowetl测试] $源../ven ..

发布时间：2021-04-08 20:16:53 apache-spark pyspark spark-submit 其他开发

错误:无法使用Spark提交加载主类

我的代码在下面 import org.apache.spark.SparkContext;导入org.apache.spark.SparkConf;对象WordCounter {def main(args:Array [String]){val conf = new SparkConf().setAppName("Word Counter").setMaster("local")val sc ..

发布时间：2021-04-08 20:14:37 scala apache-spark sbt word-count spark-submit 其他开发

任务仅在Spark中的一个执行程序上运行

我正在使用Java在spark代码下运行. 代码 Test.java package com.sample;导入org.apache.spark.SparkConf;导入org.apache.spark.SparkContext;导入org.apache.spark.sql.Dataset;导入org.apache.spark.sql.Row;导入org.apache.spark. ..

发布时间：2021-04-08 19:37:53 apache-spark apache-spark-2.0 spark-submit 其他开发

如何提交将罐子托管在S3对象存储中的SPARK作业

我有一个带有Yarn的SPARK群集，并且我想将我的工作的jar放入S3 100％兼容的对象存储中.如果我想提交工作，我从Google进行搜索，看起来就像这样:spark-submit --master yarn --deploy-mode cluster s3://my_ bucket/jar_file但是，S3对象存储需要用户名和密码才能访问.那么，如何配置这些凭据信 ..

发布时间：2021-04-03 19:34:41 amazon-s3 spark-submit 其他开发

spark-submit相关内容

EMR-5.32.0上的Spark未生成请求的执行器

从第二个R笔记本中调用数据库中的R笔记本

将JAR文件添加到电光作业-电光-提交

错误:无法使用 Spark-submit 加载主类

提交火花时出现 ClassNotFoundException scala.runtime.LambdaDeserialize

如何从 Lambda 函数在亚马逊 EMR 上执行 spark 提交?

将 jars 添加到 Spark 作业 - spark-submit

我的 spark sql 限制很慢

将 jars 添加到 Spark 作业 - spark-submit

如何停止在 Spark 控制台上显示 INFO 消息?

在气流 (1**.1*.0.35) 中运行来自不同集群 (1**.1*.0.21) 的 Spark Submit 程序.如何在气流中远程连接其他集群

使用 Spark-Submit 在 kubernetes 上安装 PySpark 软件包:找不到常春藤缓存文件错误

在 Pyspark 中添加一个 python 外部库

spark-submit 与特定的 python 库

Python:将熊猫数据帧作为参数传递给子进程

火花提交错误:ClassNotFoundException

如何在Virtualenv中为pyspark运行spark-submit?

错误:无法使用Spark提交加载主类

任务仅在Spark中的一个执行程序上运行

如何提交将罐子托管在S3对象存储中的SPARK作业