spark-submit相关内容

EMR-5.32.0上的Spark未生成请求的执行器

我在EMR(版本5.32.0)上的(Py)Spark中遇到了一些问题。大约一年前,我在EMR集群上运行了相同的程序(我认为发行版一定是5.29.0)。然后,我能够使用spark-submit参数正确配置我的PySpark程序。但是,现在我正在运行相同/相似的代码,但是spark-submit参数似乎没有任何效果。 我的集群配置: 主节点:8个VCORE,32 GiB内存,仅EBS存储E ..

将JAR文件添加到电光作业-电光-提交

正确.这件事已经讨论了很多。 然而,有很多模棱两可的地方,并且提供了一些答案……包括在JARS/Executor/Driver配置或选项中复制JAR引用。 不明确和/或省略的详细信息 每个选项都应澄清以下不明确、不清楚和/或遗漏的详细信息: 如何影响ClassPath 驱动程序 执行器(用于任务运行) 两者都 完全没有 分隔符:逗号、冒号、分号 如果自动分发提供 ..
发布时间:2022-02-20 19:09:17 Java开发

如何从 Lambda 函数在亚马逊 EMR 上执行 spark 提交?

我想根据 S3 上的文件上传事件在 AWS EMR 集群上执行 spark 提交作业.我正在使用 AWS Lambda 函数来捕获事件,但我不知道如何通过 Lambda 函数在 EMR 集群上提交 spark 提交作业. 我搜索的大多数答案都谈到在 EMR 集群中添加一个步骤.但我不知道我是否可以在添加的步骤中添加添加任何步骤来触发“spark submit --with args". ..

将 jars 添加到 Spark 作业 - spark-submit

确实......已经讨论了很多. 然而,有很多含糊之处,并且提供了一些答案......包括在 jars/executor/driver 配置或选项中复制 jar 引用. 模棱两可和/或遗漏的细节 应为每个选项澄清以下模棱两可、不清楚和/或遗漏的细节: ClassPath 受到的影响 司机 Executor(用于正在运行的任务) 两者 完全没有 分隔符:逗号、冒 ..
发布时间:2021-11-25 14:45:18 Java开发

我的 spark sql 限制很慢

我使用spark从elasticsearch中读取数据.就像 select col from index limit 10; 问题是索引非常大,包含1000亿行.而spark生成数千个任务来完成工作. 我只需要 10 行,即使 1 个任务也返回 10 行可以完成工作.我不需要这么多任务. 限制是非常慢的,即使是限制 1. 代码: sql = select col from index ..

将 jars 添加到 Spark 作业 - spark-submit

是的……已经讨论了很多. 然而,有很多含糊之处,并且提供了一些答案......包括在 jars/executor/driver 配置或选项中复制 jar 引用. 模棱两可和/或遗漏的细节 应为每个选项澄清以下模棱两可、不清楚和/或遗漏的细节: ClassPath 受到的影响 司机 Executor(用于正在运行的任务) 两者 完全没有 分隔符:逗号、冒号、分号 ..
发布时间:2021-11-12 05:24:20 Java开发

在气流 (1**.1*.0.35) 中运行来自不同集群 (1**.1*.0.21) 的 Spark Submit 程序.如何在气流中远程连接其他集群

我一直在尝试在 Airflow 中 SparkSubmit 程序,但 Spark 文件在不同的集群 (1**.1*.0.21) 中,而气流在 (1**.1*.0.35) 中.我正在寻找有关此主题的详细说明和示例.我无法将任何 xml 文件或其他文件复制或下载到我的气流集群. 当我尝试使用 SSH 钩子时,它说.虽然我对使用 SSH Operator 和 BashOperator 有很多疑问. ..
发布时间:2021-10-26 18:04:00 其他开发

使用 Spark-Submit 在 kubernetes 上安装 PySpark 软件包:找不到常春藤缓存文件错误

我整天都在和它斗争.我能够安装和使用带有 spark shell 或连接的 Jupiter 笔记本的包(graphframes),但我想通过 spark-submit 将其移动到基于 kubernetes 的 spark 环境.我的spark 版本:3.0.1我从 spark-packages 下载了最后一个可用的 .jar 文件(graphframes-0.8.1-spark3.0-s_2.12 ..
发布时间:2021-06-25 18:32:22 其他开发

在 Pyspark 中添加一个 python 外部库

我正在使用 pyspark (1.6) 并且我想使用 databricks:spark-csv 库.为此,我尝试了不同的方法,但都没有成功 1- 我尝试添加从 https://下载的 jarspark-packages.org/package/databricks/spark-csv,然后运行 ​​ pyspark --jars THE_NAME_OF_THE_JARdf = sqlCon ..
发布时间:2021-06-24 20:42:37 其他开发

spark-submit 与特定的 python 库

我有一个依赖于第三方库的 pyspark 代码.我想在 mesos 下运行的集群上执行此代码. 我的 Python 环境确实有一个压缩版本,它位于我的集群可访问的 http 服务器上. 我在指定我的 spark-submit 查询以使用此环境时遇到了一些麻烦.我使用 --archives 加载 zip 文件和 --conf 'spark.pyspark.driver.python=pa ..
发布时间:2021-06-24 20:41:33 Python

如何在Virtualenv中为pyspark运行spark-submit?

在virtualenv中,是否可以运行 spark-submit (来自HDP 3.1.0的spark v2.3.2)?出现以下情况:在virtualenv中具有使用python3(和某些特定的lib)的python文件(以将lib版本与系统其余部分隔离).我想使用/bin/spark-submit 运行此文件,但尝试这样做我得到... [me @ airflowetl测试] $源../ven ..
发布时间:2021-04-08 20:16:53 其他开发

如何提交将罐子托管在S3对象存储中的SPARK作业

我有一个带有Yarn的SPARK群集,并且我想将我的工作的jar放入S3 100%兼容的对象存储中.如果我想提交工作,我从Google进行搜索,看起来就像这样:spark-submit --master yarn --deploy-mode cluster s3://my_ bucket/jar_file但是,S3对象存储需要用户名和密码才能访问.那么,如何配置这些凭据信 ..
发布时间:2021-04-03 19:34:41 其他开发