apache-spark相关内容

Spark-app根据不同的执行器内存返回不同的结果?

我注意到一些奇怪的行为,我有一个Spark作业,它读取数据,执行一些分组排序和联接,并创建一个输出文件。 问题是,当我在超过环境的内存上运行相同的作业时,例如,集群有50 GB,而我提交的Spark-Submit的执行器内存和4 GB驱动内存接近60 GB。 我的结果减少似乎是某个数据分区或任务在处理时丢失。 driver-memory 4g --executor-memory 4g ..
发布时间:2022-04-15 17:58:10 其他开发

Spark客户端模式-纱线为驱动程序分配容器?

我在客户端模式下对Sink运行Spark,因此我预计Sink将只为Executor分配容器。然而,从我所看到的情况来看,似乎还为驱动程序分配了一个容器,而我没有得到我预期的那么多执行器。 我在主节点上运行Spark Submit。参数如下: sudo spark-submit --class ... --conf spark.master=yarn --conf s ..
发布时间:2022-04-15 17:54:33 其他开发

Spark:多个Spark-并行提交

我有一个关于阿帕奇Spark的一般性问题: 我们有一些消费Kafka消息的火花流脚本。 问题:它们随机失败,没有出现特定错误... 当我手动运行某些脚本时,它们在工作时什么也不做,其中一个脚本失败,并显示以下消息: 错误SparkUI:绑定SparkUI失败 Java.net.BindException:地址已在使用中:服务‘SparkUI’在16次重试后失败! 所以我想知 ..
发布时间:2022-04-15 17:52:50 其他开发

纱线容器内存不足

我的纱线容器内存不足: 此特定容器运行一个Apache-Spark驱动程序节点。 我不理解的部分:我将驱动程序的堆大小限制为512MB(您可以在下面的错误消息中看到这一点)。但是纱线容器抱怨内存>1 GB(也请参见下面的消息)。您可以验证YAIN正在启动Java是否与Xmx512M一起运行。我的容器设置为1 GB内存,增量为0.5 GB。此外,我托管纱线容器的物理机器每台都有32 GB。我通 ..
发布时间:2022-04-15 17:51:37 Java开发

火花配置优先级

在代码中指定Spark应用程序配置是否有区别或优先级: SparkConf().setMaster(yarn) 并在命令行中指定它们 spark-submit --master yarn 推荐答案 是,在用户代码中使用set()函数为配置赋予最高优先级。在那之后,旗帜闪闪发光地过去了。 直接在SparkConf上设置的属性具有最高优先级,然后将标志传递给Spark- ..
发布时间:2022-04-15 17:50:26 其他开发

如何杀死正在运行的Spark应用程序?

我有一个正在运行的Spark应用程序,它占据了我的其他应用程序不会被分配任何资源的所有核心。 我做了一些快速的研究,人们建议使用SLEAN KILL或/bin/Spark-class来终止命令。但是,我使用的是CDH版本,/bin/spark-class根本不存在,纱线杀死应用程序也不起作用。 有人能和我一起拿这个吗? 推荐答案 从Spark Scheduler复制粘贴应用 ..
发布时间:2022-04-15 17:42:40 其他开发

火花RDD不变性混淆

我目前正在为数据工程师的工作面试做准备。我陷入了困惑之中。 以下是详细信息。 如果Spark RDDS本质上是不可变的,那么为什么我们能够使用var创建Spark RDD? 推荐答案 您的困惑与Spark的RDDS没有什么关系。这将有助于理解变量和对象之间的区别。一个更熟悉的例子: 假设您有一个字符串,我们都知道它是一个不可变类型: var text = "abc" ..
发布时间:2022-04-13 20:06:53 其他开发

PYSpark显示最大值(S)和多重排序

感谢您在这里提供的帮助。使用Pyspark(请不能使用SQL)。因此,我有一个存储为RDD对的元组列表: [((‘City1’,‘2020-03-27’,‘X1’),44), (‘City1’,‘2020-03-28’,‘X1’),44), (‘City3’,‘2020-03-28’,‘X3’),15), ((‘City4’,‘2020-03-27’,‘X4’),5), ..
发布时间:2022-04-13 20:02:43 Python

Spark:测试RDD是否为空的有效方法

RDD上没有isEmpty方法,那么测试RDD是否为空的最有效方法是什么? 推荐答案 RDD.isEmpty()将成为Spark 1.3.0的一部分。 根据this apache mail-thread中的建议和后来对这个答案的一些评论,我做了一些小的本地实验。最好的方法是使用take(1).length==0。 def isEmpty[T](rdd : RDD[T]) = ..
发布时间:2022-04-13 19:56:51 其他开发

';收集';在Spark独立应用程序的驱动程序窗口中未显示操作结果

我在本地系统上使用的是Spark 1.4.0。每当我创建一个RDD并通过Spark的Scala外壳对其调用Collect时,它都工作得很好。但是,当我创建一个独立的应用程序并在RDD上调用‘Collect’操作时,我看不到结果,尽管运行期间的Spark消息说已经为驱动程序设置了一定数量的字节:- INFO Executor: Finished task 0.0 in stage 0.0 (T ..
发布时间:2022-04-13 19:54:02 其他开发

Spark应用程序和日志MDC(映射诊断上下文)

我正在寻找一种方法,将我的驱动程序的MDC转发给主程序和工作程序,以便我可以识别来自同一操作的消息?例如,我有一个与应用程序相关的查询/作业ID,我希望将其附加到我的Spark Worker中的结构化日志消息中。 不可能? 未记录? 很简单,但我太傻了,找不到? 问候您。 推荐答案 如果我对PR理解正确(我是Spark新手),那么从版本3.1开始 现在应该可以通过spa ..
发布时间:2022-04-12 22:46:55 Java开发

Pandas UDF的PySpark加载包

我曾尝试关注Databricks的博客帖子here,但不幸的是一直收到错误。我正在尝试安装PANDA、PYARROW、NumPY和h3库,然后能够访问我的PySpark集群上的这些库,但按照这些说明操作是不起作用的。 Conda init--All(然后关闭并重新打开终端) conda create-y-n pyspark_conda_env-c conda-forge pyrow pan ..
发布时间:2022-04-11 16:32:43 Python

如何提高数据库性能?

我有一个问题,我写信给Synapse Running花了这么多时间(>;20个小时)。我可以做些什么来改进我的需要写入Synapse的数据库?我的资源表来自Azure Synase上的事实数据表(包含151百万行)。我假设我的脚本不适合在数据库上运行,而且我还假设它是由垃圾收集造成的,这让我的工作停滞不前。但是,我如何解决这个问题,以防止在很长的时间内跑到最快的时间? 这是我的脚本,它是 ..

当作业在数据库中运行时,如何获取作业名称。它不是基于笔记本的作业

我正在尝试获取正在运行的作业的名称。我想知道他的名字,然后发消息。例如:我将作业部署到Databricks并运行它。并且我希望此作业在启动时使用作业名称发送消息,这就是我要获取当前作业名称的原因。 推荐答案 数据库通过spark.conf公开大量信息-配置属性以spark.databricks.clusterUsageTags.开头,因此您可以筛选所有配置并搜索必要的信息。 对于 ..
发布时间:2022-04-11 16:07:34 Python