apache-spark 第4页 - IT屋-程序员软件开发技术分享社区

从数据库笔记本发送带附件的电子邮件

我是PYTHON和Spark世界的新手。我正在尝试构建一个pysppark代码，以便从Databricks发送一封电子邮件以及来自挂载点位置的附件。我使用下面的代码来实现相同的- import smtplib from pathlib import Path from email.mime.multipart import MIMEMultipart from email.mime.base ..

发布时间：2022-04-11 15:59:37 apache-spark email pyspark databricks azure-databricks 其他开发

替换'；会导致删除吗？

在此命令(taken from)中，replaceWhere是否会导致删除记录？命令中提到的日期范围有1000行。新的东风只有100家。这是否会导致删除900条记录？ df.write .format("delta") .mode("overwrite") .option("replaceWhere", "date >= '2017-01-01' AND date ..

发布时间：2022-04-11 15:54:52 apache-spark pyspark apache-spark-sql databricks 其他开发

数据库多选下拉菜单选择/取消选择所有值

我们在Databricks中使用多选下拉菜单，根据多选小部件中的选择，查询结果为图形数据。目前，我们可以逐个选择或取消选择选项，但我们希望有一种方法来选择和取消选择Widget中的所有选项。多选小工具的代码： dbutils.widgets.multiselect("channel", "Temp", [str(x) for x in channel]) 推荐答案我认为多 ..

发布时间：2022-04-11 15:52:51 python apache-spark databricks multi-select Python

为什么数据库连接测试在Mac上不起作用？

我已经查看了配置databricks-connect的文档，但在运行databricks-connect test时仍然出现以下错误来自终端的错误 java.lang.NoSuchMethodError: org.apache.spark.internal.config.package$.STRING_REDACTION_PATTERN()Lorg/apache/spark/inte ..

发布时间：2022-04-11 15:42:56 apache-spark pyspark databricks 其他开发

从本地计算机连接到数据库时出错

我正在尝试从我的Mac(Mojave)连接到Databricks。我做了pip install -U databricks-connect==5.5.* 我启动了一个Spark-Shell，但当我尝试在Spark中查询时，收到以下错误原因：com.databricks.service.SparkServiceConnectionException：令牌无效 To con ..

发布时间：2022-04-11 15:40:21 apache-spark databricks azure-databricks databricks-connect 其他开发

如何对PySpark DataFrame的每一列中的数据进行混洗？

我是用PySpark编程的初学者。我在CSV文件中有以下数据，该文件正在被读入Spark Dataframe，并且我希望从一个小数据集开始生成一个大型数据集。 # read the csv file in a spark dataframe df = (spark.read .option("inferSchema", "true") .option("heade ..

发布时间：2022-04-11 15:34:07 apache-spark pyspark apache-spark-sql shuffle databricks 其他开发

如何处理Azure Databricks笔记本中的异常？

我是Azure和Spark的新手，请求您帮助我为以下方案编写异常处理代码。我在3个不同的笔记本上编写了HQL脚本(比如hql1、hql2、hql3)，并在一个主笔记本(hql-master)上将它们都称为， val df_tab1 = runQueryForTable("hql1", spark) val df_tab2 = runQueryForTable("hql2", spar ..

发布时间：2022-04-11 15:31:03 apache-spark exception databricks azure-databricks 其他开发

(spark-xml)使用from_xml函数分析XML列时仅接收NULL

我试图使用spark-xml解析一个非常简单的XML字符串列，但我只能收到null个值，即使正确填充了该XML也是如此。我用来解析XML的XSD是： ..

发布时间：2022-04-11 15:29:24 apache-spark databricks apache-spark-xml 其他开发

将运行时7.3LTS(Spark3.0.1)升级到9.1LTS(Spark3.1.2)后创建PySpark DataFrame数据库时，json文件中的重复列引发错误

问题陈述：升级数据库运行时版本时，创建数据帧时出现重复列引发错误。在较低的运行时中，将创建数据帧，并且由于下游不需要重复列，因此在SELECT中简单地将其排除。文件位置：存储在ADLS Gen2(Azure)上的JSON文件。集群模式：标准代码：我们在Azure数据库中阅读了它，如下所示。 intermediate_df = spark.read.option("multil ..

发布时间：2022-04-11 15:26:55 json apache-spark pyspark databricks delta-lake 其他开发

在Spark-SQL for Azure数据库中创建用户定义的(非临时)函数

也许这很愚蠢，我是一名Microsoft SQL/C#开发人员，以前从未真正使用过任何其他IDE/编写的Java/Scala。我正在将一些Azure SQL查询迁移到Azure数据库解决方案。似乎没有对应的TSQL DATEDIFF_BIG函数(https://docs.microsoft.com/en-us/sql/t-sql/functions/datediff-transact-s ..

发布时间：2022-04-11 15:22:10 sql scala apache-spark apache-spark-sql databricks 其他开发

数据库引发.Readstream格式差异

我对Databricks中以下代码的差异感到困惑 spark.readStream.format('json') vs spark.readStream.format('cloudfiles').option('cloudFiles.format', 'json') 我知道CloudFiles，因为它的格式将被视为Databricks Autoloader。在性能/功能比较中， ..

发布时间：2022-04-11 15:18:35 apache-spark databricks spark-structured-streaming 其他开发

AttributeError：'；NoneType'；对象没有属性'；_JVM-PySpark UDF

我有杂志订阅及其创建时间的数据，还有一个包含与给定用户关联的所有订阅到期日期数组的列： user_id created_date expiration_dates_for_user 202394 '2018-05-04' ['2019-1-03', '2018-10-06', '2018-07-05'] ..

发布时间：2022-04-11 15:13:26 python apache-spark pyspark user-defined-functions databricks Python

在数据库中使用PySpark在Azure DataLake中按分区覆盖策略(&A)

我在Azure环境中有一个简单的ETL进程 BLOB存储&>数据工厂&>数据创建原始数据库&>数据创建管理>；数据仓库(主ETL)。此项目的数据集不是很大(约100万行20列)，但我希望将它们在我的DataRake中正确分区为Parquet文件。目前，我运行一些简单的逻辑来计算每个文件应该位于我的湖中的哪个位置，而不是基于商业日历。这些文件模糊地看起来像这样 ..

发布时间：2022-04-11 15:09:32 python azure apache-spark apache-spark-sql databricks Python

在Databricks中将变量从Scala传递到Python

我正在使用Databricks，并试图在同一个Scala笔记本中将一个数据帧从Scala传递到Python。我使用以下命令将数据帧从Python传递给Spark： %python python_df.registerTempTable("temp_table") val scalaDF = table("temp_table") 如何反向执行相同的操作？非常感谢！！推荐答案 ..

发布时间：2022-04-11 15:07:47 python apache-spark pyspark apache-spark-sql databricks Python

Spark：如何通过mapInPandas正确转换数据帧

我正在尝试使用最新的Spark 3.0.1函数转换10k行的Spark数据帧mapInPandas。预期输出：映射的PANDAS_Function()将一行转换为三行，因此输出Transform_df应具有30k行当前输出：我得到3行1核和24行8核。输入：Response_sdf有10k行 +-----+------------------------------- ..

发布时间：2022-04-08 13:27:56 python pandas apache-spark pyspark user-defined-functions Python

将类型为数组[字符串]的两列合并为新的数组[字符串]列

我在Spark SQLDataFrame中有两列，每一列中的每个条目都是一个字符串数组。 val ngramDataFrame = Seq( (Seq("curious", "bought", "20"), Seq("iwa", "was", "asj")) ).toDF("filtered_words", "ngrams_array") 我想合并每一行中的数组，以形成新列中的单个 ..

发布时间：2022-04-08 13:07:32 scala apache-spark apache-spark-sql user-defined-functions 其他开发

使用Prometheus jmxexporter获取SPEK2集群指标

我们正在尝试使用普罗米修斯获取火花指标。我们使用的是jmx导出器jmx_prometheus_javaagent-0.12.0.jar。我们能够获取部署模式客户端的指标，但无法获取群集的指标。对于使用的独立命令为 ./Spark-Submit--conf“spark.driver.extraJavaOptions=-javaagent：../jars/jmx_promethe ..

发布时间：2022-04-03 19:06:54 apache-spark prometheus jmx-exporter 其他开发

如何用普罗米修斯监控阿帕奇火花？

我读到过Spark没有将普罗米修斯作为预装水槽之一。所以我找到了这篇post关于如何用普罗米修斯监控阿帕奇火花的文章。但我发现很难理解并成功，因为我是初学者，这是第一次使用ApacheSpark。我不明白的第一件事是我需要做什么？我需要更改指标。属性我应该在应用程序中添加一些代码还是？我不知道要做的步骤是什么… 我要做的事情是：像在链接中一样更改属性， ..

发布时间：2022-04-03 17:20:47 apache-spark prometheus 其他开发

SPARK：UNION只能在列类型兼容的表上执行。结构<；名称，id>；！=结构<；id，名称&>；

错误：只能对具有兼容列类型的表执行UNION。在第二张表的第一列；的struct(tier：string，sky ward_number：string，Skyward_Points：string)<；>struct(sky ward_number：string，tier：string，Skyward_Points：String)；此处结构字段的顺序不同，但其余一切都相同。 ..

发布时间：2022-04-02 12:49:40 apache-spark struct apache-spark-sql union 其他开发

在Spark Dataframe中动态创建多列

我有包含如下信息的词典 dict_segs = {'key1' : {'a' : {'col1' : 'value1', 'col2' : 'value2', 'col3': 'value3'}, 'b' : {'col2' : 'value2', 'col3' : 'value3'}, 'c' : {'col1' : 'v ..

发布时间：2022-04-01 10:34:39 python apache-spark dynamic pyspark multiple-columns Python

apache-spark相关内容