spark-dataframe 第2页 - IT屋-程序员软件开发技术分享社区

自制 DataFrame 聚合/dropDuplicates Spark

我想对我的 DataFrame df 执行转换，以便我在最终 DataFrame 中只有每个键一次并且只有一次. 出于机器学习的目的，我不想在我的数据集中有偏差.这应该永远不会发生，但是我从数据源获得的数据包含这种“怪异".因此，如果我有具有相同键的行，我希望能够选择两者的组合(如平均值)或字符串连接(例如标签)或随机值集. 说我的 DataFrame df 看起来像这样: +--- ..

发布时间：2021-11-14 23:30:07 scala apache-spark spark-dataframe rdd 其他开发

开发连接到 azure CosmosDB 的 Scala Spark 应用程序

我正在开发连接到 cosmosDB 并且无法解决 SBT 中的依赖关系的 Scala Spark 应用程序.每当我包含 org.apache.spark 它与 azure-cosmosdb-spark 冲突，如果我取出 org.apache.spark 我无法让 spark sparkSession 解决. 我的 SBT 配置: name := "MyApp"版本:=“1.0"``斯卡拉版 ..

发布时间：2021-11-14 23:30:01 scala azure apache-spark spark-dataframe azure-cosmosdb 其他开发

获得 azure blob 存储的最佳方法是什么

我正在使用 scala 和 spark，需要访问 azure blob 存储并获取其文件列表.知道 Spark 版本是 2.11 的最佳方法是什么. 解决方案对于在本地运行的 Spark，有一个官方的博客介绍了如何从 Spark 访问 Azure Blob 存储.关键是你需要在core-site.xml文件中将Azure Storage account配置为HDFS兼容的存储，并添加 ..

发布时间：2021-11-14 23:29:59 azure apache-spark spark-dataframe azure-blob-storage sca 其他开发

我一直在挠头，试图想出一种方法将 spark 中的数据帧减少到记录数据帧中的间隙的帧，最好不要完全杀死并行性.这是一个非常简化的示例(有点冗长，因为我希望它能够运行): import org.apache.spark.sql.SparkSessioncase class Record(typ: String, start: Int, end: Int);对象样本{def main(argv: A ..

发布时间：2021-11-14 23:29:56 scala apache-spark spark-dataframe 其他开发

Spark - 当我从地图调用自定义函数时收到 java.lang.UnsupportedOperationException

我有一个类似于以下结构的 DataFrame: root|-- NPAData: struct (nullable = true)||-- NPADetails: struct (nullable = true)|||-- 位置:字符串(可为空 = 真)|||-- manager: string (nullable = true)||-- 服务:数组(可为空 = 真)|||-- 元素: stru ..

发布时间：2021-11-14 23:29:50 scala apache-spark spark-dataframe 其他开发

如何使用另一个数据帧标题更改数据帧的标题?

我有一个看起来像这样的数据集 LineItem.organizationId|^|LineItem.lineItemId|^|StatementTypeCode|^|LineItemName|^|LocalLanguageLabel|^|FinancialConceptLocal|^|FinancialConceptGlobal|^|IsDimensional|^|InstrumentId|^| ..

发布时间：2021-11-14 23:29:47 scala apache-spark spark-dataframe spark-csv 其他开发

PySpark 2.1.1 groupby + approx_count_distinct 计数为 0

我正在使用 Spark 2.1.1 (pyspark)，在一个大约有 14 亿行的 DataFrame 上进行 groupby 和 approx_count_distinct 聚合.groupby 操作导致大约 600 万个组对其执行 approx_count_distinct 操作.这些组的预期不同计数范围从个位数到数百万不等. 这是我正在使用的代码片段，其中包含项目 ID 的列“item ..

发布时间：2021-11-14 23:29:38 apache-spark spark-dataframe 其他开发

持久化比非持久化调用慢

我的设置是:Spark 2.1 在 160 GB、48 个 vcore 的 3 节点 YARN 集群上.动态分配开启.spark.executor.memory=6G, spark.executor.cores=6 首先，我正在阅读 hive 表:订单 (329MB) 和 lineitems (1.43GB) 和做左外连接.接下来，我根据加入的条件应用 7 种不同的过滤条件数据集(类似于 v ..

发布时间：2021-11-14 23:29:32 apache-spark-sql spark-dataframe 其他开发

Spark 错误:线程“main"中的异常java.lang.UnsupportedOperationException

我正在编写一个 Scala/spark 程序，它可以找到员工的最高工资.员工数据在 CSV 文件中可用，薪水列有一个逗号分隔符，它还有一个 $ 前缀，例如74,628.00 美元. 为了处理这个逗号和美元符号，我在 Scala 中编写了一个解析器函数，它将在“,"上拆分每一行，然后将每一列映射到要分配给案例类的各个变量. 我的解析器程序如下所示.为了消除逗号和美元符号，我使用替换函数将 ..

发布时间：2021-11-14 23:29:18 scala apache-spark spark-dataframe 其他开发

如何规范化数据框中的数组列

我使用的是 spark 2.2.我想标准化固定大小数组中的每个值. 输入 {"values": [1,2,3,4]} 输出 {"values": [0.25, 0.5, 0.75, 1] } 现在，我使用的是 udf : val f = udf { (l: Seq[Double]) =>val max = l.maxl.map(_/最大)} 有没有办法避免 udf(以及相关的性能 ..

发布时间：2021-11-14 23:29:15 apache-spark dataframe spark-dataframe 其他开发

Spark:写入数据帧时“请求的数组大小超过 VM 限制"

我遇到了“OutOfMemoryError:请求的数组大小超过 VM 限制"；运行我的 Scala Spark 作业时出错. 我在具有以下组成的 AWS EMR 集群上运行此作业: 主:1 m4.4xlarge 32 vCore，64 GiB 内存核心:1 r3.4xlarge 32 vCore，122 GiB 内存我使用的 Spark 版本是 EMR 发布标签 5.1 ..

发布时间：2021-11-14 23:29:12 scala apache-spark spark-dataframe geospatial geojson 其他开发

sparklyr spark_read_parquet 将字符串字段读取为列表

我有许多 parquet 格式的 Hive 文件，其中包含 string 和 double 列.我可以使用以下语法将它们中的大部分读入带有 sparklyr 的 Spark 数据帧: spark_read_parquet(sc, name = "name", path = "path", memory = FALSE) 但是，我在其中读取了一个文件，其中所有 string 值都转换为无法识别的 ..

发布时间：2021-11-14 23:29:09 r hive spark-dataframe parquet sparklyr 其他开发

由于 .在spark的列名中

这是我现有的数据框 +-------------------+-------------------------+------------+--------------+-----------------+---------------------------+------------------------+----------------------------------------+-- ..

发布时间：2021-11-14 23:29:06 scala apache-spark spark-dataframe 其他开发

获得 azure blob 存储的最佳方法是什么

我正在使用 scala 和 spark，需要访问 azure blob 存储并获取其文件列表.知道 Spark 版本是 2.11 的最佳方法是什么. 解决方案对于在本地运行的 Spark，有一个官方的博客介绍了如何从 Spark 访问 Azure Blob 存储.关键是你需要在core-site.xml文件中将Azure Storage account配置为HDFS兼容的存储，并添加 ..

发布时间：2021-11-14 23:29:03 azure apache-spark spark-dataframe azure-blob-storage sca 其他开发

开发连接到 azure CosmosDB 的 Scala Spark 应用程序

我正在开发连接到 cosmosDB 并且无法解决 SBT 中的依赖关系的 Scala Spark 应用程序.每当我包含 org.apache.spark 它与 azure-cosmosdb-spark 冲突，如果我取出 org.apache.spark 我无法让 spark sparkSession 解决. 我的 SBT 配置: name := "MyApp"版本:=“1.0"``斯卡拉版 ..

发布时间：2021-11-14 23:29:00 scala azure apache-spark spark-dataframe azure-cosmosdb 其他开发

Spark 2 迭代分区以创建新分区

我一直在挠头，试图想出一种方法将 spark 中的数据帧减少到记录数据帧中的间隙的帧，最好不要完全杀死并行性.这是一个非常简化的示例(有点冗长，因为我希望它能够运行): import org.apache.spark.sql.SparkSessioncase class Record(typ: String, start: Int, end: Int);对象样本{def main(argv: A ..

发布时间：2021-11-14 23:28:54 scala apache-spark spark-dataframe 其他开发

使用 Python 从 Dataricks 写入 Postgres

我在 Databricks 中有一个名为 customerDetails 的数据框. +--------------------+-----------+|客户姓名|客户 ID|+--------------------+------------+|约翰·史密斯 |0001||简伯恩斯|0002||弗兰克·琼斯 |0003|+--------------------+------------+ ..

发布时间：2021-11-14 23:28:45 apache-spark pyspark spark-dataframe pyspark-sql databricks 其他开发

PySpark 插入覆盖问题

以下是 PySpark ETL 代码的最后两行: df_writer = DataFrameWriter(usage_fact)df_writer.partitionBy("data_date", "data_product").saveAsTable(usageWideFactTable, format=fileFormat,mode=writeMode,path=usageWideFactp ..

发布时间：2021-11-14 23:28:42 apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql 其他开发

AWS 胶水错误 |无法使用 spark 从开发人员端点读取胶水表

即使我获得了所有必需的 IAM 权限，我也无法访问 AWS Glue 表.我什至无法列出所有数据库.这是代码. 导入系统从 awsglue.transforms 导入 *从 awsglue.utils 导入 getResolvedOptions从 pyspark.context 导入 SparkContext从 awsglue.context 导入 GlueContext从 awsglue.jo ..

发布时间：2021-11-14 23:28:36 pyspark spark-dataframe aws-glue 其他开发

如何规范化数据框中的数组列

我使用的是 spark 2.2.我想标准化固定大小数组中的每个值. 输入 {"values": [1,2,3,4]} 输出 {"values": [0.25, 0.5, 0.75, 1] } 现在，我使用的是 udf : val f = udf { (l: Seq[Double]) =>val max = l.maxl.map(_/最大)} 有没有办法避免 udf(以及相关的性能 ..

发布时间：2021-11-14 23:27:47 apache-spark dataframe spark-dataframe 其他开发

spark-dataframe相关内容