pyspark相关内容

过滤火花分区表在 Pyspark 中不起作用

我正在使用 spark 2.3 并使用 pyspark 中的数据帧编写器类方法编写了一个数据帧来创建配置单元分区表. newdf.coalesce(1).write.format('orc').partitionBy('veh_country').mode("overwrite").saveAsTable('emp.partition_Load_table') 这是我的表结构和分区信息. h ..
发布时间:2021-12-28 23:48:55 其他开发

Spark HiveContext:插入覆盖它从中读取的同一个表

我想在 HiveContext 中使用 PySpark 应用 SCD1 和 SCD2.在我的方法中,我正在读取增量数据和目标表.阅读后,我加入了他们的 upsert 方法.我正在对所有源数据帧进行 registerTempTable.我正在尝试将最终数据集写入目标表,但我面临的问题是无法在读取它的表中插入覆盖. 请为此提出一些解决方案.我不想将中间数据写入物理表并再次读取. 是否有任何 ..
发布时间:2021-12-28 23:46:57 其他开发

了解 Spark 中的 treeReduce()

您可以在此处查看实现:https://github.com/apache/spark/blob/ffa05c84fe75663fc33f3d954d1cb1e084ab3280/python/pyspark/rdd.py#L804 它与“普通"reduce 函数有何不同? depth = 2 是什么意思? 我不希望 reducer 函数在分区上线性传递,但首先减少每个可用的对,然后将 ..
发布时间:2021-12-22 21:42:01 Python

如何在 PySpark 中打印用于预测特定行样本的决策路径/规则?

如何在 Spark DataFrame 中打印特定样本的决策路径? Spark 版本:'2.3.1' 下面的代码打印了整个模型的决策路径,如何让它打印特定样本的决策路径?比如tagvalue ball等于2的那一行的决策路径 import pyspark.sql.functions as F从 pyspark.ml 导入管道、变压器从 pyspark.sql 导入数据帧从 pyspark.m ..
发布时间:2021-12-22 21:41:52 其他开发

VectorAssembler 仅输出到 DenseVector?

VectorAssembler 的功能有一些很烦人的地方.我目前正在将一组列转换为单列向量,然后使用 StandardScaler 函数应用缩放到包含的功能.然而,似乎有内存的SPARK原因,决定是否应该使用 DenseVector 或 SparseVector 来表示每行特征.但是,当您需要使用 StandardScaler 时,SparseVector(s) 的输入无效,只允许 DenseVe ..
发布时间:2021-12-22 21:41:41 其他开发

pyspark 中的 Pandas 数据框到 hive

如何将 Pandas 数据帧发送到 hive 表? 我知道如果我有一个 spark 数据框,我可以使用 将它注册到一个临时表 df.registerTempTable("table_name")sqlContext.sql("create table table_name2 as select * from table_name") 但是当我尝试使用 pandas dataFrame ..
发布时间:2021-12-22 21:41:21 Python

AWS Glue Crawler 将 json 文件分类为 UNKNOWN

我正在处理一项 ETL 作业,该作业会将 JSON 文件提取到 RDS 临时表中.我配置的爬虫可以对 JSON 文件进行分类,只要它们的大小小于 1MB.如果我缩小文件(而不是漂亮的打印件),如果结果小于 1MB,它将毫无问题地对文件进行分类. 我在想出解决方法时遇到了麻烦.我尝试将 JSON 转换为 BSON 或 GZIPing JSON 文件,但它仍然归类为 UNKNOWN. 有没 ..
发布时间:2021-12-22 21:41:12 其他开发

应用程序运行一段时间后 Pyspark 套接字超时异常

我正在使用 pyspark 来估计逻辑回归模型的参数.我使用 spark 计算似然和梯度,然后使用 scipy 的最小化函数进行优化 (L-BFGS-B). 我使用纱线客户端模式来运行我的应用程序.我的应用程序可以毫无问题地开始运行.但是,过一会就报如下错误: 回溯(最近一次调用最后一次):文件“/home/panc/research/MixedLogistic/software/mixe ..
发布时间:2021-12-22 21:41:03 其他开发

Apache Spark Codegen Stage 超过 64 KB

当我对 30 多列进行特征工程以创建大约 200 多列时遇到错误.它没有使工作失败,但显示错误.我想知道如何避免这种情况. Spark - 2.3.1 Python - 3.6 集群配置 - 1 主 - 32 GB RAM,16 核 4 从 - 16 GB RAM,8 核 输入数据 - 8 个分区的 Parquet 文件,使用 snappy 压缩. 我的 Spark-提交 ..
发布时间:2021-12-22 21:40:43 其他开发

Spark 数据帧随机拆分

我有一个 spark 数据框,我想按比例 0.60、0.20、0.20 将其分为训练、验证和测试. 我使用了以下代码: def data_split(x):全局 data_map_vard_map = data_map_var.valuedata_row = x.asDict()随机导入rand = random.uniform(0.0,1.0)ret_list = ()如果兰特 我的 ..
发布时间:2021-12-22 21:40:36 Python

如何使用 Python Dataframe API 在 Apache Spark 中找到中位数?

Pyspark API 提供了许多聚合函数,除了中位数.Spark 2 带有 approxQuantile ,它给出了近似的分位数,但精确的中位数计算起来非常昂贵.是否有更多 Pyspark 方法来计算 Spark Dataframe 中一列值的中位数? 解决方案 这是在 Python (Spark 1.6 +) 中使用 Dataframe API 的示例实现. import pyspa ..
发布时间:2021-12-22 21:40:15 Python

pyspark.ml 管道:基本预处理任务是否需要自定义转换器?

开始使用 pyspark.ml 和管道 API,我发现自己为典型的预处理任务编写了自定义转换器,以便在管道中使用它们.示例: from pyspark.ml import Pipeline, Transformer类 CustomTransformer(变压器):# 懒惰的解决方法 - 转换器需要具有这些属性_defaultParamMap = dict()_paramMap = dict()_ ..

如何有效地检查 Spark Dataframe 中是否包含单词列表?

使用 PySpark 数据帧,我正在尝试尽可能高效地执行以下操作.我有一个数据框,其中有一列包含文本和我想用来过滤行的单词列表.所以: 数据框看起来像这样 df:col1 col2 col_with_texta b foo 很好吃12 34 呜呜呜是的 0 块百胜 列表将是 list = [foo,bar]因此结果将是: 结果:col1 col2 col_with_texta b fo ..
发布时间:2021-12-22 21:39:58 Python