首页
其他开发
将数据框火花到嵌套的地图

将数据框火花到嵌套的地图 [英] Spark dataframe to nested map

查看：170 发布时间：2018/6/4 13:49:24 scala apache-spark hashmap spark-dataframe

本文介绍了将数据框火花到嵌套的地图的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

如何将火花（最大300 MB）中的一个相当小的数据帧转换为嵌套地图，以便改善晶石的DAG。我相信这个操作会比之后的加入更快（ Spark动态DAG比硬编码DAG慢很多，因为转换后的值是在自定义估算器的训练阶段创建的。

How can I convert a rather small data frame in spark (max 300 MB) to a nested map in order to improve spar's DAG. I believe this operation will be quicker than a join later on (Spark dynamic DAG is a lot slower and different from hard coded DAG) as the transformed values were created during the train step of a custom estimator. Now I just want to apply them really quick during predict step of the pipeline.

val inputSmall = Seq( ("A", 0.3, "B", 0.25), ("A", 0.3, "g", 0.4), ("d", 0.0, "f", 0.1), ("d", 0.0, "d", 0.7), ("A", 0.3, "d", 0.7), ("d", 0.0, "g", 0.4), ("c", 0.2, "B", 0.25)).toDF("column1", "transformedCol1", "column2", "transformedCol2")

这给出了错误的地图类型

This gives the wrong type of map

val inputToMap = inputSmall.collect.map(r => Map(inputSmall.columns.zip(r.toSeq):_*))

我宁愿要这样的东西：

Map[String, Map[String, Double]]("column1" -> Map("A" -> 0.3, "d" -> 0.0, ...), "column2" -> Map("B" -> 0.25), "g" -> 0.4, ...)

推荐答案

编辑：从最终地图中移除收集操作

removed collect operation from final map

如果您是使用Spark 2+，这里有一个建议：

If you are using Spark 2+, here's a suggestion:

val inputToMap = inputSmall.select( map($"column1", $"transformedCol1").as("column1"), map($"column2", $"transformedCol2").as("column2") ) val cols = inputToMap.columns val localData = inputToMap.collect cols.map { colName => colName -> localData.flatMap(_.getAs[Map[String, Double]](colName)).toMap }.toMap

这篇关于将数据框火花到嵌套的地图的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

相关文章

 将数据框火花到箭头;

通过Mesos火花到MongoDB;

将JSON文本字段火花到RDD;

重命名火花数据框中的嵌套字段;

Spark 数据框到嵌套地图;

通过udf将数据帧火花到numpy数组或不收集到驱动程序;

使用CLOB错误将JDBC火花到DashDB(DB2);

将功能应用于带有地图的嵌套数据框;

更新的火花数据框列;

火花嵌套JSON;

带有数据框的火花udf;

根据日期过滤火花数据框;

过滤根据日期火花数据框;

根据日期过滤火花数据框;

火花数据框分组到列表;

将标题和列添加到数据框火花;

将行转换为火花 Scala 中的地图;

合并火花数据框中的重复列;

转换火花数据框中的日期模式;

修改火花数据框中的结构列;

将行值转换为火花数据框中的列数组;

将嵌套的JSON解析为数据框;

将数据框转换为嵌套的json;

将嵌套的JSON转换为数据框;

如何取消旋转大型火花数据框?;

其他开发最新文章

拒绝显示一个框架，因为它将'X-Frame-Options'设置为'sameorigin';

什么是＆QUOT; AW＆QUOT;在部分标志属性是什么意思？;

在运行npm install命令时获取'npm WARN弃用'警告;

cmake无法找到openssl;

从Spark的scala中的* .tar.gz压缩文件中读取HDF5文件;

Twitter :: Error :: Forbidden - 无法验证您的凭据;

我什么时候需要一个fb：app_id或者fb：admins？;

将.db文件导入R;

npm通知创建一个lockfile作为package-lock.json。你应该提交这个文件;

拒绝执行内联脚本，因为它违反了以下内容安全策略指令：“script-src'self'”;

热门教程

Java教程

Apache ANT 教程

Kali Linux教程

JavaScript教程

JavaFx教程

MFC 教程

Apache HTTP客户端教程

Microsoft Visio 教程

热门工具

Java 在线工具

C(GCC) 在线工具

PHP 在线工具

C# 在线工具

Python 在线工具

MySQL 在线工具

VB.NET 在线工具

Lua 在线工具

Oracle 在线工具

C++(GCC) 在线工具

Go 在线工具

Fortran 在线工具

登录关闭

扫码关注1秒登录

发送“验证码”获取 | 15天全站免登陆

友情链接： IT屋 Chrome插件谷歌浏览器插件

IT屋 ©2016-2022 琼ICP备2021000895号-1 站点地图站点标签 SiteMap <免责申明> 本站内容来源互联网,如果侵犯您的权益请联系我们删除.