apache-spark-dataset相关内容

Spark 2.0数据集与DataFrame

从spark 2.0.1开始,我遇到了一些问题.我阅读了很多文档,但到目前为止找不到足够的答案: 之间有什么区别 df.select("foo") df.select($"foo") 我是否正确理解 myDataSet.map(foo.someVal)是类型安全的,不会转换为RDD,而是保留在DataSet表示中/没有额外的开销(对于2.0.0而言,是明智的选择) 所有其他 ..

Spark中DataFrame,Dataset和RDD之间的区别

我只是想知道RDD和DataFrame (Spark 2.0.0 DataFrame是Dataset[Row]的纯类型别名)之间的区别是什么?? 可以将一个转换为另一个吗? 解决方案 通过Google搜索"DataFrame definition",很好地定义了DataFrame: 数据帧是表格或二维数组状结构, 其中每一列包含对一个变量的度量,每一行包含 包含一个案例. ..

如何在数据集中存储自定义对象?

根据 Spark数据集: 当我们期待Spark 2.0时,我们计划对数据集进行一些激动人心的改进,特别是: ... 自定义编码器–虽然我们目前可以自动生成多种类型的编码器,但我们想为自定义对象打开一个API. 并尝试将自定义类型存储在Dataset中会导致以下错误,例如: 无法找到数据集中存储的类型的编码器.导入sqlContext.implicits支持基本类型(Int,Str ..

将CSV数据加载到Dataframe中,然后使用Apache Spark(Java)转换为Array

我有一个包含以下数据的CSV文件: 1,2,5 2,4 2,3 我想将它们加载到具有数组字符串模式的数据框中 输出应如下所示. [1, 2, 5] [2, 4] [2, 3] 已在此处使用scala对此进行了回答: Spark:将字符串列转换为数组 我想让它在Java中实现. 请帮助 解决方案 下面是Java中的示例代码.您需要使用sp ..
发布时间:2020-07-11 21:56:32 Java开发

Spark/Scala:用最后的良好观察填充nan

我正在使用spark 2.0.1,并希望用列中的最后一个已知值来填充nan值. 关于火花的唯一参考资料,我可以找到 Spark/Scala:向前填充最后一次观察或用以前的空值填充pyspark 具有很好的价值,它似乎使用了RDD. 我想留在数据框/数据集世界中,并可能处理多个nan值. 这可能吗? 我的假设是,数据(最初是从CSV文件中加载的)是按时间排序的,并且此顺序保留在分布 ..

Spark编码器:何时使用beans()

在使用Spark的缓存机制时,我遇到了内存管理问题.我目前在Kryo中使用Encoder,并且想知道切换到Bean是否可以帮助我减少缓存数据集的大小. 基本上,在使用Encoder时,在Kryo序列化上使用bean的优缺点是什么?是否有任何性能改进?除了使用SER选项进行缓存外,是否有办法压缩缓存的Dataset? 记录下来,我发现了一个类似的主题解决了两者之间的比较.但是,此比较没有 ..

在Scala中使用Spark数据集执行类型化联接

我喜欢Spark数据集,因为它们在编译时为我提供了分析错误和语法错误,还使我可以使用getter而不是硬编码的名称/数字.大多数计算都可以使用Dataset的高级API来完成.例如,与使用RDD行的数据字段相比,通过访问数据集类型的对象来执行 agg,选择,求和,平均,映射,过滤或groupBy 操作要简单得多. 但是,缺少联接操作,我读到我可以像这样进行联接 ds1.joinWith ..

只覆盖分区火花数据集中的一些分区

我们如何覆盖分区数据集,但只有我们要更改的分区?例如,重新计算上周每天的工作,并且只重写上周的数据。 默认的Spark行为是覆盖整个表,即使只有一些分区将要写出来。 解决方案 自从Spark 2.3.0覆盖表格时,这是一个选项。要覆盖它,您需要将新的 spark.sql.sources.partitionOverwriteMode 设置设置为 dynamic ,数据集需要被分区,写模 ..
发布时间:2018-06-12 13:43:43 其他开发

如何读取多个Excel文件并将它们连接成一个Apache Spark DataFrame?

最近我想从Spark Summit 2016开始做Spark Spark学习实验室。培训视频是 here 和导出的笔记本可用此处 实验室中使用的数据集可从 UCI机器学习资料库。它包含一组来自燃气发电厂的各种传感器的读数。格式为xlsx文件,带有五张。 要使用实验室中的数据,我需要从Excel文件中读取所有表格,并将其连接成一个Spark DataFrame 。在培训期间,他们正在使用 ..
发布时间:2017-09-07 07:06:05 Office

如何从RDD创建Spark数据集

我有一个 RDD [LabeledPoint] 旨在在机器学习管道中使用。我们如何将 RDD 转换为 DataSet ?注意新的 spark.ml apis需要输入数据集格式。 解决方案 这是一个通过额外步骤的答案 - DataFrame 。我们使用 SQLContext 创建一个 DataFrame ,然后创建一个 DataSet 使用所需的对象类型 - 在这种情况下,一个 Labele ..
发布时间:2017-04-02 12:33:34 其他数据库

什么是星火的DataSet和RDD之间的区别

我仍然在努力了解最近推出的Spark数据集的全部功能。 是否有何时使用RDDS最佳实践,以及何时使用的数据集? 在他们的公告 Databricks解释说,通过使用在这两个运行时和存储器的数据集惊人的减少可以实现。它仍然声称数据集设计'''除了已有的RDD API的工作“。 这是只是为了向下兼容参考还是有方案,其中一个将preFER使用RDDS在数据集? 解决方案 在这个时刻(星火1. ..
发布时间:2016-05-22 16:15:48 其他开发