首页
其他开发
如何在DataFrame Spark 1.6中加载特定的Hive分区？

如何在DataFrame Spark 1.6中加载特定的Hive分区？ [英] How to load specific Hive partition in DataFrame Spark 1.6?

查看：190 发布时间：2018/6/12 13:56:03 apache-spark hive apache-spark-sql spark-dataframe

本文介绍了如何在DataFrame Spark 1.6中加载特定的Hive分区？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

按照官方的 doc 我们无法在DataFrame中添加特定的
配置单元分区

Spark 1.6 onwards as per the official doc we cannot add specific hive partitions to DataFrame

Till Spark 1.5以下用于处理数据帧
将有实体列和数据，如下所示 -

Till Spark 1.5 the following used to work and the dataframe would have entity column and the data, as shown below -

DataFrame df = hiveContext.read().format("orc").load("path/to/table/entity=xyz")

但是，这在Spark 1.6中不起作用。

However, this would not work in Spark 1.6.

如果我给出如下所示的基本路径，它不包含我想在DataFrame中使用的实体列，如下所示 -

If I give base path like the following it does not contain entity column which I want in DataFrame, as shown below -

DataFrame df = hiveContext.read().format("orc").load("path/to/table/")

如何在数据框中加载特定的配置单元分区？删除此功能后，
驱动程序是什么？

How do I load specific hive partition in a dataframe? What was the driver behind removing this feature?

我相信这很有效。有没有其他方法可以在Spark 1.6中存档？

据我的理解，Spark 1.6加载所有分区，如果我筛选特定的分区，高效，它会触发内存并抛出GC（垃圾收集）错误，因为数千个分区会被加载到内存中，而不是特定的分区。

As per my understanding, Spark 1.6 loads all partitions and if I filter for specific partitions it is not efficient, it hits memory and throws GC(Garbage Collection) errors because of thousands of partitions get loaded into memory and not the specific partition.

请指导。

推荐答案

要使用Spark 1.6在DataFrame中添加特定分区，我们必须先执行以下操作设置 basePath 然后给出分区的路径需要加载

To add specific partition in a DataFrame using Spark 1.6 we have to do the following first set basePath and then give path of partition needs to be loaded

DataFrame df = hiveContext.read().format("orc"). option("basePath", "path/to/table/"). load("path/to/table/entity=xyz")

将仅加载DataFrame中的特定分区。

So above code will load only specific partition in a DataFrame.

这篇关于如何在DataFrame Spark 1.6中加载特定的Hive分区？的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

相关文章

如何在 DataFrame Spark 1.6 中加载特定的 Hive 分区?;

Hive在分区表中加载;

Hive分区，Spark分区和Spark中的联接-它们之间的关系;

如何保证Spark Dataframe中的重新分区;

Spark Dataframe 的分区数;

Spark DataFrame分区:未保留的分区数;

加载Hive表时Spark创建多少个分区;

分区表中的 Hive 加载;

Spark DataFrame分区和镶木地板分区;

Spark 1.6 SQL 或 Dataframe 或 Windows;

Spark 1.6 SQL或Dataframe或Windows;

Spark 1.6:过滤由describe()生成的DataFrame;

如何在特定日期使用 hive 添加分区?;

如何通过Spark属性(Spark 1.6)在spark-shell中启用或禁用Hive支持?;

如何通过 Spark 属性(Spark 1.6)在 spark-shell 中启用或禁用 Hive 支持?;

Spark DataFrame分区器为“无";

Spark是否知道DataFrame的分区键?;

分区上的Spark Scala DataFrame功能;

JDBC 到 Spark Dataframe - 如何确保均匀分区?;

Spark 在加载 Hive 表时创建了多少个分区;

在Apache Spark中删除空的DataFrame分区;

在 Apache Spark 中删除空的 DataFrame 分区;

需要了解 Dataframe Spark 中的分区细节;

需要了解 Dataframe Spark 中的分区细节;

Spark SQL 如何决定从 Hive 表加载数据时将使用的分区数?;

其他开发最新文章

拒绝显示一个框架，因为它将'X-Frame-Options'设置为'sameorigin';

什么是＆QUOT; AW＆QUOT;在部分标志属性是什么意思？;

在运行npm install命令时获取'npm WARN弃用'警告;

cmake无法找到openssl;

从Spark的scala中的* .tar.gz压缩文件中读取HDF5文件;

Twitter :: Error :: Forbidden - 无法验证您的凭据;

我什么时候需要一个fb：app_id或者fb：admins？;

将.db文件导入R;

npm通知创建一个lockfile作为package-lock.json。你应该提交这个文件;

拒绝执行内联脚本，因为它违反了以下内容安全策略指令：“script-src'self'”;

热门教程

Java教程

Apache ANT 教程

Kali Linux教程

JavaScript教程

JavaFx教程

MFC 教程

Apache HTTP客户端教程

Microsoft Visio 教程

热门工具

Java 在线工具

C(GCC) 在线工具

PHP 在线工具

C# 在线工具

Python 在线工具

MySQL 在线工具

VB.NET 在线工具

Lua 在线工具

Oracle 在线工具

C++(GCC) 在线工具

Go 在线工具

Fortran 在线工具

登录关闭

扫码关注1秒登录

发送“验证码”获取 | 15天全站免登陆

友情链接： IT屋 Chrome插件谷歌浏览器插件

IT屋 ©2016-2022 琼ICP备2021000895号-1 站点地图站点标签 SiteMap <免责申明> 本站内容来源互联网,如果侵犯您的权益请联系我们删除.