parquet相关内容

从 R 中的 CSV 文件创建镶木地板文件目录

我遇到越来越多的情况,需要使用内存不足 (OOM) 方法在 R 中进行数据分析.我熟悉其他 OOM 方法,例如 sparklyr 和 DBI 但我最近遇到了 arrow 并想进一步探索它. 问题是我通常使用的平面文件足够大,在没有帮助的情况下无法将它们读入 R.因此,理想情况下,我更喜欢一种进行转换的方法,而实际上不需要首先将数据集读入 R. 如果您能提供任何帮助,我们将不胜感激! ..
发布时间:2021-06-14 19:24:17 其他开发

在没有 Spark 的 Scala 中使用 parquet-mr

我试图在不使用 Spark 的情况下在 Scala 中读取 .parquet 文件. 我找到了这篇SO帖子,但到目前为止一直无法找到如何使用 parquet-mr 库 来实际读取文件(包括获取架构).有像 RecordReader.java 和 RecordReaderImplementation.java(它扩展 RecordReader)这样的东西,但我很难理解如何在我的 Scala 代 ..
发布时间:2021-06-14 19:24:14 Java开发

在 PyCharm 中安装 python-snappy 时出错

我有一个“.snappy.parquet"文件,我想查看该文件中的内容,我知道我可以使用 Pandas 和 PySpark. 这超出了我的知识范围,我不知道该怎么做,有人可以帮助我吗...我已经挣扎了将近一天了....非常感谢.(如果我无法解决这个问题,我是否还有其他选项可以将此文件转换为可读文件?) 解决方案 此问题已通过使用此处的方法解决:无法在 Pycharm 中安装 pyth ..
发布时间:2021-06-14 19:24:11 Python

谓词下推究竟是如何工作的?

谁能用例子解释一下谓​​词下推到底是如何工作的? 解决方案 说你要执行一个查询 SELECT总和(价格)来自销售在哪里'2018-01-01' 和 '2018-01-31' 之间的购买日期; 查询引擎的一个非常简单的实现是遍历所有 parquet/orc 文件,反序列化 price 和 purchase_date 列,在 上应用谓词purchase_date 并对过滤后的行求和. ..
发布时间:2021-06-14 19:24:08 其他开发

雅典娜为镶木地板文件中的时间戳字段返回错误值

我主要在这里重现我在论坛上看到的问题.aws 希望 stackoverflow 社区的回答/解释比论坛上的讨论更彻底、更具有启发性. 以下是我对这个问题的经验:我使用 Pandas 从 python 中的数据帧制作镶木地板文件,并使用 pandas.to_datetime 将一个字段/列说生日作为 datetime64[ns].这部分过程似乎完美无缺,因为我可以使用 pandas.read_ ..
发布时间:2021-06-14 19:24:05 Python

Spark读取不同版本的Parquet文件

我使用 Version1 架构生成了超过一年的镶木地板文件.并且随着最近的架构更改,较新的镶木地板文件具有 Version2 架构额外的列. 因此,当我同时加载旧版本和新版本的镶木地板文件并尝试过滤更改的列时,我得到一个异常. 我希望 spark 读取旧文件和新文件,并在列不存在的情况下填充空值.当找不到列时,spark 填充空值是否有解决方法? 解决方案 有两种方法可以尝试. ..
发布时间:2021-06-14 19:24:02 其他开发

在 Python 中读取镶木地板字节对象

我有一个 python 对象,我知道这是一个加载到对象的镶木地板文件.(我无法从文件中实际读取它). 对象 var_1 包含 b'PAR1\x15\x....1\x00PAR1 当我检查类型时: type(var_1) 我得到的结果是bytes. 有没有办法阅读这个?说成熊猫数据框? 我试过:1) from fastparquet import ParquetFile ..
发布时间:2021-06-14 19:23:59 Python

Spark/Parquet 分区是否保持排序?

如果我对一个数据集进行分区,当我读回它时,它的顺序是否正确?例如,考虑以下 pyspark 代码: # 读取一个 csvdf = sql_context.read.csv(input_filename)# 添加一个哈希列hash_udf = udf(lambda customer_id: hash(customer_id) % 4, IntegerType())df = df.withColum ..
发布时间:2021-06-14 19:23:56 其他开发

Apache-Drill 不理解 Pandas datetime64[ns]

我正在使用 Pyarrow、Pyarrow.Parquet 以及 Pandas.当我将 Pandas datetime64[ns] 系列发送到 Parquet 文件并通过钻取查询再次加载它时,查询显示一个整数,如:1467331200000000,这似乎不是 UNIX 时间戳. 查询如下所示: SELECT workspace.id-column AS id-column,worksp ..
发布时间:2021-06-14 19:23:53 Python

ParquetWriter 构造函数不可见

我正在尝试创建接受参数(OutputFile、Mode、WriteSupport、CompressionCodecName、int、boolean、Configuration、int、ParquetProperties)的 ParquetWriter 类的对象.但是这个构造函数在我使用的 API 中有默认访问修饰符.我无法访问它. 我已经包含了 maven 的 parquet 库 编译组: ..
发布时间:2021-06-14 19:23:50 Java开发

具有字典列表的列的pyarrow数据类型?

当我保存到镶木地板文件时,是否应该为包含字典列表的列使用特殊的 pyarrow 数据类型? 如果我将列表或字典列表保存为字符串,我通常必须 .apply(eval) 该字段,如果我再次将其读入内存,以便熊猫将数据识别为列表(所以我可以用 pd.json_normalize 对其进行标准化) 列_a: [{“id":“something",“value":“else"},{“id":“ ..
发布时间:2021-06-14 19:23:42 Python

无法从命令行获取镶木地板工具

我正在尝试运行最新版本的 parquet-tools,但遇到了一些问题.出于某种原因,org.apache.hadoop.conf.Configuration 不在阴影 jar 中.(我对 v1.6.0 也有同样的问题). 在 mvn package 或 mvn install 之外还有什么我应该做的吗?(我使用的实际 mvn 调用是 mvn install -DskipTests -pl ..
发布时间:2021-06-14 19:23:35 其他开发

在 Python 中获取镶木地板文件的架构

是否有任何 Python 库可用于获取 Parquet 文件的架构? 目前我们正在将镶木地板文件加载到 Spark 中的数据帧中,并从数据帧中获取模式以显示在应用程序的某些 UI 中.但是初始化 spark-context 和加载数据帧并从数据帧中获取模式是耗时的活动.因此,正在寻找一种替代方法来获取架构. 解决方案 除了@mehdio 的回答,如果您的镶木地板是一个目录(例如由 s ..
发布时间:2021-06-14 19:23:32 Python

如何使用Pyarrow实现流写入效果

我拥有的数据是一种流数据.我想将它们存储到一个 Parquet 文件中.但是 Pyarrow 每次都会覆盖 Parquet 文件.那我该怎么办? 我尽量不关闭编写器,但似乎不可能,因为如果我不关闭它,那么我将无法读取此文件. 这是包: import pyarrow.parquet as pp导入pyarrow作为pa 对于 ['LEE','LSY','asd','wer'] 中的名 ..
发布时间:2021-06-14 19:23:28 其他开发

不使用 Spark 从 Parquet 读取特定列

我试图在不使用 Apache Spark 的情况下读取 Parquet 文件,我能够做到,但我发现很难读取特定的列.我找不到任何好的谷歌资源,因为几乎所有的帖子都是关于阅读镶木地板文件的.下面是我的代码: import org.apache.hadoop.fs.{FileSystem, Path}导入 org.apache.avro.generic.GenericRecord导入 org.apa ..
发布时间:2021-06-14 19:23:22 其他开发

Apache Drill 对 SQL Server 的性能不佳

我尝试使用 apache-drill 运行一个简单的 join-aggregate 查询,但速度并不是很好.我的测试查询是: SELECT p.Product_Category, SUM(f.sales)来自事实 f在 f.pkey = p.pkey 上加入产品 pGROUP BY p.Product_Category 其中事实大约有 422,000 行,产品大约有 600 行.分组返回 4 ..
发布时间:2021-06-14 19:23:19 其他开发

如何使用 pyarrow 编写 Parquet 元数据?

我使用 pyarrow 创建和分析包含生物信息的 Parquet 表,我需要存储一些元数据,例如数据来自哪个样本,数据是如何获得和处理的. Parquet 似乎支持 file-宽元数据,但我找不到如何通过pyarrow编写它.我能找到的最接近的是如何编写行组元数据,但这似乎有点矫枉过正,因为我的元数据对于文件中的所有行组都是相同的. 有没有办法用 pyarrow 编写文件范围的 Par ..
发布时间:2021-06-14 19:23:16 Python