parquet - IT屋-程序员软件开发技术分享社区

将拼图文件加载到RedShift中

我在S3上有一堆拼图文件，我想以最优的方式将它们加载到红移中。每个文件被拆分成多个块……将数据从S3加载到RedShift的最佳方式是什么？另外，如何在RedShift中创建目标表定义？有没有一种方法可以从Parquet中推断出模式并编程创建表？我相信有一种使用红移光谱的方法可以做到这一点，但我想知道这是否可以在脚本中完成。感谢您的帮助！我正在考虑所有AWS工具(如Gl ..

发布时间：2022-08-15 17:00:39 amazon-web-services amazon-ec2 amazon-redshift parquet amazon-redshift-spectrum 其他开发

无法推断拼花的架构。必须手动指定

我正在运行EMR笔记本中的所有代码。 SPEK.VERSION '3.0.1-amzn-0' temp_df.printSchema() root |-- dt: string (nullable = true) |-- AverageTemperature: double (nullable = true) |-- AverageTemperatureUncertai ..

发布时间：2022-08-15 16:55:35 apache-spark amazon-s3 pyspark parquet amazon-emr 其他开发

JavaScript-从AWS S3存储桶中读取镶木地板数据(快速压缩)

在NodeJS中，我正在尝试读取拼图文件(comage=‘Snappy’)，但失败。我使用https://github.com/ironSource/parquetjsNPM模块打开并读取本地文件，但Reader.Cursor()引发神秘错误‘尚未实现’。无论使用哪种压缩(普通、RLE或Snappy)来创建输入文件，都会引发相同的错误。以下是我的代码： const readP ..

发布时间：2022-08-15 16:44:51 javascript node.js amazon-s3 parquet snappy 前端开发

为什么在Spark SQL&；写入之后，&；t Impala可以读取镶木地板文件？

Spark解释镶木地板柱子的方式有一些问题。我有一个具有确认架构(df.schema()方法)的Oracle源代码： root |-- LM_PERSON_ID: decimal(15,0) (nullable = true) |-- LM_BIRTHDATE: timestamp (nullable = true) |-- LM_COMM_METHOD: string ..

发布时间：2022-08-15 16:34:40 java apache-spark apache-spark-sql parquet Java开发

Azure BLOB商店是否支持拼花板柱投影和下推过滤器/谓词

IV‘我已经阅读了一些关于镶木地板格式以及Spark如何与其集成的内容。作为列式存储，parquet really shines只要Spark可以与底层存储协作，就可以执行投影，而不必加载所有数据，并指示存储根据各种统计数据加载特定的列块(当涉及筛选器时)。我看到lecture on youtube(21：54)警告对象存储不支持下推过滤器(特别是以Amazon S3为例)。 ..

发布时间：2022-07-19 22:57:40 apache-spark parquet azure-blob-storage 其他开发

将两个地块文件本地写入数据集时，Arrow能够适当地附加到分区。例如，如果我使用逐列箭头对两个文件进行分区，当我使用分区编写第一个地块文件时，ARROW会生成一个文件结构，其中的子文件夹对应于A列中的每个唯一值。当写入第二个文件时，ARROW足够智能，可以将数据写入正确的分区。因此，如果A列中的文件一和两个共享的公共值，我在子文件夹中看到具有公共值的两个单独的文件。代码示例： df = pd ..

发布时间：2022-07-19 22:46:25 parquet pyarrow 其他开发

箭/拼花错误地保存大的时间戳

我在数据库中有一些9999-12-31的时间戳，正在尝试转换为拼花。不知何故，这些时间戳在拼花文件中都以1816-03-29 05:56:08.066结束。下面是重现该问题的一些代码。 file_path = "tt.parquet" schema = pa.schema([pa.field("tt", pa.timestamp("ms"))]) table = pa.Table.f ..

发布时间：2022-06-29 22:38:40 python snowflake-cloud-data-platform parquet pyarrow Python

拼图文件日期时间值不匹配

在使用PANDA读取拼图文件时，日期时间字段中的值发生了变化。例如，读取拼图文件时，字段的输出是2021-02-07 10：43：20.067，但实际值应该是2021-02-07 6：43：20。对于较少的记录，同样的方法日期时间列将看到+4和+5小时。所有日期分钟和秒都相同，但只有小时字段正在更改。我正在使用的以下代码 df=pd.read_parquet('filename.pa ..

发布时间：2022-05-11 23:38:06 python pandas datetime parquet Python

火花写入拼图数组<；字符串>；在加载到BigQuery时转换为不同的数据类型

Spark数据帧架构： StructType( [StructField("a", StringType(), False), StructField("b", StringType(), True), StructField("c" , BinaryType(), False), StructField("d", Ar ..

发布时间：2022-05-11 23:33:37 apache-spark pyspark google-cloud-platform google-bigquery parquet 其他开发

如何为org.apache.parquet.avro.AvroParquetReader配置S3访问？

我在这个问题上挣扎了一段时间，想分享我的解决方案。AvroParquetReader是一个很好的阅读Parquet的工具，但它对S3访问的默认设置很弱： java.io.InterruptedIOException: doesBucketExist on MY_BUCKET: com.amazonaws.AmazonClientException: No AWS Credentials pr ..

发布时间：2022-05-11 23:22:58 java amazon-s3 parquet Java开发

如何从Azure Python函数BLOB输入绑定中读取拼图文件？

我有一个带有BLOB输入绑定的python函数。有问题的斑点包含镶木地板文件。最终，我希望将绑定的Blob读取到 pandas 数据帧中，但我不确定执行此操作的正确方法。我已经验证了绑定设置正确，并且能够成功读取纯文本文件。我很高兴拼花文件的完整性是好的，因为我已经能够使用这里提供的示例来阅读它：https://arrow.apache.org/docs/python/parquet.ht ..

发布时间：2022-05-11 23:19:55 python azure azure-functions azure-blob-storage parquet Python

当写入输出文件时，帕奎特`WRITE_TABLE`会将数据类型的键引入数据

我在将数据写入拼图文件时遇到问题。我尝试了不同的pyarrow版本(2.0和3.0)，但结果看起来是一样的。我的数据外观示例： test_data = { 'dogs': [ {'dog': 'frankie'}, {'dog': 'ricky'} ] } other_test_data = { 'dogs': [ ..

发布时间：2022-05-11 23:10:26 google-bigquery parquet pyarrow 其他开发

有没有办法在行而不是列中处理pandas.DataFrame的数据类型？

parquet、feather和hdf5等大数据文件格式能够与面向列的表配合使用，以加快读取列的速度。在我的用例中，我希望从netcdf4文件切换到feather文件格式，因为我读取某些列的速度比使用netcdf4快10倍。但不幸的是，我正在丢失增加文件大小的dtype规范。所以我的想法是定义行的数据类型，但 pandas 只接受列数据类型。有没有一种方法可以更像以列为导向的表 ..

发布时间：2022-05-11 23:00:03 python-3.x pandas parquet hdf5 feather Python

从Python增量写入拼图数据集

我正在从我的Python应用程序中写出一个比RAM更大的数据--基本上是将数据从SQLAlChemy转储到Parque。我的解决方案的灵感来自this question。尽管增加了the batch size as hinted here，但我面临的问题是：内存使用量急剧增加编写器在一段时间后开始减速(写入吞吐量速度下降5倍以上) 我的假设是，这是因为ParquetWrite ..

发布时间：2022-05-11 22:53:02 parquet pyarrow 其他开发

将文件创建为流并上载到Azure

我正在使用ChoETL和ChoETL.Parquite库基于一些其他数据创建拼图文件。我可以在本地创建该文件。 using (ChoParquetWriter parser = new ChoParquetWriter($"..\..\..\parquet_files\{club}_events.parquet")) { parser.Write(ev ..

发布时间：2022-05-11 22:45:08 c# azure parquet choetl C#/.NET

AWS雅典娜-合并小镶木地板文件还是离开它们？

我有很多通过AWS Glue读取到雅典娜的小镶木地板文件。我知道小拼图文件(每个35K左右，取决于日志输出它们的方式)并不理想，但一旦它们被读取到数据目录中，它还重要吗？换句话说，在加载到Athena之前，我是否应该完成将所有小镶木地板文件合并为更理想大小的文件的练习？推荐答案即使在数据目录中注册了小文件，您也要继续为它们付出代价。当您基于许多小文件查询一个表时，Athen ..

发布时间：2022-05-11 22:35:55 amazon-web-services parquet aws-glue amazon-athena 其他开发

无法将 pandas 数据框保存到拼图，并将浮点数列表作为单元格值

我有一个数据帧，其结构如下： Coumn1 Coumn2 0 (0.00030271668219938874, 0.0002655923890415579... (0.00164300831966102 ..

发布时间：2022-05-11 22:31:25 python pandas parquet pyarrow Python

从pyarrow.Table转换为Pandas时处理大时间戳

我有一个时间戳9999-12-31 23:59:59作为int96存储在拼图文件中。我使用pyarrow.DataSet读取此拼图文件，并将结果表转换为 pandas 数据帧(使用pyarrow.Table.to_pandas())。转换为Pandas DataFrame会将我的时间戳转换为1816-03-30 05:56:07.066277376(Pandas时间戳的有效日期范围可能较小)，而不 ..

发布时间：2022-05-11 22:22:30 python pandas timestamp parquet pyarrow Python

无需本地下载即可从Azure Blob容器中读取镶木地板数据

我正在使用azure SDK、avro-parquet和Hadoop库从Blob Container中读取拼图文件。目前，我正在将文件下载到临时文件，然后创建一个ParquetReader。 try (InputStream input = blob.openInputStream()) { Path tmp = Files.createTempFile("t ..

发布时间：2022-05-11 22:14:01 java azure streaming parquet Java开发

我正在尝试通过带有ParquetIO的FileIO使用假设性角色向Amazon S3写信

第1步：Assum角色 public static AWSCredentialsProvider getCredentials() { if (roleARN.length() > 0) { STSAssumeRoleSessionCredentialsProvider credentialsProvider = new STSAssumeRoleSe ..

发布时间：2022-05-11 22:08:13 java amazon-web-services file-io parquet apache-beam-io Java开发

parquet相关内容