amazon-redshift-spectrum - IT屋-程序员软件开发技术分享社区

雅典娜VS红移光谱

我在评估雅典娜&红移光谱。两者都有相同的目的，Spectrum需要一个适当的红移集群，而雅典娜则是纯粹的无服务器。雅典娜使用Presto，Spectrum使用其RedShift引擎雅典娜或红移光谱有什么特别的缺点吗？使用Athena或Spectrum有什么限制吗？推荐答案我在几个不同的用例中使用了这两种方法，结论是：红移光谱的优势：允许创建红移表能够连 ..

发布时间：2022-08-23 18:06:28 amazon-web-services amazon-redshift amazon-athena amazon-redshift-spectrum 其他开发

将拼图文件加载到RedShift中

我在S3上有一堆拼图文件，我想以最优的方式将它们加载到红移中。每个文件被拆分成多个块……将数据从S3加载到RedShift的最佳方式是什么？另外，如何在RedShift中创建目标表定义？有没有一种方法可以从Parquet中推断出模式并编程创建表？我相信有一种使用红移光谱的方法可以做到这一点，但我想知道这是否可以在脚本中完成。感谢您的帮助！我正在考虑所有AWS工具(如Gl ..

发布时间：2022-08-15 17:00:39 amazon-web-services amazon-ec2 amazon-redshift parquet amazon-redshift-spectrum 其他开发

RedShift中没有LOB数据类型

我们正在进行Oracle到RedShift的迁移项目。作为迁移的一部分，我们要求在RedShift中创建一个CLOB值支持列。我们已经尝试了很多方法来找出类似于Oracle的CLOB的数据类型。但不幸的是，我们没有成功。我们在Oracle CLOB列中的最大长度为171,000个字符，需要将其移到RedShift中。有没有人能建议一下，我们是否有办法在RedShift中创建数 ..

发布时间：2022-03-02 09:21:41 sql amazon-redshift amazon-redshift-spectrum 其他开发

AWS Redshift 频谱错误:“json"处或附近的语法错误

我想创建一个使用红移光谱的外部表，文件作为json文件存储在s3中，具有单个对象，其值为对象数组.> 我对外部表的查询创建外部表 jatinspectrum.extable (enteries array>)存储为 jsonLOCATION 's3://xxxxxxxxxxxxxxx/xxxxxxxxxxxxxx/xxxxxxxxxxx/'; 它抛出一个错误 ERROR: syntax e ..

发布时间：2021-10-27 18:56:08 json amazon-web-services amazon-redshift amazon-redshift-spectrum 其他开发

Redshift 频谱可以读取清单文件(用于外部表)但不能读取实际文件?

我在 Amazon Redshift 中有一个外部表: 创建外部表ruben.ruben_manifest_test(customer_id bigint，external_cust_id varchar(30))行格式 serde 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'与 serdeproperties('se ..

发布时间：2021-10-27 18:56:02 amazon-redshift amazon-redshift-spectrum 其他开发

[XX000][500310] [Amazon](500310) 无效操作:解析的清单不是有效的 JSON 对象

我正在一个文件夹上运行爬虫程序，该文件夹包含多个具有不同架构的文件.我希望为每个文件找到一个表格. 实际情况是，在 Glue 目录中，我实际上可以看到每个文件的表格，以及它自己的架构.但是当我尝试通过 Redshift Spectrum(在创建外部架构等之后)查询它时，我得到了这个异常: [XX000][500310] [Amazon](500310) 无效操作:解析的清单不是有效的 JS ..

发布时间：2021-10-27 18:55:48 amazon-web-services amazon-s3 amazon-redshift aws-glue amazon-redshift-spectrum 其他开发

在 redshift 上查询数据时出错 - 获取条带数据时出错

我正在尝试对 redshift 中的外部表运行以下查询: select * from schema.table limit 10; 然后我收到一个错误: [2018-06-20 12:03:14] [XX000][500310] Amazon Invalid operation: S3 Query Exception (Fetch)细节:错误:S3 查询异常(获取)代码:15001上下文 ..

发布时间：2021-10-27 18:55:42 sql amazon-s3 amazon-redshift amazon-redshift-spectrum 其他开发

使用 Redshift Spectrum 的步骤是什么?

目前我使用 Amazon Redshift 和 Amazon S3 来存储数据.现在我想使用 Spectrum 来提高性能，但对如何正确使用它感到困惑. 如果我使用 SQL 工作台，我可以从它创建外部架构还是我需要从 AWS 控制台或 Athena 创建它.? 我是否需要为特定地区安装 Athena.?是否可以在没有 Athena 的情况下使用频谱.? 现在，如果我尝试通过 SQ ..

发布时间：2021-10-27 18:55:23 amazon-web-services amazon-s3 amazon-redshift amazon-redshift-spectrum 其他开发

使用Blob存储作为数据源按需对SQL中的数据进行分区

在Amazon Redshift中，有一种方法可以在将S3存储桶用作数据源时创建分区键.链接. 我正在尝试使用SQL On-Demand服务在Azure Synapse中做类似的事情. 目前，我有一个存储帐户，该帐户已按以下方案进行了分区: -销售(文件夹)-2020-10-01(文件夹)-文件1-文件2-2020-10-02(文件夹)-文件3-文件4 要创建视图并提取所有4个文 ..

发布时间：2021-04-03 19:19:02 sql sql-server amazon-redshift azure-synapse amazon-redshift-spectrum 数据库

AWS Redshift-无法将外部表合并到本地目录中

我们的一个外部表在redshift中有问题. 我们在AWS Glue中有300多个表，这些表已作为名为 events 的外部架构添加到我们的redshift集群中. events 中的大多数表都可以进行查询.但是，当查询名为 item_loaded 的表之一时，会出现以下错误；从events.item_loaded限制1中选择*;错误:XX000:无法将外部表“事件"."item_loa ..

发布时间：2021-04-03 19:18:08 amazon-redshift amazon-redshift-spectrum 其他开发

使用Redshift Spectrum读取AWS Redshift中外部表中的数据

我在AWS Redshift集群中执行以下操作以从S3中读取Parquet文件。创建外部架构s3_external_schema 来自数据目录数据库'dev' iam_role'arn：aws：iam ::：role /' 创建外部数据库（如果不存在）；然后创建外部表s3_external_sche ..

发布时间：2020-06-05 18:34:06 amazon-redshift amazon-redshift-spectrum 其他开发

如何在redshift中生成12位唯一数字？

我在表中有3列，即 email_id ， rid ， final_id 。 rid 和 final_id ：如果 email_id 具有相应的 rid ，将 rid 用作 final_id 。如果 email_id 没有相应的 rid （即 rid 为空），生成一个唯一的12位数字，然后插入 final_id 字段。如何在redshift中生成12位唯一数字？解决 ..

发布时间：2020-06-05 18:34:03 amazon-web-services amazon-redshift amazon-redshift-spectrum 其他开发

Redshift Spectrum：按日期/文件夹自动分区表

我们当前生成每日CSV导出，并将其上传到S3存储桶中，格式如下： | --reportDate- |-part0.csv.gz |-part1.csv.gz 我们希望能够运行按每日导出划分的报告。根据此页面，您可以通过基于源S3文件夹的密钥对Redshift Spectrum中的数据进行分区表将其数据作为源。但是，从该示例来 ..

发布时间：2020-06-05 18:34:01 amazon-s3 amazon-redshift amazon-redshift-spectrum 其他开发

AWS Glue：如何使用各种模式处理嵌套JSON

目标：我们希望使用AWS Glue数据目录为S3存储桶中的JSON数据创建一个表，然后通过Redshift查询和解析频谱。背景： JSON数据来自DynamoDB Streams，并且深度嵌套。 JSON的第一级具有一致的元素集：密钥，NewImage，OldImage，SequenceNumber，近似CreationDateTime，SizeBytes和EventName。唯一的 ..

发布时间：2020-06-05 18:30:49 amazon-redshift aws-glue amazon-dynamodb-streams amazon-redshift-spectrum 其他开发

S3查询异常（提取）

我已将数据从Redshift以Parquet格式上传到S3，并在Glue中创建了数据目录。我已经能够从雅典娜查询表，但是当我在Redshift上创建外部模式并尝试在表上查询时，出现以下错误错误：S3查询异常（读取）详细信息： ------------------------- ---------------------- 错误：S3查询异常（读取）代码：15001 上下文：任务失 ..

发布时间：2020-06-03 23:09:24 amazon-redshift amazon-athena amazon-redshift-spectrum 其他开发

amazon-redshift-spectrum相关内容