amazon-data-pipeline相关内容

需要将大型表从 RDS 迁移到 DynamoDB 的策略建议

我们在 RDS 中有几个巨大的 mySql 表(超过 700 GB),我们希望将它们迁移到 DynamoDB 表.您能否提出一个策略或方向,以一种干净、并行的方式做到这一点?也许使用 EMR 或 AWS Data Pipeline. 解决方案 您可以使用 AWS Pipeline.有两个基本模板,一个用于将 RDS 表移动到 S3,第二个用于将数据从 S3 导入 DynamoDB.您可以使 ..

如何将数据从 AWS Postgres RDS 传输到 S3(然后是 Redshift)?

我正在使用 AWS 数据管道服务将数据从 RDS MySql 数据库传输到 s3,然后再传输到 Redshift,这很有效很好. 但是,我也有数据存在于 RDS Postres 实例中,我想以相同的方式传输该实例,但是我很难设置 jdbc 连接.如果这不受支持,是否有解决方法? "connectionString": "jdbc:postgresql://THE_RDS_INSTANCE: ..

将 AWS Postgres RDS 表导出到 AWS S3

我想使用 AWS Data Pipeline 将数据从 Postgres RDS 传输到 AWS S3.有人知道这是怎么做的吗? 更准确地说,我想使用数据管道将 Postgres 表导出到 AWS S3.我使用 Data Pipeline 的原因是我想自动化这个过程,这个导出将每周运行一次. 任何其他建议也将起作用. 解决方案 github 上有一个示例.https://git ..

使用 Google DataFlow/Apache Beam 并行化图像处理或抓取任务是否有意义?

我正在考虑将 Google DataFlow 作为运行管道的选项,该管道涉及以下步骤: 从网络下载图像; 处理图像. 我喜欢 DataFlow 管理完成工作所需的 VM 的生命周期,因此我不需要自己启动或停止它们,但我遇到的所有示例都将它用于数据挖掘类任务.我想知道它是否是其他批处理任务(如图像处理和抓取)的可行选择. 解决方案 此用例是 Dataflow/Beam 的可能应 ..

无法与 jdbc 建立连接:mysql 通信链接失败

我一直在尝试在 S3 存储桶和 Elasitcbeanstalk 环境之间设置数据管道,该环境包括一个 MySQL RDS 实例(都在同一个 VPC 中). 我失败了: 最后一个成功发送到服务器的数据包是 0 毫秒前.驱动程序没有收到来自服务器的任何数据包.amazonaws.datapipeline.database.ConnectionFactory:无法建立连接到 jdbc:mysq ..
发布时间:2021-10-27 18:54:14 其他开发

如何更改在AWS数据管道中运行的Hive Activity的内存设置?

使用 AWS Data Pipeline 运行一个 Hive Activity 时,我的Hive活动失败,并出现以下错误: 诊断:容器[pid =,containerID =]运行超出了物理内存限制.当前使用情况:已使用1 GB物理内存中的1.0 GB;使用2.8 GB的5 GB虚拟内存.杀死容器. 当我运行由Hive Activity手动执行的Hive脚本时,我必须按如下所示执行它: 配 ..

清除AWS Data Pipeline中DynamoDB表中的所有现有条目

我的目标是获取RDS表的每日快照并将其放入DynamoDB表中.该表应仅包含一天的数据. 为此,设置了数据管道以查询RDS表并将结果以CSV格式发布到S3中. 然后,HiveActivity通过为文件和现有DynamoDB表创建外部表,将此CSV导入DynamoDB表中. 这很好用,但是DynamoDB表中仍然存在前一天的旧条目.我想尽可能在​​Data Pipeline中执行此 ..

使用Google DataFlow/Apache Beam并行化图像处理或爬网任务是否有意义?

我正在考虑将Google DataFlow作为运行涉及以下步骤的管道的选项: 从网络上下载图像; 处理图像. 我喜欢DataFlow管理完成任务所需的VM的生命周期,因此我不需要自己启动或停止它们,但是我遇到的所有示例都将其用于数据挖掘等任务.我想知道它是否对其他批处理任务(如图像处理和爬网)是否可行. 解决方案 此用例可能是Dataflow/Beam的应用程序. 如果 ..

如何使用AWS Data Pipeline将文件从一个S3存储桶/目录传输到另一个

我想使用AWS数据管道将文件从一个S3存储桶目录传输到另一个目录(即,将其复制到目标目录并从源目录中删除). 我尝试使用ShellCommandActivity并制作了一个脚本,该脚本可以将文件从一个S3存储桶/目录移动到另一个.但是结果是它仅将其复制到目标S3存储桶/目录,而没有删除S3源目录中的文件. 提前谢谢! 解决方案 如果您要从S3存储桶中删除某些内容,则必须明确删除 ..
发布时间:2020-08-23 23:58:53 其他开发

AWS Data Pipeline中的ShellCommandActivity

我正在使用数据管道将Dynamo DB数据传输到S3.在S3存储桶中,我得到了备份,但已分为多个文件.为了将数据保存在一个文件中,我使用了一个Shell命令活动,该命令运行以下命令: aws s3 cat #{myOutputS3Loc}/#{format(@scheduledStartTime,'YYYY-MM-dd')}/* > #{myRenamedFile} 这应将S3文件夹中 ..

如何使用ShellCommandActivity(AWS数据管道)中的数据管道在SQL Server中调用存储过程

我知道您可以使用下面的脚本调用MySQL过程,但是对于SQL Server来说可能是相同的吗? mysql --host host_url --port port_number --user username --password password --execute="CALL stored_proc_name; 我有SQL Server Express,需要设置一个每天运行的过程.它 ..

AWS Datapipeline-带重音符号的问题

我是AWS Datapipeline的新手.我创建了一条成功的数据管道,将所有内容从RDS提取到S3存储桶.一切正常.我在S3存储桶中看到了我的.csv文件.但是我将西班牙语名称存储在表中,在csv中,我看到的是“Garc�a"而不是“García" 解决方案 看起来使用了错误的代码页.只要参考正确的代码页,就可以了.以下主题可能会有所帮助:上传到S3的文本文件的编码方式是否奇怪? ..

AWS数据管道EmrCluster的安全配置字段

我通过AWS管理控制台上的常规EMR群集向导创建了一个AWS EMR群集,并且能够选择一个安全配置,例如,在导出CLI命令--security-configuration 'mySecurityConfigurationValue'时. 我现在需要通过AWS Data Pipeline创建一个类似的EMR,但是我看不到任何可以指定此安全配置字段的选项. 我看到的唯一类似字段是EmrMa ..

从管道AWS删除s3文件

我想问一下我正在尝试使用AWS中的数据管道来完成的处理任务,但是我无法使其正常工作. 基本上,我有2个代表2个MySQL数据库的数据节点,应该定期从中提取数据并将其放在S3存储桶中.每天选择添加的每一行(例如今天-1天),此复制活动都可以正常进行. 但是,包含收集的数据作为CSV的存储桶应该成为EMR活动的输入,该活动将处理这些文件并汇总信息.问题是我不知道如何删除或移动已经处理过的文 ..
发布时间:2020-08-23 02:31:41 其他开发

AWS EMR Spark:错误:无法从JAR加载主类

我正在尝试使用AWS控制台将Spark作业提交到AWS EMR集群.却失败了: Cannot load main class from JAR.当我在AWS EMR控制台->添加步骤的Arguments选项中将主类指定为--class时,作业成功运行. 在本地计算机上,当未按以下方式指定主类时,该作业似乎可以正常工作: ./spark-submit /home/astro/sp ..
发布时间:2020-08-23 02:30:26 其他开发