amazon-data-pipeline - IT屋-程序员软件开发技术分享社区

需要将大型表从 RDS 迁移到 DynamoDB 的策略建议

我们在 RDS 中有几个巨大的 mySql 表(超过 700 GB)，我们希望将它们迁移到 DynamoDB 表.您能否提出一个策略或方向，以一种干净、并行的方式做到这一点?也许使用 EMR 或 AWS Data Pipeline. 解决方案您可以使用 AWS Pipeline.有两个基本模板，一个用于将 RDS 表移动到 S3，第二个用于将数据从 S3 导入 DynamoDB.您可以使 ..

发布时间：2022-01-15 17:08:30 amazon-web-services amazon-dynamodb amazon-rds emr amazon-data-pipeline 其他开发

Amazon Data Pipeline:如何在 SqlActivity 中使用脚本参数?

尝试在 sqlActivity 中使用脚本参数时: {"id": "ActivityId_3zboU","schedule" : { "ref" : "DefaultSchedule" },"scriptUri" : "s3://location_of_script/unload.sql","name": "卸载","runsOn" : { "ref" : "Ec2Instance" },"s ..

发布时间：2021-11-27 10:37:41 amazon-web-services amazon-s3 amazon-redshift amazon-data-pipeline 其他开发

如何将数据从 AWS Postgres RDS 传输到 S3(然后是 Redshift)?

我正在使用 AWS 数据管道服务将数据从 RDS MySql 数据库传输到 s3，然后再传输到 Redshift，这很有效很好. 但是，我也有数据存在于 RDS Postres 实例中，我想以相同的方式传输该实例，但是我很难设置 jdbc 连接.如果这不受支持，是否有解决方法? "connectionString": "jdbc:postgresql://THE_RDS_INSTANCE: ..

发布时间：2021-11-27 10:37:33 postgresql amazon-web-services amazon-redshift amazon-data-pipeline 其他开发

将 AWS Postgres RDS 表导出到 AWS S3

我想使用 AWS Data Pipeline 将数据从 Postgres RDS 传输到 AWS S3.有人知道这是怎么做的吗? 更准确地说，我想使用数据管道将 Postgres 表导出到 AWS S3.我使用 Data Pipeline 的原因是我想自动化这个过程，这个导出将每周运行一次. 任何其他建议也将起作用. 解决方案 github 上有一个示例.https://git ..

发布时间：2021-11-27 10:26:05 postgresql amazon-web-services amazon-s3 amazon-rds amazon-data-pipeline 其他开发

使用 Google DataFlow/Apache Beam 并行化图像处理或抓取任务是否有意义?

我正在考虑将 Google DataFlow 作为运行管道的选项，该管道涉及以下步骤: 从网络下载图像；处理图像. 我喜欢 DataFlow 管理完成工作所需的 VM 的生命周期，因此我不需要自己启动或停止它们，但我遇到的所有示例都将它用于数据挖掘类任务.我想知道它是否是其他批处理任务(如图像处理和抓取)的可行选择. 解决方案此用例是 Dataflow/Beam 的可能应 ..

发布时间：2021-11-11 22:32:48 google-cloud-platform google-cloud-dataflow azure-data-factory amazon-data-pipeline apache-beam 其他开发

无法与 jdbc 建立连接:mysql 通信链接失败

我一直在尝试在 S3 存储桶和 Elasitcbeanstalk 环境之间设置数据管道，该环境包括一个 MySQL RDS 实例(都在同一个 VPC 中). 我失败了: 最后一个成功发送到服务器的数据包是 0 毫秒前.驱动程序没有收到来自服务器的任何数据包.amazonaws.datapipeline.database.ConnectionFactory:无法建立连接到 jdbc:mysq ..

发布时间：2021-10-27 18:54:14 amazon-rds amazon-data-pipeline 其他开发

如何更改在AWS数据管道中运行的Hive Activity的内存设置?

使用 AWS Data Pipeline 运行一个 Hive Activity 时，我的Hive活动失败，并出现以下错误: 诊断:容器[pid =，containerID =]运行超出了物理内存限制.当前使用情况:已使用1 GB物理内存中的1.0 GB；使用2.8 GB的5 GB虚拟内存.杀死容器. 当我运行由Hive Activity手动执行的Hive脚本时，我必须按如下所示执行它: 配 ..

发布时间：2021-04-03 19:10:54 amazon-web-services hadoop hive amazon-emr amazon-data-pipeline 其他开发

清除AWS Data Pipeline中DynamoDB表中的所有现有条目

我的目标是获取RDS表的每日快照并将其放入DynamoDB表中.该表应仅包含一天的数据. 为此，设置了数据管道以查询RDS表并将结果以CSV格式发布到S3中. 然后，HiveActivity通过为文件和现有DynamoDB表创建外部表，将此CSV导入DynamoDB表中. 这很好用，但是DynamoDB表中仍然存在前一天的旧条目.我想尽可能在Data Pipeline中执行此 ..

发布时间：2021-04-03 18:54:08 amazon-web-services hive amazon-dynamodb amazon-data-pipeline 其他开发

使用Boto3放置json数据管道定义

我有一个json格式的数据管道定义，我想在Python中使用Boto3来“放入". 我知道您可以使用我是否需要编写代码以将json定义转换为API/Boto期望的定义?如果是这样，有没有图书馆可以这样做? 解决方案 AWS CLI具有 ..

发布时间：2020-09-22 23:53:15 amazon-web-services boto3 amazon-data-pipeline 其他开发

使用Google DataFlow/Apache Beam并行化图像处理或爬网任务是否有意义?

我正在考虑将Google DataFlow作为运行涉及以下步骤的管道的选项: 从网络上下载图像；处理图像. 我喜欢DataFlow管理完成任务所需的VM的生命周期，因此我不需要自己启动或停止它们，但是我遇到的所有示例都将其用于数据挖掘等任务.我想知道它是否对其他批处理任务(如图像处理和爬网)是否可行. 解决方案此用例可能是Dataflow/Beam的应用程序. 如果 ..

发布时间：2020-09-03 05:04:19 google-cloud-platform google-cloud-dataflow azure-data-factory amazon-data-pipeline apache-beam 其他开发

如何使用AWS Data Pipeline将文件从一个S3存储桶/目录传输到另一个

我想使用AWS数据管道将文件从一个S3存储桶目录传输到另一个目录(即，将其复制到目标目录并从源目录中删除). 我尝试使用ShellCommandActivity并制作了一个脚本，该脚本可以将文件从一个S3存储桶/目录移动到另一个.但是结果是它仅将其复制到目标S3存储桶/目录，而没有删除S3源目录中的文件. 提前谢谢！解决方案如果您要从S3存储桶中删除某些内容，则必须明确删除 ..

发布时间：2020-08-23 23:58:53 amazon-web-services amazon-s3 amazon-data-pipeline 其他开发

AWS Data Pipeline中的ShellCommandActivity

我正在使用数据管道将Dynamo DB数据传输到S3.在S3存储桶中，我得到了备份，但已分为多个文件.为了将数据保存在一个文件中，我使用了一个Shell命令活动，该命令运行以下命令: aws s3 cat #{myOutputS3Loc}/#{format(@scheduledStartTime,'YYYY-MM-dd')}/* > #{myRenamedFile} 这应将S3文件夹中 ..

发布时间：2020-08-23 06:52:45 shell amazon-web-services amazon-s3 amazon-data-pipeline 其他开发

Amazon Data Pipeline:如何在SqlActivity中使用脚本参数?

在sqlActivity中尝试使用脚本参数时: { "id" : "ActivityId_3zboU", "schedule" : { "ref" : "DefaultSchedule" }, "scriptUri" : "s3://location_of_script/unload.sql", "name" : "unload", "runsOn" : { "ref" : ..

发布时间：2020-08-23 03:34:01 amazon-web-services amazon-s3 amazon-redshift amazon-data-pipeline 其他开发

如何使用ShellCommandActivity(AWS数据管道)中的数据管道在SQL Server中调用存储过程

我知道您可以使用下面的脚本调用MySQL过程，但是对于SQL Server来说可能是相同的吗? mysql --host host_url --port port_number --user username --password password --execute="CALL stored_proc_name; 我有SQL Server Express，需要设置一个每天运行的过程.它 ..

发布时间：2020-08-23 03:27:39 sql-server amazon-web-services stored-procedures amazon-rds amazon-data-pipeline 数据库

AWS Datapipeline-带重音符号的问题

我是AWS Datapipeline的新手.我创建了一条成功的数据管道，将所有内容从RDS提取到S3存储桶.一切正常.我在S3存储桶中看到了我的.csv文件.但是我将西班牙语名称存储在表中，在csv中，我看到的是“Garcï¿½a"而不是“García" 解决方案看起来使用了错误的代码页.只要参考正确的代码页，就可以了.以下主题可能会有所帮助:上传到S3的文本文件的编码方式是否奇怪? ..

发布时间：2020-08-23 03:20:39 mysql amazon-web-services amazon-rds amazon-data-pipeline 数据库

AWS数据管道EmrCluster的安全配置字段

我通过AWS管理控制台上的常规EMR群集向导创建了一个AWS EMR群集，并且能够选择一个安全配置，例如，在导出CLI命令--security-configuration 'mySecurityConfigurationValue'时. 我现在需要通过AWS Data Pipeline创建一个类似的EMR，但是我看不到任何可以指定此安全配置字段的选项. 我看到的唯一类似字段是EmrMa ..

发布时间：2020-08-23 02:35:32 amazon-web-services amazon-emr amazon-data-pipeline 其他开发

在EMR Spark应用程序中加载道具文件

我正在尝试使用:- 在我的spark应用程序中加载自定义属性 command-runner.jar,spark-submit,--deploy-mode,cluster,--properties-file,s3://spark-config-test/myprops.conf,--num-executors,5,--executor-cores,2,--class,com.amazon.Mai ..

发布时间：2020-08-23 02:31:48 apache-spark emr amazon-data-pipeline 其他开发

从管道AWS删除s3文件

我想问一下我正在尝试使用AWS中的数据管道来完成的处理任务，但是我无法使其正常工作. 基本上，我有2个代表2个MySQL数据库的数据节点，应该定期从中提取数据并将其放在S3存储桶中.每天选择添加的每一行(例如今天-1天)，此复制活动都可以正常进行. 但是，包含收集的数据作为CSV的存储桶应该成为EMR活动的输入，该活动将处理这些文件并汇总信息.问题是我不知道如何删除或移动已经处理过的文 ..

发布时间：2020-08-23 02:31:41 amazon-web-services emr amazon-data-pipeline 其他开发

AWS EMR Spark:错误:无法从JAR加载主类

我正在尝试使用AWS控制台将Spark作业提交到AWS EMR集群.却失败了: Cannot load main class from JAR.当我在AWS EMR控制台->添加步骤的Arguments选项中将主类指定为--class时，作业成功运行. 在本地计算机上，当未按以下方式指定主类时，该作业似乎可以正常工作: ./spark-submit /home/astro/sp ..

发布时间：2020-08-23 02:30:26 apache-spark amazon-emr amazon-data-pipeline 其他开发

AWS数据管道S3 CSV到DynamoDB JSON错误

我试图通过AWS DATA Pipeline插入S3目录中的多个csv，但是，我遇到了这个错误. 在org.apache.hadoop.mapred.YarnChild上的org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1844)在javax.security.auth.Subjec ..

发布时间：2020-08-22 22:37:19 amazon-dynamodb amazon-data-pipeline aws-data-pipeline 其他开发

amazon-data-pipeline相关内容