amazon-data-pipeline相关内容
我们在 RDS 中有几个巨大的 mySql 表(超过 700 GB),我们希望将它们迁移到 DynamoDB 表.您能否提出一个策略或方向,以一种干净、并行的方式做到这一点?也许使用 EMR 或 AWS Data Pipeline. 解决方案 您可以使用 AWS Pipeline.有两个基本模板,一个用于将 RDS 表移动到 S3,第二个用于将数据从 S3 导入 DynamoDB.您可以使
..
尝试在 sqlActivity 中使用脚本参数时: {"id": "ActivityId_3zboU","schedule" : { "ref" : "DefaultSchedule" },"scriptUri" : "s3://location_of_script/unload.sql","name": "卸载","runsOn" : { "ref" : "Ec2Instance" },"s
..
我正在使用 AWS 数据管道服务将数据从 RDS MySql 数据库传输到 s3,然后再传输到 Redshift,这很有效很好. 但是,我也有数据存在于 RDS Postres 实例中,我想以相同的方式传输该实例,但是我很难设置 jdbc 连接.如果这不受支持,是否有解决方法? "connectionString": "jdbc:postgresql://THE_RDS_INSTANCE:
..
我想使用 AWS Data Pipeline 将数据从 Postgres RDS 传输到 AWS S3.有人知道这是怎么做的吗? 更准确地说,我想使用数据管道将 Postgres 表导出到 AWS S3.我使用 Data Pipeline 的原因是我想自动化这个过程,这个导出将每周运行一次. 任何其他建议也将起作用. 解决方案 github 上有一个示例.https://git
..
我正在考虑将 Google DataFlow 作为运行管道的选项,该管道涉及以下步骤: 从网络下载图像; 处理图像. 我喜欢 DataFlow 管理完成工作所需的 VM 的生命周期,因此我不需要自己启动或停止它们,但我遇到的所有示例都将它用于数据挖掘类任务.我想知道它是否是其他批处理任务(如图像处理和抓取)的可行选择. 解决方案 此用例是 Dataflow/Beam 的可能应
..
我一直在尝试在 S3 存储桶和 Elasitcbeanstalk 环境之间设置数据管道,该环境包括一个 MySQL RDS 实例(都在同一个 VPC 中). 我失败了: 最后一个成功发送到服务器的数据包是 0 毫秒前.驱动程序没有收到来自服务器的任何数据包.amazonaws.datapipeline.database.ConnectionFactory:无法建立连接到 jdbc:mysq
..
使用 AWS Data Pipeline 运行一个 Hive Activity 时,我的Hive活动失败,并出现以下错误: 诊断:容器[pid =,containerID =]运行超出了物理内存限制.当前使用情况:已使用1 GB物理内存中的1.0 GB;使用2.8 GB的5 GB虚拟内存.杀死容器. 当我运行由Hive Activity手动执行的Hive脚本时,我必须按如下所示执行它: 配
..
我的目标是获取RDS表的每日快照并将其放入DynamoDB表中.该表应仅包含一天的数据. 为此,设置了数据管道以查询RDS表并将结果以CSV格式发布到S3中. 然后,HiveActivity通过为文件和现有DynamoDB表创建外部表,将此CSV导入DynamoDB表中. 这很好用,但是DynamoDB表中仍然存在前一天的旧条目.我想尽可能在Data Pipeline中执行此
..
我有一个json格式的数据管道定义,我想在Python中使用Boto3来“放入". 我知道您可以使用我是否需要编写代码以将json定义转换为API/Boto期望的定义?如果是这样,有没有图书馆可以这样做? 解决方案 AWS CLI具有
..
我正在考虑将Google DataFlow作为运行涉及以下步骤的管道的选项: 从网络上下载图像; 处理图像. 我喜欢DataFlow管理完成任务所需的VM的生命周期,因此我不需要自己启动或停止它们,但是我遇到的所有示例都将其用于数据挖掘等任务.我想知道它是否对其他批处理任务(如图像处理和爬网)是否可行. 解决方案 此用例可能是Dataflow/Beam的应用程序. 如果
..
我想使用AWS数据管道将文件从一个S3存储桶目录传输到另一个目录(即,将其复制到目标目录并从源目录中删除). 我尝试使用ShellCommandActivity并制作了一个脚本,该脚本可以将文件从一个S3存储桶/目录移动到另一个.但是结果是它仅将其复制到目标S3存储桶/目录,而没有删除S3源目录中的文件. 提前谢谢! 解决方案 如果您要从S3存储桶中删除某些内容,则必须明确删除
..
我正在使用数据管道将Dynamo DB数据传输到S3.在S3存储桶中,我得到了备份,但已分为多个文件.为了将数据保存在一个文件中,我使用了一个Shell命令活动,该命令运行以下命令: aws s3 cat #{myOutputS3Loc}/#{format(@scheduledStartTime,'YYYY-MM-dd')}/* > #{myRenamedFile} 这应将S3文件夹中
..
在sqlActivity中尝试使用脚本参数时: { "id" : "ActivityId_3zboU", "schedule" : { "ref" : "DefaultSchedule" }, "scriptUri" : "s3://location_of_script/unload.sql", "name" : "unload", "runsOn" : { "ref" :
..
我知道您可以使用下面的脚本调用MySQL过程,但是对于SQL Server来说可能是相同的吗? mysql --host host_url --port port_number --user username --password password --execute="CALL stored_proc_name; 我有SQL Server Express,需要设置一个每天运行的过程.它
..
我是AWS Datapipeline的新手.我创建了一条成功的数据管道,将所有内容从RDS提取到S3存储桶.一切正常.我在S3存储桶中看到了我的.csv文件.但是我将西班牙语名称存储在表中,在csv中,我看到的是“Garc�a"而不是“García" 解决方案 看起来使用了错误的代码页.只要参考正确的代码页,就可以了.以下主题可能会有所帮助:上传到S3的文本文件的编码方式是否奇怪?
..
我通过AWS管理控制台上的常规EMR群集向导创建了一个AWS EMR群集,并且能够选择一个安全配置,例如,在导出CLI命令--security-configuration 'mySecurityConfigurationValue'时. 我现在需要通过AWS Data Pipeline创建一个类似的EMR,但是我看不到任何可以指定此安全配置字段的选项. 我看到的唯一类似字段是EmrMa
..
我正在尝试使用:- 在我的spark应用程序中加载自定义属性 command-runner.jar,spark-submit,--deploy-mode,cluster,--properties-file,s3://spark-config-test/myprops.conf,--num-executors,5,--executor-cores,2,--class,com.amazon.Mai
..
我想问一下我正在尝试使用AWS中的数据管道来完成的处理任务,但是我无法使其正常工作. 基本上,我有2个代表2个MySQL数据库的数据节点,应该定期从中提取数据并将其放在S3存储桶中.每天选择添加的每一行(例如今天-1天),此复制活动都可以正常进行. 但是,包含收集的数据作为CSV的存储桶应该成为EMR活动的输入,该活动将处理这些文件并汇总信息.问题是我不知道如何删除或移动已经处理过的文
..
我正在尝试使用AWS控制台将Spark作业提交到AWS EMR集群.却失败了: Cannot load main class from JAR.当我在AWS EMR控制台->添加步骤的Arguments选项中将主类指定为--class时,作业成功运行. 在本地计算机上,当未按以下方式指定主类时,该作业似乎可以正常工作: ./spark-submit /home/astro/sp
..
我试图通过AWS DATA Pipeline插入S3目录中的多个csv,但是,我遇到了这个错误. 在org.apache.hadoop.mapred.YarnChild上的org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1844)在javax.security.auth.Subjec
..