amazon-emr 第5页 - IT屋-程序员软件开发技术分享社区

通过Spark将中间处理的数据复制到目标S3时，AWS EMR性能问题

当前，我正在使用AWS EMR进行数据处理.S3被用作着陆区和最终处理的数据.来自S3的最终处理数据已加载到Redshift中，以供客户运行分析. 每天我会收到100个包含小KB和MB(最大2-3MB)的小文件.一旦源文件在着陆区中可用，则根据SLA，数据需要在15分钟内以Redshift形式存在.“订单"表的“最终存储区"为800GB. 实现了SCD Type 1 pySpar ..

发布时间：2021-05-04 19:11:11 amazon-emr 其他开发

将EMR日志发送到CloudWatch

是否可以将EMR日志发送到CloudWatch而不是S3.我们希望我们所有的服务日志都集中在一个位置.似乎您唯一能做的就是设置警报进行监视，但这不包括日志记录. https://docs.aws.amazon.com/emr/Latest/ManagementGuide/UsingEMR_ViewingMetrics.html 我是否必须在集群中的节点上安装CloudWatch代理 h ..

发布时间：2021-05-04 19:11:06 amazon-web-services amazon-emr amazon-cloudwatch amazon-cloudwatchlogs 其他开发

在写入EMRFS时火花设置S3对象元数据

我让Spark处理EMR，通过EMRFS将JSON文件写入S3: 数据框.coalesce(1).写().option(“压缩"，"gzip").mode(SaveMode.Overwrite).json(outputPath); 问题是输出文件仅包含一个头 Content-Type =应用程序/八位字节流.并且缺少另一个 Content-Encoding = gzip . 在使用Sp ..

发布时间：2021-04-08 20:11:59 apache-spark amazon-s3 amazon-emr 其他开发

我无法在Amazon EMR中启动Apache Flink的yarn session.我收到的错误消息是 $ tar xvfj flink-0.9.0-bin-hadoop26.tgz$ cd flink-0.9.0$ ./bin/yarn-session.sh -n 4 -jm 1024 -tm 4096...诊断:文件文件:/home/hadoop/.flink/application_1 ..

发布时间：2021-04-08 18:33:14 yarn emr amazon-emr apache-flink 其他开发

RDS到S3-数据转换AWS

我的RDS postgres/oracle中有大约30个表(尚未确定是oracle还是postgres)实例.我想获取最近4个小时内已插入/更新的所有记录(可配置)，创建一个与每个表有关的csv文件，并将这些文件存储在S3中.我希望整个过程都是事务性的.如果从一个表中获取数据时出现任何错误，我不希望将与其他29个表相关的数据保留在S3中.数据不是很大，在4小时内，每个表中的记录数量应在100条以下 ..

发布时间：2021-04-03 19:11:18 java amazon-web-services apache-spark amazon-emr data-transfer Java开发

在Emr群集上安装com.databricks.spark.xml

有人知道如何在EMR群集上安装 com.databricks.spark.xml 软件包. 我成功连接到主emr，但是不知道如何在emr集群上安装软件包. 代码 sc.install_pypi_package("com.databricks.spark.xml") 解决方案在EMR主节点上: cd/usr/lib/spark/jars须藤wget https://rep ..

发布时间：2021-04-03 19:11:15 python amazon-web-services apache-spark amazon-emr apache-spark-xml Python

转换KMeans的“中心"输出到PySpark数据框

我正在运行K均值聚类模型，我想分析聚类质心，但是中心输出是我的20个质心的列表，其坐标(每个8个)为ARRAY.我需要它作为一个数据帧，将簇1:20作为行，并将它们的属性值(质心坐标)作为列，如下所示: c1 |0.85 |0.03 |0.01 |0.00 |0.12 |0.01 |0.00 |0.12c2 |0.25 |0.80 |0.10 |0.00 |0.12 |0.01 |0.00 | ..

发布时间：2021-04-03 19:11:11 pyspark amazon-emr 其他开发

AWS EMR Presto群集突然终止错误:由于竞价，作业流中的所有从服务器均已终止

我在使用AWS EMR PrestoDB时遇到麻烦.我启动了一个集群，其中主节点为协调器，核心节点为工作器.核心节点是竞价型实例.但是，主节点是按需的.群集启动5周后，我收到了此错误消息由于错误而终止作业流中的所有从属都由于Spot而终止是否所有终端都被终止会使集群本身终止?我看到了现货定价历史，但没有达到我设定的最高价格. 我已经做了什么?我检查了转储到s3的日志.我没有找到有关 ..

发布时间：2021-04-03 19:11:09 amazon-emr presto 其他开发

火花执行-在驱动程序和执行程序中访问文件内容的一种方法

根据此问题--pyspark中的文件选项不起作用 sc.addFiles选项应该适用于访问驱动程序和执行程序中的文件.但是我无法在执行程序上使用它 test.py 从pyspark 导入SparkContext，SparkConf从pyspark导入SparkFilesconf = SparkConf().setAppName(“文件访问测试")sc = SparkContext(con ..

发布时间：2021-04-03 19:11:05 apache-spark pyspark amazon-emr 其他开发

如何配置spark以使其创建"_ $ folder $"S3中的条目?

当我使用将数据帧写入S3时 df.write.format("parquet").mode(“覆盖").partitionBy("year"，"month"，"day"，"hour"，"gen"，"client").option(“压缩"，"gzip").save("s3://xxxx/yyyy") 我在S3中得到以下内容 year = 2018年= 2019 但我想改成这个: ..

发布时间：2021-04-03 19:11:02 scala apache-spark-sql amazon-emr 其他开发

在AWS上，每天运行一次AWS CLI命令

我有一个AWS CLI调用(在这种情况下，要启动配置的EMR集群以执行一些步骤然后关闭)，但是我不确定如何每天运行它. 我想做到这一点的一种方法是运行cron作业的EC2微型实例，或启动该命令的微型计算机中的ECS任务，但似乎一切都太过分了.看来在Lambda中也可以做到这一点，但从我所知道的来看，这很笨拙. 这不一定是一个好的长期解决方案，只有在我能正确执行之前(数据管道)，一些合适 ..

发布时间：2021-04-03 19:10:59 amazon-web-services aws-cli amazon-emr 其他开发

不触发此类字段METASTORE_CLIENT_FACTORY_CLASS

我正在尝试使用Java中的spark查询配置单元表.我的配置单元表位于EMR群集5.12中.Spark版本是2.2.1和Hive 2.3.2. 当我进入机器并连接到spark-shell时，我可以毫无问题地查询配置单元表. 但是当我尝试使用自定义jar进行查询时，出现以下异常: java.lang.IllegalArgumentException:实例化"org.apache.sp ..

发布时间：2021-04-03 19:10:56 apache-spark hadoop hive amazon-emr 其他开发

如何更改在AWS数据管道中运行的Hive Activity的内存设置?

使用 AWS Data Pipeline 运行一个 Hive Activity 时，我的Hive活动失败，并出现以下错误: 诊断:容器[pid =，containerID =]运行超出了物理内存限制.当前使用情况:已使用1 GB物理内存中的1.0 GB；使用2.8 GB的5 GB虚拟内存.杀死容器. 当我运行由Hive Activity手动执行的Hive脚本时，我必须按如下所示执行它: 配 ..

发布时间：2021-04-03 19:10:54 amazon-web-services hadoop hive amazon-emr amazon-data-pipeline 其他开发

EMR 5.21，Spark 2.4-Json4s依赖关系已损坏

问题在EMR 5.21中，Spark-Hbase集成被破坏. df.write.options().format().save()失败. 原因是Spark 2.4中的json4s-jackson版本3.5.3，EMR 5.21 它在EMR 5.11.2，Spark 2.2，son4s-jackson版本3.2.11中正常工作问题是这是EMR，所以我无法用较低的json4s重建火花 ..

发布时间：2021-04-03 19:10:51 amazon-web-services apache-spark amazon-emr json4s 其他开发

PySpark UDF优化挑战

我正在尝试优化以下代码.使用1000行数据运行时，大约需要12分钟才能完成.我们的用例要求数据大小在25K-50K行左右，这将使该实现完全不可行. 导入pyspark.sql.types作为类型导入numpy进口假货从pyspark.sql.functions导入udfinputPath ="s3://myData/part-*.parquet"；df = spark.read.parquet( ..

发布时间：2021-04-03 19:10:48 apache-spark pyspark amazon-emr 其他开发

AWS-教育帐户无法创建集群，EC2权限不足

我的教育AWS账户无法创建集群.它给了我这样的错误核心-2:服务角色EMR_DefaultRole没有足够的EC2权限. 我已经搜索了AWS支持中心和网络，几乎找不到任何解决方案. 我已经尝试联系AWS专家团队，但是不知何故我无法联系他们. 当我尝试创建具有4个r5.xlarge内核的PySpark EMR时遇到此错误.如果核心数减少到2，并且类型更改为m5.2xlarge， ..

发布时间：2021-04-03 19:10:44 amazon-web-services amazon-emr 其他开发

Amazon Emr-当我们拥有核心节点时，任务节点有什么需求?

我最近正在学习有关Amazon EMR的知识，据我所知，EMR集群使我们可以选择3个节点. 主服务器，用于运行主要的Hadoop守护进程，如NameNode，Job Tracker和资源管理器. 运行Datanode和Tasktracker守护程序的核心. 仅运行TaskTracker的任务. 我对你们的问题是，为什么EMR提供了任务节点?如hadoop建议的那样，我们应该在同一节 ..

发布时间：2021-04-03 19:10:33 hadoop hadoop2 amazon-emr 其他开发

适用于EMR 6.x上S3A的S3Guard和拼花魔术提交者

我们将CDH 5.13与Spark 2.3.0和S3Guard一起使用.在具有相同资源的EMR 5.x/6.x上运行相同的作业后，性能下降了5-20倍.根据 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-committer-reqs.html 默认提交者(自5.20开始)对S3A不利.我们测试了EMR-5.15.1，并获 ..

发布时间：2021-04-03 19:10:28 apache-spark pyspark amazon-emr 其他开发

在安装了核心服务(Spark等)之后，是否可以设置引导操作以在EMR上运行?

在安装了核心服务(Spark等)之后，是否可以设置引导操作以在EMR上运行?我正在使用emr-5.27.0. 解决方案您可以提交某些脚本作为 step ，而不是引导程序.例如，我制作了一个SSL证书更新脚本，并将其一步一步地应用于EMR.这是我用Python语言编写的lambda函数的一部分.但是您可以通过在控制台或其他语言上手动添加此步骤. Steps = [{'名称':'Pres ..

发布时间：2021-04-03 19:10:25 amazon-emr 其他开发

Spark 2.2.0-如何向DynamoDB写入/读取DataFrame

我希望我的Spark应用程序从DynamoDB中读取一个表，进行处理，然后将结果写入DynamoDB中. 将表读入DataFrame 现在，我可以将表作为 hadoopRDD 从DynamoDB读取到Spark中，并将其转换为DataFrame.但是，我必须使用正则表达式从 AttributeValue 中提取值.有没有更好/更优雅的方式?在AWS API中找不到任何内容. 包mai ..

发布时间：2021-04-03 18:50:33 scala apache-spark amazon-dynamodb amazon-emr 其他开发

amazon-emr相关内容