amazon-emr相关内容

无法使用Java JDBC从AWS EMR上的Presto连接/查询

如果将ssh放入presto emr群集的主节点上,则可以运行查询.但是,我希望能够在连接到emr群集的本地计算机上从Java源代码运行查询.我使用默认配置设置了presto emr群集. 我尝试了端口转发,但是它似乎仍然无法正常工作.创建连接时,我将其打印出来,它是"com.facebook.presto.jdbc.PrestoConnection@XXXXXXX",但是我仍然怀疑它是否已 ..
发布时间:2021-02-11 19:32:30 其他开发

关于使用Scala创建jar文件时的org.apache.spark.sql.AnalysisException错误

我遵循以下简单的Scala类,稍后将对其进行修改以适合某些机器学习模型. 我需要从中创建一个jar文件,因为我要在amazon-emr中运行这些模型.我是这个过程的初学者.因此,我首先测试了是否可以成功导入以下csv文件并通过使用下面提到的Scala类创建一个jar文件来写入另一个文件. csv文件如下所示,并且其中包含Date列作为变量之一. +---------------- ..
发布时间:2021-02-09 20:44:57 其他开发

EMR和S3上的Delta Lake(OSS)表-真空需要很长时间并且没有工作

我正在使用开源版本将大量数据写入Databricks Delta湖,该版本在以S3作为存储层的AWS EMR上运行。我正在使用EMRFS。 为了提高性能,我经常这样压缩和清理表: spark.read.format(“ delta”)。load(s3path) .repartition(num_files) .write.option(“ dataChange”,“ false” ..
发布时间:2020-10-29 05:29:51 其他开发

s3实木复合地板写入-分区过多,写入缓慢

我有我的scala spark工作,可以将其作为木地板文件写入s3.迄今为止,它的记录为60亿,并且将每天保持增长.根据用例,我们的api将根据id查询实木复合地板.因此,为了使查询结果更快,我正在用ID上的分区编写镶木地板.但是,我们具有1330360唯一ID,因此在写入时会创建1330360实木复合地板文件,因此写入步骤非常缓慢,写入时间超过9个小时,并且仍在运行. output.wri ..
发布时间:2020-08-23 02:39:51 其他开发

在EMR上在运行时推断HDFS路径

我生成了一个带有EMR步骤的EMR集群,以使用s3-dist-cp将文件从S3复制到HDFS,反之亦然. 该群集是按需群集,因此我们无法跟踪ip. EMR的第一步是: hadoop fs -mkdir /input-此步骤成功完成. 第二个EMR步骤是: 以下是我正在使用的命令: s3-dist-cp --s3Endpoint=s3.amazonaws.com --src=s3: ..
发布时间:2020-08-23 02:39:47 其他开发

AWS Emr没有工人增加工作量

我想通过spark-submit运行一个非常简单的pyspark应用.我通过在AWS EMR web-console中添加一个步骤来启动应用程序,然后从s3选择deploy mode cluster选择应用程序,其余部分保留为空白. from pyspark.sql.types import IntegerType from pyspark.sql import SparkSession ..
发布时间:2020-08-23 02:38:21 其他开发

尝试在AWS Emr上创建临时集群以运行Python脚本时遇到错误

我是aws的新手,正在尝试在AWS emr上创建一个瞬态集群以运行Python脚本.我只想运行将处理文件并自动在完成后终止集群的python脚本.我还创建了一个密钥对,并指定了相同的密钥对. 下面的命令: aws emr create-cluster --name "test1-cluster" --release-label emr-5.5.0 --name pyspark_anal ..
发布时间:2020-08-23 02:38:13 Python

配置单元查询显示几乎没有减少减速器,但查询仍在运行.输出正确吗?

我有一个复杂的查询,其中有多个左外部联接在过去的1小时内在Amazon AWS EMR中运行.但是很少有减速器显示为“失败并杀死". 我的问题是为什么一些减速器会被杀死?最终输出是否正确? 解决方案 通常,每个容器在最终失败之前都会进行3次尝试(可配置,如@rbyndoor所述).如果一次尝试失败,它将重新启动,直到尝试次数达到限制为止;如果失败,则整个顶点失败,所有其他任务被终止. ..
发布时间:2020-08-23 02:38:09 其他开发

不支持DataType间隔-Spark SQL

我正在AWS EMR上运行查询,并且此行显示查询错误- to_date('1970-01-01', 'YYYY-MM-DD') + CAST(concat(mycolumn, ' seconds') AS INTERVAL) AS date_col 错误-DataType interval is not supported.(line 521, pos 82) 有人可以帮我吗? ..
发布时间:2020-08-23 02:38:03 其他开发