amazon-emr 第6页 - IT屋-程序员软件开发技术分享社区

无法使用Java JDBC从AWS EMR上的Presto连接/查询

如果将ssh放入presto emr群集的主节点上，则可以运行查询.但是，我希望能够在连接到emr群集的本地计算机上从Java源代码运行查询.我使用默认配置设置了presto emr群集. 我尝试了端口转发，但是它似乎仍然无法正常工作.创建连接时，我将其打印出来，它是"com.facebook.presto.jdbc.PrestoConnection@XXXXXXX"，但是我仍然怀疑它是否已 ..

发布时间：2021-02-11 19:32:30 jdbc amazon-ec2 amazon-emr presto 其他开发

关于使用Scala创建jar文件时的org.apache.spark.sql.AnalysisException错误

我遵循以下简单的Scala类，稍后将对其进行修改以适合某些机器学习模型. 我需要从中创建一个jar文件，因为我要在amazon-emr中运行这些模型.我是这个过程的初学者.因此，我首先测试了是否可以成功导入以下csv文件并通过使用下面提到的Scala类创建一个jar文件来写入另一个文件. csv文件如下所示，并且其中包含Date列作为变量之一. +---------------- ..

发布时间：2021-02-09 20:44:57 scala apache-spark intellij-idea jar amazon-emr 其他开发

将Amazon SageMaker端点集成到Glue或EMR上的批处理ETL工作流程中

如何最好地通过基于Glue，基于EMR的Spark Jobs配置上述AWS Sagemaker ML模型端点？我们在AWS文档“这里” ，创建了一个名为'linear-learner-2019-11-04-01-57-20-572'的端点，可以将其调用为 response = client.invoke_endpoint（EndpointName ='linear-learner- ..

发布时间：2020-10-29 05:31:03 python amazon-web-services amazon-emr aws-glue amazon-sagemaker Python

Python pip安装pyarrow错误，无法执行“ cmake”

我试图在我的EMR群集的主实例上安装pyarrow，但是我总是收到此错误。 [hadoop @ ip-XXX-XXX-XXX-XXX〜] $ sudo /usr/bin/pip-3.4安装pyarrow 收集pyarrow 下载https://files.pythonhosted.org/软件包/c0/a0/f7e9dfd8988d94f4952f9b50eb04e14a80fbe39 ..

发布时间：2020-10-29 05:30:58 python-3.x cmake pip amazon-emr pyarrow 其他开发

EMR和S3上的Delta Lake（OSS）表-真空需要很长时间并且没有工作

我正在使用开源版本将大量数据写入Databricks Delta湖，该版本在以S3作为存储层的AWS EMR上运行。我正在使用EMRFS。为了提高性能，我经常这样压缩和清理表： spark.read.format（“ delta”）。load（s3path） .repartition（num_files） .write.option（“ dataChange”，“ false” ..

发布时间：2020-10-29 05:29:51 apache-spark amazon-s3 pyspark amazon-emr delta-lake 其他开发

AWS EMR:错误解析参数:预期:"="，收到:输入的"EOF":

我正在尝试从我的EC2 instances中创建一个集群.输入以下命令以启动我的集群- aws emr create-cluster --release-label emr-5.20.0 --instance-groups instance-groups.json --auto-terminate and so on... 我收到以下错误- Error parsing parame ..

发布时间：2020-09-15 19:08:08 amazon-web-services amazon-ec2 aws-cli amazon-emr 其他开发

AWS EMR如何使用Shell脚本作为引导操作?

我需要能够在我发现这篇文章的EMR中使用Java 8 https://crazydoc1.wordpress.com/2015/08/23/java-8-on-amazon-emr-ami-4-0-0/ 哪个提供了引导程序shell脚本 https://gist.github.com/pstorch/c217d8324c4133a003c4 哪个安装了Java8. 在 ..

发布时间：2020-08-23 23:26:52 amazon-web-services emr amazon-emr 其他开发

s3实木复合地板写入-分区过多，写入缓慢

我有我的scala spark工作，可以将其作为木地板文件写入s3.迄今为止，它的记录为60亿，并且将每天保持增长.根据用例，我们的api将根据id查询实木复合地板.因此，为了使查询结果更快，我正在用ID上的分区编写镶木地板.但是，我们具有1330360唯一ID，因此在写入时会创建1330360实木复合地板文件，因此写入步骤非常缓慢，写入时间超过9个小时，并且仍在运行. output.wri ..

发布时间：2020-08-23 02:39:51 scala apache-spark amazon-s3 amazon-emr parquet 其他开发

在EMR上在运行时推断HDFS路径

我生成了一个带有EMR步骤的EMR集群，以使用s3-dist-cp将文件从S3复制到HDFS，反之亦然. 该群集是按需群集，因此我们无法跟踪ip. EMR的第一步是: hadoop fs -mkdir /input-此步骤成功完成. 第二个EMR步骤是: 以下是我正在使用的命令: s3-dist-cp --s3Endpoint=s3.amazonaws.com --src=s3: ..

发布时间：2020-08-23 02:39:47 amazon-web-services amazon-emr s3distcp 其他开发

创建默认的EMR管理的安全组的aws cli命令是什么?

使用EMR Web控制台时，您可以创建一个集群，AWS会自动创建名为"ElasticMapReduce-master"和EMR的EMR管理的安全组. "ElasticMapReduce从属".您如何通过aws cli创建这些文件? 我找到了aws emr create-default-roles，但是没有aws emr create-default-security-groups. 解 ..

发布时间：2020-08-23 02:39:36 emr aws-cli amazon-emr aws-security-group 其他开发

Spark AWS Emr检查点位置

我正在EMR上执行Spark作业，但需要创建一个检查点.我尝试使用s3，但收到此错误消息 17/02/24 14:34:35 ERROR ApplicationMaster: User class threw exception: java.lang.IllegalArgumentException: Wrong FS: s3://spark- jobs/checkpoint/31d57e ..

发布时间：2020-08-23 02:39:32 scala apache-spark emr amazon-emr graphframes 其他开发

如何集成Ganglia for Spark 2.1作业指标，Spark忽略Ganglia指标

我正在尝试将Spark 2.1作业的指标集成到Ganglia. 我的spark-default.conf看起来像 *.sink.ganglia.class org.apache.spark.metrics.sink.GangliaSink *.sink.ganglia.name Name *.sink.ganglia.host $MASTERIP *.sink.ganglia.port ..

发布时间：2020-08-23 02:39:29 apache-spark spark-streaming emr amazon-emr ganglia 其他开发

无法使用Spark-Shell从EMR集群连接到远程MongoDB

我正在尝试从EMR群集连接到远程Mongo数据库.以下代码是使用命令spark-shell --packages com.stratio.datasource:spark-mongodb_2.10:0.11.2执行的: import com.stratio.datasource.mongodb._ import com.stratio.datasource.mongodb.config._ ..

发布时间：2020-08-23 02:39:27 mongodb scala apache-spark amazon-emr 其他开发

AWS EMR中的Spark步骤失败，退出代码为13

我正在尝试EMR，我尝试运行一个非常简单的spark程序 from pyspark.sql.types import IntegerType mylist = [1, 2, 3, 4] df = spark.createDataFrame(mylist, IntegerType()).show() df.write.parquet('/path/to/save', mode='overwri ..

发布时间：2020-08-23 02:38:25 pyspark amazon-emr 其他开发

AWS Emr没有工人增加工作量

我想通过spark-submit运行一个非常简单的pyspark应用.我通过在AWS EMR web-console中添加一个步骤来启动应用程序，然后从s3选择deploy mode cluster选择应用程序，其余部分保留为空白. from pyspark.sql.types import IntegerType from pyspark.sql import SparkSession ..

发布时间：2020-08-23 02:38:21 apache-spark pyspark amazon-emr 其他开发

Java SDK AWS EMR出现下载失败错误

如果您关注 https://docs .aws.amazon.com/emr/latest/ManagementGuide/calling-emr-with-java-sdk.html 如果您不在us-east-1中，那么您会得到 2019-06-11T08:39:00.283Z INFO Ensure step 1 jar file s3://us-east-1.elastic ..

发布时间：2020-08-23 02:38:17 java amazon-web-services amazon-emr Java开发

尝试在AWS Emr上创建临时集群以运行Python脚本时遇到错误

我是aws的新手，正在尝试在AWS emr上创建一个瞬态集群以运行Python脚本.我只想运行将处理文件并自动在完成后终止集群的python脚本.我还创建了一个密钥对，并指定了相同的密钥对. 下面的命令: aws emr create-cluster --name "test1-cluster" --release-label emr-5.5.0 --name pyspark_anal ..

发布时间：2020-08-23 02:38:13 python amazon-web-services apache-spark pyspark amazon-emr Python

配置单元查询显示几乎没有减少减速器，但查询仍在运行.输出正确吗?

我有一个复杂的查询，其中有多个左外部联接在过去的1小时内在Amazon AWS EMR中运行.但是很少有减速器显示为“失败并杀死". 我的问题是为什么一些减速器会被杀死?最终输出是否正确? 解决方案通常，每个容器在最终失败之前都会进行3次尝试(可配置，如@rbyndoor所述).如果一次尝试失败，它将重新启动，直到尝试次数达到限制为止；如果失败，则整个顶点失败，所有其他任务被终止. ..

发布时间：2020-08-23 02:38:09 hadoop hive amazon-emr apache-tez 其他开发

不支持DataType间隔-Spark SQL

我正在AWS EMR上运行查询，并且此行显示查询错误- to_date('1970-01-01', 'YYYY-MM-DD') + CAST(concat(mycolumn, ' seconds') AS INTERVAL) AS date_col 错误-DataType interval is not supported.(line 521, pos 82) 有人可以帮我吗? ..

发布时间：2020-08-23 02:38:03 sql apache-spark amazon-emr 其他开发

得到“现有锁/var/run/yum.pid:另一个副本以pid的形式运行..."在EMR引导过程中

作为引导步骤的一部分，我需要在EMR群集(AMI 3.1.1)中安装python3.所以我添加了以下命令: sudo yum install -y python3 但是每次出现错误时，都会说: Existing lock /var/run/yum.pid: another copy is running as pid 1829. Another app is currently h ..

发布时间：2020-08-23 02:37:58 yum emr amazon-emr 其他开发

amazon-emr相关内容