emr 第2页 - IT屋-程序员软件开发技术分享社区

无法在 EMR 5.0 HUE 上实例化 SparkSession

我正在运行一个 EMR 5.0 集群，我正在使用 HUE 创建一个 OOZIE 工作流来提交 SPARK 2.0 作业.我直接在 YARN 上使用 spark-submit 运行了该作业，并作为同一集群上的一个步骤.没问题.但是，当我使用 HUE 执行此操作时，出现以下错误: java.lang.IllegalArgumentException:实例化“org.apache.spark.sql. ..

发布时间：2021-11-14 22:44:50 apache-spark apache-spark-sql oozie emr hue 其他开发

在亚马逊 EMR 上通过 spark-submit 添加 postgresql jar

我尝试过使用 --driver-class-path 和 --jars 进行 spark-submit 并尝试过这种方法 https://petz2000.wordpress.com/2015/08/18/get-blas-working-with-spark-on-amazon-emr/ 在命令行中使用 SPARK_CLASSPATH 就像在 SPARK_CLASSPATH=/home/ ..

发布时间：2021-11-14 22:28:00 apache-spark amazon pyspark apache-spark-sql emr 其他开发

在 Amazon EMR 4.0.0 上，设置/etc/spark/conf/spark-env.conf 无效

我正在 Amazon EMR 上启动基于 spark 的 hiveserver2，它具有额外的类路径依赖项.由于 Amazon EMR 中的此错误: https:///petz2000.wordpress.com/2015/08/18/get-blas-working-with-spark-on-amazon-emr/ 我的类路径无法通过“--driver-class-path"选项提 ..

发布时间：2021-11-14 22:11:02 amazon-web-services apache-spark apache-spark-sql emr 其他开发

Pyspark - 加载文件:路径不存在

我是 Spark 的新手.我正在尝试读取 EMR 集群中的本地 csv 文件.该文件位于:/home/hadoop/.我正在使用的脚本是这样的: spark = SparkSession \.builder \.appName("Protob 转换为 Parquet") \.config("spark.some.config.option", "some-value") \.getOrCreat ..

发布时间：2021-11-14 21:52:33 apache-spark pyspark emr amazon-emr pyspark-sql 其他开发

如何在 Amazon EMR 上引导安装 Python 模块?

我想做一些非常基本的事情，只需通过 EMR 控制台启动 Spark 集群并运行依赖于 Python 包的 Spark 脚本(例如，箭头).最直接的方法是什么? 解决方案最直接的方法是创建一个包含安装命令的 bash 脚本，将其复制到 S3，然后从控制台设置引导操作以指向您的安装命令.脚本. 这是我在生产中使用的示例: s3://mybucket/bootstrap/insta ..

发布时间：2021-11-12 05:43:23 python amazon-web-services apache-spark emr Python

collect() 或 toPandas() 在 pyspark/EMR 中的大型 DataFrame 上

我有一台机器“c3.8xlarge"的 EMR 集群，在阅读了一些资源后，我明白我必须允许大量的堆外内存，因为我使用的是 pyspark，所以我配置了集群如下: 一个执行者: spark.executor.memory 6g spark.executor.cores 10 spark.yarn.executor.memoryOverhead 4096 司机: spark ..

发布时间：2021-11-12 05:38:01 pandas apache-spark pyspark emr amazon-emr Python

EMR 上 S3 的外部检查点

我正在尝试为我的 Flink 程序部署一个生产集群.我正在使用安装了 Flink 1.3.2 的标准 hadoop-core EMR 集群，并使用 YARN 来运行它. 我正在尝试配置我的 RocksDB 以将我的检查点写入 S3 存储桶.我正在尝试阅读这些文档:https://ci.apache.org/projects/flink/flink-docs-release-1.3/setup ..

发布时间：2021-11-12 01:05:04 amazon-s3 apache-flink emr amazon-emr rocksdb 其他开发

无法在亚马逊 emr 中使用 apache flink

我无法在 Amazons EMR 中启动 Apache Flink 的纱线会话.我得到的错误信息是 $ tar xvfj flink-0.9.0-bin-hadoop26.tgz$ cd flink-0.9.0$ ./bin/yarn-session.sh -n 4 -jm 1024 -tm 4096...诊断:文件 file:/home/hadoop/.flink/application_14 ..

发布时间：2021-11-12 01:03:13 hadoop-yarn emr amazon-emr apache-flink 其他开发

无法在 EMR 中重新启动 Hue

我无法在 AWS EMR Hadoop 集群中重新启动 Hue.我已经修改了hue.ini 文件并想重新启动hue 以应用更改.当我运行“servicehue restart"时，它给出了“command not found"错误.我可以理解，这一定是因为没有将色调添加到环境路径中.但是，当我运行 bin/hue 时，它不会将重新启动作为输入.有没有办法重新启动hue? 我使用的是 Hu ..

发布时间：2021-10-27 18:51:22 hadoop emr hue 其他开发

Parquet 数据时间戳列 INT96 尚未在 Druid Overlord Hadoop 任务中实现

上下文: 我能够将德鲁伊霸主的 MapReduce 作业提交给 EMR.我的数据源是 Parquet 格式的 S3.我在 Avroschema 不支持的镶木地板数据中有一个时间戳列 (INT96). 解析时间戳时出错问题堆栈跟踪是: 错误:java.lang.IllegalArgumentException:INT96 尚未实现.在 org.apache.parquet.av ..

发布时间：2021-10-27 18:50:40 avro emr parquet druid 其他开发

在 AWS EMR 集群上使用 SparkLauncher 时缺少 SPARK_HOME

我将 EMR 5.0 与 Spark 2.0.0 一起使用.我正在尝试使用 org.apache.spark.launcher.SparkLauncher 从 Scala 火花应用程序运行子火花应用程序我需要使用 setSparkHome 设置 SPARK_HOME: var handle = new SparkLauncher().setAppResource("s3://my-buc ..

发布时间：2021-06-24 20:40:48 amazon-web-services apache-spark pyspark emr amazon-emr 其他开发

AWS EMR Spark Python日志记录

我正在AWS EMR上运行一个非常简单的Spark作业，并且似乎无法从脚本中获取任何日志输出. 我尝试过打印到stderr: 从pyspark 导入SparkContext导入系统如果__name__ =='__main__':sc = SparkContext(appName ="HelloWorld")打印('Hello，world！'，file = sys.stderr)sc.st ..

发布时间：2021-05-04 19:11:03 python apache-spark emr Python

通过SDK启用AWS EMRFS一致视图

通常通过emrfs-site.xml启用emrfs一致性 http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emrfs-configure-consistent-view.html 有人知道是否可以通过SDK访问这些设置吗? 解决方案是的，您在这里有完整的文档: http://docs.aws.ama ..

发布时间：2021-04-13 18:42:28 amazon-web-services aws-sdk emr 其他开发

无法在Amazon EMR中使用Apache Flink

我无法在Amazon EMR中启动Apache Flink的yarn session.我收到的错误消息是 $ tar xvfj flink-0.9.0-bin-hadoop26.tgz$ cd flink-0.9.0$ ./bin/yarn-session.sh -n 4 -jm 1024 -tm 4096...诊断:文件文件:/home/hadoop/.flink/application_1 ..

发布时间：2021-04-08 18:33:14 yarn emr amazon-emr apache-flink 其他开发

Spark Shell停留在YARN接受状态

在纱线和EMR上运行Spark 1.3.1.当我运行spark-shell时，一切看起来都很正常，直到我开始看到诸如 INFO yarn.Client:application_1439330624449_1561的应用程序报告(状态:ACCEPTED)之类的消息.这些消息是每秒无休止地生成的.同时，我无法使用Spark外壳. 我不明白为什么会这样. 解决方案意识到我在终端中杀死了一 ..

发布时间：2021-04-03 19:10:36 hadoop apache-spark yarn emr 其他开发

如何在emr-5.2.1上产生火花以写入dynamodb?

根据在这里有一个答案这样的问题是该库应该包含在emr-5.2.1中，所以我尝试在没有额外的-jars 标志的情况下运行我的代码: ERROR ApplicationMaster:用户类引发异常:java.lang.NoClassDefFoundError:org/apache/hadoop/dynamodb/DynamoDBItemWritablejava.lang.NoClassDe ..

发布时间：2021-04-03 18:52:23 scala apache-spark amazon-dynamodb emr 其他开发

Jupyter + EMR + Spark-从本地计算机上的Jupyter笔记本连接到EMR群集

我是PySpark和EMR的新手. 我正在尝试通过Jupyter笔记本访问在EMR群集上运行的Spark，但遇到错误. 我正在使用以下代码生成SparkSession: spark = SparkSession.builder \ .master("local[*]")\ .appName("Carbon - SingleWell parallelization on ..

发布时间：2021-02-14 19:33:31 python pyspark jupyter emr Python

纱线堆的使用量随时间增长

我们在AWS EMR上运行Spark Streaming作业。该作业将稳定运行10到14个小时，然后崩溃，并且stderr，stdout或Cloudwatch日志中没有明显的错误。在此崩溃之后，任何尝试重新启动作业的尝试都会立即失败，并显示“无法分配内存”（errno = 12）（完整的消息）。对Cloudwatch指标和Ganglia的调查均显示 driver.jvm.heap.used ..

发布时间：2020-10-29 05:29:55 apache-spark heap spark-streaming yarn emr 其他开发

AWS EMR如何使用Shell脚本作为引导操作?

我需要能够在我发现这篇文章的EMR中使用Java 8 https://crazydoc1.wordpress.com/2015/08/23/java-8-on-amazon-emr-ami-4-0-0/ 哪个提供了引导程序shell脚本 https://gist.github.com/pstorch/c217d8324c4133a003c4 哪个安装了Java8. 在 ..

发布时间：2020-08-23 23:26:52 amazon-web-services emr amazon-emr 其他开发

执行者和核心人数

我是Spark的新手，如果我们有2个从属c4.8xlarge节点和1个c4.8x大型主节点，我想知道在Spark作业和AWS中必须使用多少个内核和执行程序.我尝试了不同的组合，但无法理解该概念. 谢谢. 解决方案 Cloudera的家伙对此给出了很好的解释 https://www.youtube.com/watch?v=vfiJQ7wg81Y 如果，假设您的节点上有16个 ..

发布时间：2020-08-23 02:40:56 amazon-web-services apache-spark emr 其他开发

emr相关内容