hadoop相关内容

从 Hadoop 中删除文件/文件夹

我在分析日志文件的数据管道内运行 EMR 活动,当我的管道失败时出现以下错误: 线程“main"org.apache.hadoop.mapred.FileAlreadyExistsException 中的异常:输出目录 hdfs://10.208.42.127:9000/home/hadoop/temp-output-s3copy 已经存在在 org.apache.hadoop.mapred.F ..
发布时间:2021-11-27 10:11:04 其他开发

Pyspark --py-files 不起作用

我使用它作为文档建议 http://spark.apache.org/docs/1.1.1/submitting-applications.html spsark 1.1.0 版 ./spark/bin/spark-submit --py-files/home/hadoop/loganalysis/parser-src.zip \/home/hadoop/loganalysis/ship- ..
发布时间:2021-11-27 10:10:45 Python

你如何用 JSON 数据制作一个 HIVE 表?

我想从一些 JSON 数据(嵌套)中创建一个 Hive 表并对其运行查询?这甚至可能吗? 我已经将 JSON 文件上传到 S3 并启动了一个 EMR 实例,但我不知道在 hive 控制台中输入什么才能使 JSON 文件成为 Hive 表? 有没有人有一些示例命令可以帮助我入门,我在 Google 上找不到任何有用的东西... 解决方案 您需要使用 JSON serde 以便 H ..
发布时间:2021-11-27 10:09:49 其他开发

hadoop 将 \r\n 转换为 \n 并破坏 ARC 格式

我正在尝试使用 hadoop 流解析来自 commoncrawl.org 的数据.我设置了一个本地 hadoop 来测试我的代码,并有一个使用流式 ARCfile 阅读器的简单 Ruby 映射器.当我自己调用我的代码时 cat 1262876244253_18.arc.gz |映射器.rb |减速器 它按预期工作. 似乎 hadoop 会自动看到该文件具有 .gz 扩展名并在将其交给映射 ..
发布时间:2021-11-27 10:09:41 其他开发

hadoop 从 hdfs 复制到 S3

我已经在 Amazon EMR 上成功完成了 mahout 矢量化工作(使用 在 Elastic MapReduce 上的 Mahout 作为参考).现在我想将结果从 HDFS 复制到 S3(以便在将来的集群中使用它). 为此,我使用了 hadoop distcp:den@aws:~$ elastic-mapreduce --jar s3://elasticmapreduce/samples/d ..
发布时间:2021-11-27 10:09:24 其他开发

EMR 中打开的文件太多

我的减速器出现以下异常: EMFILE:打开的文件太多在 org.apache.hadoop.io.nativeio.NativeIO.open(本机方法)在 org.apache.hadoop.io.SecureIOUtils.createForWrite(SecureIOUtils.java:161)在 org.apache.hadoop.mapred.TaskLog.writeToInde ..
发布时间:2021-11-27 10:09:16 其他开发

使用 Airflow dag run 创建 EMR 集群,任务完成后,EMR 将终止

我有 Airflow 作业,它们在 EMR 集群上运行良好.我需要的是,假设我有 4 个需要 EMR 集群的气流作业,假设需要 20 分钟才能完成任务.为什么我们不能在 DAG 运行时创建 EMR 集群,一旦作业完成,它将终止创建的 EMR 集群. 解决方案 当然,这将是最有效地利用资源.让我警告你:这里面有很多细节;我会尽量列出尽可能多的内容.我鼓励您添加自己的综合答案,列出您遇到的任何 ..
发布时间:2021-11-27 10:08:44 其他开发

EMR 主节点是否知道其集群 ID?

我希望能够创建 EMR 集群,并让这些集群将消息发送回某个中央队列.为了使其工作,我需要在每个主节点上运行某种代理.这些代理中的每一个都必须在此消息中标识自己,以便接收者知道该消息是关于哪个集群的. 主节点是否知道自己的ID(j-****************)?如果不是,那么是否还有其他一些识别信息可以让消息接收者推断出此 ID? 我查看了 /home/hadoop/conf 中的 ..
发布时间:2021-11-27 10:08:33 其他开发

避免使用 hadoop (EMR) 在 S3 中创建 _$folder$ 键

我在 AWS 数据管道中使用 EMR 活动.此 EMR 活动正在 EMR 集群中运行 hive 脚本.它以 dynamo DB 作为输入并将数据存储在 S3 中. 这是 EMR 活动中使用的 EMR 步骤 s3://elasticmapreduce/libs/script-runner/script-runner.jar,s3://elasticmapreduce/libs/hive/hi ..
发布时间:2021-11-27 10:07:33 其他开发

AWS EKS Spark 3.0、Hadoop 3.2 错误 - NoClassDefFoundError:com/amazonaws/services/s3/model/MultiObjectDeleteException

我在 EKS 上运行 Jupyterhub,并希望利用 EKS IRSA 功能在 K8s 上运行 Spark 工作负载.我之前有使用 Kube2IAM 的经验,但现在我打算搬到 IRSA. 这个错误不是由 IRSA 造成的,因为服务帐户可以完美地附加到 Driver 和 Executor pod 上,我可以通过 CLI 和 SDK 从两者访问 S3.此问题与在 Spark 3.0/Hadoo ..
发布时间:2021-11-27 09:47:18 其他开发

HDFS 错误:只能复制到 0 个节点,而不是 1 个

我在 EC2 中创建了一个 ubuntu 单节点 hadoop 集群. 测试一个简单的文件上传到 hdfs 可以在 EC2 机器上工作,但不能在 EC2 之外的机器上工作. 我可以通过远程机器的 Web 界面浏览文件系统,它显示一个数据节点,报告为服务中.已经打开了安全性中从 0 到 60000(!) 的所有 tcp 端口,所以我不认为是这样. 我收到错误 java.io.IO ..
发布时间:2021-11-27 09:37:11 其他开发

有 0 个数据节点正在运行,此操作中未排除任何节点

我已经建立了一个多节点的 Hadoop 集群.NameNode和Secondary namenode运行在同一台机器上,集群只有一个Datanode.所有节点都配置在 Amazon EC2 机器上. 以下是master节点上的配置文件: 大师54.68.218.192(主节点公网IP)奴隶54.68.169.62(从节点公网IP) core-site.xml fs. ..
发布时间:2021-11-27 09:36:24 其他开发

带有双引号和逗号的 AWS Glue 问题

我有这个 CSV 文件: 参考,地址V7T452F4H9,“12410 W 62TH ST,AA D" 表定义中使用了以下选项 行格式SERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'具有 SERDE 属性 ('quoteChar'='\"','separatorChar'=',') 但它仍然无法识别数据中的双引号,并且双引号字段中的逗号将数 ..
发布时间:2021-11-27 08:50:07 其他开发

什么是谷歌的 Dremel?它与 Mapreduce 有何不同?

Google 的 Dremel 此处描述.Dremel 和 Mapreduce 有什么区别? 解决方案 检查这个 文章.Dremel 是 Hive 的未来应该(并将)成为的样子. MapReduce 及其之上的解决方案(如 Pig、Hive 等)的主要问题是它们在运行作业和获得答案之间存在固有的延迟.Dremel 使用了一种全新的方法(于 2010 年在 google 的那篇论文中提 ..
发布时间:2021-11-26 17:19:10 其他开发

用Java在hdfs中写入文件

我想在 HDFS 中创建一个文件并在其中写入数据.我使用了这个代码: Configuration config = new Configuration();FileSystem fs = FileSystem.get(config);路径文件名路径 = 新路径("input.txt");尝试 {如果(fs.exists(文件名路径)){fs.delete(filenamePath, true); ..
发布时间:2021-11-25 19:58:01 Java Web开发

hadoop 没有用于方案的文件系统:文件

我正在尝试使用 hadoop 运行一个简单的 NaiveBayesClassifer,但出现此错误 线程“main"中的异常 java.io.IOException: No FileSystem for scheme: file在 org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1375)在 org.apache. ..
发布时间:2021-11-25 19:46:28 Java Web开发

从 Spark 中的压缩读取整个文本文件

我有以下问题:假设我有一个包含压缩目录的目录,其中包含存储在 HDFS 上的多个文件.我想创建一个包含一些 T 类型对象的 RDD,即: context = new JavaSparkContext(conf);JavaPairRDDfilesRDD = context.wholeTextFiles(inputDataPath);JavaPairRDDfilesRDD = context.who ..
发布时间:2021-11-25 19:25:41 Java Web开发

Hive:在主表上进行增量更新的最佳方式

所以我在 Hive 中有一个主表,它将存储我所有的数据. 我希望能够加载大约每个月的增量数据更新拥有大量数据,数十亿行.会有新数据以及更新的条目. 解决这个问题的最佳方法是什么,我知道 Hive 最近升级并支持更新/插入/删除. 我一直在想的是以某种方式找到将要更新的条目并将它们从主表中删除,然后插入新的增量更新.但是在尝试之后,插入非常快,但删除非常慢. 另一种方式是使用 ..
发布时间:2021-11-25 13:56:25 Java Web开发

Hadoop“无法为您的平台加载本机Hadoop库"警告

我目前正在运行 CentOs 的服务器上配置 hadoop.当我运行 start-dfs.sh 或 stop-dfs.sh 时,出现以下错误: WARN util.NativeCodeLoader: 无法加载 native-hadoop 库您的平台...在适用的情况下使用内置 Java 类 我正在运行 Hadoop 2.2.0. 在网上进行搜索会找到这个链接:http://bal ..
发布时间:2021-11-25 12:17:04 Java Web开发

Apache Spark 本机库

我最近能够构建具有本机 64 位支持的 Apache Hadoop 2.5.1.所以,我摆脱了烦人的本地库警告. 我正在尝试配置 Apache Spark.当我启动 spark-shell 时,出现同样的警告: 14/09/14 18:48:42 WARN util.NativeCodeLoader:无法为您的平台加载本机 hadoop 库...在适用的情况下使用内置 java 类 一些 ..
发布时间:2021-11-25 07:08:42 C#