hadoop-streaming - IT屋-程序员软件开发技术分享社区

从机上的 DiskErrorException - Hadoop 多节点

我正在尝试从 hadoop 处理 XML 文件，但在对 XML 文件调用字数统计作业时出现以下错误. 13/07/25 12:39:57 信息 mapred.JobClient:任务 ID:尝试_201307251234_0001_m_000008_0，状态:失败获取失败太多13/07/25 12:39:58 INFO mapred.JobClient: 地图 99% 减少 0%13/07/25 ..

发布时间：2022-01-13 23:52:18 hadoop mapreduce hadoop-streaming hadoop-plugins hadoop-partitioning 其他开发

Windows 上的 Python Hadoop 流式传输，脚本不是有效的 Win32 应用程序

使用 Hadoop streaming.jar 在 Hadoop 上执行 mapreduce python 文件时遇到问题. 我使用:视窗 10 64 位Python 3.6 和我的 IDE 是 spyder 3.2.6，Hadoop 2.3.0jdk1.8.0_161 当我的 maperducec 代码是用 java 语言编写时，我可以得到答案，但我的问题是当我想在我的数据上混合 p ..

发布时间：2022-01-13 23:42:25 python windows hadoop mapreduce hadoop-streaming Python

Python Hadoop Streaming 错误“ERROR streaming.StreamJob:作业不成功！"和堆栈跟踪:ExitCodeException exitCode=134

我正在尝试使用 Hadoop Streaming 在 Hadoop 集群上运行 python 脚本以进行情绪分析.我在本地机器上运行的相同脚本正在正确运行并提供输出. 要在本地机器上运行，我使用此命令. $ cat/home/MB/analytics/Data/input/* |./new_mapper.py 为了在 hadoop 集群上运行，我使用以下命令 $ hadoop ja ..

发布时间：2022-01-13 23:39:53 python hadoop mapreduce subprocess hadoop-streaming Python

hadoop 流:如何查看应用程序日志?

我可以在我的 /usr/local/hadoop/logs 路径上看到所有 hadoop 日志但是我在哪里可以看到应用程序级别的日志?例如: mapper.py 导入日志定义主():logging.info("现在开始地图任务")//-- 做一些任务 --//打印声明 reducer.py 导入日志定义主():对于 sys.stdin 中的行:logging.info("rec ..

发布时间：2022-01-13 23:29:39 python logging hadoop mapreduce hadoop-streaming Python

Hive 失败:ParseException 行 2:0 无法识别“macaddress"附近的输入，“CHAR"“("在列规范中

我试过运行 hive -v -f sqlfile.sql 这是文件的内容 CREATE TABLE UpStreamParam ('macaddress' CHAR(50),'datats' BIGINT，'cmtstimestamp' BIGINT，“调制"INT，'chnlidx' INT，“严重性" BIGINT，'rxpower' 浮动，“信号噪声"浮动，“噪音偏差"浮动，'偏好' ..

发布时间：2021-12-28 23:56:49 hadoop hive hadoop-streaming 其他开发

即使 Hadoop 正在运行，它也没有在作业跟踪器中显示我的作业

问题:当我向我的 hadoop 2.2.0 集群提交作业时，它没有显示在作业跟踪器中但作业成功完成.可以看到输出并且它正在正确运行并在运行时打印输出. 我尝试了多个选项，但作业跟踪器没有看到作业.如果我使用 2.2.0 hadoop 运行流式作业，它会显示在任务跟踪器中，但是当我通过 hadoop-client api 提交它时，它不会显示在作业跟踪器中.我正在查看 8088 端口上的 ui ..

发布时间：2021-12-15 18:56:54 java hadoop hadoop-streaming hadoop-yarn Java开发

使用 hadoop 流和 mrjob 运行作业:PipeMapRed.waitOutputThreads(): subprocess failed with code 1

嘿，我对大数据世界还很陌生.我遇到了这个教程http://musicmachinery.com/2011/09/04/how-to-process-a-million-songs-in-20-minutes/ 详细介绍了如何在本地和 Elastic Map Reduce 上使用 mrjob 运行 MapReduce 作业. 好吧，我正在尝试在我自己的 Hadoop 集群上运行它.我使用 ..

发布时间：2021-12-15 18:35:12 python hadoop mapreduce hadoop-streaming mrjob Python

如何在 Elastic MapReduce 上的 Hadoop 2.4.0 中为每个节点设置精确的最大并发运行任务数

根据http://blog.cloudera.com/blog/2014/04/apache-hadoop-yarn-avoiding-6-time-sumption-gotchas/，确定每个节点并发运行任务数的公式为: min (yarn.nodemanager.resource.memory-mb/mapreduce.[map|reduce].memory.mb,yarn.nodemana ..

发布时间：2021-11-27 10:09:04 amazon-web-services hadoop-streaming elastic-map-reduce hadoop-yarn hadoop2 其他开发

Storm UI 拓扑不起作用

我们正在 LocalCluster 中执行 Storm 拓扑.Storm 拓扑运行良好并且能够连接 Storm UI (8090).但是 Storm UI 没有显示正在运行的拓扑信息. LocalCluster cluster = new LocalCluster(); 并提交如下: bin/storm jar bin/StormTest-0.0.1-SNAPSHOT.jar com.abz ..

发布时间：2021-11-14 23:40:46 hadoop apache-kafka apache-storm hadoop-streaming apache-storm-flux 其他开发

apache Pig 试图在每个组中获得最大数量

我有猪格式的数据 {(group, productId, count)}. 现在我想获得每个组中的最大计数，输出可能如下所示 {(group, productId, maxCount)}.这是示例输入数据 (south America,prod1, 45),(south America,prod2, 36), (latin America, prod1, 48),(lati ..

发布时间：2021-11-12 04:10:07 hadoop apache-pig hadoop2 hadoop-streaming 其他开发

带有 Apache Pig 的数据透视表

我想知道是否可以在 Apache Pig 中一次性对表格进行透视. 输入: Id Column1 Column2 Column31 行 11 行 12 行 132 行 21 行 22 行 23 输出: Id 名称值1 列 1 行 111 列 2 行 121 列 3 行 132 列 1 行 212 列 2 行 222 列 3 行 23 真实数据有几十列. 我可以一次性使用 aw ..

发布时间：2021-11-12 04:01:14 apache-pig hadoop-streaming 其他开发

Storm UI 拓扑不起作用

我们正在 LocalCluster 中执行 Storm 拓扑.Storm 拓扑运行良好并且能够连接 Storm UI (8090).但是 Storm UI 没有显示正在运行的拓扑信息. LocalCluster cluster = new LocalCluster(); 并提交如下: bin/storm jar bin/StormTest-0.0.1-SNAPSHOT.jar com.abz ..

发布时间：2021-11-12 03:06:57 hadoop apache-kafka apache-storm hadoop-streaming apache-storm-flux 其他开发

权限被拒绝错误 13 - Hadoop 上的 Python

我正在运行一个简单的 Python 映射器和化简器，并且收到 13 权限被拒绝错误.需要帮助. 我不确定这里发生了什么，需要帮助.Hadoop 世界的新手. 我正在运行简单的 map reduce 来计算单词.mapper 和 reducer 在 linus 或 windows powershell 上独立运行 ==================================== ..

发布时间：2021-06-26 19:12:15 python-2.7 hadoop-streaming 其他开发

高效使用python计算汉明距离

我需要比较大量类似于 50358c591cef4d76 的字符串.我有一个可以使用的汉明距离函数(使用 pHash).我如何有效地做到这一点?我的伪代码是: 对于每个字符串当前字符串=字符串对于当前字符串以外的每个字符串计算汉明距离我想将结果作为矩阵输出并能够检索值.我还想通过 Hadoop Streaming 运行它！感谢收到任何指示. 这是我尝试过的，但速度很慢: imp ..

发布时间：2021-06-15 19:27:01 python performance hadoop-streaming Python

是否可以在配置单元外部表中压缩json?

我想知道如何在配置单元外部表中压缩json数据.如何做呢?我创建了这样的外部表: CREATE EXTERNAL TABLE tweets(id BIGINT，created_at STRING，来源STRING，收藏夹BOOLEAN)行格式SERDE"com.cloudera.hive.serde.JSONSerDe"位置"/user/cloudera/tweets"; 我已经设置了压缩 ..

发布时间：2021-04-22 19:37:02 hadoop hive cloudera hiveql hadoop-streaming 其他开发

如何从配置单元获取最新的分区数据

我需要从具有最新分区的配置单元中的表中获取所有记录.该表由date,year,month分区，例如(date=25,year=2020,month=3)，同样会有很多分区. 分区不是静态的，它将经常更改.我正在尝试获取查询中的最新分区. 有人可以帮我写查询吗? 解决方案尝试一下: select * from your_table t where concat_ws(' ..

发布时间：2020-11-23 18:43:00 hive hiveql hadoop-streaming hive-partitions 其他开发

使用Hadoop流管理依赖关系?

我有一个快速的Hadoop Streaming问题.如果我使用的是Python流，并且我的映射器/缩减器需要Python包，但默认情况下未安装它们，那么我是否也需要在所有Hadoop机器上安装它们，或者是否存在某种序列化将其发送到远程机器? 解决方案如果未在任务栏中安装它们，则可以使用-file将其发送.如果需要包或其他目录结构，则可以发送一个zip文件，该文件将为您解压缩.这是一个Ha ..

发布时间：2020-11-22 03:00:38 python hadoop mapreduce hadoop-streaming Python

hadoop流中的mapred.local.dir错误

错误: hadoop_admin@ubuntu:~/hadoop$ bin/hadoop jar /home/hadoop_admin/hadoop/contrib/streaming/hadoop-0.20.0-streaming.jar -input data -output DOUT -mapper /home/balachanderp/libsvm-hadoop-master/scr ..

发布时间：2020-11-22 02:55:20 java ubuntu hadoop hadoop-streaming Java开发

hadoop-streaming.jar在每行末尾添加x'09'

我正在尝试使用以下hadoop-streaming.jar命令在HDFS位置合并一些* _0(HDFS中的部分文件)文件. hadoop jar $HDPHOME/hadoop-streaming.jar -Dmapred.reduce.tasks=1 -input $INDIR -output $OUTTMP/${OUTFILE} -mapper cat -reducer cat ..

发布时间：2020-11-22 02:41:15 hadoop hadoop-streaming 其他开发

Hadoop缓冲与流式处理

有人可以向我解释一下Hadoop流与缓冲之间的区别是什么吗? 这是我在Hive中阅读的上下文: 在联接的每个map/reduce阶段中，序列中的最后一个表通过简化器流式传输，而其他表则被缓冲.因此，通过组织表以使最大的表出现在序列的最后，它有助于减少在reducer中为连接键的特定值缓冲行所需的内存.例如在: SELECT a.val, b.val, c.val FROM a J ..

发布时间：2020-11-22 02:32:03 hadoop hive hadoop-streaming 其他开发

hadoop-streaming相关内容