hadoop-streaming相关内容

Python Hadoop Streaming 错误“ERROR streaming.StreamJob:作业不成功!"和堆栈跟踪:ExitCodeException exitCode=134

我正在尝试使用 Hadoop Streaming 在 Hadoop 集群上运行 python 脚本以进行情绪分析.我在本地机器上运行的相同脚本正在正确运行并提供输出. 要在本地机器上运行,我使用此命令. $ cat/home/MB/analytics/Data/input/* |./new_mapper.py 为了在 hadoop 集群上运行,我使用以下命令 $ hadoop ja ..
发布时间:2022-01-13 23:39:53 Python

hadoop 流:如何查看应用程序日志?

我可以在我的 /usr/local/hadoop/logs 路径上看到所有 hadoop 日志 但是我在哪里可以看到应用程序级别的日志?例如: mapper.py 导入日志定义主():logging.info("现在开始地图任务")//-- 做一些任务 --//打印声明 reducer.py 导入日志定义主():对于 sys.stdin 中的行:logging.info("rec ..
发布时间:2022-01-13 23:29:39 Python

即使 Hadoop 正在运行,它也没有在作业跟踪器中显示我的作业

问题:当我向我的 hadoop 2.2.0 集群提交作业时,它没有显示在作业跟踪器中但作业成功完成.可以看到输出并且它正在正确运行并在运行时打印输出. 我尝试了多个选项,但作业跟踪器没有看到作业.如果我使用 2.2.0 hadoop 运行流式作业,它会显示在任务跟踪器中,但是当我通过 hadoop-client api 提交它时,它不会显示在作业跟踪器中.我正在查看 8088 端口上的 ui ..
发布时间:2021-12-15 18:56:54 Java开发

使用 hadoop 流和 mrjob 运行作业:PipeMapRed.waitOutputThreads(): subprocess failed with code 1

嘿,我对大数据世界还很陌生.我遇到了这个教程http://musicmachinery.com/2011/09/04/how-to-process-a-million-songs-in-20-minutes/ 详细介绍了如何在本地和 Elastic Map Reduce 上使用 mrjob 运行 MapReduce 作业. 好吧,我正在尝试在我自己的 Hadoop 集群上运行它.我使用 ..
发布时间:2021-12-15 18:35:12 Python

带有 Apache Pig 的数据透视表

我想知道是否可以在 Apache Pig 中一次性对表格进行透视. 输入: Id Column1 Column2 Column31 行 11 行 12 行 132 行 21 行 22 行 23 输出: Id 名称 值1 列 1 行 111 列 2 行 121 列 3 行 132 列 1 行 212 列 2 行 222 列 3 行 23 真实数据有几十列. 我可以一次性使用 aw ..
发布时间:2021-11-12 04:01:14 其他开发

权限被拒绝错误 13 - Hadoop 上的 Python

我正在运行一个简单的 Python 映射器和化简器,并且收到 13 权限被拒绝错误.需要帮助. 我不确定这里发生了什么,需要帮助.Hadoop 世界的新手. 我正在运行简单的 map reduce 来计算单词.mapper 和 reducer 在 linus 或 windows powershell 上独立运行 ==================================== ..
发布时间:2021-06-26 19:12:15 其他开发

高效使用python计算汉明距离

我需要比较大量类似于 50358c591cef4d76 的字符串.我有一个可以使用的汉明距离函数(使用 pHash).我如何有效地做到这一点?我的伪代码是: 对于每个字符串当前字符串=字符串对于当前字符串以外的每个字符串计算汉明距离 我想将结果作为矩阵输出并能够检索值.我还想通过 Hadoop Streaming 运行它! 感谢收到任何指示. 这是我尝试过的,但速度很慢: imp ..
发布时间:2021-06-15 19:27:01 Python

如何从配置单元获取最新的分区数据

我需要从具有最新分区的配置单元中的表中获取所有记录.该表由date,year,month分区,例如(date=25,year=2020,month=3),同样会有很多分区. 分区不是静态的,它将经常更改.我正在尝试获取查询中的最新分区. 有人可以帮我写查询吗? 解决方案 尝试一下: select * from your_table t where concat_ws(' ..
发布时间:2020-11-23 18:43:00 其他开发

使用Hadoop流管理依赖关系?

我有一个快速的Hadoop Streaming问题.如果我使用的是Python流,并且我的映射器/缩减器需要Python包,但默认情况下未安装它们,那么我是否也需要在所有Hadoop机器上安装它们,或者是否存在某种序列化将其发送到远程机器? 解决方案 如果未在任务栏中安装它们,则可以使用-file将其发送.如果需要包或其他目录结构,则可以发送一个zip文件,该文件将为您解压缩.这是一个Ha ..
发布时间:2020-11-22 03:00:38 Python

Hadoop缓冲与流式处理

有人可以向我解释一下Hadoop流与缓冲之间的区别是什么吗? 这是我在Hive中阅读的上下文: 在联接的每个map/reduce阶段中,序列中的最后一个表通过简化器流式传输,而其他表则被缓冲.因此,通过组织表以使最大的表出现在序列的最后,它有助于减少在reducer中为连接键的特定值缓冲行所需的内存.例如在: SELECT a.val, b.val, c.val FROM a J ..
发布时间:2020-11-22 02:32:03 其他开发