hadoop-streaming相关内容
我正在尝试从 hadoop 处理 XML 文件,但在对 XML 文件调用字数统计作业时出现以下错误. 13/07/25 12:39:57 信息 mapred.JobClient:任务 ID:尝试_201307251234_0001_m_000008_0,状态:失败获取失败太多13/07/25 12:39:58 INFO mapred.JobClient: 地图 99% 减少 0%13/07/25
..
使用 Hadoop streaming.jar 在 Hadoop 上执行 mapreduce python 文件时遇到问题. 我使用:视窗 10 64 位Python 3.6 和我的 IDE 是 spyder 3.2.6,Hadoop 2.3.0jdk1.8.0_161 当我的 maperducec 代码是用 java 语言编写时,我可以得到答案,但我的问题是当我想在我的数据上混合 p
..
我正在尝试使用 Hadoop Streaming 在 Hadoop 集群上运行 python 脚本以进行情绪分析.我在本地机器上运行的相同脚本正在正确运行并提供输出. 要在本地机器上运行,我使用此命令. $ cat/home/MB/analytics/Data/input/* |./new_mapper.py 为了在 hadoop 集群上运行,我使用以下命令 $ hadoop ja
..
我可以在我的 /usr/local/hadoop/logs 路径上看到所有 hadoop 日志 但是我在哪里可以看到应用程序级别的日志?例如: mapper.py 导入日志定义主():logging.info("现在开始地图任务")//-- 做一些任务 --//打印声明 reducer.py 导入日志定义主():对于 sys.stdin 中的行:logging.info("rec
..
我试过运行 hive -v -f sqlfile.sql 这是文件的内容 CREATE TABLE UpStreamParam ('macaddress' CHAR(50),'datats' BIGINT,'cmtstimestamp' BIGINT,“调制"INT,'chnlidx' INT,“严重性" BIGINT,'rxpower' 浮动,“信号噪声"浮动,“噪音偏差"浮动,'偏好'
..
问题:当我向我的 hadoop 2.2.0 集群提交作业时,它没有显示在作业跟踪器中但作业成功完成.可以看到输出并且它正在正确运行并在运行时打印输出. 我尝试了多个选项,但作业跟踪器没有看到作业.如果我使用 2.2.0 hadoop 运行流式作业,它会显示在任务跟踪器中,但是当我通过 hadoop-client api 提交它时,它不会显示在作业跟踪器中.我正在查看 8088 端口上的 ui
..
嘿,我对大数据世界还很陌生.我遇到了这个教程http://musicmachinery.com/2011/09/04/how-to-process-a-million-songs-in-20-minutes/ 详细介绍了如何在本地和 Elastic Map Reduce 上使用 mrjob 运行 MapReduce 作业. 好吧,我正在尝试在我自己的 Hadoop 集群上运行它.我使用
..
根据http://blog.cloudera.com/blog/2014/04/apache-hadoop-yarn-avoiding-6-time-sumption-gotchas/,确定每个节点并发运行任务数的公式为: min (yarn.nodemanager.resource.memory-mb/mapreduce.[map|reduce].memory.mb,yarn.nodemana
..
我们正在 LocalCluster 中执行 Storm 拓扑.Storm 拓扑运行良好并且能够连接 Storm UI (8090).但是 Storm UI 没有显示正在运行的拓扑信息. LocalCluster cluster = new LocalCluster(); 并提交如下: bin/storm jar bin/StormTest-0.0.1-SNAPSHOT.jar com.abz
..
我有猪格式的数据 {(group, productId, count)}. 现在我想获得每个组中的最大计数,输出可能如下所示 {(group, productId, maxCount)}.这是示例输入数据 (south America,prod1, 45),(south America,prod2, 36), (latin America, prod1, 48),(lati
..
我想知道是否可以在 Apache Pig 中一次性对表格进行透视. 输入: Id Column1 Column2 Column31 行 11 行 12 行 132 行 21 行 22 行 23 输出: Id 名称 值1 列 1 行 111 列 2 行 121 列 3 行 132 列 1 行 212 列 2 行 222 列 3 行 23 真实数据有几十列. 我可以一次性使用 aw
..
我们正在 LocalCluster 中执行 Storm 拓扑.Storm 拓扑运行良好并且能够连接 Storm UI (8090).但是 Storm UI 没有显示正在运行的拓扑信息. LocalCluster cluster = new LocalCluster(); 并提交如下: bin/storm jar bin/StormTest-0.0.1-SNAPSHOT.jar com.abz
..
我正在运行一个简单的 Python 映射器和化简器,并且收到 13 权限被拒绝错误.需要帮助. 我不确定这里发生了什么,需要帮助.Hadoop 世界的新手. 我正在运行简单的 map reduce 来计算单词.mapper 和 reducer 在 linus 或 windows powershell 上独立运行 ====================================
..
我需要比较大量类似于 50358c591cef4d76 的字符串.我有一个可以使用的汉明距离函数(使用 pHash).我如何有效地做到这一点?我的伪代码是: 对于每个字符串当前字符串=字符串对于当前字符串以外的每个字符串计算汉明距离 我想将结果作为矩阵输出并能够检索值.我还想通过 Hadoop Streaming 运行它! 感谢收到任何指示. 这是我尝试过的,但速度很慢: imp
..
我想知道如何在配置单元外部表中压缩json数据.如何做呢?我创建了这样的外部表: CREATE EXTERNAL TABLE tweets(id BIGINT,created_at STRING,来源STRING,收藏夹BOOLEAN)行格式SERDE"com.cloudera.hive.serde.JSONSerDe"位置"/user/cloudera/tweets"; 我已经设置了压缩
..
我需要从具有最新分区的配置单元中的表中获取所有记录.该表由date,year,month分区,例如(date=25,year=2020,month=3),同样会有很多分区. 分区不是静态的,它将经常更改.我正在尝试获取查询中的最新分区. 有人可以帮我写查询吗? 解决方案 尝试一下: select * from your_table t where concat_ws('
..
我有一个快速的Hadoop Streaming问题.如果我使用的是Python流,并且我的映射器/缩减器需要Python包,但默认情况下未安装它们,那么我是否也需要在所有Hadoop机器上安装它们,或者是否存在某种序列化将其发送到远程机器? 解决方案 如果未在任务栏中安装它们,则可以使用-file将其发送.如果需要包或其他目录结构,则可以发送一个zip文件,该文件将为您解压缩.这是一个Ha
..
错误: hadoop_admin@ubuntu:~/hadoop$ bin/hadoop jar /home/hadoop_admin/hadoop/contrib/streaming/hadoop-0.20.0-streaming.jar -input data -output DOUT -mapper /home/balachanderp/libsvm-hadoop-master/scr
..
我正在尝试使用以下hadoop-streaming.jar命令在HDFS位置合并一些* _0(HDFS中的部分文件)文件. hadoop jar $HDPHOME/hadoop-streaming.jar -Dmapred.reduce.tasks=1 -input $INDIR -output $OUTTMP/${OUTFILE} -mapper cat -reducer cat
..
有人可以向我解释一下Hadoop流与缓冲之间的区别是什么吗? 这是我在Hive中阅读的上下文: 在联接的每个map/reduce阶段中,序列中的最后一个表通过简化器流式传输,而其他表则被缓冲.因此,通过组织表以使最大的表出现在序列的最后,它有助于减少在reducer中为连接键的特定值缓冲行所需的内存.例如在: SELECT a.val, b.val, c.val FROM a J
..