mrjob - IT屋-程序员软件开发技术分享社区

从 IPython 笔记本运行 MRJob

我正在尝试从 IPython 笔记本运行 mrjob 示例从 mrjob.job 导入 MRJobMRWordFrequencyCount 类(MRJob):def 映射器(自我，_，行):产生“字符"，len(行)产生“单词"，len(line.split())产量“线"，1def reducer(self, key, values):产生键，总和(值) 然后用代码运行它 mr_job ..

我正在尝试学习将 Yelp 的 Python API 用于 MapReduce，MRJob.他们简单的单词计数器示例很有意义，但我很好奇如何处理涉及多个输入的应用程序.例如，不是简单地计算文档中的单词，而是将向量乘以矩阵.我想出了这个解决方案，它可以工作，但感觉很傻: 类 MatrixVectMultiplyTast(MRJob):def 乘法(自我，键，线):line = map(float, ..

发布时间：2022-01-13 23:36:37 python mapreduce mrjob Python

使用 hadoop 流和 mrjob 运行作业:PipeMapRed.waitOutputThreads(): subprocess failed with code 1

嘿，我对大数据世界还很陌生.我遇到了这个教程http://musicmachinery.com/2011/09/04/how-to-process-a-million-songs-in-20-minutes/ 详细介绍了如何在本地和 Elastic Map Reduce 上使用 mrjob 运行 MapReduce 作业. 好吧，我正在尝试在我自己的 Hadoop 集群上运行它.我使用 ..

发布时间：2021-12-15 18:35:12 python hadoop mapreduce hadoop-streaming mrjob Python

从IPython Notebook运行MRJob

我正在尝试从IPython笔记本运行mrjob示例从mrjob.job 导入MRJob类MRWordFrequencyCount(MRJob):def映射器(自身，_，行):产生“字符"，len(行)产生“单词"，len(line.split())产生“线"，1def reducer(自身，键，值):屈服密钥，总和(值) 然后使用代码运行 mr_job = MRWordFrequen ..

发布时间：2021-05-18 18:33:42 python mapreduce ipython-notebook mrjob Python

如何使用Hadoop Streaming在本地Hadoop集群中运行MRJob?

我目前正在上大数据课，我的一个项目是在本地设置的Hadoop集群上运行我的Mapper/Reducer. 我一直在使用Python和MRJob库作为类. 这是我当前用于Mapper/Reducer的Python代码. 从mrjob.job 导入MRJob从mrjob.step导入MRStep汇入导入操作系统WORD_RE = re.compile(r"[\ w'] +")选择=“" ..

发布时间：2021-05-13 20:20:40 python hadoop mrjob Python

hadoop模式下的Mrjob:启动作业时出错，错误的输入路径:文件不存在

我正在尝试运行 Mrjob示例从我的笔记本电脑上的Hadoop with Python本书中，以伪分布式模式获取. (可在此处) 所以我可以启动namenode和datanode: start-dfs.sh 返回: 在[localhost]上启动namenodes本地主机:启动namenode，登录到/home/me/hadoop-2.7.3/logs/hadoop-me-n ..

发布时间：2021-05-13 20:15:59 python ubuntu hadoop mrjob Python

为什么MRJob对我的钥匙进行排序?

我正在运行一个相当大的MRJob作业(1,755,638个键)，并且这些键正按排序顺序写入到reducer中.即使我指定Hadoop应该使用哈希分区程序，也会发生这种情况， class SubClass(MRJob): PARTITIONER = "org.apache.hadoop.mapred.lib.HashPartitioner" ... 当我不要求对键进行排序时，我 ..

发布时间：2020-07-01 01:56:54 sorting hadoop mrjob 其他开发

MRjob:减速机可以执行两次操作吗?

我试图得出映射器生成的每个键，值对所具有的概率. 所以，可以说mapper产生了: a, (r, 5) a, (e, 6) a, (w, 7) 我需要加5 + 6 + 7 = 18，然后找到概率5/18、6/18、7/18 所以减速器的最终输出看起来像: a, [[r, 5, 0.278], [e, 6, 0.33], [w, 7, 0.389]] 到目前为止，我只 ..

发布时间：2020-07-01 01:56:51 python mapreduce mrjob Python

为什么在使用mrjob v0.4.4时出现[Errno 7]参数列表太长和OSError:[Errno 24]打开的文件太多?

似乎MapReduce框架的本质是要处理许多文件.因此，当我收到告诉我使用的文件过多的错误时，我怀疑我在做错什么. 如果我使用inline运行器和三个目录运行该作业，则它可以正常工作: $ python mr_gps_quality.py /Volumes/Logs/gps/ByCityLogs/city1/0[1-3]/*.log -r inline --no-output --o ..

发布时间：2020-07-01 01:55:47 python mrjob Python

如何用Mrjob和Hadoop填充Postgresql数据库

我想通过使用带有MrJob和Hadoop 2.7.1的映射器来填充Postgresql数据库。我目前使用以下代码：＃-*-编码：utf-8-*- #Script for通过使用Hadoop将稀疏数据存储到数据库中 import psycopg2 import re from mrjob.job import MRJob args_d = False args_c = ..

发布时间：2020-05-30 01:25:47 postgresql python-2.7 hadoop mrjob 其他开发

MRJob和python-Reducer的.csv文件输出?

我正在将MRJob模块用于python 2.7.我创建了一个从MRJob继承的类，并使用继承的mapper函数正确映射了所有内容. 问题是，我想让reducer函数输出一个.csv文件...这是reducer的代码: def reducer(self, geo_key, info_list): info_list.insert(0, ['Name,Age,Gender, ..

发布时间：2020-05-22 20:22:54 python csv output typeerror mrjob Python

Amazon Elastic MapReduce的Numpy和Scipy

使用mrjob在亚马逊的Elastic MapReduce上运行python代码，我已经成功找到了一种升级EMR图像的numpy和scipy的方法. 从控制台运行，以下命令有效: tar -cvf py_bundle.tar mymain.py Utils.py numpy-1.6.1.tar.gz scipy-0.9.0.tar.gz gzip py_bundle. ..

发布时间：2020-05-18 21:01:19 python numpy scipy mrjob Python

如何无法索引到reduce的值列表?

我正在通过Python mrjob模块在Map Reduce作业中使用映射器内合并.因为我写了一个mapper_final函数，该函数会发出一对，所以我确定只有一个键值对会发给我的精简器. 但是，我的reduce函数出错了 def reducer(self, key, occurrences): ''' Calculates the final value. ..

发布时间：2020-05-05 15:48:45 mapreduce mrjob 其他开发

mrjob:示例如何自动知道如何在文本文件中查找行?

我试图更好地理解mrjob的示例 from mrjob.job import MRJob class MRWordFrequencyCount(MRJob): def mapper(self, _, line): yield "chars", len(line) yield "words", len(line.split()) y ..

发布时间：2020-05-05 15:42:46 python mapreduce mrjob Python

Map-Reduce/Hadoop按整数值排序(使用MRJob)

这是一个简单的Map-Reduce排序功能的MRJob实现.在beta.py: from mrjob.job import MRJob class Beta(MRJob): def mapper(self, _, line): """ """ l = line.split(' ') yield l[1], l[0] ..

发布时间：2020-05-05 15:41:06 python sorting hadoop mapreduce mrjob Python

如何为Python的跑步者指定输入文件?

我正在编写一个外部脚本，以通过笔记本电脑(而不是Amazon Elastic Compute Cloud或任何大型集群)上的Python mrjob模块运行mapreduce作业. 我从 mrjob文档中读到，我应该使用MRJob.make_runner()来从单独的位置运行mapreduce作业python脚本如下. mr_job = MRYourJob(args=['-r', 'e ..

发布时间：2020-05-05 15:40:16 python mapreduce mrjob Python

MRJob的多个输入

我正在尝试学习将Yelp的Python API用于MapReduce和MRJob.他们简单的单词计数器示例很有意义，但是我很好奇一个人如何处理涉及多个输入的应用程序.例如，与其简单地对文档中的单词进行计数，不如将向量乘以矩阵.我想出了这个解决方案，它可以起作用，但感觉很愚蠢: class MatrixVectMultiplyTast(MRJob): def multiply(self ..

发布时间：2020-05-05 15:36:17 python mapreduce mrjob Python

Hadoop错误：启动作业错误，错误的输入路径：文件不存在。流命令失败

我在Hadoop集群上运行MRJob，我收到以下错误：找不到配置;回到自动配置在$ PATH中寻找hadoop二进制文件... 找到hadoop二进制文件：/ usr / local / hadoop / bin / hadoop 使用Hadoop版本2.7.3 在/ usr / local / hadoop中寻找Hadoop streaming jar ... 找到Hadoop ..

发布时间：2018-05-31 19:50:43 python hadoop mrjob Python

mapreduce如何排序和洗牌？

我正在使用yelps MRJob库来实现map-reduce功能。我知道map reduce有一个内部排序和随机算法，它根据它们的键对值进行排序。因此，如果我在地图阶段后得到以下结果（1,24）（4,25）（3,26）我知道sort和shuffle阶段会产生如下输出：（1,24）（3,26）（4,25）如预期的那样但是如果我有两个相似的 ..

发布时间：2018-05-31 19:34:09 hadoop mapreduce mrjob 分布式计算/Hadoop

Hadoop在重新启动时删除MapReduce历史记录

我正在使用TestDFSIO和TeraSort基准测试工具进行多项Hadoop测试。我基本上用不同数量的datanodes进行测试，以评估处理能力和数据节点可伸缩性的线性。在上述过程中，我显然必须重启几次所有Hadoop环境。每次我重新启动Hadoop时，所有MapReduce作业都将被删除，作业计数器将再次从“job_2013 * _0001”开始。出于比较的原因，保持我之前启动的所有M ..

发布时间：2018-05-31 19:25:33 hadoop mapreduce mrjob 分布式计算/Hadoop

mrjob相关内容