mrjob相关内容

从 IPython 笔记本运行 MRJob

我正在尝试从 IPython 笔记本运行 mrjob 示例 从 mrjob.job 导入 MRJobMRWordFrequencyCount 类(MRJob):def 映射器(自我,_,行):产生“字符",len(行)产生“单词",len(line.split())产量“线",1def reducer(self, key, values):产生键,总和(值) 然后用代码运行它 mr_job ..
发布时间:2022-01-14 08:13:43 Python

带 MRJob 的多个输入

我正在尝试学习将 Yelp 的 Python API 用于 MapReduce,MRJob.他们简单的单词计数器示例很有意义,但我很好奇如何处理涉及多个输入的应用程序.例如,不是简单地计算文档中的单词,而是将向量乘以矩阵.我想出了这个解决方案,它可以工作,但感觉很傻: 类 MatrixVectMultiplyTast(MRJob):def 乘法(自我,键,线):line = map(float, ..
发布时间:2022-01-13 23:36:37 Python

使用 hadoop 流和 mrjob 运行作业:PipeMapRed.waitOutputThreads(): subprocess failed with code 1

嘿,我对大数据世界还很陌生.我遇到了这个教程http://musicmachinery.com/2011/09/04/how-to-process-a-million-songs-in-20-minutes/ 详细介绍了如何在本地和 Elastic Map Reduce 上使用 mrjob 运行 MapReduce 作业. 好吧,我正在尝试在我自己的 Hadoop 集群上运行它.我使用 ..
发布时间:2021-12-15 18:35:12 Python

从IPython Notebook运行MRJob

我正在尝试从IPython笔记本运行mrjob示例 从mrjob.job 导入MRJob类MRWordFrequencyCount(MRJob):def映射器(自身,_,行):产生“字符",len(行)产生“单词",len(line.split())产生“线",1def reducer(自身,键,值):屈服密钥,总和(值) 然后使用代码运行 mr_job = MRWordFrequen ..
发布时间:2021-05-18 18:33:42 Python

如何使用Hadoop Streaming在本地Hadoop集群中运行MRJob?

我目前正在上大数据课,我的一个项目是在本地设置的Hadoop集群上运行我的Mapper/Reducer. 我一直在使用Python和MRJob库作为类. 这是我当前用于Mapper/Reducer的Python代码. 从mrjob.job 导入MRJob从mrjob.step导入MRStep汇入导入操作系统WORD_RE = re.compile(r"[\ w'] +")选择=“" ..
发布时间:2021-05-13 20:20:40 Python

为什么MRJob对我的钥匙进行排序?

我正在运行一个相当大的MRJob作业(1,755,638个键),并且这些键正按排序顺序写入到reducer中.即使我指定Hadoop应该使用哈希分区程序,也会发生这种情况, class SubClass(MRJob): PARTITIONER = "org.apache.hadoop.mapred.lib.HashPartitioner" ... 当我不要求对键进行排序时,我 ..
发布时间:2020-07-01 01:56:54 其他开发

MRjob:减速机可以执行两次操作吗?

我试图得出映射器生成的每个键,值对所具有的概率. 所以,可以说mapper产生了: a, (r, 5) a, (e, 6) a, (w, 7) 我需要加5 + 6 + 7 = 18,然后找到概率5/18、6/18、7/18 所以减速器的最终输出看起来像: a, [[r, 5, 0.278], [e, 6, 0.33], [w, 7, 0.389]] 到目前为止,我只 ..
发布时间:2020-07-01 01:56:51 Python

为什么在使用mrjob v0.4.4时出现[Errno 7]参数列表太长和OSError:[Errno 24]打开的文件太多?

似乎MapReduce框架的本质是要处理许多文件.因此,当我收到告诉我使用的文件过多的错误时,我怀疑我在做错什么. 如果我使用inline运行器和三个目录运行该作业,则它可以正常工作: $ python mr_gps_quality.py /Volumes/Logs/gps/ByCityLogs/city1/0[1-3]/*.log -r inline --no-output --o ..
发布时间:2020-07-01 01:55:47 Python

MRJob和python-Reducer的.csv文件输出?

我正在将MRJob模块用于python 2.7.我创建了一个从MRJob继承的类,并使用继承的mapper函数正确映射了所有内容. 问题是,我想让reducer函数输出一个.csv文件...这是reducer的代码: def reducer(self, geo_key, info_list): info_list.insert(0, ['Name,Age,Gender, ..
发布时间:2020-05-22 20:22:54 Python

Amazon Elastic MapReduce的Numpy和Scipy

使用mrjob在亚马逊的Elastic MapReduce上运行python代码,我已经成功找到了一种升级EMR图像的numpy和scipy的方法. 从控制台运行,以下命令有效: tar -cvf py_bundle.tar mymain.py Utils.py numpy-1.6.1.tar.gz scipy-0.9.0.tar.gz gzip py_bundle. ..
发布时间:2020-05-18 21:01:19 Python

如何无法索引到reduce的值列表?

我正在通过Python mrjob模块在Map Reduce作业中使用映射器内合并.因为我写了一个mapper_final函数,该函数会发出一对,所以我确定只有一个键值对会发给我的精简器. 但是,我的reduce函数出错了 def reducer(self, key, occurrences): ''' Calculates the final value. ..
发布时间:2020-05-05 15:48:45 其他开发

如何为Python的跑步者指定输入文件?

我正在编写一个外部脚本,以通过笔记本电脑(而不是Amazon Elastic Compute Cloud或任何大型集群)上的Python mrjob模块运行mapreduce作业. 我从 mrjob文档中读到,我应该使用MRJob.make_runner()来从单独的位置运行mapreduce作业python脚本如下. mr_job = MRYourJob(args=['-r', 'e ..
发布时间:2020-05-05 15:40:16 Python

MRJob的多个输入

我正在尝试学习将Yelp的Python API用于MapReduce和MRJob.他们简单的单词计数器示例很有意义,但是我很好奇一个人如何处理涉及多个输入的应用程序.例如,与其简单地对文档中的单词进行计数,不如将向量乘以矩阵.我想出了这个解决方案,它可以起作用,但感觉很愚蠢: class MatrixVectMultiplyTast(MRJob): def multiply(self ..
发布时间:2020-05-05 15:36:17 Python

mapreduce如何排序和洗牌?

我正在使用yelps MRJob库来实现map-reduce功能。我知道map reduce有一个内部排序和随机算法,它根据它们的键对值进行排序。因此,如果我在地图阶段后得到以下结果 (1,24)(4,25)(3,26) 我知道sort和shuffle阶段会产生如下输出: (1,24)(3,26)(4,25) 如预期的那样 但是如果我有两个相似的 ..
发布时间:2018-05-31 19:34:09 分布式计算/Hadoop

Hadoop在重新启动时删除MapReduce历史记录

我正在使用TestDFSIO和TeraSort基准测试工具进行多项Hadoop测试。我基本上用不同数量的datanodes进行测试,以评估处理能力和数据节点可伸缩性的线性。 在上述过程中,我显然必须重启几次所有Hadoop环境。每次我重新启动Hadoop时,所有MapReduce作业都将被删除,作业计数器将再次从“job_2013 * _0001”开始。出于比较的原因,保持我之前启动的所有M ..
发布时间:2018-05-31 19:25:33 分布式计算/Hadoop