mapreduce相关内容
我在笔记本电脑上安装了Hadoop,除DataNode外,所有服务都在运行。最初,NameNode和辅助NameNode没有运行。我在NameNode和辅助NameNode上进行了一些更改/权限,现在一切正常。 hduse@Lenovo-IdeaPad-S510p:/usr/local/hadoop/sbin$ jps 14339 NameNode 16579 Jps 15571 NodeM
..
我在几种情况下都收到以下错误: 2017-03-23 11:55:10,794 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_1490079327128_0048_r_000003
..
您刚刚执行了MapReduce作业。中间数据从映射器的map方法发出后写入何处? A.中的中间数据通过网络从Mapper流式传输到Reduce,并且从不写入磁盘。 B.写入运行Mapper的TaskTracker节点上的内存缓冲区,该节点溢出并写入HDFS。 C.进入内存缓冲区,溢出到运行映射器的TaskTracker节点的本地文件系统。 D.内存缓冲区溢出到运行Reducer的Tas
..
我终于能够在 Hadoop 上启动 map-reduce 作业(在单个 debian 机器上运行).但是,map reduce 作业总是失败并出现以下错误: hadoopmachine@debian:~$ ./hadoop-1.0.1/bin/hadoop jar hadooptest/main.jar nl.mydomain.hadoop.debian.test.Main/user/hadoo
..
是否可以使用聚合框架计算一阶导数? 例如,我有数据: {time_series : [10,20,40,70,110]} 我正在尝试获得如下输出: {导数:[10,20,30,40]} 解决方案 db.collection.aggregate([{"$addFields": {“索引":{“$范围":[0,{"$size": "$time_series"}]},“反转系列":{"$
..
我想知道是否有人知道如何按字符串长度对 mongodb find() 结果进行排序. 我尝试过类似 db.foo.find().sort({item.lenght:-1}) 但显然不起作用.有人可以帮助我并建议我在 pymongo 中做同样的事情吗? 解决方案 我个人喜欢在聚合框架中看到很多东西(和基本 API),例如: 数学函数 log(如对数) 细胞 地板
..
我必须使用 Hadoop map reduce 处理一些保存在 Amazon Dynamo DB 中的数据. 我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat,但找不到.我不熟悉 Dynamo DB,所以我猜有一些与 DynamoDB 和 Hadoop 相关的技巧?如果有这种输入格式的实现,你能分享一下吗? 解决方案 经过大量搜索,我在 Amazon 的
..
我正在尝试使用 Python 脚本在 Hadoop Streaming 上运行 Map-Reduce 作业,并遇到与 Hadoop Streaming Job failed error in python 但这些解决方案对我不起作用. 当我运行“cat sample.txt | ./p1mapper.py | sort | ./p1reducer.py"时,我的脚本运行良好 但是当我运
..
我正在尝试从 IPython 笔记本运行 mrjob 示例 从 mrjob.job 导入 MRJobMRWordFrequencyCount 类(MRJob):def 映射器(自我,_,行):产生“字符",len(行)产生“单词",len(line.split())产量“线",1def reducer(self, key, values):产生键,总和(值) 然后用代码运行它 mr_job
..
我想在 MongoDB 上执行这条 SQL 语句: SELECT DISTINCT book,author from library 到目前为止,MongoDB 的 DISTINCT 一次只支持一个字段.对于多个字段,我们必须使用 GROUP 命令或 map-reduce. 我搜索了一种使用 GROUP 命令的方法: db.library.group({键:{书:1,作者:1},减少:
..
我正在实现一个基于发布订阅模型的通知系统,以在数据到达/加载到 HDFS 时通知数据的可用性.我没有找到在哪里寻找这个的方法.是否有任何 HDFS API 可用于执行此操作,或者我应该使用什么方法来获取写入 HDFS 的新数据的信息?我正在使用 Hadoop v2.0.2,我不想使用 HCatalog,我想实现自己的工具来执行此操作. 解决方案 你要找的是Oozie Coordinator
..
我们的任务是创建 map reduce 函数,该函数将为 google web 图表中的每个节点 n 输出可以从节点 n 在 3 跳内到达的节点.(实际数据可以在这里找到:http://snap.stanford.edu/data/web-Google.html)这是列表中项目的示例: 1 21 32 43 43 54 14 54 65 6 从上面的示例图表将是这个 在上面的简化示例中,
..
我正在分析 2015 年以来美国国内航班的准点率记录.我需要按尾号分组,并将每个尾号的所有航班的日期排序列表存储在数据库中,以供我的应用程序检索.我不确定实现这一目标的两种选择中哪一种是最好的. #加载parquet文件on_time_dataframe = sqlContext.read.parquet('../data/on_time_performance.parquet')# 过滤到我们
..
我使用的是 Hadoop 2.3.0 版本.有时当我执行 Map reduce 作业时,会显示以下错误. 14/08/10 12:14:59 信息 mapreduce.Job:任务 ID:尝试_1407694955806_0002_m_000780_0,状态:失败错误:java.io.IOException:所有数据节点 192.168.30.2:50010 都是错误的.中止...在 org.a
..
我最近阅读了这篇精彩的文章,它简洁地解释了 Google 的 MapReduce 的强大功能: http://www.joelonsoftware.com/items/2006/08/01.html 在 Mastering Delphi 2009 中,Marco Cantu 展示了一个使用匿名函数的多线程 for 循环,这基本上是 MapReduce 的 Map 部分,但表示它不完整并
..
我正在 hadoop 中运行解析作业,源是一个 11GB 的地图文件,其中大约有 900,000 条二进制记录,每个记录代表一个 HTML 文件,地图提取链接并将它们写入上下文.我没有为这项工作编写减速器. 当我在较小的文件(大约 5GB 和大约 500,000 条记录)上运行它时,它可以正常工作. 这是一个单机集群 输出有大约 1 亿条记录,TEXT 在计划的 200 个地图任务中有
..
我想访问 reducer 中的 myCounter.my 值: public static class Map extends Mapper{公共静态枚举 myCounter{my};@覆盖public void map(LongWritable key, Text value, Context context){context.getCounter(myCounter.my).incremen
..
嗨,我对 hive 非常陌生,我已经在 hadoop 中了解了桶的概念,但未能理解以下几行.有人可以帮助我吗? SELECT avg(viewTime)FROM page_view TABLESAMPLE(32 个中的第 1 个); TABLESAMPLE 的一般语法是表格样本(桶 x 超出 y) 查询的样本量约为 1/y.此外,y 需要是在创建表时为表指定的桶数的倍数或因子.例如,如果
..
是否有一种有效的方法可以删除 HBase 中的多行,或者我的用例闻起来不适合 HBase? 有一个表格叫做“图表",其中包含图表中的项目.行键采用以下格式:chart|date_reversed|ranked_attribute_value_reversed|content_id 有时我想为给定日期重新生成图表,所以我想删除从“chart|date_reversed_1"到“chart
..
我是 MongoDB 新手,我正在使用 map/reduce.有人可以告诉我如何在使用 map/reduce 时进行调试吗?我使用了“print()"函数,但在 MongoDB shell 上,没有打印任何内容.以下是我的 reduce 函数: var reduce = function(key, values){var result = {count: 0, host: ""};for(va
..