mapreduce相关内容

Hadoop DataNode未运行

我在笔记本电脑上安装了Hadoop,除DataNode外,所有服务都在运行。最初,NameNode和辅助NameNode没有运行。我在NameNode和辅助NameNode上进行了一些更改/权限,现在一切正常。 hduse@Lenovo-IdeaPad-S510p:/usr/local/hadoop/sbin$ jps 14339 NameNode 16579 Jps 15571 NodeM ..
发布时间:2022-02-27 17:55:47 服务器开发

MapReduce中间数据输出位置

您刚刚执行了MapReduce作业。中间数据从映射器的map方法发出后写入何处? A.中的中间数据通过网络从Mapper流式传输到Reduce,并且从不写入磁盘。 B.写入运行Mapper的TaskTracker节点上的内存缓冲区,该节点溢出并写入HDFS。 C.进入内存缓冲区,溢出到运行映射器的TaskTracker节点的本地文件系统。 D.内存缓冲区溢出到运行Reducer的Tas ..
发布时间:2022-02-23 23:44:33 其他开发

在 Mongodb/pymongo 中按字符串长度排序

我想知道是否有人知道如何按字符串长度对 mongodb find() 结果进行排序. 我尝试过类似 db.foo.find().sort({item.lenght:-1}) 但显然不起作用.有人可以帮助我并建议我在 pymongo 中做同样的事情吗? 解决方案 我个人喜欢在聚合框架中看到很多东西(和基本 API),例如: 数学函数 log(如对数) 细胞 地板 ..
发布时间:2022-01-20 13:39:05 其他开发

用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop map reduce 处理一些保存在 Amazon Dynamo DB 中的数据. 我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat,但找不到.我不熟悉 Dynamo DB,所以我猜有一些与 DynamoDB 和 Hadoop 相关的技巧?如果有这种输入格式的实现,你能分享一下吗? 解决方案 经过大量搜索,我在 Amazon 的 ..

Hadoop 流作业在 Python 中失败(不成功)

我正在尝试使用 Python 脚本在 Hadoop Streaming 上运行 Map-Reduce 作业,并遇到与 Hadoop Streaming Job failed error in python 但这些解决方案对我不起作用. 当我运行“cat sample.txt | ./p1mapper.py | sort | ./p1reducer.py"时,我的脚本运行良好 但是当我运 ..
发布时间:2022-01-14 08:13:51 Python

从 IPython 笔记本运行 MRJob

我正在尝试从 IPython 笔记本运行 mrjob 示例 从 mrjob.job 导入 MRJobMRWordFrequencyCount 类(MRJob):def 映射器(自我,_,行):产生“字符",len(行)产生“单词",len(line.split())产量“线",1def reducer(self, key, values):产生键,总和(值) 然后用代码运行它 mr_job ..
发布时间:2022-01-14 08:13:43 Python

使用 MongoDB 的 map reduce 选择不同的多个字段

我想在 MongoDB 上执行这条 SQL 语句: SELECT DISTINCT book,author from library 到目前为止,MongoDB 的 DISTINCT 一次只支持一个字段.对于多个字段,我们必须使用 GROUP 命令或 map-reduce. 我搜索了一种使用 GROUP 命令的方法: db.library.group({键:{书:1,作者:1},减少: ..
发布时间:2022-01-14 08:13:37 其他开发

如何知道 HDFS 中添加了新数据?

我正在实现一个基于发布订阅模型的通知系统,以在数据到达/加载到 HDFS 时通知数据的可用性.我没有找到在哪里寻找这个的方法.是否有任何 HDFS API 可用于执行此操作,或者我应该使用什么方法来获取写入 HDFS 的新数据的信息?我正在使用 Hadoop v2.0.2,我不想使用 HCatalog,我想实现自己的工具来执行此操作. 解决方案 你要找的是Oozie Coordinator ..
发布时间:2022-01-14 08:13:31 其他开发

Hadoop Map Reduce 用于 Google 网络图

我们的任务是创建 map reduce 函数,该函数将为 google web 图表中的每个节点 n 输出可以从节点 n 在 3 跳内到达的节点.(实际数据可以在这里找到:http://snap.stanford.edu/data/web-Google.html)这是列表中项目的示例: 1 21 32 43 43 54 14 54 65 6 从上面的示例图表将是这个 在上面的简化示例中, ..
发布时间:2022-01-14 08:13:21 Java开发

在 PySpark 中进行排序减少的最有效方法是什么?

我正在分析 2015 年以来美国国内航班的准点率记录.我需要按尾号分组,并将每个尾号的所有航班的日期排序列表存储在数据库中,以供我的应用程序检索.我不确定实现这一目标的两种选择中哪一种是最好的. #加载parquet文件on_time_dataframe = sqlContext.read.parquet('../data/on_time_performance.parquet')# 过滤到我们 ..
发布时间:2022-01-14 08:13:13 Python

Delphi 有 MapReduce 库吗?

我最近阅读了这篇精彩的文章,它简洁地解释了 Google 的 MapReduce 的强大功能: http://www.joelonsoftware.com/items/2006/08/01.html 在 Mastering Delphi 2009 中,Marco Cantu 展示了一个使用匿名函数的多线程 for 循环,这基本上是 MapReduce 的 Map 部分,但表示它不完整并 ..
发布时间:2022-01-14 08:12:58 其他开发

fetcher#1 中随机播放的 Hadoop 错误

我正在 hadoop 中运行解析作业,源是一个 11GB 的地图文件,其中大约有 900,000 条二进制记录,每个记录代表一个 HTML 文件,地图提取链接并将它们写入上下文.我没有为这项工作编写减速器. 当我在较小的文件(大约 5GB 和大约 500,000 条记录)上运行它时,它可以正常工作. 这是一个单机集群 输出有大约 1 亿条记录,TEXT 在计划的 200 个地图任务中有 ..
发布时间:2022-01-14 08:12:49 其他开发

Hive Buckets-了解TABLESAMPLE(BUCKET X OUT OF Y)

嗨,我对 hive 非常陌生,我已经在 hadoop 中了解了桶的概念,但未能理解以下几行.有人可以帮助我吗? SELECT avg(viewTime)FROM page_view TABLESAMPLE(32 个中的第 1 个); TABLESAMPLE 的一般语法是表格样本(桶 x 超出 y) 查询的样本量约为 1/y.此外,y 需要是在创建表时为表指定的桶数的倍数或因子.例如,如果 ..
发布时间:2022-01-14 08:12:38 其他开发

在 HBase 中删除多行的有效方法

是否有一种有效的方法可以删除 HBase 中的多行,或者我的用例闻起来不适合 HBase? 有一个表格叫做“图表",其中包含图表中的项目.行键采用以下格式:chart|date_reversed|ranked_attribute_value_reversed|content_id 有时我想为给定日期重新生成图表,所以我想删除从“chart|date_reversed_1"到“chart ..
发布时间:2022-01-14 08:12:32 其他开发