mapreduce - IT屋-程序员软件开发技术分享社区

Hadoop DataNode未运行

我在笔记本电脑上安装了Hadoop，除DataNode外，所有服务都在运行。最初，NameNode和辅助NameNode没有运行。我在NameNode和辅助NameNode上进行了一些更改/权限，现在一切正常。 hduse@Lenovo-IdeaPad-S510p:/usr/local/hadoop/sbin$ jps 14339 NameNode 16579 Jps 15571 NodeM ..

发布时间：2022-02-27 17:55:47 apache hadoop mapreduce hdfs cloudera 服务器开发

ApplicationMaster退出代码杀死的容器是143

我在几种情况下都收到以下错误： 2017-03-23 11:55:10,794 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_1490079327128_0048_r_000003 ..

发布时间：2022-02-23 23:47:17 hadoop hive mapreduce hadoop2 其他开发

MapReduce中间数据输出位置

您刚刚执行了MapReduce作业。中间数据从映射器的map方法发出后写入何处？ A.中的中间数据通过网络从Mapper流式传输到Reduce，并且从不写入磁盘。 B.写入运行Mapper的TaskTracker节点上的内存缓冲区，该节点溢出并写入HDFS。 C.进入内存缓冲区，溢出到运行映射器的TaskTracker节点的本地文件系统。 D.内存缓冲区溢出到运行Reducer的Tas ..

发布时间：2022-02-23 23:44:33 hadoop mapreduce 其他开发

Hadoop map-reduce 操作在写入输出时失败

我终于能够在 Hadoop 上启动 map-reduce 作业(在单个 debian 机器上运行).但是，map reduce 作业总是失败并出现以下错误: hadoopmachine@debian:~$ ./hadoop-1.0.1/bin/hadoop jar hadooptest/main.jar nl.mydomain.hadoop.debian.test.Main/user/hadoo ..

发布时间：2022-01-24 23:18:48 java hadoop mapreduce debian file-access Java开发

使用 MongoDB 聚合框架计算一阶导数

是否可以使用聚合框架计算一阶导数? 例如，我有数据: {time_series : [10,20,40,70,110]} 我正在尝试获得如下输出: {导数:[10,20,30,40]} 解决方案 db.collection.aggregate([{"$addFields": {“索引":{“$范围":[0,{"$size": "$time_series"}]},“反转系列":{"$ ..

发布时间：2022-01-20 13:52:34 python mongodb mapreduce pymongo aggregation-framework Python

在 Mongodb/pymongo 中按字符串长度排序

我想知道是否有人知道如何按字符串长度对 mongodb find() 结果进行排序. 我尝试过类似 db.foo.find().sort({item.lenght:-1}) 但显然不起作用.有人可以帮助我并建议我在 pymongo 中做同样的事情吗? 解决方案我个人喜欢在聚合框架中看到很多东西(和基本 API)，例如: 数学函数 log(如对数) 细胞地板 ..

发布时间：2022-01-20 13:39:05 mongodb sorting mapreduce aggregation-framework pymongo 其他开发

用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop map reduce 处理一些保存在 Amazon Dynamo DB 中的数据. 我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat，但找不到.我不熟悉 Dynamo DB，所以我猜有一些与 DynamoDB 和 Hadoop 相关的技巧?如果有这种输入格式的实现，你能分享一下吗? 解决方案经过大量搜索，我在 Amazon 的 ..

发布时间：2022-01-15 17:32:59 hadoop amazon-web-services mapreduce amazon-dynamodb elastic-map-reduce 其他开发

Hadoop 流作业在 Python 中失败(不成功)

我正在尝试使用 Python 脚本在 Hadoop Streaming 上运行 Map-Reduce 作业，并遇到与 Hadoop Streaming Job failed error in python 但这些解决方案对我不起作用. 当我运行“cat sample.txt | ./p1mapper.py | sort | ./p1reducer.py"时，我的脚本运行良好但是当我运 ..

发布时间：2022-01-14 08:13:51 python streaming hadoop mapreduce Python

从 IPython 笔记本运行 MRJob

我正在尝试从 IPython 笔记本运行 mrjob 示例从 mrjob.job 导入 MRJobMRWordFrequencyCount 类(MRJob):def 映射器(自我，_，行):产生“字符"，len(行)产生“单词"，len(line.split())产量“线"，1def reducer(self, key, values):产生键，总和(值) 然后用代码运行它 mr_job ..

发布时间：2022-01-14 08:13:43 python mapreduce ipython-notebook mrjob Python

使用 MongoDB 的 map reduce 选择不同的多个字段

我想在 MongoDB 上执行这条 SQL 语句: SELECT DISTINCT book,author from library 到目前为止，MongoDB 的 DISTINCT 一次只支持一个字段.对于多个字段，我们必须使用 GROUP 命令或 map-reduce. 我搜索了一种使用 GROUP 命令的方法: db.library.group({键:{书:1，作者:1}，减少: ..

发布时间：2022-01-14 08:13:37 mongodb mapreduce 其他开发

如何知道 HDFS 中添加了新数据?

我正在实现一个基于发布订阅模型的通知系统，以在数据到达/加载到 HDFS 时通知数据的可用性.我没有找到在哪里寻找这个的方法.是否有任何 HDFS API 可用于执行此操作，或者我应该使用什么方法来获取写入 HDFS 的新数据的信息?我正在使用 Hadoop v2.0.2，我不想使用 HCatalog，我想实现自己的工具来执行此操作. 解决方案你要找的是Oozie Coordinator ..

发布时间：2022-01-14 08:13:31 hadoop mapreduce 其他开发

Hadoop Map Reduce 用于 Google 网络图

我们的任务是创建 map reduce 函数，该函数将为 google web 图表中的每个节点 n 输出可以从节点 n 在 3 跳内到达的节点.(实际数据可以在这里找到:http://snap.stanford.edu/data/web-Google.html)这是列表中项目的示例: 1 21 32 43 43 54 14 54 65 6 从上面的示例图表将是这个在上面的简化示例中， ..

发布时间：2022-01-14 08:13:21 java hadoop graph mapreduce Java开发

在 PySpark 中进行排序减少的最有效方法是什么?

我正在分析 2015 年以来美国国内航班的准点率记录.我需要按尾号分组，并将每个尾号的所有航班的日期排序列表存储在数据库中，以供我的应用程序检索.我不确定实现这一目标的两种选择中哪一种是最好的. #加载parquet文件on_time_dataframe = sqlContext.read.parquet('../data/on_time_performance.parquet')# 过滤到我们 ..

发布时间：2022-01-14 08:13:13 python python-2.7 apache-spark mapreduce pyspark Python

Hadoop 错误 - 所有数据节点都在中止

我使用的是 Hadoop 2.3.0 版本.有时当我执行 Map reduce 作业时，会显示以下错误. 14/08/10 12:14:59 信息 mapreduce.Job:任务 ID:尝试_1407694955806_0002_m_000780_0，状态:失败错误:java.io.IOException:所有数据节点 192.168.30.2:50010 都是错误的.中止...在 org.a ..

发布时间：2022-01-14 08:13:08 hadoop mapreduce hdfs hadoop-yarn hadoop2 其他开发

Delphi 有 MapReduce 库吗?

我最近阅读了这篇精彩的文章，它简洁地解释了 Google 的 MapReduce 的强大功能: http://www.joelonsoftware.com/items/2006/08/01.html 在 Mastering Delphi 2009 中，Marco Cantu 展示了一个使用匿名函数的多线程 for 循环，这基本上是 MapReduce 的 Map 部分，但表示它不完整并 ..

发布时间：2022-01-14 08:12:58 multithreading delphi mapreduce 其他开发

fetcher#1 中随机播放的 Hadoop 错误

我正在 hadoop 中运行解析作业，源是一个 11GB 的地图文件，其中大约有 900,000 条二进制记录，每个记录代表一个 HTML 文件，地图提取链接并将它们写入上下文.我没有为这项工作编写减速器. 当我在较小的文件(大约 5GB 和大约 500,000 条记录)上运行它时，它可以正常工作. 这是一个单机集群输出有大约 1 亿条记录，TEXT 在计划的 200 个地图任务中有 ..

发布时间：2022-01-14 08:12:49 hadoop mapreduce 其他开发

如何在 Reducer 中访问 Mapper Counter 值?

我想访问 reducer 中的 myCounter.my 值: public static class Map extends Mapper{公共静态枚举 myCounter{my};@覆盖public void map(LongWritable key, Text value, Context context){context.getCounter(myCounter.my).incremen ..

发布时间：2022-01-14 08:12:42 java hadoop mapreduce Java开发

Hive Buckets-了解TABLESAMPLE(BUCKET X OUT OF Y)

嗨，我对 hive 非常陌生，我已经在 hadoop 中了解了桶的概念，但未能理解以下几行.有人可以帮助我吗? SELECT avg(viewTime)FROM page_view TABLESAMPLE(32 个中的第 1 个)； TABLESAMPLE 的一般语法是表格样本(桶 x 超出 y) 查询的样本量约为 1/y.此外，y 需要是在创建表时为表指定的桶数的倍数或因子.例如，如果 ..

发布时间：2022-01-14 08:12:38 hadoop mapreduce hive 其他开发

在 HBase 中删除多行的有效方法

是否有一种有效的方法可以删除 HBase 中的多行，或者我的用例闻起来不适合 HBase? 有一个表格叫做“图表"，其中包含图表中的项目.行键采用以下格式:chart|date_reversed|ranked_attribute_value_reversed|content_id 有时我想为给定日期重新生成图表，所以我想删除从“chart|date_reversed_1"到“chart ..

发布时间：2022-01-14 08:12:32 hadoop mapreduce hbase 其他开发

mongodb:如何在 mongodb shell 上调试 map/reduce

我是 MongoDB 新手，我正在使用 map/reduce.有人可以告诉我如何在使用 map/reduce 时进行调试吗?我使用了“print()"函数，但在 MongoDB shell 上，没有打印任何内容.以下是我的 reduce 函数: var reduce = function(key, values){var result = {count: 0, host: ""};for(va ..

发布时间：2022-01-14 08:12:21 debugging shell mongodb mapreduce 其他开发

mapreduce相关内容