mapreduce相关内容

MongoDB MapReduce 是否锁定数据库

MongoDB MapReduce 作业是否锁定数据库?我正在开发一个多用户 MongoDB Web 应用程序,并且担心多用户冲突和性能.有人对我有什么智慧之言吗? 解决方案 简单的答案?有时... 这在很大程度上取决于您如何使用 map/reduce ...但根据我的经验,这从来都不是问题. 这方面的信息不多,但在 docs有时会锁定,但它“允许大量并发操作." mon ..
发布时间:2022-01-14 08:12:12 其他开发

hdfs中的文件路径

我想从 Hadoop 文件系统中读取文件. 为了实现文件的正确路径,我需要hdfs的主机名和端口地址. 所以最后我的文件路径看起来像 Path path = new Path("hdfs://123.23.12.4344:9000/user/filename.txt") 现在我想知道提取 HostName = "123.23.12.4344" &端口:9000? 基本上,我想 ..
发布时间:2022-01-14 08:12:07 Java开发

Mapreduce shuffle 阶段内存不足错误

我在运行 wordcount-like mapreduce 程序时遇到奇怪的错误.我有一个有 20 个从站的 hadoop 集群,每个从站有 4 GB RAM.我将 map 任务配置为 300MB 堆,reduce 任务槽获得 1GB.我每个节点有 2 个映射槽和 1 个减少槽.一切顺利,直到第一轮地图任务完成.然后进度保持在 100%.我想那时 复制阶段 正在发生.每个地图任务都会生成如下内容: ..
发布时间:2022-01-14 08:11:42 其他开发

hadoop中的job客户端如何计算inputSplits

我正在尝试深入了解 map reduce 架构.我正在咨询这个 http://answers.oreilly.com/topic/2141-how-mapreduce-works-with-hadoop/ 文章.我对 mapreduce 框架的组件 JobClient 有一些疑问.我的问题是: JObClient 如何计算数据的输入拆分? 根据我所咨询的内容,Job Client 在运 ..
发布时间:2022-01-14 08:11:25 其他开发

如何以编程方式获取 Hadoop 在 Web 界面中显示的所有作业跟踪器和任务跟踪器信息?

我正在使用 Cloudera 的 Hadoop 发行版 CDH-0.20.2CDH3u0.有什么方法可以使用在 hadoop 框架之外运行的 JAVA 程序来获取诸如作业跟踪器状态、任务跟踪器状态、计数器之类的信息?我尝试使用 JMX 进行监听,但 hadoop 提供的有关 Jobtracker、tasktracker 和 datanode 的信息非常少.它不提供任何与运行作业状态相关的 JMX ..
发布时间:2022-01-14 08:11:17 Java开发

使用 Hadoop MapReduce 的计算语言学项目理念

我需要做一个关于计算语言学课程的项目.是否有任何有趣的“语言"问题,其数据密集程度足以使用 Hadoop map reduce.解决方案或算法应尝试分析并提供“语言"领域的一些见解.但是它应该适用于大型数据集,以便我可以使用 hadoop.我知道hadoop有一个python自然语言处理工具包. 解决方案 CL 中的一个计算密集型问题是从大型语料库中推断语义.基本思想是收集大量文本,并从它 ..
发布时间:2022-01-14 08:11:09 其他开发

如何在 couchdb 中索引多维数组

我有一个多维数组,我想用 CouchDB 编制索引(实际上是使用 Cloudant).我的用户拥有他们所属团队的列表.我想搜索以找到该团队的每个成员.所以,给我所有的用户对象,他们有一个 id 为 79d25d41d991890350af672e0b76faed 的团队对象.我试图在“Teams.id"上创建一个 json 索引,但没有成功,因为它不是一个直数组,而是一个多维数组. 用户 ..
发布时间:2022-01-14 08:10:59 其他开发

Hadoop gen1 与 Hadoop gen2

我对 tasktracker 在 Hadoop-2.x 中的位置有点困惑. Hadoop-1.x 中的守护进程是 namenode、datanode、jobtracker、taskracker 和 secondarynamenode Hadoop-2.x 中的守护进程是 namenode、datanode、resourcemanager、applicationmaster、second ..
发布时间:2022-01-14 08:10:50 其他开发

反向排序减速器键

以相反的顺序将 Map 输出键获取到减速器的最佳方法是什么?默认情况下,reducer 以键的升序接收所有键.任何帮助或评论都受到广泛赞赏. 简单来说,在正常情况下,如果 map 发出键 1,4,3,5,2,reducer 收到的键与 1,2,3,4 相同,5.我希望减速器改为接收 5,4,3,2,1. 解决方案 在 Hadoop 1.X 中,您可以使用 JobConf.setOut ..
发布时间:2022-01-14 08:10:44 Java开发

使用 MapReduce 进行排列

有没有办法使用 MapReduce 生成排列? 输入文件: 1 标题12 标题23 标题3 我的目标: 1,2 标题1,标题21,3 标题1,标题32,3 标题2,标题3 解决方案 由于文件将有 n 输入,排列应该有 n^2 输出.您可以让 n 个任务执行其中的 n 个操作,这是有道理的.我相信你可以做到这一点(假设只有一个文件): 将您的输入文件放入 Distributed ..
发布时间:2022-01-14 08:10:35 其他开发

Hadoop 分区器

我想问一下 Hadoop 分区器,它是在 Mappers 中实现的吗?如何衡量使用默认哈希分区器的性能 - 是否有更好的分区器来减少数据倾斜? 谢谢 解决方案 Partitioner 是介于 Mappers 和 Reducers 之间的关键组件.它在 Reducer 之间分发地图发出的数据. Partitioner 在每个 Map Task JVM(java 进程)中运行. ..
发布时间:2022-01-14 08:10:03 其他开发

Ravendb mapreduce 按多个字段分组

我们有一个包含流媒体视频的网站,我们希望显示上周、月和年(滚动窗口)中观看次数最多的视频的三份报告. 每次观看视频时,我们都会在 ravendb 中存储一个文档: 公共类 ViewedContent{公共字符串 ID { 获取;放;}公共 int ProductId { 获取;放;}公共日期时间日期查看{获取;放;}} 我们无法确定如何定义最能支持生成这三个报告的索引/mapreduce ..
发布时间:2022-01-14 08:09:55 C#/.NET

MapReduce阶段在哪里使用Sort,为什么?

我是这里的 hadoop 新手.目前尚不清楚为什么我们需要能够在使用 hadoop mapreduce 时按键排序?在 map 阶段之后,我们需要将每个唯一键对应的数据分发到一定数量的 reducer.这可以在不需要排序的情况下完成吗? 解决方案 它就在那里,因为排序是对你的键进行分组的巧妙技巧.当然,如果您的工作或算法不需要任何密钥顺序,那么通过一些散列技巧进行分组会更快. 在 H ..
发布时间:2022-01-14 08:09:45 其他开发

Hive 中的字数统计程序

我正在尝试学习 Hive.令人惊讶的是,我找不到如何编写简单的字数统计工作的示例.以下是正确的吗? 假设我有一个输入文件 input.tsv: 你好,世界这是一个示例输入文件 我在 Python 中创建了一个拆分器来将每一行变成单词: 导入系统对于 sys.stdin 中的行:对于 line.split() 中的单词:打印字 然后我的 Hive 脚本中有以下内容: CREATE T ..
发布时间:2022-01-14 08:09:35 其他开发

以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题,但我在 Google 上找不到答案. 我有一个 map-reduce 作业,它在其输出目录中创建多个输出文件.我的 Java 应用程序在远程 hadoop 集群上执行此作业,作业完成后,它需要使用 org.apache.hadoop.fs.FileSystem API 以编程方式读取输出.有可能吗? 应用程序知道输出目录,但不知道 map-reduce 作业生成的输出文件 ..
发布时间:2022-01-14 08:09:25 其他开发

RecordReader 在 Hadoop 中的工作

谁能解释一下 RecordReader 是如何工作的?程序开始执行后nextkeyvalue()、getCurrentkey()和getprogress()方法是如何工作的? 解决方案 (新 API):默认 Mapper 类有一个 run 方法,如下所示: public void run(Context context) throws IOException, InterruptedEx ..
发布时间:2022-01-14 08:09:00 其他开发