mapreduce 第2页 - IT屋-程序员软件开发技术分享社区

MongoDB MapReduce 是否锁定数据库

MongoDB MapReduce 作业是否锁定数据库?我正在开发一个多用户 MongoDB Web 应用程序，并且担心多用户冲突和性能.有人对我有什么智慧之言吗? 解决方案简单的答案?有时... 这在很大程度上取决于您如何使用 map/reduce ...但根据我的经验，这从来都不是问题. 这方面的信息不多，但在 docs有时会锁定，但它“允许大量并发操作." mon ..

发布时间：2022-01-14 08:12:12 mongodb mapreduce 其他开发

hdfs中的文件路径

我想从 Hadoop 文件系统中读取文件. 为了实现文件的正确路径，我需要hdfs的主机名和端口地址. 所以最后我的文件路径看起来像 Path path = new Path("hdfs://123.23.12.4344:9000/user/filename.txt") 现在我想知道提取 HostName = "123.23.12.4344" &端口:9000? 基本上，我想 ..

发布时间：2022-01-14 08:12:07 java hadoop amazon-ec2 mapreduce amazon-emr Java开发

如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce?

有人可以解释 MapReduce 如何与 Cassandra .6 一起工作吗?我已经阅读了字数统计示例，但我不太了解 Cassandra 端与“客户端"端发生的情况. https://svn.apache.org/repos/asf/cassandra/trunk/contrib/word_count/ 例如，假设我正在使用 Python 和 Pycassa，我将如何加载一个新的 m ..

发布时间：2022-01-14 08:11:49 mapreduce cassandra apache-pig 其他开发

我在运行 wordcount-like mapreduce 程序时遇到奇怪的错误.我有一个有 20 个从站的 hadoop 集群，每个从站有 4 GB RAM.我将 map 任务配置为 300MB 堆，reduce 任务槽获得 1GB.我每个节点有 2 个映射槽和 1 个减少槽.一切顺利，直到第一轮地图任务完成.然后进度保持在 100%.我想那时复制阶段正在发生.每个地图任务都会生成如下内容: ..

发布时间：2022-01-14 08:11:42 hadoop mapreduce 其他开发

由于 AM Container 导致应用程序失败 2 次:以 exitCode 退出:1

我在 hadoop-2.7.0 上运行了 mapreduce 作业，但无法启动 mapreduce 作业，并且遇到了以下错误: Job job_1491779488590_0002 失败，状态为 FAILED，原因是:应用程序 application_1491779488590_0002 失败 2 次，原因是 AM Container for appattempt_1491779488590_0 ..

发布时间：2022-01-14 08:11:31 hadoop mapreduce 其他开发

hadoop中的job客户端如何计算inputSplits

我正在尝试深入了解 map reduce 架构.我正在咨询这个 http://answers.oreilly.com/topic/2141-how-mapreduce-works-with-hadoop/ 文章.我对 mapreduce 框架的组件 JobClient 有一些疑问.我的问题是: JObClient 如何计算数据的输入拆分? 根据我所咨询的内容，Job Client 在运 ..

发布时间：2022-01-14 08:11:25 hadoop mapreduce 其他开发

如何以编程方式获取 Hadoop 在 Web 界面中显示的所有作业跟踪器和任务跟踪器信息?

我正在使用 Cloudera 的 Hadoop 发行版 CDH-0.20.2CDH3u0.有什么方法可以使用在 hadoop 框架之外运行的 JAVA 程序来获取诸如作业跟踪器状态、任务跟踪器状态、计数器之类的信息?我尝试使用 JMX 进行监听，但 hadoop 提供的有关 Jobtracker、tasktracker 和 datanode 的信息非常少.它不提供任何与运行作业状态相关的 JMX ..

发布时间：2022-01-14 08:11:17 java hadoop mapreduce Java开发

使用 Hadoop MapReduce 的计算语言学项目理念

我需要做一个关于计算语言学课程的项目.是否有任何有趣的“语言"问题，其数据密集程度足以使用 Hadoop map reduce.解决方案或算法应尝试分析并提供“语言"领域的一些见解.但是它应该适用于大型数据集，以便我可以使用 hadoop.我知道hadoop有一个python自然语言处理工具包. 解决方案 CL 中的一个计算密集型问题是从大型语料库中推断语义.基本思想是收集大量文本，并从它 ..

发布时间：2022-01-14 08:11:09 hadoop mapreduce nlp 其他开发

如何在 couchdb 中索引多维数组

我有一个多维数组，我想用 CouchDB 编制索引(实际上是使用 Cloudant).我的用户拥有他们所属团队的列表.我想搜索以找到该团队的每个成员.所以，给我所有的用户对象，他们有一个 id 为 79d25d41d991890350af672e0b76faed 的团队对象.我试图在“Teams.id"上创建一个 json 索引，但没有成功，因为它不是一个直数组，而是一个多维数组. 用户 ..

发布时间：2022-01-14 08:10:59 json database mapreduce couchdb cloudant 其他开发

Hadoop gen1 与 Hadoop gen2

我对 tasktracker 在 Hadoop-2.x 中的位置有点困惑. Hadoop-1.x 中的守护进程是 namenode、datanode、jobtracker、taskracker 和 secondarynamenode Hadoop-2.x 中的守护进程是 namenode、datanode、resourcemanager、applicationmaster、second ..

发布时间：2022-01-14 08:10:50 hadoop mapreduce hadoop-yarn hadoop2 其他开发

反向排序减速器键

以相反的顺序将 Map 输出键获取到减速器的最佳方法是什么?默认情况下，reducer 以键的升序接收所有键.任何帮助或评论都受到广泛赞赏. 简单来说，在正常情况下，如果 map 发出键 1,4,3,5,2，reducer 收到的键与 1,2,3,4 相同，5.我希望减速器改为接收 5,4,3,2,1. 解决方案在 Hadoop 1.X 中，您可以使用 JobConf.setOut ..

发布时间：2022-01-14 08:10:44 java hadoop mapreduce Java开发

使用 MapReduce 进行排列

有没有办法使用 MapReduce 生成排列? 输入文件: 1 标题12 标题23 标题3 我的目标: 1,2 标题1,标题21,3 标题1,标题32,3 标题2,标题3 解决方案由于文件将有 n 输入，排列应该有 n^2 输出.您可以让 n 个任务执行其中的 n 个操作，这是有道理的.我相信你可以做到这一点(假设只有一个文件): 将您的输入文件放入 Distributed ..

发布时间：2022-01-14 08:10:35 hadoop mapreduce permutation combinations 其他开发

如何在 hadoop mapreduce/yarn 中设置 VCORES?

以下是我的配置: **mapred-site.xml**地图-mb:4096 个选项:-Xmx3072m减少-mb:8192 选择:-Xmx6144m**yarn-site.xml**资源内存-mb:40GB最小分配-mb:1GB hadoop 集群中的 Vcores 显示 8GB，但我不知道如何计算或在哪里配置它. 希望有人可以帮助我. 解决方案简答如果您只是在单 ..

发布时间：2022-01-14 08:10:25 hadoop mapreduce hadoop-yarn hcatalog 其他开发

如何在 mongoose/mongodb 查询子文档中使用 mapreduce?

我在mongoose/mongodb中实现了一个简单的消息系统，架构如下 var schema = new mongoose.Schema({用户:{type:String, required:true},更新:{类型:日期，默认:新日期()}，msgs: [ {m:String,//消息本身d:Date,//消息日期s: String,//消息发送者r:Boolean//是否读取}],}); ..

发布时间：2022-01-14 08:10:16 node.js mongodb mapreduce mongoose 其他开发

Hadoop 分区器

我想问一下 Hadoop 分区器，它是在 Mappers 中实现的吗?如何衡量使用默认哈希分区器的性能 - 是否有更好的分区器来减少数据倾斜? 谢谢解决方案 Partitioner 是介于 Mappers 和 Reducers 之间的关键组件.它在 Reducer 之间分发地图发出的数据. Partitioner 在每个 Map Task JVM(java 进程)中运行. ..

发布时间：2022-01-14 08:10:03 hadoop mapreduce partitioner 其他开发

Ravendb mapreduce 按多个字段分组

我们有一个包含流媒体视频的网站，我们希望显示上周、月和年(滚动窗口)中观看次数最多的视频的三份报告. 每次观看视频时，我们都会在 ravendb 中存储一个文档: 公共类 ViewedContent{公共字符串 ID { 获取；放;}公共 int ProductId { 获取；放;}公共日期时间日期查看{获取；放;}} 我们无法确定如何定义最能支持生成这三个报告的索引/mapreduce ..

发布时间：2022-01-14 08:09:55 c# mapreduce ravendb C#/.NET

MapReduce阶段在哪里使用Sort，为什么?

我是这里的 hadoop 新手.目前尚不清楚为什么我们需要能够在使用 hadoop mapreduce 时按键排序?在 map 阶段之后，我们需要将每个唯一键对应的数据分发到一定数量的 reducer.这可以在不需要排序的情况下完成吗? 解决方案它就在那里，因为排序是对你的键进行分组的巧妙技巧.当然，如果您的工作或算法不需要任何密钥顺序，那么通过一些散列技巧进行分组会更快. 在 H ..

发布时间：2022-01-14 08:09:45 hadoop mapreduce 其他开发

Hive 中的字数统计程序

我正在尝试学习 Hive.令人惊讶的是，我找不到如何编写简单的字数统计工作的示例.以下是正确的吗? 假设我有一个输入文件 input.tsv: 你好，世界这是一个示例输入文件我在 Python 中创建了一个拆分器来将每一行变成单词: 导入系统对于 sys.stdin 中的行:对于 line.split() 中的单词:打印字然后我的 Hive 脚本中有以下内容: CREATE T ..

发布时间：2022-01-14 08:09:35 mapreduce hive 其他开发

以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题，但我在 Google 上找不到答案. 我有一个 map-reduce 作业，它在其输出目录中创建多个输出文件.我的 Java 应用程序在远程 hadoop 集群上执行此作业，作业完成后，它需要使用 org.apache.hadoop.fs.FileSystem API 以编程方式读取输出.有可能吗? 应用程序知道输出目录，但不知道 map-reduce 作业生成的输出文件 ..

发布时间：2022-01-14 08:09:25 hadoop mapreduce hdfs 其他开发

RecordReader 在 Hadoop 中的工作

谁能解释一下 RecordReader 是如何工作的?程序开始执行后nextkeyvalue()、getCurrentkey()和getprogress()方法是如何工作的? 解决方案 (新 API):默认 Mapper 类有一个 run 方法，如下所示: public void run(Context context) throws IOException, InterruptedEx ..

发布时间：2022-01-14 08:09:00 hadoop mapreduce 其他开发

mapreduce相关内容