hadoop相关内容

用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop map reduce 处理一些保存在 Amazon Dynamo DB 中的数据. 我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat,但找不到.我不熟悉 Dynamo DB,所以我猜有一些与 DynamoDB 和 Hadoop 相关的技巧?如果有这种输入格式的实现,你能分享一下吗? 解决方案 经过大量搜索,我在 Amazon 的 ..

是否可以在一个 JVM 中运行多个地图任务?

我想在 Hadoop 中为我的地图任务共享大量内存静态数据(RAM lucene 索引)?有没有办法让多个 map/reduce 任务共享同一个 JVM? 解决方案 通过指定作业配置mapred.job.reuse.jvm.num.tasks,作业可以使任务JVM被重用.如果值为 1(默认值),则不重用 JVM(即每个 JVM 1 个任务).如果为 -1,则 JVM 可以运行(同一个作业) ..
发布时间:2022-01-15 13:01:32 其他开发

即时搜索 PB 级数据

我需要在 CSV 格式文件中搜索超过 PB 的数据.使用 LUCENE 建立索引后,索引文件的大​​小是原始文件的两倍.是否可以减少索引文件的大​​小???HADOOP中如何分发LUCENE索引文件以及如何在搜索环境中使用?还是有必要,我应该使用 solr 来分发 LUCENE 索引吗???我的要求是对 PB 的文件进行即时搜索.... 解决方案 任何体面的现成搜索引擎(如 Lucene) ..
发布时间:2022-01-15 12:48:16 Java开发

搜索存储在 Hadoop 中的文档 - 使用哪个工具?

我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI... 当您阅读有关该工具的信息时,您通常可以确定其他工具中的每一个都会被提及. 我不希望您向我解释每个工具 - 当然不会.如果您可以帮助我针对我的特定场景缩小此设置范围,那就太好了.到目前为止,我不确定以上哪一个适合,而且看 ..
发布时间:2022-01-15 12:46:55 其他开发

Hadoop 流作业在 Python 中失败(不成功)

我正在尝试使用 Python 脚本在 Hadoop Streaming 上运行 Map-Reduce 作业,并遇到与 Hadoop Streaming Job failed error in python 但这些解决方案对我不起作用. 当我运行“cat sample.txt | ./p1mapper.py | sort | ./p1reducer.py"时,我的脚本运行良好 但是当我运 ..
发布时间:2022-01-14 08:13:51 Python

如何知道 HDFS 中添加了新数据?

我正在实现一个基于发布订阅模型的通知系统,以在数据到达/加载到 HDFS 时通知数据的可用性.我没有找到在哪里寻找这个的方法.是否有任何 HDFS API 可用于执行此操作,或者我应该使用什么方法来获取写入 HDFS 的新数据的信息?我正在使用 Hadoop v2.0.2,我不想使用 HCatalog,我想实现自己的工具来执行此操作. 解决方案 你要找的是Oozie Coordinator ..
发布时间:2022-01-14 08:13:31 其他开发

Hadoop Map Reduce 用于 Google 网络图

我们的任务是创建 map reduce 函数,该函数将为 google web 图表中的每个节点 n 输出可以从节点 n 在 3 跳内到达的节点.(实际数据可以在这里找到:http://snap.stanford.edu/data/web-Google.html)这是列表中项目的示例: 1 21 32 43 43 54 14 54 65 6 从上面的示例图表将是这个 在上面的简化示例中, ..
发布时间:2022-01-14 08:13:21 Java开发

fetcher#1 中随机播放的 Hadoop 错误

我正在 hadoop 中运行解析作业,源是一个 11GB 的地图文件,其中大约有 900,000 条二进制记录,每个记录代表一个 HTML 文件,地图提取链接并将它们写入上下文.我没有为这项工作编写减速器. 当我在较小的文件(大约 5GB 和大约 500,000 条记录)上运行它时,它可以正常工作. 这是一个单机集群 输出有大约 1 亿条记录,TEXT 在计划的 200 个地图任务中有 ..
发布时间:2022-01-14 08:12:49 其他开发

Hive Buckets-了解TABLESAMPLE(BUCKET X OUT OF Y)

嗨,我对 hive 非常陌生,我已经在 hadoop 中了解了桶的概念,但未能理解以下几行.有人可以帮助我吗? SELECT avg(viewTime)FROM page_view TABLESAMPLE(32 个中的第 1 个); TABLESAMPLE 的一般语法是表格样本(桶 x 超出 y) 查询的样本量约为 1/y.此外,y 需要是在创建表时为表指定的桶数的倍数或因子.例如,如果 ..
发布时间:2022-01-14 08:12:38 其他开发

在 HBase 中删除多行的有效方法

是否有一种有效的方法可以删除 HBase 中的多行,或者我的用例闻起来不适合 HBase? 有一个表格叫做“图表",其中包含图表中的项目.行键采用以下格式:chart|date_reversed|ranked_attribute_value_reversed|content_id 有时我想为给定日期重新生成图表,所以我想删除从“chart|date_reversed_1"到“chart ..
发布时间:2022-01-14 08:12:32 其他开发

hdfs中的文件路径

我想从 Hadoop 文件系统中读取文件. 为了实现文件的正确路径,我需要hdfs的主机名和端口地址. 所以最后我的文件路径看起来像 Path path = new Path("hdfs://123.23.12.4344:9000/user/filename.txt") 现在我想知道提取 HostName = "123.23.12.4344" &端口:9000? 基本上,我想 ..
发布时间:2022-01-14 08:12:07 Java开发

Mapreduce shuffle 阶段内存不足错误

我在运行 wordcount-like mapreduce 程序时遇到奇怪的错误.我有一个有 20 个从站的 hadoop 集群,每个从站有 4 GB RAM.我将 map 任务配置为 300MB 堆,reduce 任务槽获得 1GB.我每个节点有 2 个映射槽和 1 个减少槽.一切顺利,直到第一轮地图任务完成.然后进度保持在 100%.我想那时 复制阶段 正在发生.每个地图任务都会生成如下内容: ..
发布时间:2022-01-14 08:11:42 其他开发

hadoop中的job客户端如何计算inputSplits

我正在尝试深入了解 map reduce 架构.我正在咨询这个 http://answers.oreilly.com/topic/2141-how-mapreduce-works-with-hadoop/ 文章.我对 mapreduce 框架的组件 JobClient 有一些疑问.我的问题是: JObClient 如何计算数据的输入拆分? 根据我所咨询的内容,Job Client 在运 ..
发布时间:2022-01-14 08:11:25 其他开发

如何以编程方式获取 Hadoop 在 Web 界面中显示的所有作业跟踪器和任务跟踪器信息?

我正在使用 Cloudera 的 Hadoop 发行版 CDH-0.20.2CDH3u0.有什么方法可以使用在 hadoop 框架之外运行的 JAVA 程序来获取诸如作业跟踪器状态、任务跟踪器状态、计数器之类的信息?我尝试使用 JMX 进行监听,但 hadoop 提供的有关 Jobtracker、tasktracker 和 datanode 的信息非常少.它不提供任何与运行作业状态相关的 JMX ..
发布时间:2022-01-14 08:11:17 Java开发

使用 Hadoop MapReduce 的计算语言学项目理念

我需要做一个关于计算语言学课程的项目.是否有任何有趣的“语言"问题,其数据密集程度足以使用 Hadoop map reduce.解决方案或算法应尝试分析并提供“语言"领域的一些见解.但是它应该适用于大型数据集,以便我可以使用 hadoop.我知道hadoop有一个python自然语言处理工具包. 解决方案 CL 中的一个计算密集型问题是从大型语料库中推断语义.基本思想是收集大量文本,并从它 ..
发布时间:2022-01-14 08:11:09 其他开发

Hadoop gen1 与 Hadoop gen2

我对 tasktracker 在 Hadoop-2.x 中的位置有点困惑. Hadoop-1.x 中的守护进程是 namenode、datanode、jobtracker、taskracker 和 secondarynamenode Hadoop-2.x 中的守护进程是 namenode、datanode、resourcemanager、applicationmaster、second ..
发布时间:2022-01-14 08:10:50 其他开发