hadoop相关内容

与蜂巢,S3,EMR和恢复分区加载数据

解决的:查看下面的更新#2的“解决方案”这个问题 ~~~~~~~ 在S3中,我存储在一个嵌套的目录结构像一些日志*。广州文件: S3://($桶)/ Y = 2012 / M = 11 / D = 09 / H = 10 / 我试图弹性的Map Reduce(EMR)加载到这些配置单元,采用了多层次的分区规范,如: 创建外部表日志(内容字符串) 由(Y串中,M串,D弦,H字符串) ..

Amazon S3的架构

但后@ 我的一些猜测是 在像HDFS分布式文件系统 在一个非关系型数据库持久喜欢的CouchDB http://couchdb.apache.org/ 时,才有可能实现类似于此的使用脚本语言如Python或PHP的规模要小得多的东西? 解决方案 亚马逊S3采用在迪纳摩论文中描述的体系结构实现: 本文介绍了一致性哈希,以及如何和为什么的保障是“最终一致性”。 冲突解决他们谈论迪纳摩不会暴 ..
发布时间:2015-12-01 10:27:59 云存储

运行在泊坞窗容器Hadoop集群

我想运行一个多节点的Hadoop集群,以泊坞窗容器内的每个节点在不同主机上。此图片 - https://github.com/sequenceiq/hadoop-docker 行之有效开始的Hadoop在伪分布式模式,什么是修改这在不同的容器中的每个节点单独的EC2主机上的最简单的方法是什么? 解决方案 我这样做是对两个不同的ubuntu主机上运行的主从节点两个容器。我没有用编织容器之间的联网 ..
发布时间:2015-12-01 10:24:45 云存储

在HDFS文件路径

我想读取Hadoop的文件系统中。 为了实现文件的正确路径,我需要的主机名和端口地址 HDFS 。 所以最后文件我前进的道路看起来像 路径path =新路径(“HDFS://123.23.12.4344:9000 /用户/ FILENAME.TXT”) 现在我想知道提取的主机名=“123.23.12.4344”&放大器;端口:9000 基本上,我想访问文件系统在Amazon E ..
发布时间:2015-12-01 10:16:57 Java开发

从HDFS到S3 Hadoop的复制

我已经成功地完成了象夫矢量化工作在Amazon EMR(使用的 Mahout的弹性麻​​preduce 作为参考)。现在,我想从HDFS结果复制到S3(使用它在未来的集群)。 对于我使用Hadoop的DistCp使用: 书房@ AWS:〜$弹性-MA preduce --jar S3://elasticma$p$pduce/samples/distcp/distcp.jar \ > -- ..
发布时间:2015-12-01 10:16:06 云存储

我怎样才能从本地的Hadoop 2.6的安装进入S3 / S3N?

我试图重现一个Amazon EMR集群上我的本地机器。为此,我已经安装的Hadoop的最新的稳定版本的现在 - 2.6.0 。 现在我想访问的S3存储,因为我做的EMR集群内。 我已经在核心site.xml中添加的AWS凭据: <性> <名称>&fs.s3.awsAccessKeyId LT; /名称> <价值>有的ID< /值GT; & ..
发布时间:2015-12-01 10:15:21 云存储

与复制的本地数据到HDFS使用Amazon EC2 / S3 Hadoop集群上的问题

我已经安装包含在Amazon EC2上5个节点的Hadoop集群。现在,当我登录到主节点,并提交以下命令 斌/ Hadoop的罐子<程序>的.jar< ARG1> < ARG2> <路径/要/输入/文件/上/ S3> 这引发以下错误的第一个错误被抛出时,我不取代“%2F”,第二斜线被抛出时,我用“%2F”替换它们(而不是在同一时间。): ..
发布时间:2015-12-01 10:15:20 云存储

在Hadoop的Amazon S3和S3N的区别

当我连我的Hadoop集群亚马逊的存储和下载文件到HDFS,我发现S3://没有工作,但看在互联网上的一些帮助,我发现我可以使用S3N所以当我用S3N它的工作。我不明白,使用S3或S3N我的Hadoop集群之间的不同,有人能解释一下吗? 解决方案 我认为具有S3和S3N两个独立的连接点的Hadoop你的主要问题是有关。 S3N://意思是“一个普通文件,从外界可读的,在这个S3 URL”。 S ..
发布时间:2015-12-01 10:13:45 云存储

获得[否剩余空间设备和QUOT;约。 10 GB的电子病历m1.large实例数据

我得到一个错误“没有剩余空间的设备”时,我使用m1.large作为实例类型必须由jobflow创建Hadoop的实例上运行我的亚马逊电子病历工作。这项工作产生约。 10 GB的在最大和由于m1.large实例的容量数据的应该是420GB * 2(根据: EC2实例类型的)。我很困惑10GB的数据怎么只是可能导致“磁盘空间已满”样的消息。我知道的可能性,也可以产生这种错误的,如果我们已经完全耗尽允许 ..

HDFS错误:只能被复制到0的节点,而不是1

我创建了一个EC2 Ubuntu的单个节点的Hadoop集群。 测试一个简单的文件上传到HDFS从EC2机的工作原理,但是从机器EC2之外不起作用。 我可以通过从远程计算机的Web界面浏览文件系统,它显示了其报告为服务的一个数据节点。已经打开了所有的TCP端口的安全性,从0到60000(!),所以我不认为这是。 我得到的错误 java.io.IOException异常:文件/用户/ Ub ..
发布时间:2015-12-01 10:10:54 云存储

所有对在图上的所有路径

这是可能与可能没有最优解的一个问题。假设我有一个有向图,不知道是否有任何循环或没有(周期检测将是这个问题的一个方面)。给定一组顶点(可能是数以百万计的顶点),我需要计算所有的所有独特的对给定的图形之间的不同的路径(没有重复的顶点路径)。我将如何去应对这种情况? 让我们看一个暴力的方式来做到这一点: 计算从图中所有可能的对。 对于每一对图形使用DFS让所有的路径,从源到 目的地。 假设对重 ..
发布时间:2015-11-30 21:44:45 C/C++

Hadoop的/马preduce - 优化"前N"字数马preduce招聘

我正在做类似的规范麻preduce例如东西 - 字数,但在一个扭曲我期待只得到了前N 的结果。 比方说,我有一个非常大集在HDFS文本数据。有很多,显示如何建立一个Hadoop的麻preduce工作,将为您提供在该文本每一个字一个字计数的例子。例如,如果我的文集是: “这是测试数据的测试和一个很好的测试此” 结果与标准麻preduce字数职位设置是: 测试:3,:2,这样的:2是: ..
发布时间:2015-11-30 16:22:14 C/C++

如何实现特征值计算与马preduce / Hadoop的?

这是可能的,因为PageRank的是特征值的一种形式,这就是为什么马云preduce介绍。但似乎在实际执行中的问题,如每个从机必须保持矩阵副本? 解决方案 的PageRank通过反复查找网络的稳态离散流量条件解决的主要特征向量的问题。 如果N×M的矩阵A从节点n介绍的链接权重(量流)为节点m,那么 P_ {N + 1} = A。 P_ {N} 在其中p已经收敛到稳定状态(P_N ..
发布时间:2015-11-30 16:12:01 C/C++

马preduce替代品

是否有任何其他规范马云preduce(谷歌,Hadoop的)?有没有其他合理的方式如何分割和放大器;合并大的问题? 解决方案 明确。退房,例如,散装同步并行。的Map / Reduce其实是在降低的问题非常有限的方式,但这种限制使得它像Hadoop的框架管理。现在的问题是,如果它是麻烦少了preSS您的问题到的Map / Reduce设置,或者如果它更容易地创建一个特定领域的并行方式,和考虑到 ..
发布时间:2015-11-30 15:55:18 C/C++

Hadoop的GZIP COM pressed文件

我是新来的Hadoop,并试图处理维基百科转储。这是一个6.7 GB的gzip COM pressed XML文件。我读了Hadoop的支持gzip的COM pressed文件,但只能通过映射在一个工作作为唯一一个映射器DECOM preSS它处理。这似乎把一个限制的处理。是否有别的选择吗?像DECOM pressing和拆分XML文件分成多个块,RECOM $ P $用gzip pssing他们 ..
发布时间:2015-11-30 14:18:17 Java开发

如何马云preduce排序算法的工作?

其中之一就是用于展示的马preduce电源的主要例子是要我简单地排序包括确定在相对于所有其他元素的元素的相对位置。所以排序涉及比较“一切”与“一切”。你平均的排序算法(快速,泡沫,...)简单地做这一个聪明的办法。 在我的脑海里分裂的数据集成许多碎片意味着你可以按单件,然后你还是要这些作品融入“完整的”完全分类的数据集。考虑到TB级数据集分布在数千我希望这是一项艰巨的任务系统。 那么这是怎么真 ..
发布时间:2015-11-30 13:45:58 C/C++

可以蛮力算法的规模有多大?

我有我解决的试验和错误(我认为这就是所谓的蛮力)一道数学题,并且程序正常工作时,有几个选择,但我添加更多的变量/数据需要更长的时间和更长运行 我的问题是,虽然,工程样机,这是与成千上万的变量和大型数据集的有用的;所以,我不知道是否有可能扩大蛮力算法。我如何能接近缩放呢? 我开始学习和玩 Hadoop的(和的 HBase的);虽然它看起来很有希望,我想验证我想要做的也不是不可能的。 如果有帮助 ..
发布时间:2015-11-30 13:32:42 C/C++

Hortonworks的用户创建失败密码不符合密码策略要求

尝试安装Hadoop的Hortonworks 2.0.6.0 GA版。 安装失败,安装日志文件包含以下错误 CREATE-用户失败:异常调用“SetInfo”和“0”的说法(S):“密码不符合密码策略要求检查最小密码长度,密码复杂性和密码历史要求。 我已经仔细对比,这样的密码是不相似的用户名。 密码是1Lifepo4 全部日志 WINPKG:登录到现有的日志C:\ Had ..

Hadoop和图像的3D渲染

我必须做出一个项目分布在3D图像的渲染。我可以使用标准的算法。这样做的目的是要学习的hadoop而不是图像处理。因此,任何一个可以建议我应该用什么语言C ++或Java和一些标准实现了3D渲染。任何其他帮助将是非常有用的。 解决方案 Hadoop的使用的Map / Reduce 对于其数据处理功能。该数据被分成可管理的块来处理(映射阶段),然后重新组合,给出的结果(reduce阶段)。 有数 ..
发布时间:2015-11-28 12:00:04 其他开发