hdfs相关内容

Hadoop中的Amazon S3和S3n之间的差异

当我将Hadoop集群连接到Amazon存储并将文件下载到HDFS时,发现 s3:// 不起作用。当在互联网上寻找一些帮助时,我发现我可以使用 S3n 。当我使用 S3n 时,它工作。我不明白使用 S3 和 S3n 与我的Hadoop集群之间的区别,有人可以解释吗? 解决方案 我认为您的主要问题与 S3 和 S3n 作为Hadoop的两个独立连接点。 s3n:// 表示“一个常规文件,可从 ..
发布时间:2018-05-31 18:32:32 分布式计算/Hadoop

与其他格式相比,实木复合地板格式有哪些优缺点?

Apache Parquet的特点是: 自我描述 列式格式 与语言无关 与Avro,Sequence File,RC File等相比,的格式。我已阅读: Impala如何与Hadoop文件格式配合使用,它提供了关于格式的一些见解,但我想知道如何访问数据&数据存储以每种格式完成。 我认为我可以描述的主要区别与记录导向和列导向有关格式。面向记录的格式是我们都习惯的格式 - 文本文件,C ..
发布时间:2018-05-31 18:32:29 分布式计算/Hadoop

可伸缩图像存储

我目前正在为基于网络的应用程序设计架构,该架构还应提供某种图像存储。用户将能够上传照片作为服务的关键功能之一。同时查看这些图像将成为主要用途之一(通过网页)。不过,我不确定如何在我的应用程序中实现这样一个可伸缩的图像存储组件。我已经考虑过不同的解决方案,但由于缺少经验,我期待听到您的建议。除了图像之外,还必须保存元数据。 这是我最初的想法:使用(分布式)文件系统(如HDFS)并将专用的Web服务 ..
发布时间:2018-05-31 18:32:21 分布式计算/Hadoop

Hadoop 2.0数据写入操作确认

在下面的图片中,当写确认被视为成功时? 1)将数据写入第一个数据节点? 2)将数据写入第一个数据节点+其他数据节点? 我在问这个问题,因为我在YouTube视频中听到两个相互冲突的声明。一个视频报道说,一旦数据被写入一个数据节点&其他的视频报道,只有在向所有三个节点写入数据后才会发送确认信息。 第1步客户端通过调用DistributedFileSystem上的create( ..
发布时间:2018-05-31 18:31:40 分布式计算/Hadoop

HDFS主目录

我已经设置了单节点多用户hadoop集群。 在我的群集中,有一个负责运行群集的管理员用户(超级用户)。所有其他用户都分配了一个hdfs目录,如/ home / xyz,其中xyz是用户名。 在unix中,我们可以在/ etc中更改用户的默认主目录/ passwd文件。默认情况下,用户的登录目录是主目录。 我如何在hdfs文件系统的hadoop中执行此操作。 我想举个例子,如果用户在 ..

从java中删除hdfs文件夹

在边缘节点上运行的Java应用程序中,如果存在,我需要删除一个hdfs文件夹。我需要在运行mapreduce作业(包含spark)并输出到该文件夹​​之前执行此操作。 我发现我可以使用该方法 org.apache.hadoop.fs.FileUtil.fullyDelete(new File(url)) url =“hdfs:// hdfshost:port / th ..
发布时间:2018-05-31 18:31:10 Java开发

是否可以从多个客户端并行追加到HDFS文件?

基本上整个问题都在标题中。我想知道是否可以同时从多台计算机追加到位于HDFS上的文件?就像存储由多个进程不断产生的事件流一样。订单并不重要。我记得听说过Google的一个技术演示文稿,GFS支持这种附加功能,但尝试使用HDFS进行一些有限的测试(无论是使用常规文件追加( )或使用SequenceFile)似乎并不奏效。 谢谢, 解决方案 我认为HDFS不可能这样做。即使你不关心记录的 ..
发布时间:2018-05-31 18:30:35 分布式计算/Hadoop

MapReduce混洗/排序方法

有点奇怪的问题,但是有人知道MapReduce在shuffle / sort的排序部分中使用了什么类型的排序吗?我认为合并或插入(符合整个MapReduce范例),但我不确定。之后,将排序的中间输出合并在一起。 Quicksort检查递归深度,并在其太深时放弃。如果是这种情况,则使用Heapsort。 查看Quicksort类: org.apache .hadoop.util.Qu ..
发布时间:2018-05-31 18:30:27 分布式计算/Hadoop

在hdfs(namenode)中使用的名称空间和元数据的含义是什么?

作为hadoop的初学者,我对这些单词命名空间和元数据感到困惑。这两者之间是否有任何关系?根据'Hadoop权威指南' - “NameNode管理文件系统命名空间”。它维护树中所有文件和目录的文件系统树和元数据。“ 本质上,名称空间表示一个容器。在这种情况下,它意味着文件名称分组或层次结构。元数据包含诸如文件所有者,权限位,块位置,大小等内容。 ..
发布时间:2018-05-31 18:30:17 分布式计算/Hadoop

HDFS默认在本地存储文件的位置?

我正在运行带有单节点集群的默认配置的hadoop,并希望找到HDFS在本地存储文件的位置。 任何想法? 谢谢。 解决方案 您需要查看 hdfs-default。用于 dfs.data.dir 设置的配置文件。默认设置是: $ {hadoop.tmp.dir} / dfs / data ,并注意$ {hadoop.tmp.dir}实际上是在core-default.xml中描述的 ..
发布时间:2018-05-31 18:30:07 分布式计算/Hadoop

没有配置dfs.namenode.servicerpc-address或dfs.namenode.rpc-address

我试图用一个名称节点和四个数据节点配置hadoop。我能够在一台机器上成功配置名称节点和作业跟踪器,并启动它。 但是在要配置数据节点的机器上,我做了以下内容: 我将 hadoop-2.0.0-cdh4.1.2.tar.gz 和 mr1-2.0.0-mr1-cdh4.1.2.tar.gz 放入一个文件夹中,并使用主站和从站设置配置。 在 master 文件中,我设置了配置为名称节点的机 ..
发布时间:2018-05-31 18:30:00 分布式计算/Hadoop

Hadoop输入的最佳可拆分压缩= bz2?

我们已经意识到,将GZip格式的文件归档为Hadoop处理并不是一个好主意。 GZip不可拆分,以供参考,以下是我不再重复的问题: Hadoop gzip压缩文件 Hadoop gzip输入文件只使用一个映射器 为什么不能hadoop分割大文本文件,然后使用gzip压缩分割? 我的问题是:BZip2是最好的档案压缩方式,它允许Hadoop并行处理单个档案文件? Gzip绝对不是,从 ..
发布时间:2018-05-31 18:29:45 分布式计算/Hadoop

如何列出目录中的所有文件及其在hadoop hdfs中的子目录

我在hdfs中有一个文件夹,它有两个子文件夹,每个文件夹都有大约30个子文件夹,最后每个文件夹都包含xml文件。 我想列出只给出主文件夹路径的所有xml文件。 在本地我可以通过 apache commons-io的 FileUtils.listFiles()来实现。 我已经试过了这个 FileStatus [] status = fs.listStatus(new Path(args ..
发布时间:2018-05-31 18:29:32 分布式计算/Hadoop

hadoop fs -put和hadoop fs -copyFromLocal之间的区别

-put 和 -copyFromLocal 记录为相同,而大多数示例使用详细变量-copyFromLocal。为什么? -get 和 -copyToLocal 解决方案 copyFromLocal 类似于 em>命令,除了源仅限于本地文件引用。 可以使用放入,而不是使用 copyFromLocal ,但反之亦然。 / p> copyToLocal 与 get 命令类 ..
发布时间:2018-05-31 18:29:14 分布式计算/Hadoop

HDFS中的大块大小!未使用的空间如何计算?

我们都知道,与传统文件系统中的块大小相比,HDFS中的块大小相当大(64M或128M)。这样做是为了减少搜索时间的百分比与传输时间的比较(传输速率的提高比磁盘搜索时间的提高要大得多,因此设计文件系统时的目标总是减少与要传输的数据量相比的搜索数量)。但是这带来了内部碎片的另一个缺点(这就是为什么传统文件系统块大小不是很高,并且只有几KB的量级 - 通常是4K或8K)。 我正在阅读本书 - 权威 ..
发布时间:2018-05-31 18:29:06 分布式计算/Hadoop

Hadoop:如何访问(许多)要由map / reduce处理的照片图像?

我在本地文件系统上保存了10M以上的照片。现在我想通过其中的每一个来分析照片的二进制文件,看它是否是一只狗。我基本上想要对集群hadoop环境进行分析。问题是,我应该如何为map方法设计输入?。比方说,在map方法中, new FaceDetection(photoInputStream).isDog()是分析的基础逻辑。 具体来说, 我应该将所有照片上传到 HDFS ?假设是, ..
发布时间:2018-05-31 18:29:04 分布式计算/Hadoop