hdfs相关内容
检查 HDFS 上文件的一种快速方法是使用 tail: ~$ hadoop fs -tail/path/to/file 这会显示文件中最后千字节的数据,这非常有用.但是,相反的命令 head 似乎不是 shell 命令集合的一部分.我觉得这非常令人惊讶. 我的假设是,由于 HDFS 是为对非常大的文件进行非常快速的流式读取而构建的,因此存在一些影响head 的面向访问的问题.这让我犹豫要
..
yarn.scheduler.maximum-allocation-mb 和 yarn.nodemanager.resource.memory-mb 有什么区别? 我在 yarn-site.xml 中看到了这两个并且我看到了解释 此处. yarn.scheduler.maximum-allocation-mb 给出以下定义: RM 处每个容器请求的最大分配,以 MB 为单位.高于此值的
..
我已经使用本教程安装了 Hadoop 和 HDFS http://codesfusion.blogspot.com/2013/10/setup-hadoop-2x-220-on-ubuntu.html 一切都很好. 我还可以创建目录并使用它们 hadoop fs -mkdir/tmphadoop fs -mkdir/small 我也可以说 hadoop fs -ls/ 但是我正在
..
当我将 Hadoop 集群连接到 Amazon 存储并将文件下载到 HDFS 时,我发现 s3:// 不起作用.在 Internet 上寻找帮助时,我发现我可以使用 S3n.当我使用 S3n 时,它起作用了.我不明白在我的 Hadoop 集群中使用 S3 和 S3n 之间的区别,有人可以解释一下吗? 解决方案 我认为您的主要问题与将 S3 和 S3n 作为 Hadoop 的两个独立连接点有
..
它们应该相等吗? 但是,为什么“hadoop fs"命令显示hdfs files而“hdfs dfs"命令显示本地文件? 这里是hadoop版本信息: Hadoop 2.0.0-mr1-cdh4.2.1 颠覆git://ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-
..
我目前正在为基于 Web 的应用程序设计架构,该架构还应提供某种图像存储.用户将能够上传照片作为该服务的主要功能之一.同时查看这些图像将是主要用途之一(通过网络). 但是,我不确定如何在我的应用程序中实现这样一个可扩展的图像存储组件.我已经想过不同的解决方案,但由于缺少经验,我期待听到您的建议.除了图像,还必须保存元数据.以下是我的初步想法: 使用 HDFS 等(分布式)文件系统,并准
..
我已使用 hdfs 命令更改了权限.仍然显示相同的错误. HDFS 上的根目录:/tmp/hive 应该是可写的.当前权限为:-wx------ 我正在执行的 Java 程序. import java.sql.SQLException;导入 java.sql.Connection;导入 java.sql.ResultSet;导入 java.sql.Statement;导入 java.
..
我已经设置了一个单节点多用户 hadoop 集群.在我的集群中,有一个负责运行集群的管理员用户(超级用户).所有其他用户都分配了一个 hdfs 目录,例如/home/xyz,其中 xyz 是用户名. 在 unix 中,我们可以在/etc/passwd 中更改用户的默认主目录.默认情况下,用户的登陆目录是主目录. 我如何在 hadoop 中为 hdfs 文件系统执行此操作.例如,如果用户
..
基本上整个问题都在标题中.我想知道是否可以同时从多台计算机附加到位于 HDFS 上的文件?类似于存储由多个进程不断产生的事件流.顺序不重要. 我记得在 Google 的一次技术演示中听说 GFS 支持此类附加功能,但尝试使用 HDFS(使用常规文件 append() 或使用 SequenceFile)进行的一些有限测试似乎不起作用. 谢谢, 解决方案 我认为 HDFS 不可能做
..
有点奇怪的问题,但有谁知道 MapReduce 在 shuffle/sort 的排序部分使用什么样的排序?我会考虑合并或插入(与整个 MapReduce 范例保持一致),但我不确定. 解决方案 这是快速排序,之后排序的中间输出合并在一起.快速排序检查递归深度并在它太深时放弃.如果是这种情况,则使用堆排序. 看看 Quicksort 类: org.apache.hadoop.util
..
我正在尝试在 ubuntu 16.04 上安装 hadoop,但是在启动 hadoop 时它会给我以下错误 localhost: 错误:无法设置数据节点进程 32156 的优先级.启动辅助名称节点 [it-OptiPlex-3020]2017-09-18 21:13:48,343 WARN util.NativeCodeLoader:无法为您的平台加载本机 Hadoop 库...在适用的情况下使
..
可以使用 hadoop fs -ls 查找所有早于 N 天(从当前日期算起)的目录吗? 我正在尝试编写一个清理例程来查找和删除 HDFS 上的所有目录(匹配模式),这些目录是在当前日期前 N 天创建的. 解决方案 此脚本列出所有早于 [days] 的目录: #!/bin/bash用法="用法:$0 [天]"如果 [ !“$1"]然后回声$用法出口 1菲现在=$(日期+%s)hado
..
我试图用一个名称节点和四个数据节点配置 hadoop.我能够在一台机器上成功配置名称节点和作业跟踪器并将其启动. 但是在我要配置数据节点的机器上,我执行了以下操作: 我将 hadoop-2.0.0-cdh4.1.2.tar.gz 和 mr1-2.0.0-mr1-cdh4.1.2.tar.gz 解压到一个文件夹并设置主从配置. 在 master 文件中,我设置了配置为名称节点的机器的
..
我可以在 HDFS 上设置 file watcher 吗? 场景:文件不断登陆HDFS.一旦文件数量达到阈值(可以是文件数量或文件大小),我想启动Spark Job. 是否可以在 HDFS 上实现文件观察器来实现这一点.如果是,那么任何人都可以建议这样做的方法吗?有哪些不同的选择?Zookeeper 或 Oozie 可以吗? 任何帮助将不胜感激.谢谢. 解决方案 Hado
..
我想读取文件路径,而不管它们是 HDFS 还是本地文件.目前,我通过前缀为 file://的本地路径和前缀为 hdfs://的 HDFS 路径并编写如下代码 Configuration configuration = new Configuration();文件系统文件系统 = null;如果(filePath.startsWith(“hdfs://")){fileSystem = FileSy
..
我在本地文件系统上保存了 1000 多万张照片.现在我想通过它们中的每一个来分析照片的二进制文件,看看它是否是一只狗.我基本上想在集群的hadoop环境上做分析.问题是,我应该如何为 map 方法设计输入? 比如说,在 map 方法中,new FaceDetection(photoInputStream).isDog() 是分析的所有底层逻辑. 具体来说,我应该将所有照片上传到 HDFS 吗
..
我有 3 个数据节点正在运行,在运行作业时出现以下错误, java.io.IOException: 文件/user/ashsshar/olhcache/loaderMap9b663bd9 只能复制到 0 个节点而不是 minReplication (=1).有 3 个数据节点正在运行,并且在此操作中排除了 3 个节点.在 org.apache.hadoop.hdfs.server.block
..
我们都知道 Spark 在内存中进行计算.我只是对以下内容感到好奇. 如果我从 HDFS 在我的 pySpark shell 中创建 10 个 RDD,是否意味着所有这 10 个 RDD 的数据都将驻留在 Spark Workers 内存中? 如果我不删除RDD,它会永远在内存中吗? 如果我的数据集(文件)大小超过可用 RAM 大小,数据将存储在哪里? 解决方案 如果
..
我正在尝试使用以下指南在伪分布式配置中设置 Hadoop 版本 0.20.203.0: http://www.javacodegeeks.com/2012/01/hadoop-modes-explained-standalone.html 运行 start-all.sh 脚本后,我运行“jps". 我得到这个输出: 4825 NameNode5391 任务追踪器5242 工作追
..
我需要将一个文件夹从本地文件系统复制到 HDFS.我找不到任何将文件夹(包括其所有子文件夹)移动到 HDFS 的示例 $ hadoop fs -copyFromLocal/home/ubuntu/Source-Folder-To-Copy HDFS-URI 解决方案 你可以试试: hadoop fs -put/path/in/linux/hdfs/path 甚至 hadoop
..