hdfs相关内容

带通配符的 Hadoop HDFS 副本?

我想将特定模式的文件从 hdfs 中复制到同一个 hdfs 集群中的另一个位置.dfs shell 似乎无法处理这个: hadoop dfs -cp/tables/weblog/server=jeckle/webapp.log.1*/tables/tinylog/server=jeckle/ 没有返回错误:也没有文件被复制. 解决方案 你需要在包含通配符的路径中使用双引号,像这样: ..
发布时间:2021-12-15 19:24:20 其他开发

在 Spark 中写入和读取原始字节数组 - 使用 Sequence File SequenceFile

如何使用 Apache Spark 将 RDD[Array[Byte]] 写入文件并再次读取? 解决方案 常见问题似乎是奇怪的无法将异常从 BytesWritable 转换为 NullWritable.另一个常见的问题是 BytesWritable getBytes 是一堆完全没有意义的废话,根本没有得到字节.getBytes 所做的是获取您的字节,而不是在最后添加大量零!你必须使用 co ..
发布时间:2021-12-15 19:21:14 其他开发

如何将文件放到特定节点?

是否可以告诉 HDFS 在哪里存储特定文件? 用例 我刚刚将第 1 批文件加载到 HDFS 中,并且想要对这些数据运行作业/应用程序.但是,我还有第 2 批仍待加载.如果我可以在第一批上运行作业/应用程序,比如从 1 到 10 的节点,并将新数据加载到节点,比如 11 到 20,完全并行,那就太好了. 最初我认为 NameNode federation (Hadoop 2.x) ..
发布时间:2021-12-15 19:20:19 其他开发

文件何时“可拆分"?

当我使用 spark 时,我有时会遇到 HIVE 表中的一个大文件,有时我试图处理一个 HIVE 表中的许多小文件. 我了解在调整 Spark 作业时,其工作方式取决于文件是否可拆分.在这个 来自 cloudera 的页面,它说我们应该知道文件是否可拆分: ...例如,如果您的数据到达几个不可拆分的大文件... 我如何知道我的文件是否可拆分? 如果文件是可拆分的,我如何知道 ..
发布时间:2021-12-15 19:19:51 其他开发

为什么 hadoop 不能拆分一个大的文本文件,然后使用 gzip 压缩拆分?

我最近一直在研究 hadoop 和 HDFS.当您将文件加载到 HDFS 中时,它通常会将文件拆分为 64MB 的块并将这些块分布在您的集群中.除非它不能对 gzip 文件执行此操作,因为无法拆分 gzip 文件.我完全理解为什么会这样(我不需要任何人解释为什么不能拆分 gzip 文件).但是为什么 HDFS 不能将纯文本文件作为输入并正常拆分,然后分别使用 gzip 压缩每个拆分?当访问任何拆分 ..
发布时间:2021-12-15 19:19:20 其他开发

无法在 HIVE 中创建表从 HDFS 读取 CSV

我在通过从 HDFS 读取 .csv 文件在 Hive 中创建表时遇到问题.查询如下: CREATE EXTERNAL TABLE testmail (memberId String , email String, sentdate String,actiontype String, actiondate String, campaignid String,campaignname String ..
发布时间:2021-12-15 19:18:35 其他开发

将目录从本地系统复制到 hdfs java 代码

我在尝试使用 Java 代码将目录从本地系统复制到 HDFS 时遇到问题.我能够移动单个文件,但无法找到移动包含子文件夹和文件的整个目录的方法.任何人都可以帮助我吗?提前致谢. 解决方案 只需使用 FileSystem 的 copyFromLocalFile 方法.如果源路径是本地目录,它将被复制到 HDFS 目标: ...配置 conf = 新配置();conf.addResource ..
发布时间:2021-12-15 19:15:18 Java开发

是否可以在没有 HDFS 的伪分布式操作中运行 Hadoop?

我正在探索在本地系统上运行 hadoop 应用程序的选项. 与许多应用程序一样,前几个版本应该能够在单个节点上运行,只要我们可以使用所有可用的 CPU 内核(是的,这与 这个问题).当前的限制是,在我们的生产系统上,我们有 Java 1.5,因此我们必须将 Hadoop 0.18.3 作为最新版本(参见 这个问题).所以很遗憾,我们还不能使用这个新功能. 第一个选项是在伪分布式模式下简 ..
发布时间:2021-12-15 19:12:50 其他开发

Hadoop HDFS - 无法连接到主端口

我已经建立了一个小型 Hadoop 集群进行测试.NameNode(1 台机器)、SecondaryNameNode (1) 和所有 DataNodes (3) 的设置进行得相当顺利.这些机器被命名为“master"、“secondary"和“data01"、“data02"和“data03".所有 DNS 都已正确设置,并且无密码 SSH 配置为从主/辅助到所有机器并返回. 我使用bin/ ..
发布时间:2021-12-15 19:10:59 其他开发

Hadoop 中的校验和验证

在我们通过 Webhdfs 将文件从 Linux 服务器移动到 Hadoop (HDFS) 后,我们是否需要验证校验和? 我想确保 HDFS 上的文件在复制后没有损坏.但是有必要检查校验和吗? 在数据写入 HDFS 之前,我读取客户端进行校验和 有人可以帮助我了解如何确保 Linux 系统上的源文件与使用 webhdfs 的 Hdfs 上的摄取文件相同. 解决方案 如果您 ..
发布时间:2021-12-15 19:10:42 其他开发

在hadoop中查看文件的块数

如何查看一个文件在 Hadoop 文件系统中被分成了多少块? 解决方案 我们可以使用 hadoop 文件系统检查命令来了解特定文件的块. 下面是命令: hadoop fsck [路径] [选项] 查看特定文件的块: hadoop fsck/path/to/file -files -blocks ..
发布时间:2021-12-15 19:09:41 其他开发

将数据写入 Hadoop

我需要将数据从 Windows 框等外部来源写入 Hadoop (HDFS).现在我一直在将数据复制到 namenode 并使用 HDFS 的 put 命令将其摄取到集群中.在我浏览代码时,我没有看到用于执行此操作的 API.我希望有人能告诉我我错了,并且有一种简单的方法可以针对 HDFS 对外部客户端进行编码. 解决方案 安装 Cygwin,在本地安装 Hadoop(您只需要指向 NN ..
发布时间:2021-12-15 19:05:57 其他开发

如何在hadoop的新目录中解压缩.gz文件?

我在 hdfs 的文件夹中有一堆 .gz 文件.我想将所有这些 .gz 文件解压缩到 hdfs 中的一个新文件夹中.我该怎么做? 解决方案 我可以想到通过 3 种不同的方式来实现. 使用 Linux 命令行 以下命令对我有用. hadoop fs -cat/tmp/Links.txt.gz |gzip -d |hadoop fs -put -/tmp/unzipped/L ..
发布时间:2021-12-15 19:05:47 其他开发

未使用 DFS 究竟是什么意思?

这是我最近在 Web UI 上看到的 配置容量:232.5 GB使用的 DFS:112.44 GB非 DFS 使用:119.46 GBDFS 剩余:613.88 MB已使用 DFS % : 48.36 %剩余 DFS % : 0.26 % 而且我很困惑,非 dfs Used 占用了一半以上的容量, 我认为这意味着一半的 hadoop 存储空间被浪费了 在无意义的搜索之后,我只是格 ..
发布时间:2021-12-15 19:04:45 其他开发

hadoop fs -ls 导致“没有这样的文件或目录";

我已经为 10 节点集群安装并配置了 Hadoop 2.5.2.1 作为主节点,其他节点作为从节点. 我在执行 hadoop fs 命令时遇到问题.hadoop fs -ls 命令与 HDFS URI 一起工作正常.在没有 HDFS URI 的情况下使用时,它会给出消息“ls: `.': No such file or directory" ubuntu@101-master:~$ had ..
发布时间:2021-12-15 19:04:37 其他开发