hdfs 第4页 - IT屋-程序员软件开发技术分享社区

尝试写入 hdfs 时出错:服务器 IPC 版本 9 无法与客户端版本 4 通信

我正在尝试使用 scala 将文件写入 hdfs，但我不断收到以下错误 Caused by: org.apache.hadoop.ipc.RemoteException: 服务器 IPC 版本 9 无法与客户端版本 4 通信在 org.apache.hadoop.ipc.Client.call(Client.java:1113)在 org.apache.hadoop.ipc.RPC$Invoke ..

发布时间：2021-12-15 19:25:00 scala hadoop hdfs 其他开发

带通配符的 Hadoop HDFS 副本?

我想将特定模式的文件从 hdfs 中复制到同一个 hdfs 集群中的另一个位置.dfs shell 似乎无法处理这个: hadoop dfs -cp/tables/weblog/server=jeckle/webapp.log.1*/tables/tinylog/server=jeckle/ 没有返回错误:也没有文件被复制. 解决方案你需要在包含通配符的路径中使用双引号，像这样: ..

发布时间：2021-12-15 19:24:20 hadoop copy hdfs 其他开发

使用命令行查找 hdfs 分布式文件中的总行数

我正在研究一个集群，其中数据集以分布式方式保存在 hdfs 中.这是我所拥有的: [hmi@bdadev-5 ~]$ hadoop fs -ls/bdatest/clm/data/找到 1840 项-rw-r--r-- 3 bda 超级组 0 2015-08-11 00:32/bdatest/clm/data/_SUCCESS-rw-r--r-- 3 bda 超群 34404390 2015-0 ..

发布时间：2021-12-15 19:23:25 unix hadoop apache-spark hdfs 服务器开发

只能复制到 0 个节点而不是 minReplication (=1).有 4 个数据节点正在运行，此操作中未排除任何节点

我不知道如何解决这个错误: 顶点失败，vertexName = initialmap，vertexId = vertex_1449805139484_0001_1_00，诊断= [任务失败，的TaskID = task_1449805139484_0001_1_00_000003，诊断= [AttemptID:attempt_1449805139484_0001_1_00_000003_0信息: ..

发布时间：2021-12-15 19:21:25 hadoop hdfs hadoop-yarn hadoop2 apache-tez 其他开发

在 Spark 中写入和读取原始字节数组 - 使用 Sequence File SequenceFile

如何使用 Apache Spark 将 RDD[Array[Byte]] 写入文件并再次读取? 解决方案常见问题似乎是奇怪的无法将异常从 BytesWritable 转换为 NullWritable.另一个常见的问题是 BytesWritable getBytes 是一堆完全没有意义的废话，根本没有得到字节.getBytes 所做的是获取您的字节，而不是在最后添加大量零！你必须使用 co ..

发布时间：2021-12-15 19:21:14 scala hadoop hdfs apache-spark sequencefile 其他开发

如何将文件放到特定节点?

是否可以告诉 HDFS 在哪里存储特定文件? 用例我刚刚将第 1 批文件加载到 HDFS 中，并且想要对这些数据运行作业/应用程序.但是，我还有第 2 批仍待加载.如果我可以在第一批上运行作业/应用程序，比如从 1 到 10 的节点，并将新数据加载到节点，比如 11 到 20，完全并行，那就太好了. 最初我认为 NameNode federation (Hadoop 2.x) ..

发布时间：2021-12-15 19:20:19 hadoop hdfs 其他开发

文件何时“可拆分"?

当我使用 spark 时，我有时会遇到 HIVE 表中的一个大文件，有时我试图处理一个 HIVE 表中的许多小文件. 我了解在调整 Spark 作业时，其工作方式取决于文件是否可拆分.在这个来自 cloudera 的页面，它说我们应该知道文件是否可拆分: ...例如，如果您的数据到达几个不可拆分的大文件... 我如何知道我的文件是否可拆分? 如果文件是可拆分的，我如何知道 ..

发布时间：2021-12-15 19:19:51 hadoop apache-spark hive hdfs file-format 其他开发

为什么 hadoop 不能拆分一个大的文本文件，然后使用 gzip 压缩拆分?

我最近一直在研究 hadoop 和 HDFS.当您将文件加载到 HDFS 中时，它通常会将文件拆分为 64MB 的块并将这些块分布在您的集群中.除非它不能对 gzip 文件执行此操作，因为无法拆分 gzip 文件.我完全理解为什么会这样(我不需要任何人解释为什么不能拆分 gzip 文件).但是为什么 HDFS 不能将纯文本文件作为输入并正常拆分，然后分别使用 gzip 压缩每个拆分?当访问任何拆分 ..

发布时间：2021-12-15 19:19:20 compression hadoop gzip hdfs 其他开发

无法在 HIVE 中创建表从 HDFS 读取 CSV

我在通过从 HDFS 读取 .csv 文件在 Hive 中创建表时遇到问题.查询如下: CREATE EXTERNAL TABLE testmail (memberId String , email String, sentdate String,actiontype String, actiondate String, campaignid String,campaignname String ..

发布时间：2021-12-15 19:18:35 hadoop hive hdfs 其他开发

“hadoop namenode -format"返回一个 java.net.UnknownHostException

我目前正在学习 hadoop，我正在尝试设置 http://hadoop.apache.org/common/docs/current/single_node_setup.html 我已经配置了 ssh(我可以不用密码登录). 我的服务器在我们的内部网上，在代理后面. 当我尝试跑步时 bin/hadoop namenode -format 我收到以下 java.net ..

发布时间：2021-12-15 19:16:55 java configuration hadoop hdfs Java开发

将目录从本地系统复制到 hdfs java 代码

我在尝试使用 Java 代码将目录从本地系统复制到 HDFS 时遇到问题.我能够移动单个文件，但无法找到移动包含子文件夹和文件的整个目录的方法.任何人都可以帮助我吗?提前致谢. 解决方案只需使用 FileSystem 的 copyFromLocalFile 方法.如果源路径是本地目录，它将被复制到 HDFS 目标: ...配置 conf = 新配置()；conf.addResource ..

发布时间：2021-12-15 19:15:18 java hadoop hdfs Java开发

配置错误:namenode地址dfs.namenode.rpc-address没有配置

当我尝试启动 DataNode 时出现此错误.根据我的阅读，RPC 参数仅用于 HA 配置，我没有设置(我认为). 2014-05-18 18:05:00,589 INFO [main] impl.MetricsSystemImpl (MetricsSystemImpl.java:shutdown(572)) - DataNode 指标系统关闭完成.2014-05-18 18:05:00,589 ..

发布时间：2021-12-15 19:14:54 hadoop hdfs cloudera-cdh 其他开发

是否可以在没有 HDFS 的伪分布式操作中运行 Hadoop?

我正在探索在本地系统上运行 hadoop 应用程序的选项. 与许多应用程序一样，前几个版本应该能够在单个节点上运行，只要我们可以使用所有可用的 CPU 内核(是的，这与这个问题).当前的限制是，在我们的生产系统上，我们有 Java 1.5，因此我们必须将 Hadoop 0.18.3 作为最新版本(参见这个问题).所以很遗憾，我们还不能使用这个新功能. 第一个选项是在伪分布式模式下简 ..

发布时间：2021-12-15 19:12:50 hadoop mapreduce local-storage hdfs 其他开发

Hadoop HDFS - 无法连接到主端口

我已经建立了一个小型 Hadoop 集群进行测试.NameNode(1 台机器)、SecondaryNameNode (1) 和所有 DataNodes (3) 的设置进行得相当顺利.这些机器被命名为“master"、“secondary"和“data01"、“data02"和“data03".所有 DNS 都已正确设置，并且无密码 SSH 配置为从主/辅助到所有机器并返回. 我使用bin/ ..

发布时间：2021-12-15 19:10:59 networking hadoop port hdfs 其他开发

Hadoop 中的校验和验证

在我们通过 Webhdfs 将文件从 Linux 服务器移动到 Hadoop (HDFS) 后，我们是否需要验证校验和? 我想确保 HDFS 上的文件在复制后没有损坏.但是有必要检查校验和吗? 在数据写入 HDFS 之前，我读取客户端进行校验和有人可以帮助我了解如何确保 Linux 系统上的源文件与使用 webhdfs 的 Hdfs 上的摄取文件相同. 解决方案如果您 ..

发布时间：2021-12-15 19:10:42 hadoop hdfs checksum 其他开发

在hadoop中查看文件的块数

如何查看一个文件在 Hadoop 文件系统中被分成了多少块? 解决方案我们可以使用 hadoop 文件系统检查命令来了解特定文件的块. 下面是命令: hadoop fsck [路径] [选项] 查看特定文件的块: hadoop fsck/path/to/file -files -blocks ..

发布时间：2021-12-15 19:09:41 hadoop hdfs 其他开发

将数据写入 Hadoop

我需要将数据从 Windows 框等外部来源写入 Hadoop (HDFS).现在我一直在将数据复制到 namenode 并使用 HDFS 的 put 命令将其摄取到集群中.在我浏览代码时，我没有看到用于执行此操作的 API.我希望有人能告诉我我错了，并且有一种简单的方法可以针对 HDFS 对外部客户端进行编码. 解决方案安装 Cygwin，在本地安装 Hadoop(您只需要指向 NN ..

发布时间：2021-12-15 19:05:57 hadoop hdfs 其他开发

如何在hadoop的新目录中解压缩.gz文件?

我在 hdfs 的文件夹中有一堆 .gz 文件.我想将所有这些 .gz 文件解压缩到 hdfs 中的一个新文件夹中.我该怎么做? 解决方案我可以想到通过 3 种不同的方式来实现. 使用 Linux 命令行以下命令对我有用. hadoop fs -cat/tmp/Links.txt.gz |gzip -d |hadoop fs -put -/tmp/unzipped/L ..

发布时间：2021-12-15 19:05:47 hadoop hdfs gzip 其他开发

未使用 DFS 究竟是什么意思?

这是我最近在 Web UI 上看到的配置容量:232.5 GB使用的 DFS:112.44 GB非 DFS 使用:119.46 GBDFS 剩余:613.88 MB已使用 DFS % : 48.36 %剩余 DFS % : 0.26 % 而且我很困惑，非 dfs Used 占用了一半以上的容量，我认为这意味着一半的 hadoop 存储空间被浪费了在无意义的搜索之后，我只是格 ..

发布时间：2021-12-15 19:04:45 hadoop hdfs 其他开发

hadoop fs -ls 导致“没有这样的文件或目录"；

我已经为 10 节点集群安装并配置了 Hadoop 2.5.2.1 作为主节点，其他节点作为从节点. 我在执行 hadoop fs 命令时遇到问题.hadoop fs -ls 命令与 HDFS URI 一起工作正常.在没有 HDFS URI 的情况下使用时，它会给出消息“ls: `.': No such file or directory" ubuntu@101-master:~$ had ..

发布时间：2021-12-15 19:04:37 hadoop uri hdfs 其他开发

hdfs相关内容