hdfs - IT屋-程序员软件开发技术分享社区

到主机端口22的SSH连接被拒绝

我使用的是VMware虚拟化系统。我的操作系统是Centos Release 7。我安装了hadoop2.7.1。在安装Hadoop之后，我运行了命令：#hdfs namenode -format，它运行成功。但是当我运行命令：#./start-all.sh时，它给出错误。我尝试了在互联网上看到的几个建议，但问题仍然存在 [root@MASTER sbin]# ./start-all.sh ..

发布时间：2022-03-01 18:26:48 hadoop hdfs bigdata 其他开发

我在笔记本电脑上安装了Hadoop，除DataNode外，所有服务都在运行。最初，NameNode和辅助NameNode没有运行。我在NameNode和辅助NameNode上进行了一些更改/权限，现在一切正常。 hduse@Lenovo-IdeaPad-S510p:/usr/local/hadoop/sbin$ jps 14339 NameNode 16579 Jps 15571 NodeM ..

发布时间：2022-02-27 17:55:47 apache hadoop mapreduce hdfs cloudera 服务器开发

HDFS中的电光类路径

对于在纱线(纱线客户端)上运行的电光作业，是否可以使用hdfs中的jar指定类路径有点像使用Map Reduce作业： DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs) 推荐答案来自SparkContext文档： defaddJar(路径：string) ..

发布时间：2022-02-27 17:54:43 hadoop apache-spark hdfs hadoop-yarn 其他开发

对行数、列数、文件大小是否有配置单元理论和实际限制？

我在https://cwiki.apache.org/confluence/display/Hive/Home 中找不到任何记录的限制我的猜测是没有行数或列数的限制。文件大小受文件系统的限制。通过正确划分数据，我们还可以管理文件大小和文件数量。谢谢您。推荐答案列数：在这个JIRA中，他们成功地使用15K列和20K列测试了ORC文件的OOM(使用默认的1 GB堆)。 ..

发布时间：2022-02-27 17:53:36 hadoop hive hdfs 其他开发

使用Python3与HDFS交互的最佳模块是什么？

我看到有hdfs3，蛇咬伤，还有一些其他的。哪一个是最受支持和最全面的？推荐答案据我所知，可能性并不像人们想象的那么多。但是我推荐官方的Python包hdfs 2.0.12，它可以从website下载，也可以通过运行以下命令从终端下载： pip install hdfs 部分功能： WebHDFS(和HttpFS)API的Python(2和3)绑定，同时支持安全和 ..

发布时间：2022-02-27 17:51:31 python-3.x hdfs python-hdfs 其他开发

是否将文件划分为数据块以存储在HDFS中？

我了解到HDFS中的挡路系统是位于底层文件系统之上的逻辑分区。但是，当我发出cat命令时，如何检索文件。假设我有一个1 GB的文件。我的默认HDFS挡路大小为64 MB。我发出以下命令： hadoop -fs copyFromLocal my1GBfile.db input/data/ 上述命令将文件my1GBfile.db从我的本地计算机复制到HDFS: 中的inp ..

发布时间：2022-02-27 17:49:47 hadoop hdfs hadoop2 其他开发

电光-当应用程序JAR在HDFS中时提交不起作用

我正在尝试使用bin/电光-Submit运行电光应用程序。当我在本地文件系统中引用我的应用程序JAR时，它可以工作。但是，当我将应用程序JAR复制到HDFS中的目录时，我收到以下异常：警告：跳过远程JAR hdfs://localhost:9000/user/hdfs/jars/simple-project-1.0-SNAPSHOT.jar. java.lang.ClassNotFound ..

发布时间：2022-02-27 17:48:08 hadoop apache-spark hdfs 其他开发

HDFS DFS-mkdir，没有这样的文件或目录

您好，我是Hadoop新手，正在尝试在HDFS中创建名为twitter_data的目录。我已经在SoftLayer上设置了我的虚拟机，并成功安装和启动了Hadoop。这是我尝试运行的推荐： HDFS Dfs-mkdir hdfs://localhost:9000/user/Hadoop/twitter_data 并且它不断返回此错误消息： /usr/local/had ..

发布时间：2022-02-27 17:46:59 hadoop hdfs 其他开发

在 hdfs 中重命名目录

我需要重命名 hdfs 中的目录.那命令是什么? hadoop fs -mv 上述命令将 src 文件夹移动到 dest 文件夹.而不是，我希望将 src 文件夹重命名为 dest. 解决方案重命名不在hadoop中，但是可以移动，hadoop fs -mv oldname newname ..

发布时间：2022-01-23 09:08:48 hadoop command hdfs 其他开发

如何递归列出 HDFS 的子目录?

我有一组在 HDFS 中递归创建的目录.如何列出所有目录?对于普通的 unix 文件系统，我可以使用以下命令查找/path/-type d -print 但我想为 HDFS 获得类似的东西. 解决方案递归列出目录内容可以使用 hadoop dfs -lsr/dirname 命令. 要仅过滤目录，您可以在上述命令的输出中 grep "drwx"(因为所有者对目录具有 rwx ..

发布时间：2022-01-20 17:30:54 list hadoop find hdfs 其他开发

Eclipse Hadoop 插件问题(调用 localhost/127.0.0.1:50070 )任何人都可以给我解决方案吗?

问题:Eclipse Hadoop 插件问题(本地异常调用 localhost/127.0.0.1:50070 失败:java.io.EOFException).任何机构都可以给我解决方案吗? 我正在学习 Cloudera 培训教程.其中使用 Eclipse(Helios)3.6 和 Hadoop.0.20.2-cdh3u2 版本. 我已经下载了 hadoop-eclipse-plug ..

发布时间：2022-01-16 13:07:00 hadoop eclipse-plugin hdfs 其他开发

可以在 Elasticsearch 中存储图像吗?

是否可以在 Elasticsearch 集群中存储图像?如果是，那么是否有关于工作流程的资源?我检查了以下链接:https://github.com/kzwang/elasticsearch-imagep> 由于我们必须处理大型图像文件(超过 500GB)，我们计划使用 HDFS. 解决方案将整个图像存储在 Elasticsearch 中并没有什么好处，因为如果图像被缩放/裁剪然后用作 ..

发布时间：2022-01-15 13:18:54 elasticsearch lucene hdfs 其他开发

Hadoop 错误 - 所有数据节点都在中止

我使用的是 Hadoop 2.3.0 版本.有时当我执行 Map reduce 作业时，会显示以下错误. 14/08/10 12:14:59 信息 mapreduce.Job:任务 ID:尝试_1407694955806_0002_m_000780_0，状态:失败错误:java.io.IOException:所有数据节点 192.168.30.2:50010 都是错误的.中止...在 org.a ..

发布时间：2022-01-14 08:13:08 hadoop mapreduce hdfs hadoop-yarn hadoop2 其他开发

以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题，但我在 Google 上找不到答案. 我有一个 map-reduce 作业，它在其输出目录中创建多个输出文件.我的 Java 应用程序在远程 hadoop 集群上执行此作业，作业完成后，它需要使用 org.apache.hadoop.fs.FileSystem API 以编程方式读取输出.有可能吗? 应用程序知道输出目录，但不知道 map-reduce 作业生成的输出文件 ..

发布时间：2022-01-14 08:09:25 hadoop mapreduce hdfs 其他开发

在 reudcer 类中使用全局变量

我需要在我的mapreduce程序中使用全局变量，如何在下面的代码中设置它并在reducer中使用全局变量. 公共类 tfidf{公共静态 tfidfMap.......{}公共静态 tfidfReduce ......{}公共静态无效主(字符串参数 []){配置conf=新配置()；conf.set("","");} } 解决方案模板代码可能看起来像这样(Reducer 未显示，但 ..

发布时间：2022-01-14 08:08:01 hadoop mapreduce global-variables hdfs reduce 其他开发

HDFS 文件校验和

在使用 Hadoop API - DFSCleint.getFileChecksum() 复制到 HDFS 后，我正在尝试检查文件的一致性. 我得到上述代码的以下输出: 空HDFS:空本地:空谁能指出错误或错误?这是代码: import java.io.IOException;导入 org.apache.hadoop.conf.Configuration；导入 org.apache. ..

发布时间：2022-01-14 08:03:40 java hadoop mapreduce hdfs checksum Java开发

Hadoop 框架中使用的属性的完整列表

我正在对 Hadoop 框架进行一些研究.我想问一下框架中可以使用的属性..例如 io.sort.mb io.sort.record.percent 等是否有任何参考可以让我了解这个框架的整个属性列表?非常希望有人可以帮助我. 另外，我想问一下，io.sort.mb 和 mapreduce.task.io.sort.mb 有什么区别吗?或者他们是一样的? 解决方案以下 ..

发布时间：2022-01-13 23:55:56 java hadoop dictionary mapreduce hdfs Java开发

解析数百万个小型 XML 文件

我有 1000 万个小 XML 文件(300KB-500KB).我在 Mapreduce 中使用 Mahaout 的 XML 输入格式来读取数据，并且我正在使用 SAX Parser 进行解析.但是处理速度很慢.使用输入文件的压缩(lzo)是否有助于提高性能?每个文件夹包含 80-90k xml 文件，当我启动该过程时，它会为每个文件运行映射器.有什么方法可以减少映射器的数量? 解决方案 ..

发布时间：2022-01-13 23:52:25 xml hadoop mapreduce hdfs 其他开发

是否可以限制 MapReduce 作业访问远程数据?

我们有想要与 HDFS 集成的特定算法.该算法要求我们在本地访问数据(该工作将专门在 Mapper 中完成).但是，我们确实希望在分发文件(提供可靠性和条带化)方面利用 HDFS.计算完成后，我们将使用 Reducer 简单地发回答案，而不是执行任何额外的工作.避免使用网络是一个明确的目标.是否有允许我们限制网络数据访问的配置设置，以便在启动 MapReduce 作业时它只会访问它的本地 Data ..

发布时间：2022-01-13 23:51:47 java hadoop mapreduce hdfs distributed-computing Java开发

java.sql.SQLException: 无法启动数据库 'metastore_db' 错误，同时使用 hive 初始化数据库

我在 3 个集群上安装了 Hadoop 和 Hive.我可以从运行 HIVE 的集群节点登录到 hive. root@NODE_3 hive]# hive 使用配置初始化日志记录jar:文件:/usr/lib/hive/lib/hive-common-0.10.0-cdh4.2.0.jar!/hive-log4j.properties蜂巢历史文件=/tmp/root/hive_job_log ..

发布时间：2022-01-13 23:49:07 hadoop permissions mapreduce hive hdfs 其他开发

hdfs相关内容