hdfs相关内容

到主机端口22的SSH连接被拒绝

我使用的是VMware虚拟化系统。我的操作系统是Centos Release 7。我安装了hadoop2.7.1。在安装Hadoop之后,我运行了命令:#hdfs namenode -format,它运行成功。但是当我运行命令:#./start-all.sh时,它给出错误。我尝试了在互联网上看到的几个建议,但问题仍然存在 [root@MASTER sbin]# ./start-all.sh ..
发布时间:2022-03-01 18:26:48 其他开发

Hadoop DataNode未运行

我在笔记本电脑上安装了Hadoop,除DataNode外,所有服务都在运行。最初,NameNode和辅助NameNode没有运行。我在NameNode和辅助NameNode上进行了一些更改/权限,现在一切正常。 hduse@Lenovo-IdeaPad-S510p:/usr/local/hadoop/sbin$ jps 14339 NameNode 16579 Jps 15571 NodeM ..
发布时间:2022-02-27 17:55:47 服务器开发

HDFS中的电光类路径

对于在纱线(纱线客户端)上运行的电光作业,是否可以使用hdfs中的jar指定类路径 有点像使用Map Reduce作业: DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs) 推荐答案 来自SparkContext文档: defaddJar(路径:string) ..
发布时间:2022-02-27 17:54:43 其他开发

对行数、列数、文件大小是否有配置单元理论和实际限制?

我在https://cwiki.apache.org/confluence/display/Hive/Home 中找不到任何记录的限制 我的猜测是没有行数或列数的限制。文件大小受文件系统的限制。通过正确划分数据,我们还可以管理文件大小和文件数量。 谢谢您。 推荐答案 列数: 在这个JIRA中,他们成功地使用15K列和20K列测试了ORC文件的OOM(使用默认的1 GB堆)。 ..
发布时间:2022-02-27 17:53:36 其他开发

使用Python3与HDFS交互的最佳模块是什么?

我看到有hdfs3,蛇咬伤,还有一些其他的。哪一个是最受支持和最全面的? 推荐答案 据我所知,可能性并不像人们想象的那么多。但是我推荐官方的Python包hdfs 2.0.12,它可以从website下载,也可以通过运行以下命令从终端下载: pip install hdfs 部分功能: WebHDFS(和HttpFS)API的Python(2和3)绑定, 同时支持安全和 ..
发布时间:2022-02-27 17:51:31 其他开发

是否将文件划分为数据块以存储在HDFS中?

我了解到HDFS中的挡路系统是位于底层文件系统之上的逻辑分区。 但是,当我发出cat命令时,如何检索文件。 假设我有一个1 GB的文件。我的默认HDFS挡路大小为64 MB。 我发出以下命令: hadoop -fs copyFromLocal my1GBfile.db input/data/ 上述命令将文件my1GBfile.db从我的本地计算机复制到HDFS: 中的inp ..
发布时间:2022-02-27 17:49:47 其他开发

电光-当应用程序JAR在HDFS中时提交不起作用

我正在尝试使用bin/电光-Submit运行电光应用程序。当我在本地文件系统中引用我的应用程序JAR时,它可以工作。但是,当我将应用程序JAR复制到HDFS中的目录时,我收到以下异常: 警告:跳过远程JAR hdfs://localhost:9000/user/hdfs/jars/simple-project-1.0-SNAPSHOT.jar. java.lang.ClassNotFound ..
发布时间:2022-02-27 17:48:08 其他开发

HDFS DFS-mkdir,没有这样的文件或目录

您好,我是Hadoop新手,正在尝试在HDFS中创建名为twitter_data的目录。 我已经在SoftLayer上设置了我的虚拟机,并成功安装和启动了Hadoop。 这是我尝试运行的推荐: HDFS Dfs-mkdir hdfs://localhost:9000/user/Hadoop/twitter_data 并且它不断返回此错误消息: /usr/local/had ..
发布时间:2022-02-27 17:46:59 其他开发

在 hdfs 中重命名目录

我需要重命名 hdfs 中的目录.那命令是什么? hadoop fs -mv 上述命令将 src 文件夹移动到 dest 文件夹.而不是,我希望将 src 文件夹重命名为 dest. 解决方案 重命名不在hadoop中,但是可以移动,hadoop fs -mv oldname newname ..
发布时间:2022-01-23 09:08:48 其他开发

如何递归列出 HDFS 的子目录?

我有一组在 HDFS 中递归创建的目录.如何列出所有目录?对于普通的 unix 文件系统,我可以使用以下命令 查找/path/-type d -print 但我想为 HDFS 获得类似的东西. 解决方案 递归列出目录内容可以使用 hadoop dfs -lsr/dirname 命令. 要仅过滤目录,您可以在上述命令的输出中 grep "drwx"(因为所有者对目录具有 rwx ..
发布时间:2022-01-20 17:30:54 其他开发

可以在 Elasticsearch 中存储图像吗?

是否可以在 Elasticsearch 集群中存储图像?如果是,那么是否有关于工作流程的资源?我检查了以下链接:https://github.com/kzwang/elasticsearch-imagep> 由于我们必须处理大型图像文件(超过 500GB),我们计划使用 HDFS. 解决方案 将整个图像存储在 Elasticsearch 中并没有什么好处,因为如果图像被缩放/裁剪然后用作 ..
发布时间:2022-01-15 13:18:54 其他开发

以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题,但我在 Google 上找不到答案. 我有一个 map-reduce 作业,它在其输出目录中创建多个输出文件.我的 Java 应用程序在远程 hadoop 集群上执行此作业,作业完成后,它需要使用 org.apache.hadoop.fs.FileSystem API 以编程方式读取输出.有可能吗? 应用程序知道输出目录,但不知道 map-reduce 作业生成的输出文件 ..
发布时间:2022-01-14 08:09:25 其他开发

在 reudcer 类中使用全局变量

我需要在我的mapreduce程序中使用全局变量,如何在下面的代码中设置它并在reducer中使用全局变量. 公共类 tfidf{公共静态 tfidfMap.......{}公共静态 tfidfReduce ......{}公共静态无效主(字符串参数 []){配置conf=新配置();conf.set("","");} } 解决方案 模板代码可能看起来像这样(Reducer 未显示,但 ..
发布时间:2022-01-14 08:08:01 其他开发

HDFS 文件校验和

在使用 Hadoop API - DFSCleint.getFileChecksum() 复制到 HDFS 后,我正在尝试检查文件的一致性. 我得到上述代码的以下输出: 空HDFS:空本地:空 谁能指出错误或错误?这是代码: import java.io.IOException;导入 org.apache.hadoop.conf.Configuration;导入 org.apache. ..
发布时间:2022-01-14 08:03:40 Java开发

Hadoop 框架中使用的属性的完整列表

我正在对 Hadoop 框架进行一些研究.我想问一下框架中可以使用的属性..例如 io.sort.mb io.sort.record.percent 等 是否有任何参考可以让我了解这个框架的整个属性列表?非常希望有人可以帮助我. 另外,我想问一下,io.sort.mb 和 mapreduce.task.io.sort.mb 有什么区别吗?或者他们是一样的? 解决方案 以下 ..
发布时间:2022-01-13 23:55:56 Java开发

解析数百万个小型 XML 文件

我有 1000 万个小 XML 文件(300KB-500KB).我在 Mapreduce 中使用 Mahaout 的 XML 输入格式来读取数据,并且我正在使用 SAX Parser 进行解析.但是处理速度很慢.使用输入文件的压缩(lzo)是否有助于提高性能?每个文件夹包含 80-90k xml 文件,当我启动该过程时,它会为每个文件运行映射器.有什么方法可以减少映射器的数量? 解决方案 ..
发布时间:2022-01-13 23:52:25 其他开发

是否可以限制 MapReduce 作业访问远程数据?

我们有想要与 HDFS 集成的特定算法.该算法要求我们在本地访问数据(该工作将专门在 Mapper 中完成).但是,我们确实希望在分发文件(提供可靠性和条带化)方面利用 HDFS.计算完成后,我们将使用 Reducer 简单地发回答案,而不是执行任何额外的工作.避免使用网络是一个明确的目标.是否有允许我们限制网络数据访问的配置设置,以便在启动 MapReduce 作业时它只会访问它的本地 Data ..
发布时间:2022-01-13 23:51:47 Java开发