hdfs相关内容
我使用的是VMware虚拟化系统。我的操作系统是Centos Release 7。我安装了hadoop2.7.1。在安装Hadoop之后,我运行了命令:#hdfs namenode -format,它运行成功。但是当我运行命令:#./start-all.sh时,它给出错误。我尝试了在互联网上看到的几个建议,但问题仍然存在 [root@MASTER sbin]# ./start-all.sh
..
我在笔记本电脑上安装了Hadoop,除DataNode外,所有服务都在运行。最初,NameNode和辅助NameNode没有运行。我在NameNode和辅助NameNode上进行了一些更改/权限,现在一切正常。 hduse@Lenovo-IdeaPad-S510p:/usr/local/hadoop/sbin$ jps 14339 NameNode 16579 Jps 15571 NodeM
..
对于在纱线(纱线客户端)上运行的电光作业,是否可以使用hdfs中的jar指定类路径 有点像使用Map Reduce作业: DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs) 推荐答案 来自SparkContext文档: defaddJar(路径:string)
..
我在https://cwiki.apache.org/confluence/display/Hive/Home 中找不到任何记录的限制 我的猜测是没有行数或列数的限制。文件大小受文件系统的限制。通过正确划分数据,我们还可以管理文件大小和文件数量。 谢谢您。 推荐答案 列数: 在这个JIRA中,他们成功地使用15K列和20K列测试了ORC文件的OOM(使用默认的1 GB堆)。
..
我看到有hdfs3,蛇咬伤,还有一些其他的。哪一个是最受支持和最全面的? 推荐答案 据我所知,可能性并不像人们想象的那么多。但是我推荐官方的Python包hdfs 2.0.12,它可以从website下载,也可以通过运行以下命令从终端下载: pip install hdfs 部分功能: WebHDFS(和HttpFS)API的Python(2和3)绑定, 同时支持安全和
..
我了解到HDFS中的挡路系统是位于底层文件系统之上的逻辑分区。 但是,当我发出cat命令时,如何检索文件。 假设我有一个1 GB的文件。我的默认HDFS挡路大小为64 MB。 我发出以下命令: hadoop -fs copyFromLocal my1GBfile.db input/data/ 上述命令将文件my1GBfile.db从我的本地计算机复制到HDFS: 中的inp
..
我正在尝试使用bin/电光-Submit运行电光应用程序。当我在本地文件系统中引用我的应用程序JAR时,它可以工作。但是,当我将应用程序JAR复制到HDFS中的目录时,我收到以下异常: 警告:跳过远程JAR hdfs://localhost:9000/user/hdfs/jars/simple-project-1.0-SNAPSHOT.jar. java.lang.ClassNotFound
..
您好,我是Hadoop新手,正在尝试在HDFS中创建名为twitter_data的目录。 我已经在SoftLayer上设置了我的虚拟机,并成功安装和启动了Hadoop。 这是我尝试运行的推荐: HDFS Dfs-mkdir hdfs://localhost:9000/user/Hadoop/twitter_data 并且它不断返回此错误消息: /usr/local/had
..
我需要重命名 hdfs 中的目录.那命令是什么? hadoop fs -mv 上述命令将 src 文件夹移动到 dest 文件夹.而不是,我希望将 src 文件夹重命名为 dest. 解决方案 重命名不在hadoop中,但是可以移动,hadoop fs -mv oldname newname
..
我有一组在 HDFS 中递归创建的目录.如何列出所有目录?对于普通的 unix 文件系统,我可以使用以下命令 查找/path/-type d -print 但我想为 HDFS 获得类似的东西. 解决方案 递归列出目录内容可以使用 hadoop dfs -lsr/dirname 命令. 要仅过滤目录,您可以在上述命令的输出中 grep "drwx"(因为所有者对目录具有 rwx
..
问题:Eclipse Hadoop 插件问题(本地异常调用 localhost/127.0.0.1:50070 失败:java.io.EOFException).任何机构都可以给我解决方案吗? 我正在学习 Cloudera 培训教程.其中使用 Eclipse(Helios)3.6 和 Hadoop.0.20.2-cdh3u2 版本. 我已经下载了 hadoop-eclipse-plug
..
是否可以在 Elasticsearch 集群中存储图像?如果是,那么是否有关于工作流程的资源?我检查了以下链接:https://github.com/kzwang/elasticsearch-imagep> 由于我们必须处理大型图像文件(超过 500GB),我们计划使用 HDFS. 解决方案 将整个图像存储在 Elasticsearch 中并没有什么好处,因为如果图像被缩放/裁剪然后用作
..
我使用的是 Hadoop 2.3.0 版本.有时当我执行 Map reduce 作业时,会显示以下错误. 14/08/10 12:14:59 信息 mapreduce.Job:任务 ID:尝试_1407694955806_0002_m_000780_0,状态:失败错误:java.io.IOException:所有数据节点 192.168.30.2:50010 都是错误的.中止...在 org.a
..
这可能是一个基本问题,但我在 Google 上找不到答案. 我有一个 map-reduce 作业,它在其输出目录中创建多个输出文件.我的 Java 应用程序在远程 hadoop 集群上执行此作业,作业完成后,它需要使用 org.apache.hadoop.fs.FileSystem API 以编程方式读取输出.有可能吗? 应用程序知道输出目录,但不知道 map-reduce 作业生成的输出文件
..
我需要在我的mapreduce程序中使用全局变量,如何在下面的代码中设置它并在reducer中使用全局变量. 公共类 tfidf{公共静态 tfidfMap.......{}公共静态 tfidfReduce ......{}公共静态无效主(字符串参数 []){配置conf=新配置();conf.set("","");} } 解决方案 模板代码可能看起来像这样(Reducer 未显示,但
..
在使用 Hadoop API - DFSCleint.getFileChecksum() 复制到 HDFS 后,我正在尝试检查文件的一致性. 我得到上述代码的以下输出: 空HDFS:空本地:空 谁能指出错误或错误?这是代码: import java.io.IOException;导入 org.apache.hadoop.conf.Configuration;导入 org.apache.
..
我正在对 Hadoop 框架进行一些研究.我想问一下框架中可以使用的属性..例如 io.sort.mb io.sort.record.percent 等 是否有任何参考可以让我了解这个框架的整个属性列表?非常希望有人可以帮助我. 另外,我想问一下,io.sort.mb 和 mapreduce.task.io.sort.mb 有什么区别吗?或者他们是一样的? 解决方案 以下
..
我有 1000 万个小 XML 文件(300KB-500KB).我在 Mapreduce 中使用 Mahaout 的 XML 输入格式来读取数据,并且我正在使用 SAX Parser 进行解析.但是处理速度很慢.使用输入文件的压缩(lzo)是否有助于提高性能?每个文件夹包含 80-90k xml 文件,当我启动该过程时,它会为每个文件运行映射器.有什么方法可以减少映射器的数量? 解决方案
..
我们有想要与 HDFS 集成的特定算法.该算法要求我们在本地访问数据(该工作将专门在 Mapper 中完成).但是,我们确实希望在分发文件(提供可靠性和条带化)方面利用 HDFS.计算完成后,我们将使用 Reducer 简单地发回答案,而不是执行任何额外的工作.避免使用网络是一个明确的目标.是否有允许我们限制网络数据访问的配置设置,以便在启动 MapReduce 作业时它只会访问它的本地 Data
..
我在 3 个集群上安装了 Hadoop 和 Hive.我可以从运行 HIVE 的集群节点登录到 hive. root@NODE_3 hive]# hive 使用配置初始化日志记录jar:文件:/usr/lib/hive/lib/hive-common-0.10.0-cdh4.2.0.jar!/hive-log4j.properties蜂巢历史文件=/tmp/root/hive_job_log
..