分布式计算/Hadoop

无法将文件复制到HDFS

我有HDSF问题。 我无法复制任何文件,但是DataNodes中有足够的空间? 也许我有一些不好的配置? 解决方案 您应该提供具体的细节,例如您得到的例外,您遵循的步骤等等,因为您根本没有指定任何信息,我会说检查配置文件,以确保你有相应的文件中的所有条目: 在core-site.xml中,你应该有 fs.default.name ..
发布时间:2018-06-01 12:49:19 分布式计算/Hadoop

Hadoop 2.6.0 TestDFSIO基准

所以我建立了一个hadoop 2.6.0群集,我想运行一个基准来测试读写吞吐量。我一直在阅读可以使用TestDFSIO执行此操作的地方,但我无法找到在Hadoop 2.6.0版上运行此程序的方法。有人知道如何运行这个测试,或者是另一种方法吗? 解决方案 HiBench有一个DFSIO的实现。您可以点击此处找到HiBench。 ..
发布时间:2018-06-01 12:48:54 分布式计算/Hadoop

Hadoop-Hive |在Hive中将单行列转换为多行

创建日期ID1姓名1年龄1性别1姓名2 ID2年龄2性别2 ID3姓名3年龄3性别3 ... 2014-02-01 1 ABC 21 M MNP 2 22 F 3 XYZ 25 M 2015-06-06 11 LMP 31 F PLL 12 42 M 13 UIP 37 F 此表可能有任何编号。重复设置4列对。这4列的顺序也不是固定的,可能有1或2个列不重复,像creat ..
发布时间:2018-06-01 12:48:51 分布式计算/Hadoop

Sqoop导入 - 源表模式更改

假设在任何关系数据库中都有一个名为T1的表,其中包含100列以上的表。我将sqoop作为CSV导入到HDFS中。 现在,表格T1中增加了10列。如果我将这些数据导入到HDFS中,新数据将会有比以前多10个列。 问题: sqoop如何排序正在导入的列,以便旧数据和新数据(至少在T1中更改之前的列)处于正确的位置? 如果某列被删除会怎么样?如何处理这种情况,即旧数据和新数据如何保留位 ..
发布时间:2018-06-01 12:48:46 分布式计算/Hadoop

K表示集群mahout

我试图对csv文件格式的示例数据集进行聚类。但是,当我给出下面的命令时, user @ ubuntu:/ usr / local / mahout / trunk $ bin / mahout kmeans - i / root / Mahout / temp / parsedtext-seqdir-sparse-kmeans / tfidf-vectors / -c / root / ..
发布时间:2018-06-01 12:48:41 分布式计算/Hadoop

Spark map / Filter抛出java.io.IOException:换行之前的字节太多:2147483648

我有一个简单的文件,大小为7 GB,其中包含由| .I分隔的两列的每行都创建了此文件的RDD,但是当我在此RDD上使用映射或过滤器转换时,我得到的太多字节异常。 / b> 下面是我的文件中的示例数据。 116010100000000007 | 33448 116010100000000014 | 13520 116010100000000021 | 97132 116 ..
发布时间:2018-06-01 12:48:36 分布式计算/Hadoop

从减速器输出文件读取

我有一些MapReduce作业,我想在Java代码中进一步使用Reducer的输出文件。如何从这样的文件中读取数据,因为它位于分布式文件系统上? 谢谢 解决方案 由于您想在简单的java代码中进一步使用Reducer的输出文件,因此您可以使用以下代码: - $ / $> $ b $ `try { Path pt = new Path(“hdfs://npvm11.np.wc1.y ..
发布时间:2018-06-01 12:48:24 分布式计算/Hadoop

如何在Windows 7 32位的Ubuntu 14.04 64位虚拟机上安装Big Data Hadoop

我有一台Windows 7 32位笔记本电脑,我想在Ubuntu 64位上练习Hadoop。我尝试了很多方法,但无法安装/运行Hadoop,因为它需要64位Ubuntu操作系统。如何在Windows 32位笔记本电脑上安装它? 解决方案 美好的一天, 最后,我成功地在我的 Windows 7 32位上运行 Ubuntu 64位VM ,并在Ubuntu中安装了 Hadoop / p> ..
发布时间:2018-06-01 12:48:22 分布式计算/Hadoop

无法找到或加载主类M - hadoop窗口

我是hadoop的新手,我试图在windows 10上设置hadoop。我从Apache网站下载了hadoop 2.7.3 tar.gz版本。这些是我已经完成的步骤: 将tar.gz解压缩到C:\ ---> C:\\ \\ hadoop 创建并设置HADOOP_HOME环境变量为C:\ haddoop 通过添加C:\ haddoop \\ \\ bin 添加JAVA_HOME环境变量并 ..
发布时间:2018-06-01 12:47:55 分布式计算/Hadoop

Hadoop环境变量

我试图在Mac上调试单个节点Hadoop集群的一些问题。在所有的设置文档中,它说要添加: export HADOOP_OPTS =“ - Djava.security.krb5.realm = OX.AC .UK -Djava.security.krb5.kdc = kdc0.ox.ac.uk:kdc1.ox.ac.uk“ 删除此错误: 无法从SCDynamicSt ..
发布时间:2018-06-01 12:46:22 分布式计算/Hadoop

标量只能用于PIG中的投影

标量只能用于投影我使用foreach时出现这个错误。我该如何解决这个错误?我如何在foreach中使用LIMIT?请提前建议一些 。 编辑(Tichdroma):从评论中复制代码 A = LOAD'part-r-00000'; G = A组乘以($ 0,$ 2); Y = foreach G生成FLATTEN(组),FLATTEN($ 1); sorted =订购Y $ ..
发布时间:2018-06-01 12:45:56 分布式计算/Hadoop

哈多普Nanenode不会开始

如果您通过我之前的问题访问此链接:在Linux上安装hadoop2.2.0(NameNode无法启动) 你可能知道!我一直在尝试为hadoop-2.2.0运行单节点模式很长一段时间:D 如果没有访问它,你会发现:) 2014-05-31 15:44:20,587错误org.apache.hadoop.hdfs.server.namenode.NameNode:java.lang.I ..
发布时间:2018-06-01 12:45:54 分布式计算/Hadoop

如何设置OutputCommitter配置?

我有一个使用JobClient提交作业的mapreduce代码。我一直得到这个空指针错误堆栈 12/12/10 12:42:44信息mapred.LocalJobRunner:OutputCommitter set in config null null 线程“main”中的异常java.lang.NullPointerException $ b $ org.apache.hadoop. ..
发布时间:2018-06-01 12:45:45 分布式计算/Hadoop

无法从Windows连接到HBase

我试图从Windows运行一个HBase Java Client程序。 我所拥有的是1)没有任何编译错误的Java程序 2)hbase-site.xml (没有其他HDFS或HBase配置文件,只有上面的。) 当我运行该程序时,出现以下错误 - 在最后一个块中给出。我想念什么? 我在这里给予。 ..
发布时间:2018-06-01 12:45:34 分布式计算/Hadoop

将文件加载到猪中并对其进行解压缩

我将一堆来自Azure存储的文件加载到猪身上。 Pig对gzip有默认支持,所以如果文件扩展名为.gz,那么一切正常。 问题是旧文件以.zip扩展名存储有数百万个)。 有没有办法告诉pig加载文件并将.zip作为gzip? 解决方案 我真的不知道其他一些选项可用,但您可以尝试类似这样的功能。 写一个bash脚本,将给定的zip文件转换为gz文件 在pig中加载gz文件 ..
发布时间:2018-06-01 12:45:25 分布式计算/Hadoop

无法将目录上传到hdfs。 `/ usr / local / tmp /':没有这样的文件或目录

我试图将目录中的文件上传到我在HDFS上创建的目录,但由于ubuntu无法在我的机器上找到这些文件,因此我无法做到这一点。 目录'状态'(其中一个我试图上传)包含50个txt文件,位于我的下载文件夹中(路径:/ home / shradha / Downloads)。我试图上传这些文件在我的ec2 hadoop实例在hdfs / states(我已经创建了hdfs和states)。 我在某处读 ..
发布时间:2018-06-01 12:45:22 分布式计算/Hadoop