分布式计算/Hadoop - IT屋-程序员软件开发技术分享社区

无法将文件复制到HDFS

我有HDSF问题。我无法复制任何文件，但是DataNodes中有足够的空间？也许我有一些不好的配置？解决方案您应该提供具体的细节，例如您得到的例外，您遵循的步骤等等，因为您根本没有指定任何信息，我会说检查配置文件，以确保你有相应的文件中的所有条目：在core-site.xml中，你应该有 fs.default.name ..

发布时间：2018-06-01 12:49:19 hadoop hdfs 分布式计算/Hadoop

Hadoop 2.6.0 TestDFSIO基准

所以我建立了一个hadoop 2.6.0群集，我想运行一个基准来测试读写吞吐量。我一直在阅读可以使用TestDFSIO执行此操作的地方，但我无法找到在Hadoop 2.6.0版上运行此程序的方法。有人知道如何运行这个测试，或者是另一种方法吗？解决方案 HiBench有一个DFSIO的实现。您可以点击此处找到HiBench。 ..

发布时间：2018-06-01 12:48:54 hadoop benchmarking 分布式计算/Hadoop

Hadoop-Hive |在Hive中将单行列转换为多行

创建日期ID1姓名1年龄1性别1姓名2 ID2年龄2性别2 ID3姓名3年龄3性别3 ... 2014-02-01 1 ABC 21 M MNP 2 22 F 3 XYZ 25 M 2015-06-06 11 LMP 31 F PLL 12 42 M 13 UIP 37 F 此表可能有任何编号。重复设置4列对。这4列的顺序也不是固定的，可能有1或2个列不重复，像creat ..

发布时间：2018-06-01 12:48:51 hadoop hive hiveql 分布式计算/Hadoop

Sqoop导入 - 源表模式更改

假设在任何关系数据库中都有一个名为T1的表，其中包含100列以上的表。我将sqoop作为CSV导入到HDFS中。现在，表格T1中增加了10列。如果我将这些数据导入到HDFS中，新数据将会有比以前多10个列。问题： sqoop如何排序正在导入的列，以便旧数据和新数据（至少在T1中更改之前的列）处于正确的位置？如果某列被删除会怎么样？如何处理这种情况，即旧数据和新数据如何保留位 ..

发布时间：2018-06-01 12:48:46 hadoop import sqoop 分布式计算/Hadoop

K表示集群mahout

我试图对csv文件格式的示例数据集进行聚类。但是，当我给出下面的命令时， user @ ubuntu：/ usr / local / mahout / trunk $ bin / mahout kmeans - i / root / Mahout / temp / parsedtext-seqdir-sparse-kmeans / tfidf-vectors / -c / root / ..

发布时间：2018-06-01 12:48:41 hadoop cluster-analysis k-means mahout 分布式计算/Hadoop

如何更新Hive 0.13中的表格？

我的Hive版本是0.13。我有两个表， table_1 和 table_2 table_1 包含： customer_id |物品|价格| updated_date ------------ + ------- + ------- + ------------- 10 |观看| 1000 | 20170626 11 |蝙蝠| 400 | 20170625 ..

发布时间：2018-06-01 12:48:39 hadoop hive 分布式计算/Hadoop

Spark map / Filter抛出java.io.IOException：换行之前的字节太多：2147483648

我有一个简单的文件，大小为7 GB，其中包含由| .I分隔的两列的每行都创建了此文件的RDD，但是当我在此RDD上使用映射或过滤器转换时，我得到的太多字节异常。 / b> 下面是我的文件中的示例数据。 116010100000000007 | 33448 116010100000000014 | 13520 116010100000000021 | 97132 116 ..

发布时间：2018-06-01 12:48:36 scala hadoop apache-spark hdfs 分布式计算/Hadoop

Hive加入获取日期明智的图片

我试图在加入时使用表B中的一个关键字和日期以及 >相应的来自表A 的前一个最近日期记录加入HIVE中的2个表。例如：以下是2个输入表 A_id A_date changed_col B_id B_date B_value A_id **** * ..

发布时间：2018-06-01 12:48:29 hadoop join hive 分布式计算/Hadoop

从减速器输出文件读取

我有一些MapReduce作业，我想在Java代码中进一步使用Reducer的输出文件。如何从这样的文件中读取数据，因为它位于分布式文件系统上？谢谢解决方案由于您想在简单的java代码中进一步使用Reducer的输出文件，因此您可以使用以下代码： - $ / $> $ b $ `try { Path pt = new Path（“hdfs：//npvm11.np.wc1.y ..

发布时间：2018-06-01 12:48:24 hadoop mapreduce hdfs 分布式计算/Hadoop

如何在Windows 7 32位的Ubuntu 14.04 64位虚拟机上安装Big Data Hadoop

我有一台Windows 7 32位笔记本电脑，我想在Ubuntu 64位上练习Hadoop。我尝试了很多方法，但无法安装/运行Hadoop，因为它需要64位Ubuntu操作系统。如何在Windows 32位笔记本电脑上安装它？解决方案美好的一天，最后，我成功地在我的 Windows 7 32位上运行 Ubuntu 64位VM ，并在Ubuntu中安装了 Hadoop / p> ..

发布时间：2018-06-01 12:48:22 hadoop bigdata 分布式计算/Hadoop

无法找到或加载主类M - hadoop窗口

我是hadoop的新手，我试图在windows 10上设置hadoop。我从Apache网站下载了hadoop 2.7.3 tar.gz版本。这些是我已经完成的步骤：将tar.gz解压缩到C：\ ---> C：\\ \\ hadoop 创建并设置HADOOP_HOME环境变量为C：\ haddoop 通过添加C：\ haddoop \\ \\ bin 添加JAVA_HOME环境变量并 ..

发布时间：2018-06-01 12:47:55 windows hadoop installation 分布式计算/Hadoop

使用引导程序替换EMR上的默认jar

我正在使用AMI 3.0.4的EMR群集上。 cd / home / hadoop / share / hadoop / common / lib / rm guava-11.0.2.jar wget http://central.maven.org/maven2/com/google/guava/guava/14.0.1/guava-14.0.1 .jar chmod 777 ..

发布时间：2018-06-01 12:47:12 hadoop amazon-web-services emr bootstrapping 分布式计算/Hadoop

Hadoop环境变量

我试图在Mac上调试单个节点Hadoop集群的一些问题。在所有的设置文档中，它说要添加： export HADOOP_OPTS =“ - Djava.security.krb5.realm = OX.AC .UK -Djava.security.krb5.kdc = kdc0.ox.ac.uk：kdc1.ox.ac.uk“ 删除此错误：无法从SCDynamicSt ..

发布时间：2018-06-01 12:46:22 ruby hadoop hadoop-streaming 分布式计算/Hadoop

标量只能用于PIG中的投影

标量只能用于投影我使用foreach时出现这个错误。我该如何解决这个错误？我如何在foreach中使用LIMIT？请提前建议一些。编辑（Tichdroma）：从评论中复制代码 A = LOAD'part-r-00000'; G = A组乘以（$ 0，$ 2）; Y = foreach G生成FLATTEN（组），FLATTEN（$ 1）; sorted =订购Y $ ..

发布时间：2018-06-01 12:45:56 hadoop apache-pig 分布式计算/Hadoop

哈多普Nanenode不会开始

如果您通过我之前的问题访问此链接：在Linux上安装hadoop2.2.0（NameNode无法启动）你可能知道！我一直在尝试为hadoop-2.2.0运行单节点模式很长一段时间：D 如果没有访问它，你会发现：） 2014-05-31 15：44：20,587错误org.apache.hadoop.hdfs.server.namenode.NameNode：java.lang.I ..

发布时间：2018-06-01 12:45:54 hadoop hadoop-streaming 分布式计算/Hadoop

Hadoop2中的hadoop-test.jar在哪里？

我想用 testmapredsort 进行Hadoop中的基准测试排序。我现在不使用TeraSort。 $ b hadoop- * test * .jar 应该包含 testmapredsort class。但是在 Hadoop2 中没有看到 hadoop- * test * .jar 。 hadoop jar hadoop / share / hadoop / common / ha ..

发布时间：2018-06-01 12:45:49 hadoop benchmarking hadoop2 分布式计算/Hadoop

如何设置OutputCommitter配置？

我有一个使用JobClient提交作业的mapreduce代码。我一直得到这个空指针错误堆栈 12/12/10 12:42:44信息mapred.LocalJobRunner：OutputCommitter set in config null null 线程“main”中的异常java.lang.NullPointerException $ b $ org.apache.hadoop. ..

发布时间：2018-06-01 12:45:45 hadoop mapreduce 分布式计算/Hadoop

无法从Windows连接到HBase

我试图从Windows运行一个HBase Java Client程序。我所拥有的是1）没有任何编译错误的Java程序 2）hbase-site.xml （没有其他HDFS或HBase配置文件，只有上面的。）当我运行该程序时，出现以下错误 - 在最后一个块中给出。我想念什么？我在这里给予。 ..

发布时间：2018-06-01 12:45:34 hadoop hbase bigdata 分布式计算/Hadoop

将文件加载到猪中并对其进行解压缩

我将一堆来自Azure存储的文件加载到猪身上。 Pig对gzip有默认支持，所以如果文件扩展名为.gz，那么一切正常。问题是旧文件以.zip扩展名存储有数百万个）。有没有办法告诉pig加载文件并将.zip作为gzip？解决方案我真的不知道其他一些选项可用，但您可以尝试类似这样的功能。写一个bash脚本，将给定的zip文件转换为gz文件在pig中加载gz文件 ..

发布时间：2018-06-01 12:45:25 hadoop apache-pig 分布式计算/Hadoop

无法将目录上传到hdfs。 `/ usr / local / tmp /'：没有这样的文件或目录

我试图将目录中的文件上传到我在HDFS上创建的目录，但由于ubuntu无法在我的机器上找到这些文件，因此我无法做到这一点。目录'状态'（其中一个我试图上传）包含50个txt文件，位于我的下载文件夹中（路径：/ home / shradha / Downloads）。我试图上传这些文件在我的ec2 hadoop实例在hdfs / states（我已经创建了hdfs和states）。我在某处读 ..

发布时间：2018-06-01 12:45:22 ubuntu hadoop amazon-ec2 hdfs master-slave 分布式计算/Hadoop