分布式计算/Hadoop
我有HDSF问题。 我无法复制任何文件,但是DataNodes中有足够的空间? 也许我有一些不好的配置? 解决方案 您应该提供具体的细节,例如您得到的例外,您遵循的步骤等等,因为您根本没有指定任何信息,我会说检查配置文件,以确保你有相应的文件中的所有条目: 在core-site.xml中,你应该有 fs.default.name
..
所以我建立了一个hadoop 2.6.0群集,我想运行一个基准来测试读写吞吐量。我一直在阅读可以使用TestDFSIO执行此操作的地方,但我无法找到在Hadoop 2.6.0版上运行此程序的方法。有人知道如何运行这个测试,或者是另一种方法吗? 解决方案 HiBench有一个DFSIO的实现。您可以点击此处找到HiBench。
..
创建日期ID1姓名1年龄1性别1姓名2 ID2年龄2性别2 ID3姓名3年龄3性别3 ... 2014-02-01 1 ABC 21 M MNP 2 22 F 3 XYZ 25 M 2015-06-06 11 LMP 31 F PLL 12 42 M 13 UIP 37 F 此表可能有任何编号。重复设置4列对。这4列的顺序也不是固定的,可能有1或2个列不重复,像creat
..
假设在任何关系数据库中都有一个名为T1的表,其中包含100列以上的表。我将sqoop作为CSV导入到HDFS中。 现在,表格T1中增加了10列。如果我将这些数据导入到HDFS中,新数据将会有比以前多10个列。 问题: sqoop如何排序正在导入的列,以便旧数据和新数据(至少在T1中更改之前的列)处于正确的位置? 如果某列被删除会怎么样?如何处理这种情况,即旧数据和新数据如何保留位
..
我试图对csv文件格式的示例数据集进行聚类。但是,当我给出下面的命令时, user @ ubuntu:/ usr / local / mahout / trunk $ bin / mahout kmeans - i / root / Mahout / temp / parsedtext-seqdir-sparse-kmeans / tfidf-vectors / -c / root /
..
我的Hive版本是0.13。我有两个表, table_1 和 table_2 table_1 包含: customer_id |物品|价格| updated_date ------------ + ------- + ------- + ------------- 10 |观看| 1000 | 20170626 11 |蝙蝠| 400 | 20170625
..
我有一个简单的文件,大小为7 GB,其中包含由| .I分隔的两列的每行都创建了此文件的RDD,但是当我在此RDD上使用映射或过滤器转换时,我得到的太多字节异常。 / b> 下面是我的文件中的示例数据。 116010100000000007 | 33448 116010100000000014 | 13520 116010100000000021 | 97132 116
..
我试图在加入时使用表B中的一个关键字和日期以及 >相应的来自表A 的前一个最近日期记录加入HIVE中的2个表。例如:以下是2个输入表 A_id A_date changed_col B_id B_date B_value A_id **** *
..
我有一些MapReduce作业,我想在Java代码中进一步使用Reducer的输出文件。如何从这样的文件中读取数据,因为它位于分布式文件系统上? 谢谢 解决方案 由于您想在简单的java代码中进一步使用Reducer的输出文件,因此您可以使用以下代码: - $ / $> $ b $ `try { Path pt = new Path(“hdfs://npvm11.np.wc1.y
..
我有一台Windows 7 32位笔记本电脑,我想在Ubuntu 64位上练习Hadoop。我尝试了很多方法,但无法安装/运行Hadoop,因为它需要64位Ubuntu操作系统。如何在Windows 32位笔记本电脑上安装它? 解决方案 美好的一天, 最后,我成功地在我的 Windows 7 32位上运行 Ubuntu 64位VM ,并在Ubuntu中安装了 Hadoop / p>
..
我是hadoop的新手,我试图在windows 10上设置hadoop。我从Apache网站下载了hadoop 2.7.3 tar.gz版本。这些是我已经完成的步骤: 将tar.gz解压缩到C:\ ---> C:\\ \\ hadoop 创建并设置HADOOP_HOME环境变量为C:\ haddoop 通过添加C:\ haddoop \\ \\ bin 添加JAVA_HOME环境变量并
..
我正在使用AMI 3.0.4的EMR群集上。 cd / home / hadoop / share / hadoop / common / lib / rm guava-11.0.2.jar wget http://central.maven.org/maven2/com/google/guava/guava/14.0.1/guava-14.0.1 .jar chmod 777
..
我试图在Mac上调试单个节点Hadoop集群的一些问题。在所有的设置文档中,它说要添加: export HADOOP_OPTS =“ - Djava.security.krb5.realm = OX.AC .UK -Djava.security.krb5.kdc = kdc0.ox.ac.uk:kdc1.ox.ac.uk“ 删除此错误: 无法从SCDynamicSt
..
标量只能用于投影我使用foreach时出现这个错误。我该如何解决这个错误?我如何在foreach中使用LIMIT?请提前建议一些 。 编辑(Tichdroma):从评论中复制代码 A = LOAD'part-r-00000'; G = A组乘以($ 0,$ 2); Y = foreach G生成FLATTEN(组),FLATTEN($ 1); sorted =订购Y $
..
如果您通过我之前的问题访问此链接:在Linux上安装hadoop2.2.0(NameNode无法启动) 你可能知道!我一直在尝试为hadoop-2.2.0运行单节点模式很长一段时间:D 如果没有访问它,你会发现:) 2014-05-31 15:44:20,587错误org.apache.hadoop.hdfs.server.namenode.NameNode:java.lang.I
..
我想用 testmapredsort 进行Hadoop中的基准测试排序。我现在不使用TeraSort。 $ b hadoop- * test * .jar 应该包含 testmapredsort class。但是在 Hadoop2 中没有看到 hadoop- * test * .jar 。 hadoop jar hadoop / share / hadoop / common / ha
..
我有一个使用JobClient提交作业的mapreduce代码。我一直得到这个空指针错误堆栈 12/12/10 12:42:44信息mapred.LocalJobRunner:OutputCommitter set in config null null 线程“main”中的异常java.lang.NullPointerException $ b $ org.apache.hadoop.
..
我试图从Windows运行一个HBase Java Client程序。 我所拥有的是1)没有任何编译错误的Java程序 2)hbase-site.xml (没有其他HDFS或HBase配置文件,只有上面的。) 当我运行该程序时,出现以下错误 - 在最后一个块中给出。我想念什么? 我在这里给予。
..
我将一堆来自Azure存储的文件加载到猪身上。 Pig对gzip有默认支持,所以如果文件扩展名为.gz,那么一切正常。 问题是旧文件以.zip扩展名存储有数百万个)。 有没有办法告诉pig加载文件并将.zip作为gzip? 解决方案 我真的不知道其他一些选项可用,但您可以尝试类似这样的功能。 写一个bash脚本,将给定的zip文件转换为gz文件 在pig中加载gz文件
..
我试图将目录中的文件上传到我在HDFS上创建的目录,但由于ubuntu无法在我的机器上找到这些文件,因此我无法做到这一点。 目录'状态'(其中一个我试图上传)包含50个txt文件,位于我的下载文件夹中(路径:/ home / shradha / Downloads)。我试图上传这些文件在我的ec2 hadoop实例在hdfs / states(我已经创建了hdfs和states)。 我在某处读
..