分布式计算/Hadoop
我想在表格A和B上加入A.id = B.id,如下所示: 选择A.从A.b $ / code> 在这里,我的TABLEB由两个值GOP和LOP分隔。 我还尝试在以下方法上执行相同的查询: insert overwrite table final select A.id,B .name from(select * from TAB
..
我有一个表格,我想要在插入新记录时自动添加唯一标识符。考虑到我的列已经创建了唯一标识符。 解决方案 hive无法更新表,但可以创建临时表或覆盖你的第一张桌子。 您也可以使用 concat 函数来加入两个不同的列或字符串。 这里是例子 函数:concat(字符串A,字符串B ...) return:string hive>从双重选择concat('abc','def','
..
这里是我的情况: 输入行: “vijay” “a-b-c”,“a-c-d”,“a-d-c” “kumar” “abc”,“bcd”“ 我创建了如下表格: hive> create table user_infos(name string,path ARRAY --i只需要数组) ROW FORMAT DELIMITE
..
范例: http://grepcode.com/file/repository.cloudera.com/content/repositories/releases/com.cloudera.hadoop/hadoop-core/0.20。 2-320 / org / apache / hadoop / util / RunJar.java 我在查看RunJar.main(),并观察它解包指
..
出于某种原因,我无法在网上找到任何有关使用新API获取分布式缓存的好资源。希望这里的某个人能解释我做错了什么。我目前的尝试是我在网上找到的各种东西的一种混杂。 这个程序试图运行k-最近邻居算法。输入文件是测试数据集,分布式缓存保存火车数据集和火车标签。映射器应该获取一行测试数据,并将其与分布式缓存数据中的每一行进行比较,并返回与其最相似的行的标签。 import java.net.U
..
在ubuntu中2.2.0和oozie-4.0.0。我无法在oozie中执行mapreduce程序。 我是oozie中jobtracker 8032的uisng资源管理器端口号。 在oozie中调度运行状态和运行在纱线也有一段时间后,我得到这样的错误(下面)在hadoop日志,仍然在oozie日志中运行 错误: 2014-05-30 10:38:14,322 INFO [
..
我试图将Oracle中的数据转换为Hadoop。 在Oracle方面,日期字段是格式为'10 / 01/2015 12:00:00 AM'的时间戳。我如何在月,日和年过滤器? 过滤器中不需要小时和分钟,但是加载到HDFS中的数据需要具有10/01/2015 12:00:00 AM格式。任何想法?我看着其他的计算器,没有找到它的格式。谢谢!! 请参阅下面的代码。我没有得到任何结果。
..
我在3个Ubuntu系统12.04中安装了多节点安装程序。我在所有三个中都使用Hadoop1.2.1。现在我想要默认运行哪个调度程序? 如何检查在Hadoop1.2.1中运行的默认调度程序? 解决方案 hadoop中的默认调度程序是 JobQueueTaskScheduler ,它是一个FIFO调度程序。作为默认调度程序,您需要在 mapred.jobtracker.taskSchedu
..
我在Ubuntu上安装了hadoop 2.8.1,然后在其上安装了spark-2.2.0-bin-hadoop2.7。 首先,当我通过spark-shell创建数据库并尝试通过java JDBC程序访问它时,我没有存在表格。然后我用直线观察数据库在这里也不存在。我通过直线创建了数据库。为什么spark-shell和beeline会显示不同的数据库? 它们可能应该显示相同。我尝试了连接hiv
..
我使用hadoop来处理文件,目前我正在尝试使用下面的命令将文件从本地文件系统复制到HDFS。 c $ c> hadoop fs -put d:\hadoop\weblogs/so/data/weblogs 出现如下错误: c:\ Hadoop \ hadoop-1.1.0-SNAPSHOT> hadoop fs -put d :\hadoop\weblogs/so/d
..
是 FileInputFormat.java 有帮助吗?如何使用它? 它需要一些输入,它们是什么? 解决方案 整个任务的输入大小只是大小输入文件从hdfs。 eack mapper任务的输入大小根据以下属性计算(64是默认大小): mapreduce.input.fileinputformat.split.minsize = 64Mb Hadoop将输入
..
在将数据从一个hbase表转移到其他数据时发生错误 INFO mapreduce.Job:Task Id:attempt_1410946588060_0019_r_000000_2,Status:FAILED 错误:java.lang.ClassCastException:无法将org.apache.hadoop.hbase.client.Result转换为org.apache.had
..
作为测试设置的一部分,我希望将oozie sharelib安装到HDFS,而无需构建oozie软件包。我无法在任何thre库中找到oozie-sharelib.tar.gz。 任何想法都可以在不下载/构建oozie的情况下完成? 感谢! 解决方案 由于每个人都提及其不推荐,但如果你想要获得SharedLib转储,您必须从Oozie网站下载相同的Oozie版本,因为ShareLi
..
我使用maven遮罩插件来构建Uber jar以将其作为工作提交给Google Dataproc群集。 Google已在其群集中安装了Apache Spark 2.0.2 Apache Hadoop 2.7.3。 Apache spark 2.0.2使用com.google的14.0.1。番石榴和apache hadoop 2.7.3使用11.0.2,这两者都应该在classpath中。
..
我目前拥有〜50GB的存储空间将iis日志加载到具有以下目录结构的hdfs: / user / oi / raw_iis / Webserver1 / Org / SubOrg / W3SVC1056242793 / / user / oi / raw_iis / Webserver2 / Org / SubOrg / W3SVC1888303555 / / user / oi / ra
..
在hadoop存档 .har 格式中有大量数据。由于 har 不包含任何压缩,我正试图将其进一步gzip并存储在HDFS中。我可以毫无错误地工作的唯一一件事是: $ p $ harFile.coalesce(1,“true”) .saveAsTextFile(“hdfs:// namenode / archive / GzipOutput”,classOf [org.apache.hado
..
我是hadoop的新手,并且一直在努力编写mapreduce算法来找到每个A值的前N个值。 输入数据 a,1 a,9 b,3 b,5 a,4 a,7 b,1 产量 a 1,4,7,9 b 1,3,5 我相信我们应该写一个可以读取行的Mapper ,将这些值拆分并让它通过减速器收集。如果每个键的值的数量足够小,那么可以使用这个键来完成排序。 解决方案
..
您好我正在开发我的一个项目,我创建了5台机器的虚拟机,并且在开发环境中工作正常,但是我对虚拟机群集很好或需要与物理系统群集一起感到困惑。 解决方案 Hadoop是为物理系统开发的,但它将在虚拟环境中以不同程度的成功运行,具体取决于具体环境。 这实际上是hadoop邮件列表中的一个常见问题,Hadoop开发人员在Hadoop Wiki文章中特别提到:虚拟Hadoop 。本文将介绍每种方
..
我读到我们无法在Hive表中的列上创建主键。但是我在其他地方看到了下面的DDL并执行了它。它没有任何问题。 create table prim(id int,name char(30)) TBLPROPERTIES(“PRIMARY KEY”=“id “); 在此之后,我执行“describe formatted prim”并且看到在列上创建了一个键ID 表参
..
我编写了一个MapReduce作业,用于在使用旧API存储在HDFS中的输入文件中查找搜索字符串(通过命令行参数传递)。 下面是我的Driver类 - public class StringSearchDriver { public static void main (String [] args)抛出IOException { JobConf jc = new Jo
..