分布式计算/Hadoop

Hive加入查询的性能

我想在表格A和B上加入A.id = B.id,如下所示: 选择A.从A.b $ / code> 在这里,我的TABLEB由两个值GOP和LOP分隔。 我还尝试在以下方法上执行相同的查询: insert overwrite table final select A.id,B .name from(select * from TAB ..
发布时间:2018-06-01 12:36:35 分布式计算/Hadoop

更新配置单元中表中新增记录的唯一标识列

我有一个表格,我想要在插入新记录时自动添加唯一标识符。考虑到我的列已经创建了唯一标识符。 解决方案 hive无法更新表,但可以创建临时表或覆盖你的第一张桌子。 您也可以使用 concat 函数来加入两个不同的列或字符串。 这里是例子 函数:concat(字符串A,字符串B ...) return:string hive>从双重选择concat('abc','def',' ..
发布时间:2018-06-01 12:36:32 分布式计算/Hadoop

为什么RunJar解压缩jar文件?

范例: http://grepcode.com/file/repository.cloudera.com/content/repositories/releases/com.cloudera.hadoop/hadoop-core/0.20。 2-320 / org / apache / hadoop / util / RunJar.java 我在查看RunJar.main(),并观察它解包指 ..
发布时间:2018-06-01 12:36:16 分布式计算/Hadoop

设置和访问分布式缓存的问题

出于某种原因,我无法在网上找到任何有关使用新API获取分布式缓存的好资源。希望这里的某个人能解释我做错了什么。我目前的尝试是我在网上找到的各种东西的一种混杂。 这个程序试图运行k-最近邻居算法。输入文件是测试数据集,分布式缓存保存火车数据集和火车标签。映射器应该获取一行测试数据,并将其与分布式缓存数据中的每一行进行比较,并返回与其最相似的行的标签。 import java.net.U ..
发布时间:2018-06-01 12:36:14 分布式计算/Hadoop

如何用hadoop-2.2在oozie中执行mapreduce程序

在ubuntu中2.2.0和oozie-4.0.0。我无法在oozie中执行mapreduce程序。 我是oozie中jobtracker 8032的uisng资源管理器端口号。 在oozie中调度运行状态和运行在纱线也有一段时间后,我得到这样的错误(下面)在hadoop日志,仍然在oozie日志中运行 错误: 2014-05-30 10:38:14,322 INFO [ ..
发布时间:2018-06-01 12:36:08 分布式计算/Hadoop

Sqoop - 日期 - 时间戳

我试图将Oracle中的数据转换为Hadoop。 在Oracle方面,日期字段是格式为'10 / 01/2015 12:00:00 AM'的时间戳。我如何在月,日和年过滤器? 过滤器中不需要小时和分钟,但是加载到HDFS中的数据需要具有10/01/2015 12:00:00 AM格式。任何想法?我看着其他的计算器,没有找到它的格式。谢谢!! 请参阅下面的代码。我没有得到任何结果。 ..
发布时间:2018-06-01 12:36:06 分布式计算/Hadoop

技术来了解hadoop中的默认调度程序

我在3个Ubuntu系统12.04中安装了多节点安装程序。我在所有三个中都使用Hadoop1.2.1。现在我想要默认运行哪个调度程序? 如何检查在Hadoop1.2.1中运行的默认调度程序? 解决方案 hadoop中的默认调度程序是 JobQueueTaskScheduler ,它是一个FIFO调度程序。作为默认调度程序,您需要在 mapred.jobtracker.taskSchedu ..
发布时间:2018-06-01 12:35:59 分布式计算/Hadoop

可以直线和火星壳为相同的apache火花显示不同的数据库吗?

我在Ubuntu上安装了hadoop 2.8.1,然后在其上安装了spark-2.2.0-bin-hadoop2.7。 首先,当我通过spark-shell创建数据库并尝试通过java JDBC程序访问它时,我没有存在表格。然后我用直线观察数据库在这里也不存在。我通过直线创建了数据库。为什么spark-shell和beeline会显示不同的数据库? 它们可能应该显示相同。我尝试了连接hiv ..
发布时间:2018-06-01 12:35:49 分布式计算/Hadoop

安装oozie sharelib

作为测试设置的一部分,我希望将oozie sharelib安装到HDFS,而无需构建oozie软件包。我无法在任何thre库中找到oozie-sharelib.tar.gz。 任何想法都可以在不下载/构建oozie的情况下完成? 感谢! 解决方案 由于每个人都提及其不推荐,但如果你想要获得SharedLib转储,您必须从Oozie网站下载相同的Oozie版本,因为ShareLi ..
发布时间:2018-06-01 12:35:07 分布式计算/Hadoop

如何在将Uber Jar提交给Google Dataproc时解决Guava依赖性问题

我使用maven遮罩插件来构建Uber jar以将其作为工作提交给Google Dataproc群集。 Google已在其群集中安装了Apache Spark 2.0.2 Apache Hadoop 2.7.3。 Apache spark 2.0.2使用com.google的14.0.1。番石榴和apache hadoop 2.7.3使用11.0.2,这两者都应该在classpath中。 ..

使用mapreduce为每个值计算top-N b值

我是hadoop的新手,并且一直在努力编写mapreduce算法来找到每个A值的前N个值。 输入数据 a,1 a,9 b,3 b,5 a,4 a,7 b,1 产量 a 1,4,7,9 b 1,3,5 我相信我们应该写一个可以读取行的Mapper ,将这些值拆分并让它通过减速器收集。如果每个键的值的数量足够小,那么可以使用这个键来完成排序。 解决方案 ..
发布时间:2018-06-01 12:34:49 分布式计算/Hadoop

哪一个最好:5台机器的物理系统上的Apache Ambari集群还是安装在具有不同5个虚拟机的虚拟机上?

您好我正在开发我的一个项目,我创建了5台机器的虚拟机,并且在开发环境中工作正常,但是我对虚拟机群集很好或需要与物理系统群集一起感到困惑。 解决方案 Hadoop是为物理系统开发的,但它将在虚拟环境中以不同程度的成功运行,具体取决于具体环境。 这实际上是hadoop邮件列表中的一个常见问题,Hadoop开发人员在Hadoop Wiki文章中特别提到:虚拟Hadoop 。本文将介绍每种方 ..
发布时间:2018-06-01 12:34:47 分布式计算/Hadoop

这与在蜂巢中的列上创建主键有什么不同?

我读到我们无法在Hive表中的列上创建主键。但是我在其他地方看到了下面的DDL并执行了它。它没有任何问题。 create table prim(id int,name char(30)) TBLPROPERTIES(“PRIMARY KEY”=“id “); 在此之后,我执行“describe formatted prim”并且看到在列上创建了一个键ID 表参 ..
发布时间:2018-06-01 12:34:39 分布式计算/Hadoop