分布式计算/Hadoop 第7页 - IT屋-程序员软件开发技术分享社区

Hive加入查询的性能

我想在表格A和B上加入A.id = B.id，如下所示：选择A.从A.b $ / code> 在这里，我的TABLEB由两个值GOP和LOP分隔。我还尝试在以下方法上执行相同的查询： insert overwrite table final select A.id，B .name from（select * from TAB ..

发布时间：2018-06-01 12:36:35 sql hadoop hive 分布式计算/Hadoop

更新配置单元中表中新增记录的唯一标识列

我有一个表格，我想要在插入新记录时自动添加唯一标识符。考虑到我的列已经创建了唯一标识符。解决方案 hive无法更新表，但可以创建临时表或覆盖你的第一张桌子。您也可以使用 concat 函数来加入两个不同的列或字符串。这里是例子函数：concat（字符串A，字符串B ...） return：string hive>从双重选择concat（'abc'，'def'，' ..

发布时间：2018-06-01 12:36:32 hadoop hive hiveql bigdata 分布式计算/Hadoop

为什么Hive没有像MySQL那样的FIELDS ENCLOSED BY？

这里是我的情况：输入行： “vijay” “a-b-c”，“a-c-d”，“a-d-c” “kumar” “abc”，“bcd”“ 我创建了如下表格： hive> create table user_infos（name string，path ARRAY --i只需要数组） ROW FORMAT DELIMITE ..

发布时间：2018-06-01 12:36:18 hadoop hive 分布式计算/Hadoop

范例： http://grepcode.com/file/repository.cloudera.com/content/repositories/releases/com.cloudera.hadoop/hadoop-core/0.20。 2-320 / org / apache / hadoop / util / RunJar.java 我在查看RunJar.main（），并观察它解包指 ..

发布时间：2018-06-01 12:36:16 hadoop 分布式计算/Hadoop

设置和访问分布式缓存的问题

出于某种原因，我无法在网上找到任何有关使用新API获取分布式缓存的好资源。希望这里的某个人能解释我做错了什么。我目前的尝试是我在网上找到的各种东西的一种混杂。这个程序试图运行k-最近邻居算法。输入文件是测试数据集，分布式缓存保存火车数据集和火车标签。映射器应该获取一行测试数据，并将其与分布式缓存数据中的每一行进行比较，并返回与其最相似的行的标签。 import java.net.U ..

发布时间：2018-06-01 12:36:14 hadoop 分布式计算/Hadoop

如何用hadoop-2.2在oozie中执行mapreduce程序

在ubuntu中2.2.0和oozie-4.0.0。我无法在oozie中执行mapreduce程序。我是oozie中jobtracker 8032的uisng资源管理器端口号。在oozie中调度运行状态和运行在纱线也有一段时间后，我得到这样的错误（下面）在hadoop日志，仍然在oozie日志中运行错误： 2014-05-30 10：38：14,322 INFO [ ..

发布时间：2018-06-01 12:36:08 hadoop bigdata oozie 分布式计算/Hadoop

Sqoop - 日期 - 时间戳

我试图将Oracle中的数据转换为Hadoop。在Oracle方面，日期字段是格式为'10 / 01/2015 12:00:00 AM'的时间戳。我如何在月，日和年过滤器？过滤器中不需要小时和分钟，但是加载到HDFS中的数据需要具有10/01/2015 12:00:00 AM格式。任何想法？我看着其他的计算器，没有找到它的格式。谢谢!! 请参阅下面的代码。我没有得到任何结果。 ..

发布时间：2018-06-01 12:36:06 hadoop hdfs sqoop apache-sqoop 分布式计算/Hadoop

技术来了解hadoop中的默认调度程序

我在3个Ubuntu系统12.04中安装了多节点安装程序。我在所有三个中都使用Hadoop1.2.1。现在我想要默认运行哪个调度程序？如何检查在Hadoop1.2.1中运行的默认调度程序？解决方案 hadoop中的默认调度程序是 JobQueueTaskScheduler ，它是一个FIFO调度程序。作为默认调度程序，您需要在 mapred.jobtracker.taskSchedu ..

发布时间：2018-06-01 12:35:59 hadoop 分布式计算/Hadoop

可以直线和火星壳为相同的apache火花显示不同的数据库吗？

我在Ubuntu上安装了hadoop 2.8.1，然后在其上安装了spark-2.2.0-bin-hadoop2.7。首先，当我通过spark-shell创建数据库并尝试通过java JDBC程序访问它时，我没有存在表格。然后我用直线观察数据库在这里也不存在。我通过直线创建了数据库。为什么spark-shell和beeline会显示不同的数据库？它们可能应该显示相同。我尝试了连接hiv ..

发布时间：2018-06-01 12:35:49 hadoop apache-spark jdbc hive 分布式计算/Hadoop

在Hadoop中将文件从本地文件系统复制到HDFS时出错

我使用hadoop来处理文件，目前我正在尝试使用下面的命令将文件从本地文件系统复制到HDFS。 c $ c> hadoop fs -put d：\hadoop\weblogs/so/data/weblogs 出现如下错误： c：\ Hadoop \ hadoop-1.1.0-SNAPSHOT> hadoop fs -put d ：\hadoop\weblogs/so/d ..

发布时间：2018-06-01 12:35:42 hadoop local hdfs copying 分布式计算/Hadoop

我怎样才能得到每个地图的输入数据大小或减少任务？

是 FileInputFormat.java 有帮助吗？如何使用它？它需要一些输入，它们是什么？解决方案整个任务的输入大小只是大小输入文件从hdfs。 eack mapper任务的输入大小根据以下属性计算（64是默认大小）： mapreduce.input.fileinputformat.split.minsize = 64Mb Hadoop将输入 ..

发布时间：2018-06-01 12:35:14 hadoop 分布式计算/Hadoop

java.lang.ClassCastException：org.apache.hadoop.hbase.client.Result不能转换为org.apache.hadoop.hbase.client.Mutation

在将数据从一个hbase表转移到其他数据时发生错误 INFO mapreduce.Job：Task Id：attempt_1410946588060_0019_r_000000_2，Status：FAILED 错误：java.lang.ClassCastException：无法将org.apache.hadoop.hbase.client.Result转换为org.apache.had ..

发布时间：2018-06-01 12:35:12 hadoop mapreduce hbase 分布式计算/Hadoop

安装oozie sharelib

作为测试设置的一部分，我希望将oozie sharelib安装到HDFS，而无需构建oozie软件包。我无法在任何thre库中找到oozie-sharelib.tar.gz。任何想法都可以在不下载/构建oozie的情况下完成？感谢！解决方案由于每个人都提及其不推荐，但如果你想要获得SharedLib转储，您必须从Oozie网站下载相同的Oozie版本，因为ShareLi ..

发布时间：2018-06-01 12:35:07 hadoop hdfs oozie 分布式计算/Hadoop

如何在将Uber Jar提交给Google Dataproc时解决Guava依赖性问题

我使用maven遮罩插件来构建Uber jar以将其作为工作提交给Google Dataproc群集。 Google已在其群集中安装了Apache Spark 2.0.2 Apache Hadoop 2.7.3。 Apache spark 2.0.2使用com.google的14.0.1。番石榴和apache hadoop 2.7.3使用11.0.2，这两者都应该在classpath中。 ..

发布时间：2018-06-01 12:35:04 hadoop apache-spark spark-cassandra-connector google-cloud-dataproc 分布式计算/Hadoop

有选择地将iis日志文件加载到Hive中

我目前拥有〜50GB的存储空间将iis日志加载到具有以下目录结构的hdfs： / user / oi / raw_iis / Webserver1 / Org / SubOrg / W3SVC1056242793 / / user / oi / raw_iis / Webserver2 / Org / SubOrg / W3SVC1888303555 / / user / oi / ra ..

发布时间：2018-06-01 12:35:02 hadoop hive apache-pig hdfs 分布式计算/Hadoop

使用Spark在HDFS上对Har文件进行Gz压缩

在hadoop存档 .har 格式中有大量数据。由于 har 不包含任何压缩，我正试图将其进一步gzip并存储在HDFS中。我可以毫无错误地工作的唯一一件事是： $ p $ harFile.coalesce（1，“true”） .saveAsTextFile（“hdfs：// namenode / archive / GzipOutput”，classOf [org.apache.hado ..

发布时间：2018-06-01 12:34:59 scala hadoop apache-spark compression hdfs 分布式计算/Hadoop

使用mapreduce为每个值计算top-N b值

我是hadoop的新手，并且一直在努力编写mapreduce算法来找到每个A值的前N个值。输入数据 a，1 a，9 b，3 b，5 a，4 a，7 b，1 产量 a 1,4,7,9 b 1,3,5 我相信我们应该写一个可以读取行的Mapper ，将这些值拆分并让它通过减速器收集。如果每个键的值的数量足够小，那么可以使用这个键来完成排序。解决方案 ..

发布时间：2018-06-01 12:34:49 hadoop mapreduce 分布式计算/Hadoop

哪一个最好：5台机器的物理系统上的Apache Ambari集群还是安装在具有不同5个虚拟机的虚拟机上？

您好我正在开发我的一个项目，我创建了5台机器的虚拟机，并且在开发环境中工作正常，但是我对虚拟机群集很好或需要与物理系统群集一起感到困惑。解决方案 Hadoop是为物理系统开发的，但它将在虚拟环境中以不同程度的成功运行，具体取决于具体环境。这实际上是hadoop邮件列表中的一个常见问题，Hadoop开发人员在Hadoop Wiki文章中特别提到：虚拟Hadoop 。本文将介绍每种方 ..

发布时间：2018-06-01 12:34:47 hadoop vagrant virtual-machine ambari bigdata 分布式计算/Hadoop

这与在蜂巢中的列上创建主键有什么不同？

我读到我们无法在Hive表中的列上创建主键。但是我在其他地方看到了下面的DDL并执行了它。它没有任何问题。 create table prim（id int，name char（30）） TBLPROPERTIES（“PRIMARY KEY”=“id “）; 在此之后，我执行“describe formatted prim”并且看到在列上创建了一个键ID 表参 ..

发布时间：2018-06-01 12:34:39 hadoop hive 分布式计算/Hadoop

MapReduce Old API - 将命令行参数传递给Map

我编写了一个MapReduce作业，用于在使用旧API存储在HDFS中的输入文件中查找搜索字符串（通过命令行参数传递）。下面是我的Driver类 - public class StringSearchDriver { public static void main （String [] args）抛出IOException { JobConf jc = new Jo ..

发布时间：2018-06-01 12:34:37 hadoop mapreduce 分布式计算/Hadoop