分布式计算/Hadoop 第11页 - IT屋-程序员软件开发技术分享社区

色相UI中的黑斑羚时间

我试图估计Impala中查询从简单到复杂以及使用Hue UI所需的时间。是否有可能通过用户界面知道完成查询所需的时间。解决方案 Impala或Hive仅提供进度的一般估计。 Hue可以尝试通过将开始时间外推当前进度来显示结束时间。随意遵循 https://issues.cloudera.org/browse/HUE-1219 。 ..

发布时间：2018-05-31 20:26:32 hadoop hue impala 分布式计算/Hadoop

获取java.lang.OutOfMemoryError：在提交Map Reduce时超过了GC开销限制

在提交地图缩小时获取以下信息。我使用-XX：MaxPermSize = 128m内存大小开始了我的地图缩减计划。有谁知道现在正在发生什么 - 17/03/24 09:58:46 INFO hdfs.DFSClient：创建HDFS_DELEGATION_TOKEN令牌1160328用于ha-hdfs上的svc_pffr：nameservice3 17/03 / 24 09:58 ..

发布时间：2018-05-31 20:26:29 hadoop 分布式计算/Hadoop

在zeppelin的jdbc解释器中找不到解释器配置单元

我在我的centOS系统上安装了zeppelin。它没有在JDBC解释器下列出配置单元。我的系统上安装了配置单元。 Hive metastore和hiveserver2正在运行。 HIVE_HOME和HADOOP_HOME设置正确。 Zeppelin编辑器出错： paragraph_1490339323949_-1789938581's Interpreter hive no ..

发布时间：2018-05-31 20:26:24 hadoop jdbc hive apache-zeppelin 分布式计算/Hadoop

少数列的Hive / SQL捆绑列，其余列是基于拉的最低/最高的其他列

我有一个配置单元表，如下面的5列 name orderno productcategory数量描述 KJFSFKS 1 1 40 D1 KJFSFKS 2 2 50 D2 KJFSFKS 3 2 67 D3 KJFSFKS 4 2 10 D4 KJFSFKS 5 3 2 D5 KJFSFKS 6 3 5 D6 KJFSFKS 7 3 6 D7 KJFSFKS ..

发布时间：2018-05-31 20:25:59 sql hadoop hive hiveql 分布式计算/Hadoop

java.io.IOException：error = 2，Hadoop流中没有这样的文件或目录

请协助处理hadoop streaming的“-file”选项问题（在下面的链接中提到）。只是为了更新，我知道这个jar已经存在了，在我尝试hadoop-streaming为一个不同的类文件失败后，我正在尝试这个，所以为了确定类文件本身是否有问题或者我的方式使用它。如果你需要stderr文件，请让我知道。 Java类文件的Hadoop Streaming -file选项有问题。解决方 ..

发布时间：2018-05-31 20:25:56 hadoop mapreduce 分布式计算/Hadoop

无法构建fuse-dfs来挂载HDFS

我的Hadoop版本是2.5.2。我想用保险丝装载Hadoop。我尝试了两种方法，但都失败了。一种方法是： HADOOP_HOME：ant compile-c ++ - libhdfs -Dlibhdfs = 1`。但它无法找到 build.xml 。另一种方法是在 hadoop-hdfs / target / native / main / native ..

发布时间：2018-05-31 20:25:51 hadoop hdfs fuse 分布式计算/Hadoop

在配置单元中创建和更新新列

我是SQL和Hive的新手。我在蜂巢中有一张桌子，需要添加2列。一个是“row_id”，另一个是“cto_id”。我已经使用hive函数和一个名为“cto_id”的新列添加了行标识。我想更新“cto_id”列中的值，例如它包含像“CTO1101”+ row_id 我该怎么做？下面是我的代码。 - 为mu_temp_trials表中的每条记录分配行号 select *，ro ..

发布时间：2018-05-31 20:25:48 sql hadoop hive 分布式计算/Hadoop

空RDD上的转换结果

我有一个RDD（combinerRDD），我在这个RDD下应用了转换 JavaPairRDD count = combinerRDD.mapToPair（）新PairFunction，String，Integer>（）{ 字符串文件名; 整数; 消息; @Override publi ..

发布时间：2018-05-31 20:25:46 hadoop apache-spark 分布式计算/Hadoop

Hive：如何执行SELECT查询以使用HiveQL输出唯一主键？

我有以下模式数据集，我想将其转换为可导出到SQL的表。我正在使用 HIVE 。输入如下 call_id，stat1，stat2，stat3 1，a，b，c， 2，x，y，z， 3，d，e，f， 1，j，k，l，输出表需要有 call_id 作为主键，因此它需要是唯一的。输出模式应该是 call_id，stat2，stat3， 1，b，c或（1，k ，l） ..

发布时间：2018-05-31 20:25:43 select hadoop distinct hive 分布式计算/Hadoop

本地snappy库不可用：这个版本的libhadoop是建立在没有活泼的支持。同时runnig查询throgh配置单元

java.lang.RuntimeException：本地snappy库不可用：这个版本的libhadoop是在没有快速支持的情况下构建的。 at org.apache.hadoop.io.compress.SnappyCodec.checkNativeCodeLoaded（SnappyCodec.java:65） at org.apache.hadoop.io.compress.Snappy ..

发布时间：2018-05-31 20:25:40 hadoop hive 分布式计算/Hadoop

从HDFS复制到S3时使用GroupBy合并文件夹内的文件

我在HDFS中有以下文件夹： hdfs：// xxxx：8020 / Air / BOOK / AE / DOM / 20171001/2017100101 hdfs：// xxxx：8020 / Air / BOOK / AE / INT / 20171001/2017100101 hdfs：// xxxx：8020 / Air / BOOK / BH / INT / 20171 ..

发布时间：2018-05-31 20:25:38 hadoop amazon-s3 amazon-emr distcp s3distcp 分布式计算/Hadoop

HBase：扫描包含字符串的行键

我有一个包含以下行键格式的HBase表格：：＃ ..

发布时间：2018-05-31 20:25:35 hadoop nosql hbase 分布式计算/Hadoop

使用图像创建mapreduce作业作为输入

hadoop和mapreduce的新用户，我想创建一个mapreduce作业来对图像进行一些度量。这就是为什么我想知道我是否可以将图像作为输入映射到mapreduce？如果是的话？任何类型的示例谢谢这样做。在提供的信息有限的情况下，我只能给你一个非常一般的答案。您需要： 1）您需要编写一个自定义的InputFormat，而不是在HDFS位置（如TextInputForm ..

发布时间：2018-05-31 20:25:28 image-processing hadoop mapreduce 分布式计算/Hadoop

从spark（2.11）数据框写入配置单元分区表时发生org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions异常

我有这种奇怪的行为，我的用例是通过使用 sqlContext将Spark数据框写入配置单元分区表.sql（“INSERT OVERWRITE TABLE PARTITION（”）奇怪的是，当使用来自主机A的pyspark shell时，这种方式可行，但使用同一 ..

发布时间：2018-05-31 20:25:25 hadoop apache-spark hive pyspark 分布式计算/Hadoop

Hive / SparkSQL的Hibernate方言？

我有一个应用程序用于连接 MySQL ，并且我有 Hibernate config 它就像这样： org.hibernate.dialect.MySQLDialect ..

发布时间：2018-05-31 20:25:19 hibernate hadoop hive apache-spark-sql 分布式计算/Hadoop

hadoop容器遇难，但工作成功

我试图在hadoop上执行一个map reduce程序。当我在Macbook上提交jar并在桌面上运行作业时，作业失败，容器超出虚拟内存限制。但是 http：// master-hadoop：8088 / cluster 告诉我我的工作结果看起来是正确的。您可以看到所使用的物理内存大小为170MB，而所用的虚拟内存大小为17.8GB。输入的文件只有10MB。我无法弄清楚为什么 ..

发布时间：2018-05-31 20:25:14 hadoop containers virtual-memory 分布式计算/Hadoop

Hive是否支持选择？

插入表格webmap 选择一个.res引用，b.res资源，（从weblog中选择count（ip），其中resource = a.res和referer = b.res）从顶部权重返回一个联接toprefres b; 我在hive-0.10.0-cdh4.5.0中运行该程序，并得到以下错误：失败：ParseException行3：1无法识别接近'select''coun ..

发布时间：2018-05-31 20:25:04 sql hadoop hql hive 分布式计算/Hadoop

ERROR：协议“gphdfs”不存在

postgres =＃CREATE EXTERNAL TABLE csv_hdfs_lineitem（如a）LOCATION（ 'gphdfs：/ /xxxxx/gptest/lineitem.csv' ）格式'text'（分隔符E'|'null E'\\''E'off'填充缺失字段） ENCODING'UTF8' ; 显示 ERROR：protocol ..

发布时间：2018-05-31 20:24:59 hadoop greenplum 分布式计算/Hadoop

什么是删除“字符串表达式”的过程/代码？从使用Apache Pig的文件？

A =载入'/home/wrdtest.txt'; B = foreach生成平坦（TOKENIZE（（chararray）$ 0））作为单词; C =过滤词B！='the'; D =单词C组; E = foreach D生成COUNT（C）作为count，group为单词; F =通过count desc指令E; 将F存入'/ tmp / samp ..

发布时间：2018-05-31 20:24:56 hadoop apache-pig 分布式计算/Hadoop

用十六进制分隔Hive CsvSerde表

我正尝试使用由十六进制值1F分隔的csvserde创建一个外部配置单元表。 csvserde在分隔的常规逗号上正常工作。 CREATE EXTERNAL TABLE example_table（ id bigint， property_id字符串， application_date日期， system_time时间戳， system_end时间戳） ROW FORMAT S ..

发布时间：2018-05-31 20:24:54 csv hadoop hive 分布式计算/Hadoop