分布式计算/Hadoop
我试图估计Impala中查询从简单到复杂以及使用Hue UI所需的时间。是否有可能通过用户界面知道完成查询所需的时间。 解决方案 Impala或Hive仅提供进度的一般估计。 Hue可以尝试通过将开始时间外推当前进度来显示结束时间。随意遵循 https://issues.cloudera.org/browse/HUE-1219 。
..
在提交地图缩小时获取以下信息。我使用-XX:MaxPermSize = 128m内存大小开始了我的地图缩减计划。 有谁知道现在正在发生什么 - 17/03/24 09:58:46 INFO hdfs.DFSClient:创建HDFS_DELEGATION_TOKEN令牌1160328用于ha-hdfs上的svc_pffr:nameservice3 17/03 / 24 09:58
..
我在我的centOS系统上安装了zeppelin。它没有在JDBC解释器下列出配置单元。 我的系统上安装了配置单元。 Hive metastore和hiveserver2正在运行。 HIVE_HOME和HADOOP_HOME设置正确。 Zeppelin编辑器出错: paragraph_1490339323949_-1789938581's Interpreter hive no
..
我有一个配置单元表,如下面的5列 name orderno productcategory数量描述 KJFSFKS 1 1 40 D1 KJFSFKS 2 2 50 D2 KJFSFKS 3 2 67 D3 KJFSFKS 4 2 10 D4 KJFSFKS 5 3 2 D5 KJFSFKS 6 3 5 D6 KJFSFKS 7 3 6 D7 KJFSFKS
..
请协助处理hadoop streaming的“-file”选项问题(在下面的链接中提到)。只是为了更新,我知道这个jar已经存在了,在我尝试hadoop-streaming为一个不同的类文件失败后,我正在尝试这个,所以为了确定类文件本身是否有问题或者我的方式使用它。如果你需要stderr文件,请让我知道。 Java类文件的Hadoop Streaming -file选项有问题。 解决方
..
我的Hadoop版本是2.5.2。 我想用保险丝装载Hadoop。我尝试了两种方法,但都失败了。一种方法是: HADOOP_HOME:ant compile-c ++ - libhdfs -Dlibhdfs = 1`。 但它无法找到 build.xml 。另一种方法是在 hadoop-hdfs / target / native / main / native
..
我是SQL和Hive的新手。我在蜂巢中有一张桌子,需要添加2列。一个是“row_id”,另一个是“cto_id”。我已经使用hive函数和一个名为“cto_id”的新列添加了行标识。 我想更新“cto_id”列中的值,例如它包含像“CTO1101”+ row_id 我该怎么做?下面是我的代码。 - 为mu_temp_trials表中的每条记录分配行号 select *,ro
..
我有一个RDD(combinerRDD),我在这个RDD下应用了转换 JavaPairRDD count = combinerRDD.mapToPair( )新PairFunction,String,Integer>(){ 字符串文件名; 整数; 消息; @Override publi
..
我有以下模式数据集,我想将其转换为可导出到SQL的表。我正在使用 HIVE 。输入如下 call_id,stat1,stat2,stat3 1,a,b,c, 2,x,y,z, 3,d,e,f, 1,j,k,l, 输出表需要有 call_id 作为主键,因此它需要是唯一的。输出模式应该是 call_id,stat2,stat3, 1,b,c或(1,k ,l)
..
java.lang.RuntimeException:本地snappy库不可用:这个版本的libhadoop是在没有快速支持的情况下构建的。 at org.apache.hadoop.io.compress.SnappyCodec.checkNativeCodeLoaded(SnappyCodec.java:65) at org.apache.hadoop.io.compress.Snappy
..
我在HDFS中有以下文件夹: hdfs:// xxxx:8020 / Air / BOOK / AE / DOM / 20171001/2017100101 hdfs:// xxxx:8020 / Air / BOOK / AE / INT / 20171001/2017100101 hdfs:// xxxx:8020 / Air / BOOK / BH / INT / 20171
..
我有一个包含以下行键格式的HBase表格: :#
..
hadoop和mapreduce的新用户,我想创建一个mapreduce作业来对图像进行一些度量。这就是为什么我想知道我是否可以将图像作为输入映射到mapreduce?如果是的话?任何类型的示例 谢谢 这样做。 在提供的信息有限的情况下,我只能给你一个非常一般的答案。 您需要: 1)您需要编写一个自定义的InputFormat,而不是在HDFS位置(如TextInputForm
..
我有这种奇怪的行为,我的用例是通过使用 sqlContext将Spark数据框写入配置单元分区表.sql(“INSERT OVERWRITE TABLE
PARTITION(”) 奇怪的是,当使用来自主机A的pyspark shell时,这种方式可行,但使用同一
..
我有一个应用程序用于连接 MySQL ,并且我有 Hibernate config 它就像这样: org.hibernate.dialect.MySQLDialect
..
我试图在hadoop上执行一个map reduce程序。 当我在Macbook上提交jar并在桌面上运行作业时,作业失败,容器超出虚拟内存限制。但是 http:// master-hadoop:8088 / cluster 告诉我我的工作结果看起来是正确的。 您可以看到所使用的物理内存大小为170MB,而所用的虚拟内存大小为17.8GB。输入的文件只有10MB。 我无法弄清楚为什么
..
插入表格webmap 选择一个.res引用,b.res资源, (从weblog中选择count(ip),其中resource = a.res和referer = b.res)从顶部权重 返回一个联接toprefres b; 我在hive-0.10.0-cdh4.5.0中运行该程序,并得到以下错误: 失败:ParseException行3:1无法识别接近'select''coun
..
postgres =#CREATE EXTERNAL TABLE csv_hdfs_lineitem(如a)LOCATION( 'gphdfs:/ /xxxxx/gptest/lineitem.csv' )格式'text'(分隔符E'|'null E'\\''E'off'填充缺失字段) ENCODING'UTF8' ; 显示 ERROR:protocol
..
A =载入'/home/wrdtest.txt'; B = foreach生成平坦(TOKENIZE((chararray)$ 0))作为单词; C =过滤词B!='the'; D =单词C组; E = foreach D生成COUNT(C)作为count,group为单词; F =通过count desc指令E; 将F存入'/ tmp / samp
..
我正尝试使用由十六进制值1F分隔的csvserde创建一个外部配置单元表。 csvserde在分隔的常规逗号上正常工作。 CREATE EXTERNAL TABLE example_table( id bigint, property_id字符串, application_date日期, system_time时间戳, system_end时间戳 ) ROW FORMAT S
..