分布式计算/Hadoop 第8页 - IT屋-程序员软件开发技术分享社区

结束作业= job_local644049657_0014有错误作业期间出错，获取调试信息

如何找到日志文件请指导我已经在Resouce manager 。但我没有找到任何日志文件这是完整的错误查询ID = hadoop_20170325120040_d54d136a-1904-4af9-8f8d-4167343db072 总计工作= 1启动Job 1 out of 1 Reduce任务的数量设置为为0，因为没有reduce操作员Job in-pro ..

发布时间：2018-06-01 12:34:34 hadoop mapreduce hadoop2 分布式计算/Hadoop

配置Sentry为不同的用户显示/隐藏不同的数据库

我有一个使用cdh-5.7.0运行的群集，并配置了以下设置： hadoop with kerberos hive使用LDAP身份验证 hive使用哨兵授权（存储在JDBC derby中的规则）我的目标是限制用户查看我的系统中存在哪些数据库。例如：执行 show databases 时，用户A应该只能看到数据库DB- code> 当执行 show databases ..

发布时间：2018-06-01 12:34:32 hadoop ldap kerberos cloudera-sentry 分布式计算/Hadoop

Sqoop和Java 7

我试图使用sqoop将一个MySQL表导入HDFS。我正在使用JDK 1.7.0_45和CDH4.4。我实际上使用了cloudera的预建VM，不过我将JDK更改为1.7，因为我想使用pydev插件进行eclipse。我的sqoop版本是1.4.3-cdh4.4.0。当我运行sqoop时，出现以下异常：错误：商品：不支持major.minor版本51.0 过去我看到过这个错误 ..

发布时间：2018-06-01 12:34:25 hadoop java-7 sqoop 分布式计算/Hadoop

hadoop +可写接口+ readFields在reducer中引发异常

我有一个简单的map-reduce程序，其中我的map和reduce基元看起来像这样 map（K，V）=（Text，OutputAggregator） > reduce（Text，OutputAggregator）=（Text，Text）重要的一点是，从我的map函数中，我发出一个类型为OutputAggregator的对象，它是我自己的类实现了Writable接口。但是，我的减少 ..

发布时间：2018-06-01 12:34:22 hadoop writable 分布式计算/Hadoop

在Hadoop文件系统中复制本地文件

以编程方式在HDFS中复制文件的最快方法是什么？我尝试了DistCp，但无法获得相应的内容。解决方案 FileSystem fs = FileSystem.get（CONF）; fs.copyFromLocalFile（new Path（“/ home / me / localdirectory /”），new Path（“/ me / hadoop / hdfsdir”））; ..

发布时间：2018-06-01 12:34:20 hadoop hdfs 分布式计算/Hadoop

有什么方法可以限制Hbase中的列数

有没有办法限制Hbase特定行下的列数？我看到了限制行的方法。我不知道是否有任何方法可以限制列家庭价值像， row ; columnfamily（page）价值 1 页面：1&NBSP;&NBSP;&NBSP;&NBSP;&NBSP;&NBSP;&NBSP;&NBSP;&NBSP;&NBSP;&NBSP;&NBSP;&NBSP;&NBSP;&NB ..

发布时间：2018-06-01 12:34:15 hadoop hbase schema 分布式计算/Hadoop

在一个表中插入JSON数据到HIVE中的另一个表

我想根据数据上的关键字段将JSON数据从一个表格插入到其他表格中。我的数据看起来像这样 lockquote {“Rtype”：{“ver”：“1”，“os”：“ms”，“type”：“ns”，“vehicle”： “MH-3412”， “MOD”：{ “版本”：[{ “ABC”：{ “XYZ”： “123.dfer”， “方正”： “3.0”， “GHT”： “佛罗里达”，“时尚“： ..

发布时间：2018-06-01 12:34:13 json hadoop hive 分布式计算/Hadoop

配置单元命令错误Expression Not In Group By Key product_id

我有一个用以下格式写成的HDFS表格A 用户产品 U1 101 U1 102 U1 103 U2 101 U2 104 U3 102 code $ $ b $ p ............... 描述A; >>用户字符串产品int 现在如果我想汇总用户，用户分组在一起，我应该如何编写配置单元命令？从用户组中选择用 ..

发布时间：2018-06-01 12:34:08 hadoop hive 分布式计算/Hadoop

我怎样才能插入与parquet fileformat和SNAPPY压缩配置单元表？

Hive 2.1 我有以下表格定义： CREATE EXTERNAL TABLE table_snappy（ a STRING， b INT） PARTITIONED BY（c STRING） ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io .parquet.serde.ParquetHiveSerDe' 存储为输入文件 'org. ..

发布时间：2018-05-31 20:30:02 hadoop hive compression parquet snappy 分布式计算/Hadoop

CAS中的声明在PIG中

SUBSTRING（geocode，0， 2）---->代码 00-51 ----> 01 70 ----> 03 61-78 ----> 04 Else ----> 00 现在获得的'code'值必须与'geocode'值（前缀）和（后缀）再次与00连接以形成'vertex_code'例如： geocode = 44556677 / p> ..

发布时间：2018-05-31 20:30:00 hadoop apache-pig 分布式计算/Hadoop

Hive外部表与内部表命令

假设我有这两张表：外部： emp_id int， emp_name字符串） LOCATION'/user/hive/warehouse/mydb.db/contacts' ; 内部： create table emp_feedback（ emp_id int， emp_name string ） LOAD DATA INPATH'file_locatio ..

发布时间：2018-05-31 20:29:54 hadoop hive 分布式计算/Hadoop

Impala：如何针对具有不同图式的多个实地拼图文件进行查询

在Spark 2.1中，我经常使用类似于 df = spark.read.parquet /path/to/my/files/*.parquet）加载一个镶木拼盘文件夹用不同的图式。然后我使用SparkSQL对数据框执行一些SQL查询。现在我想试试Impala，因为我读了 wiki文章，其中包含以下句子： Apache Impala是 ..

发布时间：2018-05-31 20:29:47 hadoop apache-spark-sql parquet impala 分布式计算/Hadoop

弹性搜索 - 使用查询UI搜索完全匹配的字符串

{ “id”：100， “name” ：“xxx”， “嗜好”：[“板球”，“足球”，“唱歌和跳舞”] } 我需要从“其他”过滤“唱歌和跳舞”字符串。 http：// localhost：9200 / employeed / data / _search？q = {“query”：{ “query_string”：{“query”：“hobbies：Singi ..

发布时间：2018-05-31 20:29:44 hadoop elasticsearch elasticsearch-plugin elasticsearch-5 分布式计算/Hadoop

Google计算引擎为hadoop仪表板添加防火墙规则

我使用bdutil安装hadoop集群（而不是单击来部署）。我无法访问locahost上的作业跟踪器页面：50030 / jobtracker.jsp（ https ：//cloud.google.com/hadoop/running-a-mapreduce-job ）我在本地使用lynx而不是从客户端进行检查浏览器（所以本地主机，而不是外部IP）我在bdutil的配置文件中的设置 ..

发布时间：2018-05-31 20:29:42 hadoop port firewall google-compute-engine gcloud 分布式计算/Hadoop

OOM在tez / hive中

[在几个答案和评论之后，我根据这里获得的知识问了一个新问题：错误：状态：失败错误：顶点失败，vertexName =地图1，vertexId = vertex_1516602562532_3606_2_03，诊断= [任务失败，taskId = task_1516602562532_3606_2_03_000001，诊断= [TaskAttempt 0失败，信息= [容器containe ..

发布时间：2018-05-31 20:29:38 hadoop hive out-of-memory tez 分布式计算/Hadoop

如何使用Hadoop GIS框架加载空间数据

我正在尝试使用 Hadoop GIS Framework 为配置单元添加空间支持。我想要做的一件事是从外部数据（来自PostGIS）创建一个空间表。不幸的是，序列化程序由ESRI映射到ESRI JSON格式，而不是像WKT，GeoJSON这样的标准。我最终做的是一个解决方法。第一件事就是将我的PostGIS数据导出为制表符分隔文件，将几何字段转换为GeoJSON 。 \CO ..

发布时间：2018-05-31 20:29:36 hadoop geometry hive gis spatial-query 分布式计算/Hadoop

在Hadoop 2.7.2（CentOS 7）集群中，Datanode启动但不连接到namenode

我安装了一个三节点hadoop集群。主节点和从节点分别启动，但datanode不显示在namenode webUI中。 datanode的日志文件显示以下错误： 2016-06-18 21：23：53,980信息org.apache.hadoop .ipc.Client：重试连接到服务器：namenode / 192.168.1.100：9000。已经尝试0次（s）;重试策略是RetryU ..

发布时间：2018-05-31 20:29:26 hadoop 分布式计算/Hadoop

如何处理配置单元中的XML文件

如何在配置单元中处理这个XML文件，我只希望输出USERNAME和PASSWORD > ..

发布时间：2018-05-31 20:29:24 hadoop hive hiveql sqoop archive 分布式计算/Hadoop

使用默认的SerDE加载表格数据

数据的格式如下： a，b，c，d，e p，q，“e，r”，t a，s，“t，g”，t 我想创建一个Hive表格 Col1，Col2，Col3，Col4 a，b ，c，d，e p，q，e，r，t a，s，t ，g，t 如上所示，如果数据封装在双引号中，则在创建表数据时不应考虑逗号之间的逗号。如果我使用默认的SerDe，则双引号将被忽略，并且b，c ..

发布时间：2018-05-31 20:29:21 hadoop hive 分布式计算/Hadoop

在Hive表格中插入覆盖分区 - 值重复

我使用非分区表创建了Hive表，并使用select查询将数据插入到分区 Hive表中。指定网站 p> 通过以上链接，我的分区表包含重复值。以下是设置：这是我的Sample员工数据集： link1 我尝试了以下查询：更新雇员ID为19到50000的Steven工资。 $ b INSERT OVERWRITE TABLE Unm_Parti_Trail P ..

发布时间：2018-05-31 20:29:18 hadoop hive external 分布式计算/Hadoop