分布式计算/Hadoop

配置Sentry为不同的用户显示/隐藏不同的数据库

我有一个使用cdh-5.7.0运行的群集,并配置了以下设置: hadoop with kerberos hive使用LDAP身份验证 hive使用哨兵授权(存储在JDBC derby中的规则) 我的目标是限制用户查看我的系统中存在哪些数据库。 例如: 执行 show databases 时,用户A应该只能看到数据库DB- code> 当执行 show databases ..
发布时间:2018-06-01 12:34:32 分布式计算/Hadoop

Sqoop和Java 7

我试图使用sqoop将一个MySQL表导入HDFS。我正在使用JDK 1.7.0_45和CDH4.4。我实际上使用了cloudera的预建VM,不过我将JDK更改为1.7,因为我想使用pydev插件进行eclipse。我的sqoop版本是1.4.3-cdh4.4.0。 当我运行sqoop时,出现以下异常: 错误:商品:不支持major.minor版本51.0 过去我看到过这个错误 ..
发布时间:2018-06-01 12:34:25 分布式计算/Hadoop

hadoop +可写接口+ readFields在reducer中引发异常

我有一个简单的map-reduce程序,其中我的map和reduce基元看起来像这样 map(K,V)=(Text,OutputAggregator) > reduce(Text,OutputAggregator)=(Text,Text) 重要的一点是,从我的map函数中,我发出一个类型为OutputAggregator的对象,它是我自己的类实现了Writable接口。但是,我的减少 ..
发布时间:2018-06-01 12:34:22 分布式计算/Hadoop

在Hadoop文件系统中复制本地文件

以编程方式在HDFS中复制文件的最快方法是什么?我尝试了DistCp,但无法获得相应的内容。 解决方案 FileSystem fs = FileSystem.get(CONF); fs.copyFromLocalFile(new Path(“/ home / me / localdirectory /”),new Path(“/ me / hadoop / hdfsdir”)); ..
发布时间:2018-06-01 12:34:20 分布式计算/Hadoop

有什么方法可以限制Hbase中的列数

有没有办法限制Hbase特定行下的列数?我看到了限制行的方法。我不知道是否有任何方法可以限制列家庭价值 像, row  ; columnfamily(page) 价值 1 页面:1              &NB ..
发布时间:2018-06-01 12:34:15 分布式计算/Hadoop

在一个表中插入JSON数据到HIVE中的另一个表

我想根据数据上的关键字段将JSON数据从一个表格插入到其他表格中。 我的数据看起来像这样 lockquote {“Rtype”:{“ver”:“1”,“os”:“ms”,“type”:“ns”,“vehicle”: “MH-3412”, “MOD”:{ “版本”:[{ “ABC”:{ “XYZ”: “123.dfer”, “方正”: “3.0”, “GHT”: “佛罗里达”,“时尚“: ..
发布时间:2018-06-01 12:34:13 分布式计算/Hadoop

CAS中的声明在PIG中

SUBSTRING(geocode,0, 2)---->代码 00-51 ----> 01 70 ----> 03 61-78 ----> 04 Else ----> 00 现在获得的'code'值必须与'geocode'值(前缀)和(后缀)再次与00连接以形成'vertex_code'例如: geocode = 44556677 / p> ..
发布时间:2018-05-31 20:30:00 分布式计算/Hadoop

Hive外部表与内部表命令

假设我有这两张表: 外部: emp_id int, emp_name字符串 ) LOCATION'/user/hive/warehouse/mydb.db/contacts' ; 内部: create table emp_feedback( emp_id int, emp_name string ) LOAD DATA INPATH'file_locatio ..
发布时间:2018-05-31 20:29:54 分布式计算/Hadoop

Google计算引擎为hadoop仪表板添加防火墙规则

我使用bdutil安装hadoop集群(而不是单击来部署)。我无法访问locahost上的作业跟踪器页面:50030 / jobtracker.jsp( https ://cloud.google.com/hadoop/running-a-mapreduce-job ) 我在本地使用lynx而不是从客户端进行检查浏览器(所以本地主机,而不是外部IP) 我在bdutil的配置文件中的设置 ..

OOM在tez / hive中

[在几个答案和评论之后,我根据这里获得的知识问了一个新问题: 错误:状态:失败 错误:顶点失败,vertexName =地图1,vertexId = vertex_1516602562532_3606_2_03,诊断= [任务失败,taskId = task_1516602562532_3606_2_03_000001,诊断= [TaskAttempt 0失败,信息= [容器containe ..
发布时间:2018-05-31 20:29:38 分布式计算/Hadoop

如何使用Hadoop GIS框架加载空间数据

我正在尝试使用 Hadoop GIS Framework 为配置单元添加空间支持。 我想要做的一件事是从外部数据(来自PostGIS)创建一个空间表。 不幸的是,序列化程序由ESRI映射到ESRI JSON格式,而不是像WKT,GeoJSON这样的标准。我最终做的是一个解决方法。 第一件事就是将我的PostGIS数据导出为制表符分隔文件,将几何字段转换为GeoJSON 。 \CO ..
发布时间:2018-05-31 20:29:36 分布式计算/Hadoop

使用默认的SerDE加载表格数据

数据的格式如下: a,b,c,d,e p,q,“e,r”,t a,s,“t,g”,t 我想创建一个Hive表格 Col1,Col2,Col3,Col4 a,b ,c,d,e p,q,e,r,t a,s,t ,g,t 如上所示,如果数据封装在双引号中,则在创建表数据时不应考虑逗号之间的逗号。如果我使用默认的SerDe,则双引号将被忽略,并且b,c ..
发布时间:2018-05-31 20:29:21 分布式计算/Hadoop

在Hive表格中插入覆盖分区 - 值重复

我使用非分区表创建了Hive表,并使用select查询将数据插入到分区 Hive表中。 指定网站 p> 通过以上链接,我的分区表包含重复值。以下是设置 : 这是我的Sample员工数据集: link1 我尝试了以下查询: 更新雇员ID为19到50000的Steven工资。 $ b INSERT OVERWRITE TABLE Unm_Parti_Trail P ..
发布时间:2018-05-31 20:29:18 分布式计算/Hadoop