分布式计算/Hadoop
如何找到日志文件 请指导 我已经在Resouce manager 。但我没有找到任何日志文件 这是完整的错误 查询ID = hadoop_20170325120040_d54d136a-1904-4af9-8f8d-4167343db072 总计工作= 1启动Job 1 out of 1 Reduce任务的数量设置为 为0,因为没有reduce操作员Job in-pro
..
我有一个使用cdh-5.7.0运行的群集,并配置了以下设置: hadoop with kerberos hive使用LDAP身份验证 hive使用哨兵授权(存储在JDBC derby中的规则) 我的目标是限制用户查看我的系统中存在哪些数据库。 例如: 执行 show databases 时,用户A应该只能看到数据库DB- code> 当执行 show databases
..
我试图使用sqoop将一个MySQL表导入HDFS。我正在使用JDK 1.7.0_45和CDH4.4。我实际上使用了cloudera的预建VM,不过我将JDK更改为1.7,因为我想使用pydev插件进行eclipse。我的sqoop版本是1.4.3-cdh4.4.0。 当我运行sqoop时,出现以下异常: 错误:商品:不支持major.minor版本51.0 过去我看到过这个错误
..
我有一个简单的map-reduce程序,其中我的map和reduce基元看起来像这样 map(K,V)=(Text,OutputAggregator) > reduce(Text,OutputAggregator)=(Text,Text) 重要的一点是,从我的map函数中,我发出一个类型为OutputAggregator的对象,它是我自己的类实现了Writable接口。但是,我的减少
..
以编程方式在HDFS中复制文件的最快方法是什么?我尝试了DistCp,但无法获得相应的内容。 解决方案 FileSystem fs = FileSystem.get(CONF); fs.copyFromLocalFile(new Path(“/ home / me / localdirectory /”),new Path(“/ me / hadoop / hdfsdir”));
..
有没有办法限制Hbase特定行下的列数?我看到了限制行的方法。我不知道是否有任何方法可以限制列家庭价值 像, row  ; columnfamily(page) 价值 1 页面:1              &NB
..
我想根据数据上的关键字段将JSON数据从一个表格插入到其他表格中。 我的数据看起来像这样 lockquote {“Rtype”:{“ver”:“1”,“os”:“ms”,“type”:“ns”,“vehicle”: “MH-3412”, “MOD”:{ “版本”:[{ “ABC”:{ “XYZ”: “123.dfer”, “方正”: “3.0”, “GHT”: “佛罗里达”,“时尚“:
..
我有一个用以下格式写成的HDFS表格A 用户产品 U1 101 U1 102 U1 103 U2 101 U2 104 U3 102 code $ $ b $ p ............... 描述A; >>用户字符串 产品int 现在如果我想汇总用户,用户分组在一起,我应该如何编写配置单元命令? 从用户组中选择用
..
Hive 2.1 我有以下表格定义: CREATE EXTERNAL TABLE table_snappy( a STRING, b INT) PARTITIONED BY(c STRING) ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io .parquet.serde.ParquetHiveSerDe' 存储为输入文件 'org.
..
SUBSTRING(geocode,0, 2)---->代码 00-51 ----> 01 70 ----> 03 61-78 ----> 04 Else ----> 00 现在获得的'code'值必须与'geocode'值(前缀)和(后缀)再次与00连接以形成'vertex_code'例如: geocode = 44556677 / p>
..
假设我有这两张表: 外部: emp_id int, emp_name字符串 ) LOCATION'/user/hive/warehouse/mydb.db/contacts' ; 内部: create table emp_feedback( emp_id int, emp_name string ) LOAD DATA INPATH'file_locatio
..
在Spark 2.1中,我经常使用类似于 df = spark.read.parquet /path/to/my/files/*.parquet) 加载一个镶木拼盘文件夹用不同的图式。 然后我使用SparkSQL对数据框执行一些SQL查询。 现在我想试试Impala,因为我读了 wiki文章,其中包含以下句子: Apache Impala是
..
{ “id”:100, “name” :“xxx”, “嗜好”:[“板球”,“足球”,“唱歌和跳舞”] } 我需要从“其他”过滤“唱歌和跳舞”字符串。 http:// localhost:9200 / employeed / data / _search?q = {“query”:{ “query_string”:{“query”:“hobbies:Singi
..
我使用bdutil安装hadoop集群(而不是单击来部署)。我无法访问locahost上的作业跟踪器页面:50030 / jobtracker.jsp( https ://cloud.google.com/hadoop/running-a-mapreduce-job ) 我在本地使用lynx而不是从客户端进行检查浏览器(所以本地主机,而不是外部IP) 我在bdutil的配置文件中的设置
..
[在几个答案和评论之后,我根据这里获得的知识问了一个新问题: 错误:状态:失败 错误:顶点失败,vertexName =地图1,vertexId = vertex_1516602562532_3606_2_03,诊断= [任务失败,taskId = task_1516602562532_3606_2_03_000001,诊断= [TaskAttempt 0失败,信息= [容器containe
..
我正在尝试使用 Hadoop GIS Framework 为配置单元添加空间支持。 我想要做的一件事是从外部数据(来自PostGIS)创建一个空间表。 不幸的是,序列化程序由ESRI映射到ESRI JSON格式,而不是像WKT,GeoJSON这样的标准。我最终做的是一个解决方法。 第一件事就是将我的PostGIS数据导出为制表符分隔文件,将几何字段转换为GeoJSON 。 \CO
..
我安装了一个三节点hadoop集群。主节点和从节点分别启动,但datanode不显示在namenode webUI中。 datanode的日志文件显示以下错误: 2016-06-18 21:23:53,980信息org.apache.hadoop .ipc.Client:重试连接到服务器:namenode / 192.168.1.100:9000。已经尝试0次(s);重试策略是RetryU
..
如何在配置单元中处理这个XML文件,我只希望输出USERNAME和PASSWORD >
..
数据的格式如下: a,b,c,d,e p,q,“e,r”,t a,s,“t,g”,t 我想创建一个Hive表格 Col1,Col2,Col3,Col4 a,b ,c,d,e p,q,e,r,t a,s,t ,g,t 如上所示,如果数据封装在双引号中,则在创建表数据时不应考虑逗号之间的逗号。如果我使用默认的SerDe,则双引号将被忽略,并且b,c
..
我使用非分区表创建了Hive表,并使用select查询将数据插入到分区 Hive表中。 指定网站 p> 通过以上链接,我的分区表包含重复值。以下是设置 : 这是我的Sample员工数据集: link1 我尝试了以下查询: 更新雇员ID为19到50000的Steven工资。 $ b INSERT OVERWRITE TABLE Unm_Parti_Trail P
..