分布式计算/Hadoop

蜂巢:Concat一张地图

当我试图连接map时,我在Hive中遇到了一些麻烦。假设我有类似的东西: $ b $ b var 1 | var 2 x |地图(key1:value1) x |地图(key2:value2) x | map(key3:value3) y | map(key4:value4) 我试图得到的东西就是这样 var 1 | var 2 ..
发布时间:2018-06-01 12:45:15 分布式计算/Hadoop

Hive 0.12.0 IncompatibleClassChangeError

我试图在我的单节点Hadoop安装上安装配置单元。我正在运行Mint 16.我试过安装Hive 0.12.0和0.13.0。我已将HIVE_HOME,HIVE_HOME / bin和HIVE_HOME / lib(并且没有lib)添加到我的路径中。每次我从终端运行配置单元时,我都会得到以下堆栈: 线程“main”中的异常java.lang.IncompatibleClassChangeErr ..
发布时间:2018-06-01 12:45:07 分布式计算/Hadoop

Pig 0.13.0在Windows 8上安装

我可以在windows上使用 pig 0.13.0 版本的咕噜声。试图从hdfs加载一个简单的文件并转储它。发生以下错误。 2014-10-13 17:29:45,167 [main] ERROR org.apache.pig.tools.grunt.Grunt - 错误29 98:未处理的内部错误。 org.apache.hadoop.mapreduce.JobContext 日 ..
发布时间:2018-06-01 12:44:57 分布式计算/Hadoop

KMeans处理分类变量

我正在为大数据文件上的Kmeans聚类算法编写mapreduce程序。每个观察由包括分类变量和数值变量的列组成。对于Kmeans,在距离计算中不包括分类变量。所以我们需要过滤掉包含分类条目的列。 我的问题是:用字符过滤出条目很容易,但是如果一列仅包含数字,但是被视为分类(如Zipcode,ID)? 谢谢! 解决方案 删除所有分类变量可能不是要走的路。您是否尝试将数据集转换为数字 ..
发布时间:2018-06-01 12:44:55 分布式计算/Hadoop

使用分布式缓存访问Hadoop中的Maxmind Geo API

我正在编写MapReduce作业来分析网络日志。我的代码旨在将IP地址映射到地理位置,并且我使用Maxmind Geo API( https:// github.com/maxmind/geoip-api-java )。我的代码有一个LookupService方法需要数据库文件与ip到位置匹配。我正尝试使用分布式缓存传递此数据库文件。我尝试了两种不同的方式来完成这项工作: 从HDFS传递文件,但它 ..
发布时间:2018-06-01 12:44:31 分布式计算/Hadoop

动态计算oozie参数(MR动作减速器的数量)

在我的oozie工作流程中,我动态地创建一个配置表格,比如说T1。这个配置单元动作之后是一个map-reduce动作。我想设置reducers属性的数量(mapred.reduce.tasks)等于字段say(T1.group)的不同值。任何想法如何动态设置一些oozie参数的值,以及如何从配置单元不同的操作中获取参数的值到oozie参数? 解决方案 我希望这可以帮助: 创建配置单元 ..
发布时间:2018-06-01 12:44:23 分布式计算/Hadoop

RStudio连接到远程Hadoop服务器

我有一台安装了Rstudio的Ubuntu桌面,我也有一个远程hadoop集群,我希望从RStudio连接到Centos下运行,从我的理解这是一种可行的方法,但有人可以证实这一点吗? 解决方案 Rstudio不允许您连接到hadoop,但您可以使用hadoop streaming API提交您的hadoop作业。 有几个软件包可以帮助您入门。我已经使用rmr在hadoop集群上使用流 ..
发布时间:2018-06-01 12:44:21 分布式计算/Hadoop

将负载数据发布到HIVE中

我们在AWS中启动了两个EMR,并在一个EMR中安装了hadoop和hive-0.11.0,另外一个配置了hive-0.13.1。 工作正常,但在尝试将数据加载到TABLE时,它给出了以下错误,并且它发生在两个Hive服务器中。 错误信息: 执行SQL命令时发生错误:load数据inpath 's3:// buckername / export / employee_1 /'到 ..
发布时间:2018-06-01 12:44:12 分布式计算/Hadoop

如何使用AWS自动扩展功能扩展具有1个主节点和2个核心节点的AWS EMR群集?有没有办法?

我使用AWS EMR实施了一个集群。我有一个拥有2个核心节点的hadoop bootstrap动作主ndoe。现在,我想使用自动缩放并根据cpu阈值和其他一些约束条件动态调整簇大小。 BUt,我不知道网络上没有太多关于如何在现有集群上使用AutoScaling的信息。任何帮助。 解决方案 目前,您无法在AutoScaling组中启动EMR CLuster。但是,通过将CloudWatch警 ..

我如何动态升级dataproc中的工作者的CPU / RAM /磁盘?

我在google dataproc中默认设置了一个集群(4个vCPU,15GB Ram)。 在完成几项猪作业后,群集有2-3个不健康的节点。 所以我升级了工作虚拟机的vCPU(4到8个vCPU),Ram(15GB到30GB)和磁盘。 但是在Hadoop Web界面中显示工作节点的硬件没有变化,但它仍然显示了原始的vCPU / Ram / Disk挂载。 我可以动态升级dataproc中 ..
发布时间:2018-06-01 12:43:49 分布式计算/Hadoop

Sqoop导出插入重复条目

我试图了解sqoop导出是如何工作的。我在mysql中有一个表格站点,它包含两列id和url,并包含两行 1,www.yahoo.com 2,www.gmail.com 表没有主键 当我通过执行下面的命令将条目从HDFS导出到mysql站点表时,它插入重复条目 我在HDFS中有以下项目 1,www.one.com 2 ,www.2.com ..

配置Hbase查询

我已经完成了与Hbase的整合 用于设置的版本 Hbase-0.98 Handoop-2.5 -h blockquote> 当我使用子句开始查询时,查询如下所示 查询:select * from hbasehive_table by key; 我得到的错误不是,但Jar文件存在于相应的文件夹中 java.io.FileNotFoundExcepti ..
发布时间:2018-06-01 12:43:21 分布式计算/Hadoop