分布式计算/Hadoop
当我试图连接map时,我在Hive中遇到了一些麻烦。假设我有类似的东西: $ b $ b var 1 | var 2 x |地图(key1:value1) x |地图(key2:value2) x | map(key3:value3) y | map(key4:value4) 我试图得到的东西就是这样 var 1 | var 2
..
“storm-hdfs连接器”的源代码,可用于将数据写入HDFS。 github网址是: https://github.com/ptgoetz/storm-hdfs 有一个特殊的拓扑结构:“HdfsFileTopology”用于将'|'分隔数据写入HDFS。 link: https://github.com/ptgoetz/storm-hdfs/blob/master/src/test/ja
..
我正在试图对Hadoop2 MapReduce框架进行基准测试。它不是TeraSort。但是 testmapredsort 。 step-1 创建随机数据: hadoop jar hadoop / randomwriter -Dtest.randomwrite.bytes_per_map = 100 -Dtest.randomwriter.maps_per_host = 10 /
..
我试图在我的单节点Hadoop安装上安装配置单元。我正在运行Mint 16.我试过安装Hive 0.12.0和0.13.0。我已将HIVE_HOME,HIVE_HOME / bin和HIVE_HOME / lib(并且没有lib)添加到我的路径中。每次我从终端运行配置单元时,我都会得到以下堆栈: 线程“main”中的异常java.lang.IncompatibleClassChangeErr
..
我可以在windows上使用 pig 0.13.0 版本的咕噜声。试图从hdfs加载一个简单的文件并转储它。发生以下错误。 2014-10-13 17:29:45,167 [main] ERROR org.apache.pig.tools.grunt.Grunt - 错误29 98:未处理的内部错误。 org.apache.hadoop.mapreduce.JobContext 日
..
我正在为大数据文件上的Kmeans聚类算法编写mapreduce程序。每个观察由包括分类变量和数值变量的列组成。对于Kmeans,在距离计算中不包括分类变量。所以我们需要过滤掉包含分类条目的列。 我的问题是:用字符过滤出条目很容易,但是如果一列仅包含数字,但是被视为分类(如Zipcode,ID)? 谢谢! 解决方案 删除所有分类变量可能不是要走的路。您是否尝试将数据集转换为数字
..
我正在编写MapReduce作业来分析网络日志。我的代码旨在将IP地址映射到地理位置,并且我使用Maxmind Geo API( https:// github.com/maxmind/geoip-api-java )。我的代码有一个LookupService方法需要数据库文件与ip到位置匹配。我正尝试使用分布式缓存传递此数据库文件。我尝试了两种不同的方式来完成这项工作: 从HDFS传递文件,但它
..
在我的oozie工作流程中,我动态地创建一个配置表格,比如说T1。这个配置单元动作之后是一个map-reduce动作。我想设置reducers属性的数量(mapred.reduce.tasks)等于字段say(T1.group)的不同值。任何想法如何动态设置一些oozie参数的值,以及如何从配置单元不同的操作中获取参数的值到oozie参数? 解决方案 我希望这可以帮助: 创建配置单元
..
我有一台安装了Rstudio的Ubuntu桌面,我也有一个远程hadoop集群,我希望从RStudio连接到Centos下运行,从我的理解这是一种可行的方法,但有人可以证实这一点吗? 解决方案 Rstudio不允许您连接到hadoop,但您可以使用hadoop streaming API提交您的hadoop作业。 有几个软件包可以帮助您入门。我已经使用rmr在hadoop集群上使用流
..
我在Amazon EC2的Linux RHEL 7.2实例中安装了Cloudera 5.8。我使用SSH登录,并试图运行wordcount示例以使用以下命令测试mapreduce操作: hadoop jar /opt/cloudera/parcels/CDH-5.8.0-1.cdh5.8.0.p0.42/lib/hadoop-mapreduce/hadoop-mapreduce-examp
..
我试图使用spark csv lib在hdfs文件上创建一个dataframe对象,如图所示。 但是,当我试图获取DataFrame对象的计数,它显示为0 这是我的文件,看起来像, 雇员.csv: empid,empname 1000,Tom 2000,Jerry code> 我使用加载上述文件, val empDf = sqlCont
..
我试图在Spark框架中使用scala编写一个内联函数,它将接受一个字符串输入,执行一个sql语句并返回一个字符串值 val testfunc:(String => String)=(arg1:String)=> {val k = sqlContext.sql(“”“从r_c_tbl中选择c_code,其中x_nm =”something“”“”) k.head()。getStrin
..
我们在AWS中启动了两个EMR,并在一个EMR中安装了hadoop和hive-0.11.0,另外一个配置了hive-0.13.1。 工作正常,但在尝试将数据加载到TABLE时,它给出了以下错误,并且它发生在两个Hive服务器中。 错误信息: 执行SQL命令时发生错误:load数据inpath 's3:// buckername / export / employee_1 /'到
..
我使用AWS EMR实施了一个集群。我有一个拥有2个核心节点的hadoop bootstrap动作主ndoe。现在,我想使用自动缩放并根据cpu阈值和其他一些约束条件动态调整簇大小。 BUt,我不知道网络上没有太多关于如何在现有集群上使用AutoScaling的信息。任何帮助。 解决方案 目前,您无法在AutoScaling组中启动EMR CLuster。但是,通过将CloudWatch警
..
我在google dataproc中默认设置了一个集群(4个vCPU,15GB Ram)。 在完成几项猪作业后,群集有2-3个不健康的节点。 所以我升级了工作虚拟机的vCPU(4到8个vCPU),Ram(15GB到30GB)和磁盘。 但是在Hadoop Web界面中显示工作节点的硬件没有变化,但它仍然显示了原始的vCPU / Ram / Disk挂载。 我可以动态升级dataproc中
..
我想将我的文件名的第一部分作为我的Hive表中的一列 我的文件名是:20151102114450.46400_Always_1446482638967 .xml 我在Microsoft Azure的Hive中使用正则表达式编写了一个查询(查询下面)它的一部分,即20151102114450 但是当我运行查询时,我得到的输出为20151102164358
..
我试图了解sqoop导出是如何工作的。我在mysql中有一个表格站点,它包含两列id和url,并包含两行 1,www.yahoo.com 2,www.gmail.com 表没有主键 当我通过执行下面的命令将条目从HDFS导出到mysql站点表时,它插入重复条目 我在HDFS中有以下项目 1,www.one.com 2 ,www.2.com
..
我已经将json-serde-1.1.9.2.jar上载到路径为“/ lib /”的blob商店,并添加了 ADD JAR /lib/json-serde-1.1.9.2.jar 但是, / p> /lib/json-serde-1.1.9.2.jar不存在 我试过了,没有路径,并且提供了完整的url到 ADD JAR 语句同样的结果。
..
我正在尝试使用sqoop2将数据导入配置单元表。我正在使用 - hive-import 但它不起作用 代码: sqoop import --connect jdbc:sqlserver://192.168.x.xxx:11xx --username user --password user --table xxxx.NOTIFICATION --hive-import
..
我已经完成了与Hbase的整合 用于设置的版本 Hbase-0.98 Handoop-2.5 -h blockquote> 当我使用子句开始查询时,查询如下所示 查询:select * from hbasehive_table by key; 我得到的错误不是,但Jar文件存在于相应的文件夹中 java.io.FileNotFoundExcepti
..