分布式计算/Hadoop 第2页 - IT屋-程序员软件开发技术分享社区

蜂巢：Concat一张地图

发布时间：2018-06-01 12:45:15 hadoop hive hql 分布式计算/Hadoop

“storm-hdfs连接器”的源代码，可用于将数据写入HDFS。 github网址是： https://github.com/ptgoetz/storm-hdfs 有一个特殊的拓扑结构：“HdfsFileTopology”用于将'|'分隔数据写入HDFS。 link： https://github.com/ptgoetz/storm-hdfs/blob/master/src/test/ja ..

发布时间：2018-06-01 12:45:12 hadoop yaml hdfs apache-storm snakeyaml 分布式计算/Hadoop

基准测试期间出错排序Hadoop2 - 分区不匹配

我正在试图对Hadoop2 MapReduce框架进行基准测试。它不是TeraSort。但是 testmapredsort 。 step-1 创建随机数据： hadoop jar hadoop / randomwriter -Dtest.randomwrite.bytes_per_map = 100 -Dtest.randomwriter.maps_per_host = 10 / ..

发布时间：2018-06-01 12:45:09 sorting hadoop mapreduce benchmarking hadoop2 分布式计算/Hadoop

Hive 0.12.0 IncompatibleClassChangeError

我试图在我的单节点Hadoop安装上安装配置单元。我正在运行Mint 16.我试过安装Hive 0.12.0和0.13.0。我已将HIVE_HOME，HIVE_HOME / bin和HIVE_HOME / lib（并且没有lib）添加到我的路径中。每次我从终端运行配置单元时，我都会得到以下堆栈：线程“main”中的异常java.lang.IncompatibleClassChangeErr ..

发布时间：2018-06-01 12:45:07 maven hadoop hive 分布式计算/Hadoop

Pig 0.13.0在Windows 8上安装

我可以在windows上使用 pig 0.13.0 版本的咕噜声。试图从hdfs加载一个简单的文件并转储它。发生以下错误。 2014-10-13 17:29:45,167 [main] ERROR org.apache.pig.tools.grunt.Grunt - 错误29 98：未处理的内部错误。 org.apache.hadoop.mapreduce.JobContext 日 ..

发布时间：2018-06-01 12:44:57 windows hadoop apache-pig hdfs 分布式计算/Hadoop

KMeans处理分类变量

我正在为大数据文件上的Kmeans聚类算法编写mapreduce程序。每个观察由包括分类变量和数值变量的列组成。对于Kmeans，在距离计算中不包括分类变量。所以我们需要过滤掉包含分类条目的列。我的问题是：用字符过滤出条目很容易，但是如果一列仅包含数字，但是被视为分类（如Zipcode，ID）？谢谢！解决方案删除所有分类变量可能不是要走的路。您是否尝试将数据集转换为数字 ..

发布时间：2018-06-01 12:44:55 hadoop mapreduce k-means 分布式计算/Hadoop

使用分布式缓存访问Hadoop中的Maxmind Geo API

我正在编写MapReduce作业来分析网络日志。我的代码旨在将IP地址映射到地理位置，并且我使用Maxmind Geo API（ https：// github.com/maxmind/geoip-api-java ）。我的代码有一个LookupService方法需要数据库文件与ip到位置匹配。我正尝试使用分布式缓存传递此数据库文件。我尝试了两种不同的方式来完成这项工作：从HDFS传递文件，但它 ..

发布时间：2018-06-01 12:44:31 hadoop mapreduce geoip distributed-cache 分布式计算/Hadoop

动态计算oozie参数（MR动作减速器的数量）

在我的oozie工作流程中，我动态地创建一个配置表格，比如说T1。这个配置单元动作之后是一个map-reduce动作。我想设置reducers属性的数量（mapred.reduce.tasks）等于字段say（T1.group）的不同值。任何想法如何动态设置一些oozie参数的值，以及如何从配置单元不同的操作中获取参数的值到oozie参数？解决方案我希望这可以帮助：创建配置单元 ..

发布时间：2018-06-01 12:44:23 hadoop oozie 分布式计算/Hadoop

RStudio连接到远程Hadoop服务器

我有一台安装了Rstudio的Ubuntu桌面，我也有一个远程hadoop集群，我希望从RStudio连接到Centos下运行，从我的理解这是一种可行的方法，但有人可以证实这一点吗？解决方案 Rstudio不允许您连接到hadoop，但您可以使用hadoop streaming API提交您的hadoop作业。有几个软件包可以帮助您入门。我已经使用rmr在hadoop集群上使用流 ..

发布时间：2018-06-01 12:44:21 r hadoop rstudio 分布式计算/Hadoop

wordcount不在Cloudera中运行

我在Amazon EC2的Linux RHEL 7.2实例中安装了Cloudera 5.8。我使用SSH登录，并试图运行wordcount示例以使用以下命令测试mapreduce操作： hadoop jar /opt/cloudera/parcels/CDH-5.8.0-1.cdh5.8.0.p0.42/lib/hadoop-mapreduce/hadoop-mapreduce-examp ..

发布时间：2018-06-01 12:44:19 hadoop amazon-ec2 mapreduce cloudera 分布式计算/Hadoop

DataFrame对象不显示任何数据

我试图使用spark csv lib在hdfs文件上创建一个dataframe对象，如图所示。但是，当我试图获取DataFrame对象的计数，它显示为0 这是我的文件，看起来像，雇员.csv： empid，empname 1000，Tom 2000，Jerry code> 我使用加载上述文件， val empDf = sqlCont ..

发布时间：2018-06-01 12:44:16 hadoop apache-spark apache-spark-sql spark-dataframe spark-csv 分布式计算/Hadoop

尝试从UDF执行spark sql查询

我试图在Spark框架中使用scala编写一个内联函数，它将接受一个字符串输入，执行一个sql语句并返回一个字符串值 val testfunc：（String => String）=（arg1：String）=> {val k = sqlContext.sql（“”“从r_c_tbl中选择c_code，其中x_nm =”something“”“”） k.head（）。getStrin ..

发布时间：2018-06-01 12:44:14 scala hadoop apache-spark apache-spark-sql spark-dataframe 分布式计算/Hadoop

将负载数据发布到HIVE中

我们在AWS中启动了两个EMR，并在一个EMR中安装了hadoop和hive-0.11.0，另外一个配置了hive-0.13.1。工作正常，但在尝试将数据加载到TABLE时，它给出了以下错误，并且它发生在两个Hive服务器中。错误信息：执行SQL命令时发生错误：load数据inpath 's3：// buckername / export / employee_1 /'到 ..

发布时间：2018-06-01 12:44:12 hadoop amazon-web-services hive emr 分布式计算/Hadoop

如何使用AWS自动扩展功能扩展具有1个主节点和2个核心节点的AWS EMR群集？有没有办法？

我使用AWS EMR实施了一个集群。我有一个拥有2个核心节点的hadoop bootstrap动作主ndoe。现在，我想使用自动缩放并根据cpu阈值和其他一些约束条件动态调整簇大小。 BUt，我不知道网络上没有太多关于如何在现有集群上使用AutoScaling的信息。任何帮助。解决方案目前，您无法在AutoScaling组中启动EMR CLuster。但是，通过将CloudWatch警 ..

发布时间：2018-06-01 12:44:02 hadoop amazon-web-services amazon-emr hadoop2 分布式计算/Hadoop

我如何动态升级dataproc中的工作者的CPU / RAM /磁盘？

我在google dataproc中默认设置了一个集群（4个vCPU，15GB Ram）。在完成几项猪作业后，群集有2-3个不健康的节点。所以我升级了工作虚拟机的vCPU（4到8个vCPU），Ram（15GB到30GB）和磁盘。但是在Hadoop Web界面中显示工作节点的硬件没有变化，但它仍然显示了原始的vCPU / Ram / Disk挂载。我可以动态升级dataproc中 ..

发布时间：2018-06-01 12:43:49 hadoop google-cloud-dataproc 分布式计算/Hadoop

Filename的一部分作为Hive Table中的一列

我想将我的文件名的第一部分作为我的Hive表中的一列我的文件名是：20151102114450.46400_Always_1446482638967 .xml 我在Microsoft Azure的Hive中使用正则表达式编写了一个查询（查询下面）它的一部分，即20151102114450 但是当我运行查询时，我得到的输出为20151102164358 ..

发布时间：2018-06-01 12:43:46 regex azure hadoop hive hiveql 分布式计算/Hadoop

Sqoop导出插入重复条目

我试图了解sqoop导出是如何工作的。我在mysql中有一个表格站点，它包含两列id和url，并包含两行 1，www.yahoo.com 2，www.gmail.com 表没有主键当我通过执行下面的命令将条目从HDFS导出到mysql站点表时，它插入重复条目我在HDFS中有以下项目 1，www.one.com 2 ，www.2.com ..

发布时间：2018-06-01 12:43:31 hadoop sqoop apache-sqoop cloudera-quickstart-vm 分布式计算/Hadoop

HDInsight Hive在ADD JAR语句中找不到SerDe jar

我已经将json-serde-1.1.9.2.jar上载到路径为“/ lib /”的blob商店，并添加了 ADD JAR /lib/json-serde-1.1.9.2.jar 但是， / p> /lib/json-serde-1.1.9.2.jar不存在我试过了，没有路径，并且提供了完整的url到 ADD JAR 语句同样的结果。 ..

发布时间：2018-06-01 12:43:28 hadoop hive hdinsight 分布式计算/Hadoop

sqoop将数据导入配置单元

我正在尝试使用sqoop2将数据导入配置单元表。我正在使用 - hive-import 但它不起作用代码： sqoop import --connect jdbc：sqlserver：//192.168.x.xxx：11xx --username user --password user --table xxxx.NOTIFICATION --hive-import ..

发布时间：2018-06-01 12:43:23 hadoop hive sqoop sqoop2 sql-manager 分布式计算/Hadoop

配置Hbase查询

我已经完成了与Hbase的整合用于设置的版本 Hbase-0.98 Handoop-2.5 -h blockquote> 当我使用子句开始查询时，查询如下所示查询：select * from hbasehive_table by key; 我得到的错误不是，但Jar文件存在于相应的文件夹中 java.io.FileNotFoundExcepti ..

发布时间：2018-06-01 12:43:21 hadoop hive 分布式计算/Hadoop