分布式计算/Hadoop 第16页 - IT屋-程序员软件开发技术分享社区

hdfs namenode -format错误（没有这样的文件或目录）

试图让hadoop 2.3.0在我的ubuntu机器上本地运行，试图格式化hdfs namenode，我收到以下错误： / usr / local / hadoop / hadoop-hdfs-project / hadoop-hdfs / src / main / bin / hdfs：第34行： / usr / local / hadoop / hadoop- hdfs-proje ..

发布时间：2018-05-31 20:16:07 ubuntu hadoop hdfs 分布式计算/Hadoop

配置单元 - 分区上的查询不会返回任何内容

我有一个正在被特定开始日期（ds）分区的表格。我可以查询最新的分区（前一天的数据），它将使用分区罚款。 hive>从vtc4中选择count（1），其中ds ='2012-11-01'; ...垃圾... MapReduce作业推出：作业0：映射：1减少：1累计CPU：6.43秒HDFS读取：46281957 HDFS写入：7 SUCCESS Total MapReduce ..

发布时间：2018-05-31 20:16:05 hadoop hive 分布式计算/Hadoop

Hadoop master无法使用不同的$ HADOOP_HOME启动slave

在master中， $ HADOOP_HOME 是 / home / a / hadoop ，从属的 $ HADOOP_HOME 是 / home / b / hadoop 尝试使用 start-all.sh ，那么主名称节点会成功启动，但无法启动slave的数据节点，并显示以下消息： b@192.068.0.2：bash：line 0：cd：/ home / b / hadoop ..

发布时间：2018-05-31 20:15:42 hadoop master-slave 分布式计算/Hadoop

如何为hadoop streaming指定分区器

我有一个像下面这样的自定义分区： import java.util。*; import org.apache.hadoop.mapreduce。*; public static class SignaturePartitioner extends Partitioner { @Override public int getPartition（T ..

发布时间：2018-05-31 20:15:39 hadoop mapreduce hadoop-streaming hadoop-partitioning 分布式计算/Hadoop

从MongoDB迁移到HBase

你好我是HBase数据库的新手。我下载了一些Twitter数据并存储到MongoDB中。现在我需要将这些数据转换为HBase来加速Hadoop处理。但我无法创建它的方案。在这里，我将twitter数据转换为JSON格式 - { “_id”：ObjectId （“512b71e6e4b02a4322d1c0b0”）， “id”：NumberLong（“306044618179506176” ..

发布时间：2018-05-31 20:15:30 mongodb hadoop hbase 分布式计算/Hadoop

使用Spark的S3a协议访问S3使用Hadoop版本2.7.2

我试图从pyspark（版本2.2.0）访问s3（s3a协议），并且遇到了一些困难。我正在使用Hadoop和AWS sdk包。 pyspark --packages com.amazonaws：aws-java-sdk-pom：1.10.34， org.apache.hadoop：hadoop-aws：2.7.2 这是我的代码的样子： sc._jsc. ..

发布时间：2018-05-31 20:15:11 amazon-web-services hadoop apache-spark amazon-s3 pyspark 分布式计算/Hadoop

可以启动流式传输选择特定文件

我的程序不断从 hadoop 文件夹中读取流（比如 / hadoopPath / ），它将所有文件从上面的文件夹。我可以仅查看该文件夹的特定文件类型（例如：/ hadoopPath / * .log ）我有另一个与Spark和流相关的问题：火花流式传输与“cp”和“mv” 解决方案我一直在努力解决同样的问题几个小时，这似乎很容易，我在网上找不到任何关于它的事情。最后，我找到了 ..

发布时间：2018-05-31 20:15:07 hadoop apache-spark spark-streaming 分布式计算/Hadoop

在导入之前是否可以在新文件上使用筛选器编写Sqoop增量导入？

我的疑问是，说，我有一个文件A1.csv在sql-server表上有2000条记录，我将这些数据导入到hdfs中，当天晚些时候，我将3000条记录添加到sql-server表上的同一个文件中。现在，我想为要添加到hdfs上的第二块数据运行增量导入，但是，我不希望导入完整的3000条记录。我只需要根据我的需要导入一些数据，例如，具有一定条件的1000条记录将作为增量导入的一部分导入。有没 ..

发布时间：2018-05-31 20:15:02 hadoop merge hdfs sqoop 分布式计算/Hadoop

为什么在启动任何服务之前，hadoop要求输入密码？

为什么在启动hadoop之前需要ssh登录？为什么hadoop要求密码启动任何服务？ shravilp @ shravilp -HP-15-Notebook-PC：〜/ hadoop-2.6.3 $ sbin / start-all。 sh 此脚本已弃用。而是使用start-dfs.sh和start-yarn.sh 在[localhost]上启动namenodes shravilp ..

发布时间：2018-05-31 20:14:52 hadoop bigdata 分布式计算/Hadoop

YARN的工作历史未到

我使用源代码中最新的hadoop 3.0.0版本。我的时间轴服务已启动并运行，并已配置hadoop将其用于作业历史记录。但是当我点击resoucemanager UI中的历史记录时，出现以下错误： - HTTP错误404 问题访问/ jobhistory / job / job_1444395439959_0001。原因： NOT_FOUND 有人可以指出我在 ..

发布时间：2018-05-31 20:14:50 hadoop yarn 分布式计算/Hadoop

HDP 2.5：Spark History Server UI不会显示不完整的应用程序

我使用 Hortonworks Data Platform 2.5 设置了一个新的Hadoop集群。在“旧”集群中（安装 HDP 2.4 ），我可以通过点击链接来查看有关运行Spark作业的信息。显示不完整的申请：在新安装中，此链接打开页面，但始终是未找到未完成的应用程序！（当仍有应用程序在运行时）。我刚才看到， YARN ResourceManager UI 在“Tracking ..

发布时间：2018-05-31 20:14:44 hadoop apache-spark yarn hortonworks-data-platform 分布式计算/Hadoop

从多个服务器加载数据时避免数据复制

我有十几台Web服务器，每台服务器都将数据写入日志文件。在每个小时的开始，使用运行命令的cron脚本将前一小时的数据加载到配置单元中： hive -e“LOAD DATA LOCAL INPATH'myfile.log'INTO TABLE my_table PARTITION（dt ='2015-08-17-05'）” 在某些情况下，命令失败并以0以外的代码退出，在这种情 ..

发布时间：2018-05-31 20:14:34 hadoop hive 分布式计算/Hadoop

如何在--map-column-hive中使用Sqoop导入命令？

我试图将Teradata的数据平铺到配置单元中。我想按照下面的步骤： $ b $ 1）创建Hue中所有必填字段的Hive表格。 2）通过使用Sqoop导入命令以及 - map-column-hive 属性以将Teradata中的数据加载到配置单元。从Sqoop导入命令指向已经创建的Hive表，以便Sqooped数据应该放置在相应的Hive表中？解决方案 p>您可以使用shell和aw ..

发布时间：2018-05-31 20:14:32 hadoop hive sqoop 分布式计算/Hadoop

我是hadoop的新手，刚刚安装了oracle的virtualbox和hortonworks沙箱。然后，我下载了最新版本的hadoop，并将jar文件导入到我的java程序中。我复制了一个示例wordcount程序并创建了一个新的jar文件。我将这个jar文件作为使用沙箱的作业来运行。 wordcount按预期完美地工作。但是，在我的工作状态页面中，我看到输入文件中映射器的数量被确定为28.在我的 ..

发布时间：2018-05-31 20:14:12 hadoop hadoop-partitioning 分布式计算/Hadoop

通过http访问存储在HDFS中的视频

我想访问存储在HDFS&在网页浏览器中显示它们。我发现这个项目（ https://github.com/yeleaveszi/Play-Videos-In- HDFS ）在github上正是这样做，但无法使其工作。任何人都可以提供一些信息或方式，让我可以在网络浏览器上显示HDFS中存储的视频。也有可能获得存储在HDFS中的视频的HTTP链接，我读过关于WebHDFS& HTTPFS，但 ..

发布时间：2018-05-31 20:14:09 hadoop video hdfs webhdfs 分布式计算/Hadoop

我在哪里可以找到Hadoop上SVM的实现？

我在 http://code.google.com/p/cascadesvm/。但是，没有关于这方面的规格。有没有人试过？或者，我可以在哪里找到Hadoop上SVM的替代实现？非常感谢〜解决方案您可以查看 https://code.google.com/p/cascadesvm/ 培训部分和Matlab版本的演示发布。 https://code.google.com/p/c ..

发布时间：2018-05-31 20:14:04 hadoop svm 分布式计算/Hadoop

风暴UI拓扑不起作用

我们在 LocalCluster 中执行Storm拓扑。风暴拓扑运行良好并且能够连接Storm UI（8090）。但Storm UI未显示正在运行的拓扑信息。 LocalCluster cluster = new LocalCluster（）; 并提交如下： bin / storm jar bin / StormTest-0.0.1-SNAPSHOT.j ..

发布时间：2018-05-31 20:13:54 hadoop apache-kafka apache-storm hadoop-streaming apache-storm-flux 分布式计算/Hadoop

Hadoop安装问题：

我遵循这个教程来安装Hadoop。不幸的是，当我运行 start-all.sh 脚本时 - 在控制台上输出以下错误： hduser @ dennis-HP：/ usr / local / hadoop / sbin $ start-all.sh 此脚本已弃用。请使用start-dfs.sh和start-yarn.sh hadoop配置脚本运行... hdfs脚本运行... 配置 ..

发布时间：2018-05-31 20:13:51 hadoop installation hadoop2 分布式计算/Hadoop

整合MapReduce日志

调试Hadoop map-reduce作业是一件痛苦的事情。我可以打印出标准输出，但这些日志显示在运行MR作业的所有不同机器上。我可以找工作跟踪者，找到我的工作，然后点击每个单独的映射器以获取它的任务日志，但是当您有20多个映射器/缩减器时，这非常麻烦。我想我可能需要编写一个脚本，通过作业跟踪器了解每台映射器/缩减器在哪台机器上运行，然后将日志返回到一个中心位置，编辑在一起。在我浪费时间做 ..

发布时间：2018-05-31 20:13:48 logging hadoop mapreduce 分布式计算/Hadoop

HBase和Hadoop

HBase需要基于我迄今阅读的内容安装Hadoop。看起来HBase可以设置为使用现有的Hadoop集群（与其他一些用户共享），或者可以将其设置为使用专用的Hadoop集群？我想后者会是一个更安全的配置，但我想知道是否有人对前者有任何经验（但是我不确定我对HBase设置的理解是否正确）。解决方案我知道Facebook和其他大型组织将他们的HBase集群（实时访问）与他们的Hadoop集 ..

发布时间：2018-05-31 20:13:43 hadoop hbase 分布式计算/Hadoop