分布式计算/Hadoop

配置单元 - 分区上的查询不会返回任何内容

我有一个正在被特定开始日期(ds)分区的表格。我可以查询最新的分区(前一天的数据),它将使用分区罚款。 hive>从vtc4中选择count(1),其中ds ='2012-11-01'; ...垃圾... MapReduce作业推出: 作业0:映射:1减少:1累计CPU:6.43秒HDFS读取:46281957 HDFS写入:7 SUCCESS Total MapReduce ..
发布时间:2018-05-31 20:16:05 分布式计算/Hadoop

从MongoDB迁移到HBase

你好我是HBase数据库的新手。我下载了一些Twitter数据并存储到MongoDB中。现在我需要将这些数据转换为HBase来加速Hadoop处理。但我无法创建它的方案。在这里,我将twitter数据转换为JSON格式 - { “_id”:ObjectId (“512b71e6e4b02a4322d1c0b0”), “id”:NumberLong(“306044618179506176” ..
发布时间:2018-05-31 20:15:30 分布式计算/Hadoop

可以启动流式传输选择特定文件

我的程序不断从 hadoop 文件夹中读取流(比如 / hadoopPath / ),它将所有文件从上面的文件夹。我可以仅查看该文件夹的特定文件类型(例如:/ hadoopPath / * .log ) 我有另一个与Spark和流相关的问题: 火花流式传输与“cp”和“mv” 解决方案 我一直在努力解决同样的问题几个小时,这似乎很容易,我在网上找不到任何关于它的事情。最后,我找到了 ..
发布时间:2018-05-31 20:15:07 分布式计算/Hadoop

在导入之前是否可以在新文件上使用筛选器编写Sqoop增量导入?

我的疑问是,说,我有一个文件A1.csv在sql-server表上有2000条记录,我将这些数据导入到hdfs中,当天晚些时候,我将3000条记录添加到sql-server表上的同一个文件中。 现在,我想为要添加到hdfs上的第二块数据运行增量导入,但是,我不希望导入完整的3000条记录。我只需要根据我的需要导入一些数据,例如,具有一定条件的1000条记录将作为增量导入的一部分导入。 有没 ..
发布时间:2018-05-31 20:15:02 分布式计算/Hadoop

YARN的工作历史未到

我使用源代码中最新的hadoop 3.0.0版本。我的时间轴服务已启动并运行,并已配置hadoop将其用于作业历史记录。但是当我点击resoucemanager UI中的历史记录时,出现以下错误: - HTTP错误404 问题访问/ jobhistory / job / job_1444395439959_0001。原因: NOT_FOUND 有人可以指出我在 ..
发布时间:2018-05-31 20:14:50 分布式计算/Hadoop

HDP 2.5:Spark History Server UI不会显示不完整的应用程序

我使用 Hortonworks Data Platform 2.5 设置了一个新的Hadoop集群。在“旧”集群中(安装 HDP 2.4 ),我可以通过点击链接来查看有关运行Spark作业的信息。显示不完整的申请: 在新安装中,此链接打开页面,但始终是未找到未完成的应用程序!(当仍有应用程序在运行时)。 我刚才看到, YARN ResourceManager UI 在“Tracking ..

从多个服务器加载数据时避免数据复制

我有十几台Web服务器,每台服务器都将数据写入日志文件。在每个小时的开始,使用运行命令的cron脚本将前一小时的数据加载到配置单元中: hive -e“LOAD DATA LOCAL INPATH'myfile.log'INTO TABLE my_table PARTITION(dt ='2015-08-17-05')” 在某些情况下,命令失败并以0以外的代码退出,在这种情 ..
发布时间:2018-05-31 20:14:34 分布式计算/Hadoop

如何在--map-column-hive中使用Sqoop导入命令?

我试图将Teradata的数据平铺到配置单元中。我想按照下面的步骤: $ b $ 1)创建Hue中所有必填字段的Hive表格。 2)通过使用Sqoop导入命令以及 - map-column-hive 属性以将Teradata中的数据加载到配置单元。 从Sqoop导入命令指向已经创建的Hive表,以便Sqooped数据应该放置在相应的Hive表中? 解决方案 p>您可以使用shell和aw ..
发布时间:2018-05-31 20:14:32 分布式计算/Hadoop

hadoop - 总映射器是如何确定的

我是hadoop的新手,刚刚安装了oracle的virtualbox和hortonworks沙箱。然后,我下载了最新版本的hadoop,并将jar文件导入到我的java程序中。我复制了一个示例wordcount程序并创建了一个新的jar文件。我将这个jar文件作为使用沙箱的作业来运行。 wordcount按预期完美地工作。但是,在我的工作状态页面中,我看到输入文件中映射器的数量被确定为28.在我的 ..
发布时间:2018-05-31 20:14:12 分布式计算/Hadoop

通过http访问存储在HDFS中的视频

我想访问存储在HDFS&在网页浏览器中显示它们。我发现这个项目( https://github.com/yeleaveszi/Play-Videos-In- HDFS )在github上正是这样做,但无法使其工作。 任何人都可以提供一些信息或方式,让我可以在网络浏览器上显示HDFS中存储的视频。 也有可能获得存储在HDFS中的视频的HTTP链接,我读过关于WebHDFS& HTTPFS,但 ..
发布时间:2018-05-31 20:14:09 分布式计算/Hadoop

我在哪里可以找到Hadoop上SVM的实现?

我在 http://code.google.com/p/cascadesvm/。 但是,没有关于这方面的规格。有没有人试过?或者,我可以在哪里找到Hadoop上SVM的替代实现? 非常感谢〜 解决方案 您可以查看 https://code.google.com/p/cascadesvm/ 培训部分和Matlab版本的演示发布。 https://code.google.com/p/c ..
发布时间:2018-05-31 20:14:04 分布式计算/Hadoop

Hadoop安装问题:

我遵循这个教程来安装Hadoop。不幸的是,当我运行 start-all.sh 脚本时 - 在控制台上输出以下错误: hduser @ dennis-HP:/ usr / local / hadoop / sbin $ start-all.sh 此脚本已弃用。请使用start-dfs.sh和start-yarn.sh hadoop配置脚本运行... hdfs脚本运行... 配置 ..
发布时间:2018-05-31 20:13:51 分布式计算/Hadoop

整合MapReduce日志

调试Hadoop map-reduce作业是一件痛苦的事情。我可以打印出标准输出,但这些日志显示在运行MR作业的所有不同机器上。我可以找工作跟踪者,找到我的工作,然后点击每个单独的映射器以获取它的任务日志,但是当您有20多个映射器/缩减器时,这非常麻烦。 我想我可能需要编写一个脚本,通过作业跟踪器了解每台映射器/缩减器在哪台机器上运行,然后将日志返回到一个中心位置,编辑在一起。在我浪费时间做 ..
发布时间:2018-05-31 20:13:48 分布式计算/Hadoop

HBase和Hadoop

HBase需要基于我迄今阅读的内容安装Hadoop。看起来HBase可以设置为使用现有的Hadoop集群(与其他一些用户共享),或者可以将其设置为使用专用的Hadoop集群?我想后者会是一个更安全的配置,但我想知道是否有人对前者有任何经验(但是我不确定我对HBase设置的理解是否正确)。 解决方案 我知道Facebook和其他大型组织将他们的HBase集群(实时访问)与他们的Hadoop集 ..
发布时间:2018-05-31 20:13:43 分布式计算/Hadoop