sqoop相关内容

将HDFS数据移入MongoDB

我试图将HDFS数据移入MongoDB。我知道如何使用sqoop将数据导出到mysql中。我不认为我可以使用MongoDb的sqoop。我需要帮助了解如何做到这一点。 解决方案 基本问题是mongo以BSON格式(二进制JSON)存储其数据,而您的hdfs数据可能具有不同的格式(txt,sequence,avro)。最简单的事情就是使用pig来加载使用这个驱动的结果: https:/ ..
发布时间:2018-05-31 20:28:02 分布式计算/Hadoop

关于Hive的问题

我有这样的环境: 具有多个应用程序的Haddop环境(1个主站,4个从站): ambari,hue ,hive,sqoop,hdfs ...使用mysql数据库生产服务器(与hadoop分离 )。 我的目标是: 优化在此mysql服务器上进行的查询,这些查询对于 执行速度很慢。 我做了什么: 我将mysql数据导入HDFS使用Sqoop。 我的疑惑: ..
发布时间:2018-05-31 20:26:34 分布式计算/Hadoop

Sqoop导出分区Hive表

试图导出分区Hive表时遇到了一些问题。这是完全支持(我试图谷歌它,并发现一个JIRA票)? sqoop导出--connect jdbc:mysql :// localhost / testdb --table sales --export-dir / user / hive / warehouse / sales --direct 以下是我得到的结果: 0000 ..
发布时间:2018-05-31 20:21:33 分布式计算/Hadoop

如何在java中实现sqoop

我是hadoop的新手。我正尝试使用sqoop将数据从RDMS导出到HDFS。我通过命令行提示符来实现这一点。我在java 这里找到了实现sqoop的指南,但是在哪里我可以找到sqoop.jar文件吗? 解决方案 您可以从这里。 ..
发布时间:2018-05-31 20:17:19 Java开发

在导入之前是否可以在新文件上使用筛选器编写Sqoop增量导入?

我的疑问是,说,我有一个文件A1.csv在sql-server表上有2000条记录,我将这些数据导入到hdfs中,当天晚些时候,我将3000条记录添加到sql-server表上的同一个文件中。 现在,我想为要添加到hdfs上的第二块数据运行增量导入,但是,我不希望导入完整的3000条记录。我只需要根据我的需要导入一些数据,例如,具有一定条件的1000条记录将作为增量导入的一部分导入。 有没 ..
发布时间:2018-05-31 20:15:02 分布式计算/Hadoop

如何在--map-column-hive中使用Sqoop导入命令?

我试图将Teradata的数据平铺到配置单元中。我想按照下面的步骤: $ b $ 1)创建Hue中所有必填字段的Hive表格。 2)通过使用Sqoop导入命令以及 - map-column-hive 属性以将Teradata中的数据加载到配置单元。 从Sqoop导入命令指向已经创建的Hive表,以便Sqooped数据应该放置在相应的Hive表中? 解决方案 p>您可以使用shell和aw ..
发布时间:2018-05-31 20:14:32 分布式计算/Hadoop

使用Apache Sqoop将数据从Mongo / Cassandra导出到HDFS

我有一个问题,我必须从多个数据源(例如RDBMS(MYSQL,Oracle)和NOSQL(MongoDb,Cassandra))通过Hive将数据读取到HDFS中(增量) Apache Sqoop完美适用于RDBMS,但它不适用于NOSQL,至少我无法成功使用它(我尝试使用Mongo的JDBC驱动程序......它能够连接到Mongo但无法推送到HDFS) 如果任何人已经完成了与此相关 ..
发布时间:2018-05-31 20:03:17 分布式计算/Hadoop

如何使用sqoop在Hive中创建外部表。需要建议

使用sqoop我可以创建托管表,但不能创建外部表。 请让我知道从数据仓库中卸载数据并将其加载的最佳实践Hive外部表。 1.仓库中的表是分区的。一些是明智的分区,一些是明智的分区。 请在生产环境中使用您的想法或做法。 解决方案 Sqoop不支持创建Hive外部表。相反,您可以:使用Sqoop codegen命令生成用于创建与远程RDBMS表相匹配的Hive内部表的SQL( ..
发布时间:2018-05-31 20:01:29 分布式计算/Hadoop

如何为Sqoop输出文件提供自定义名称

当我使用sqoop通过默认方式将数据导入配置单元时,它将在HDFS上创建文件名作为part-m-0000,part-m-0001等。 重命名这些文件? 如果我想给一些有意义的名字,比如带日期的文件名加上日期以表示负载,我该怎么做? 请提出建议 解决方案 是的,我们可以!请参阅此处 sqoop import -D mapreduce.output.basename ..
发布时间:2018-05-31 20:01:07 分布式计算/Hadoop

SQOOP无法导入表格

我在sqoop上运行下面的命令 sqoop import --connect jdbc:mysql:// localhost / hadoopguide - table widgets 我的sqoop版本: Sqoop 1.4.4.2.0.6.1-101 Hadoop - Hadoop 2.2.0.2.0.6.0-101 从hortonwor ..
发布时间:2018-05-31 19:59:29 分布式计算/Hadoop