sqoop相关内容

如何将数据从一个HDFS复制到另一个HDFS?

我有两个HDFS设置,希望将HDFS1中的某些表复制到HDFS2中(而不是迁移或移动)。如何将数据从一个HDFS复制到另一个HDFS?是否可以通过Sqoop或其他命令行? 解决方案 DistCp(分布式副本)是一种用于在群集之间复制数据的工具。它使用MapReduce来实现分布,错误处理和恢复以及报告。它将文件和目录列表扩展为映射任务的输入,其中每个文件和目录都将复制源列表中指定文件的一个 ..
发布时间:2018-05-31 19:07:56 分布式计算/Hadoop

用Oozie使用sqoop观察重复项

我已经构建了一个sqoop程序,以便使用预先构建的sqoop作业将数据从MySQL导入到HDFS中: sqoop job -fs $ driver_path -D mapreduce.map.java.opts =“-Duser.timezone = Europe / Paris”\ --create job_parquet_table - import -m $ nodes_nu ..
发布时间:2018-05-31 19:01:59 分布式计算/Hadoop

与mysql的sqoop导入问题

15/03/20 12:47:53错误manager.SqlManager:从数据库读取时出错:java.sql.SQLException:流结果集com.mysql.jdbc.RowDataDynamic@33573e93仍处于活动状态。当任何流式结果集打开并在给定连接上使用时,不会发布任何语句。确保您在尝试更多查询之前在任何活动流式结果集上调用了.close()。 java.sql.SQ ..
发布时间:2018-05-31 18:52:05 分布式计算/Hadoop

是否可以读取MongoDB数据,使用Hadoop处理数据,并将其输出到RDBS(MySQL)中?

总结: 有可能: 使用“MongoDB Connector for Hadoop”将数据导入Hadoop中。 使用Hadoop MapReduce处理数据。 使用Sqoop导出 我正在用MongoDB构建一个Web应用程序。尽管MongoDB在大多数工作中都能很好地工作,但在某些部分我需要更强大的事务保证,为此我使用MySQL数据库。 我的问题是我想阅读一个用于数据分析 ..
发布时间:2018-05-31 18:46:49 数据库

蜂巢中的增量/增量加载

我有下面的用例: 我的应用程序在 RDBMS DB中有一个包含多年数据 。我们使用 sqoop 将数据导入HDFS,并将其加载到由年,月分区的配置单元表中。 现在,应用程序会更新,并且每天还将新记录插入到RDBMS表格表中。这些更新的记录可以跨历史月份。更新的记录和新的插入记录可以通过更新的时间戳字段确定(它将有当前的日期时间戳记)。现在,问题在于:如何进行增量/增量加载hive表每天使用这 ..
发布时间:2018-05-31 18:43:49 分布式计算/Hadoop

我如何在Java中执行Sqoop?

我创建了一个新的Java项目,然后添加了Library Sqoop和Hadoop。 (这些库是“hadoop-core-1.1.1.jar,sqoop-1.4.2.jar等....”)。 然后我尝试下面代码: public class MySqoopDriver { public static void main(String [] args){ String [] str = ..
发布时间:2018-05-31 18:31:02 分布式计算/Hadoop

OOZIE:全局job-xml中引用的文件中定义的属性在workflow.xml中不可见

我是hadoop的新手,现在我只用一个sqoop动作测试简单的工作流程。它可以工作,如果我使用普通值 - 不是全局属性。 然而,我的目标是定义一些全局属性在 job-xml中引用的文件中 经过长时间的阅读和阅读很多文章,我仍然无法使它工作。 我怀疑一些简单的事情是错误的,因为我发现文章暗示此功能可以正常工作。 希望您能给我个提示。 > 总之: 我有属性 dbserv ..
发布时间:2018-05-31 18:25:57 分布式计算/Hadoop

Sqoop - 数据分割

Sqoop能够使用 - query 子句从多个表中导入数据,但不清楚它是否能够导入下面的查询。 通过deptid从emp group中选择deptid,avg(salary) 另一个问题是 sqoop import --connect jdbc:mysql:// myserver:1202 / --username = u1 --password = p1 --query'Se ..
发布时间:2018-05-31 18:25:53 分布式计算/Hadoop

如何在Java程序中使用Sqoop?

我知道如何通过命令行使用sqoop。 但是不知道如何使用java程序调用sqoop命令。 任何人都可以提供一些代码视图吗? 解决方案 您可以从java代码中运行sqoop,方法是将sqoop jar在你的classpath中调用 Sqoop.runTool()方法。您必须以编程方式创建所需的参数给sqoop,就好像它是命令行一样(例如 - connect 等)。 请注意以下几点: ..
发布时间:2018-05-31 18:23:16 Java开发

部分和重复记录,而sqoop导入

- 查询 - 自定义查询 - split-by - 非整数列(char) - num-mappers - 超过2 验证源数据计数说1000记录 验证导入数据计数表示1923记录 解决方案 使用 split-by 时,字段是非整数。 Sqoop使用TextSplitter提供如下警告: WARN db.TextSplitter:如果您的数据库以不区分大小写的顺序 ..
发布时间:2017-07-21 00:48:52 其他开发

Oozie + Sqoop:JDBC Driver Jar位置

我有一个6节点cloudera的hadoop集群,我试图从oozie的一个sqoop动作连接到一个oracle数据库。 我已经复制了我的ojdbc6 .jar到所有节点的sqoop lib位置(对我来说恰好是在/opt/cloudera/parcels/CDH-4.2.0-1.cdh4.2.0.p0.10/lib/sqoop/lib/)并验证我可以从所有6个节点运行一个简单的“sqoop e ..
发布时间:2017-05-02 22:15:26 其他开发

如何使用sqoop import将RDBMS数据导入到特定的hive数据库

我需要使用sqoop将外部数据库从mysql导入hive。我的要求是使用sqoop import将具有所有表的完整数据库导入到指定的hive数据库。例如,我想导入mysql数据库'hadoop_practice'及其所有表到hive数据库'hadoop_practice'。但是,当我执行以下命令 $ sqoop import-all-tables --connect jdbc:mysql:/ ..
发布时间:2017-03-19 21:58:04 数据库