sqoop相关内容

Sqoop导出Oozie工作流失败,未找到文件,从控制台运行时运行

我有一个6节点的hadoop集群。我将数据从MSSQL中提取出来,然后通过Sqoop返回到MSSQL中。 Sqoop导入命令正常工作,并且我可以从控制台(在其中一个hadoop节点上)运行sqoop export命令。下面是我运行的shell脚本: SQLHOST = sqlservermaster.local SQLDBNAME = db1 HIVEDBNAME = db1 ..
发布时间:2018-05-31 19:56:34 分布式计算/Hadoop

如何加载和存储nvarchar

堆栈:使用Ambari 2.1安装HDP-2.3.2.0-2950 我在下面的步骤: 使用Sqoop将SQL服务器表加载到HDFS 在Hive中创建EXTERNAL表 在执行sqoop import命令时,我没有使用与charset / unicode / utf-8有关的任何东西,并且导入成功 创建Hive外部表时,我想知道我应该为原始sql服务器表中的nvarchar列选 ..
发布时间:2018-05-31 19:48:00 分布式计算/Hadoop

使用Sqoop从MySQL导入到Hive

我必须通过Sqoop将MySQL表(具有复合主键)中的4亿行以上的行导入到PARTITIONED Hive表Hive中。该表具有两年的数据,列出发日期范围从20120605到20140605,以及一天的成千上万条记录。我需要根据出发日期对数据进行分区。 版本: Apache Hadoop - 1.0。 4 Apache Hive - 0.9.0 Apache Sqoop - ..
发布时间:2018-05-31 19:46:32 数据库

关于Oozie / Sqoop的问题

我有几个问题: 1。为什么Sqoop中的MapReduce进程将数据从HDFS加载到MySQL? 例如 数据在HDFS中目录: / foo / bar 为了加载MySQL栏表中的数据, MapReduce进程? sqoop export --connect jdbc:mysql:// localhost / hduser --ta ..
发布时间:2018-05-31 19:43:29 分布式计算/Hadoop

Sqoop自由格式查询在Hue / Oozie中导致无法识别的参数

我试图用自由格式查询运行sqoop命令,因为我需要执行聚合。它通过Hue界面提交,作为Oozie工作流程。以下是命令和查询的缩小版本。处理命令时,“--query”语句(用引号括起来)导致查询的每个部分被解释为无法识别的参数,如命令后面的错误所示。另外,目标目录被误解。什么阻止了它的运行,以及可以采取哪些措施来解决它? $ {env}和$ {shard}变量正在被正确解析,正如最后一条错误消息所反 ..
发布时间:2018-05-31 19:40:09 分布式计算/Hadoop

Apache Sqoop和Flume可以互换使用吗?

我是大数据新手。从 Flume和Sqoop的区别是什么? ,Flume和Sqoop都可以从源数据中提取数据并推送到Hadoop。任何人都可以指定使用水槽的地方以及sqoop在哪里?这两个都可以用于相同的任务? 解决方案 Flume 和 Sqoop 都可以使用不同类型的数据源。 Sqoop适用于任何支持JDBC连接的RDBMS系统。另一方面,Flume可以很好地处理流式数据源,例如在您 ..
发布时间:2018-05-31 19:35:43 分布式计算/Hadoop

sqoop导入多个表

我们使用Cloudera CDH 4,并且能够按照预期将我们的Oracle数据库中的表导入我们的HDFS仓库。问题是我们的数据库中有数十个表,而sqoop只支持一次导入一个表。 将多个表格导入HDFS或Hive可以使用哪些选项?例如,一次将200个表从oracle导入HDFS或Hive的最佳方式是什么? 到目前为止我看到的唯一解决方案是为每个表导入创建一个sqoop作业,然后单独运行它 ..
发布时间:2018-05-31 19:34:44 分布式计算/Hadoop

将参数传递给sqoop作业

我想根据Date将增量加载到配置单元中一个参数,将被传递给sqoop作业 经过研究,我无法找到一种方法将参数传递给Sqoop作业 解决方案 您可以通过将日期传递给两个阶段来完成此操作: li>协调员到工作流程 在您的协调员中,您可以将日期作为 ,如下所示: ..
发布时间:2018-05-31 19:31:06 分布式计算/Hadoop

我们如何在SQOOP中自动增量导入?

我们如何自动化SQoop中的增量导入? 在增量导入中,我们需要给 - 最后一个值开始从最后一个值导入但是我的工作是经常从RDBMS导入,我不想手动给出最后一个值,有什么办法可以使这个过程自动化吗? 解决方案 另一种方法@Durga Viswanath Gadiraju答案。 如果您要将数据导入配置单元表,您可以查询最后一个更新来自配置单元表的值并将值传递给sqoop导入查询。 ..
发布时间:2018-05-31 19:25:41 分布式计算/Hadoop

Sqoop Hive退出状态1

当我执行时: sqoop import --connect jdbc:mysql:// localhost / testdb --table test - -hive-table test --hive-import -m 1 我收到以下错误消息: p> 13/04/21 16:42:50错误tool.ImportTool:遇到IOException运行导入作 ..
发布时间:2018-05-31 19:19:51 分布式计算/Hadoop

将数据从HDFS导入HBase(cdh3u2)

我已经安装了hadoop和hbase cdh3u2。在hadoop中,我在 /home/file.txt 路径中有一个文件。它有如下数据: one,1 two,2 three,3 我想将这个文件导入到hbase中。在那里,第一个字段应该被解析为String,第二个字段被解析为整数,然后它应该被推入到hbase中。帮助我做到这一点 a感谢dvance . ..
发布时间:2018-05-31 19:10:31 分布式计算/Hadoop

使用Sqoop将数据从MySQL导入Hive

我使用Sqoop(版本1.4.4)将数据从MySQL导入Hive。数据将是其中一个表的子集,即表中的少数列。是否需要事先在Hive中创建表格。或者导入数据将创建命令中指定的名称,如果它不在Hive中? 解决方案 一个href =“http://sqoop.apache.org/docs/1.4.4/SqoopUserGuide.html#_importing_data_into_hive” ..
发布时间:2018-05-31 19:07:59 数据库