sqoop相关内容

Hadoop-3.0.0 与旧版本的 Hive、Pig、Sqoop 和 Spark 的兼容性如何

我们目前在 10 节点集群上使用 hadoop-2.8.0,并计划升级到最新的 hadoop-3.0.0. 我想知道如果我们将 hadoop-3.0.0 与旧版本的 Spark 和其他组件(例如 Hive、Pig 和 Sqoop)一起使用会不会有任何问题. 解决方案 最新Hive版本不支持Hadoop3.0,看来以后Hive可能会建立在Spark或其他计算引擎上. ..
发布时间:2021-11-12 04:14:19 其他开发

S3 作为 Sqoop 导入中的目标目录

尝试使用 sqoop import 命令导入数据库表,目标目录指定为 Amazon S3 存储桶名称.命令如下 sqoop import --connect jdbc:mysql://hostname/mytable --username myuser --password mypassword --table mytable --target-dir s3://:@s3-us-west-2.a ..
发布时间:2021-10-27 19:05:58 其他开发

Sqoop:如何在将数据从 RDBMS 导入 Hive 表时处理重复值

Sqoop:如何在将数据从 RDBMS 导入 Hive 表时处理重复值. 或者如果 Hive 表中的值已经可用,则处理冗余选项? 解决方案 如果您的数据具有唯一标识符并且您正在运行增量导入,您可以在导入的 -mergeKey 值上指定它.这会将表中已有的值与最新的值合并.较新的将覆盖最旧的. 如果您没有运行增量导入,您可以使用 sqoop 合并来统一数据.来自 sqoop 文档 ..
发布时间:2021-08-27 19:41:39 其他开发

SQOOP --where 不适用于 --query

WHERE 子句不适用于 --where 和 --query sqoop import --connect "jdbc:mysql://quickstart.cloudera:3306/retail_db" --username "retail_dba" --password "cloudera" --target-dir "/user/cloudera/sqoop_import_table ..
发布时间:2021-08-27 19:41:36 其他开发

Sqoop-import 从 HANA 使用表名中的特殊字符导入到 hive

我正在尝试从 SAP HANA 数据库进行 SQOOP,我的目的是进行直接配置单元导入,我根据需要使用了该命令(适用于大多数表)但在某些情况下导入不起作用是 SAP 表名中的特殊字符,例如表名是“/BIC/AS100/"由于表名中有“/". 我无法直接导入 hive.有什么方法可以导入表并创建一个具有适当名称的新配置单元表. 解决方案 谢谢 , Sathiyan , 问题已解决 ..
发布时间:2021-08-27 19:41:32 其他开发

sqoop 可以将 blob 类型从 HDFS 导出到 Mysql 吗?

Sqoop 能否将 blob 类型从 HDFS 导出到 Mysql? 我有一个带有 blob 类型列的表,我可以将它导入到 HDFS,但是在将其导出时会引发异常: Caused by: java.io.IOException: 无法缓冲记录在 org.apache.sqoop.mapreduce.AsyncSqlRecordWriter.write(AsyncSqlRecordWriter ..
发布时间:2021-08-27 19:41:29 其他开发

将 Impala 表从 HDFS 导出到 MySQL

我正在尝试使用 Sqoop 将一个黑斑羚表从 HDFS 导出到 MySQL.该表已经在 MySQL 中创建,并且两个表的架构应该匹配. Impala 表信息:1 开始日期字符串2 start_station_code 字符串3 end_date 字符串4 end_station_code 字符串5 duration_sec 整数6 is_member int7 cnt bigintImpala ..
发布时间:2021-08-27 19:41:25 其他开发

用于 Sqoop 拆分列的 Oracle ROWID

我有一个巨大的 oracle 表 (Transaction),我的 oracle 表中的数据在“Customer id"列上的数据有偏差,因此少数映射器需要花费数小时的时间才能完成工作,而其他映射器则在分钟.我看不到任何其他选项来避免倾斜数据,因为这是唯一可以拆分的列.我们可以结合其他列,如客户 ID、批次 ID、SEQ NUM 来进行多列拆分,但我知道 sqoop 不支持多列拆分. 我的目 ..
发布时间:2021-08-27 19:41:17 其他开发

sqoop split by 选项在 split by 选项中使用派生列时出错

我有一个 Oracle 查询,它正在获取 2500 万条记录,没有 pk 或没有正确分布的列以按列拆分.所以我想到了使用 ROW_number() over () as RANGEGROUP 来制作一个序列号.但是当我使用这个伪列时,它给了我一个错误说 在 org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:164)引起:java.s ..
发布时间:2021-08-27 19:41:14 其他开发

Sqoop 从 hive 导出到 oracle,具有不同的列名、列数和列顺序

场景就像,我有一个包含 10 列的配置单元表.我想使用 Sqoop 将 hive 表中的数据导出到 oracle 表中. 但是目标 oracle 表有 30 个列的名称与 hive 表列的名称不同.此外,oracle 表中的列位置与 hive 表中的不同. 谁能建议我如何为这种情况编写 Sqoop 导出命令? 解决方案 首先,不能直接从 hive 导出数据到 oracle. ..
发布时间:2021-08-27 19:41:11 其他开发

在 SQOOP 中使用 Where 子句的问题

我正在尝试使用 --where 选项通过使用以下命令将订单表与 order_items 表连接来获取条件数据: sqoop 导入 \--connect "jdbc:mysql://quickstart.cloudera:3306/retail_db" \--用户名retail_dba \--密码cloudera \--query "Select * from orders o join orde ..
发布时间:2021-08-27 19:41:07 其他开发

Sqoop增量导入多列检查列

如何基于多列从Oracle导入增量数据? sqoop import --connect jdbc:oracle:thin:ip/dbname --username sqoop --password sqoop \--query 'SELECT * FROM tablename WHERE $CONDITIONS' \--check-column column1,column2 \--增量最后修改 ..
发布时间:2021-08-27 19:41:04 其他开发

Sqoop 将特定列从 hdfs 导出到 mysql 无法正常工作

我的 HDFS 文件包含 5 列. emp_no,birth_date,first_name,last_name,hire_date 我只想导出 3 列: emp_no,first_name,last_name 我正在这样做 sqoop 导出--connect jdbc:mysql://mysql.example.com/sqoop--用户名sqoop--密码sqoop--表员工--co ..
发布时间:2021-08-27 19:41:01 其他开发

Apache Sqoop 通信链路故障

当我连接到一个集群上的 mysql (aaaaaa1) 和另一台服务器上的 sqooop (aaaaaa2) 时,我收到以下错误,尽管在 mySql 中创建了一个表授予另一个集群的完全权限. 请帮助我确定此问题的原因.谢谢! **$sqoop import --connect jdbc:mysql://(mysql的地址):11000/sqoopdemo --table widgets** ..
发布时间:2021-08-27 19:40:58 其他开发

在 sqoop 导入或导出期间处理不良记录

我查看了 sqoop 导出操作提供的选项,但找不到任何处理不良记录的选项.例如,偶尔可能会出现一个字符,其中在大量记录中需要一个数字.有没有办法在 sqoop 中处理这些场景,而不会使作业失败并在文件中提供错误记录. 解决方案 Sqoop 当前期望导出的数据是干净的,并且不提供处理损坏数据的设施.在使用 Sqoop 导出数据之前,您可以使用 MR/Pig/Hive 作业来清理数据. ..
发布时间:2021-08-27 19:40:52 其他开发

覆盖 hdfs 目录 Sqoop 导入

Sqoop 导入时是否可以自动覆盖 HDFS 目录而不是每次手动覆盖它?(我们有没有像“--overwrite"这样的选项,就像我们为 hive 导入“--hive-overwrite"一样) 解决方案 使用 --delete-target-dir 它会在将数据写入此目录之前删除命令中提供的. ..
发布时间:2021-08-27 19:40:46 其他开发