hive 第9页 - IT屋-程序员软件开发技术分享社区

无法在运行时修改 mapred.job.name.它不在允许在运行时修改的参数列表中

我正在尝试在气流中运行一些蜂巢作业.我做了自定义 jdbc 连接，您可以在图像中看到.我可以通过airflow web ui(data profiling->ad hoc query)查询hive表.我还想从 Internet 运行一些示例 dag 文件: #文件名:wf_incremental_load.py从气流导入 DAG从airflow.operators导入BashOperator，H ..

发布时间：2021-12-28 23:49:43 python hive airflow Python

Parquet 支持的 Hive 表:数组列在 Impala 中不可查询

尽管 Impala 比 Hive 快得多，但我们使用 Hive 是因为它支持复杂(嵌套)数据类型，例如数组和映射. 我注意到 Impala，从 CDH5.5，现在支持复杂数据类型.由于也可以在 Impala 中运行 Hive UDF，我们可能可以在 Impala 中做我们想做的一切，但要快得多.这是个好消息！当我浏览文档时，我看到 Impala 期望数据以 Parquet 格式存储. ..

发布时间：2021-12-28 23:49:32 hive impala parquet 其他开发

外部表不返回其文件夹中的数据

我在 Hive 中在此位置创建了一个外部表: 创建外部表 tb(...)PARTITIONED BY (datehour INT)行格式 SERDE 'com.cloudera.hive.serde.JSONSerDe'LOCATION '/user/cloudera/data'; 数据存在于文件夹中，但是当我查询表时，它什么都不返回.表格的结构使其适合数据结构. SELECT * FROM ..

发布时间：2021-12-28 23:49:20 hive external cloudera 其他开发

创建在列的特定值上重置的排名

我当前的数据是这样的(注意它是按日期时间排序的): +----------------+---------------------+---------+|客户编号 |日期 |频道 |+----------------+---------------------+---------+|120584446 |2015-05-22 21:16:05 |一个 ||120584446 |2015-05-2 ..

发布时间：2021-12-28 23:49:12 sql hive hiveql 其他开发

来自 CSV 的 Hive 表.引号中的行终止

我尝试从保存到 HDFS 的 CSV 文件创建表.问题是 csv 在引号内包含换行符.CSV 记录示例: ID,PR_ID,SUMMARY2063,1184,"这是问题字段，因为包含换行符这不是新记录，而是第三列文本的一部分" 我创建了 hive 表: 创建临时外部表 hive_database.hive_table(ID 字符串，PR_ID STRING，摘要字符串)行格式 serde ..

发布时间：2021-12-28 23:49:02 hadoop hive opencsv 其他开发

过滤火花分区表在 Pyspark 中不起作用

我正在使用 spark 2.3 并使用 pyspark 中的数据帧编写器类方法编写了一个数据帧来创建配置单元分区表. newdf.coalesce(1).write.format('orc').partitionBy('veh_country').mode("overwrite").saveAsTable('emp.partition_Load_table') 这是我的表结构和分区信息. h ..

发布时间：2021-12-28 23:48:55 hive pyspark partitioning 其他开发

SQL:分解数组

我有一个包含 JSON 对象的表.每个 JSON 对象在方括号中包含一个数组，以逗号分隔. 如何使用 SQL 访问方括号数组中的任何元素，例如“Matt"? {"str":[1、134,61,“马特"，{"action.type":"registered","application":491,"value":423,"value2":12344},[“应用"]，[],“49:0"]} 我 ..

发布时间：2021-12-28 23:48:47 sql arrays json hive explode 其他开发

何时使用 Sqoop --create-hive-table

谁能说出 create-hive-table 和 & 之间的区别?hive-import 方法?两者都会创建一个hive表，但每个的意义是什么? 解决方案 hive-import 命令: hive-import 命令会自动为 hive Metastore 中的填充表填充元数据.如果 Hive 中的表还不存在，Sqoop将简单地根据为您的表或查询获取的元数据创建它.如果该表已经存在，Sqo ..

发布时间：2021-12-28 23:48:34 hive sqoop 其他开发

使用 like 运算符检查配置单元中的模式

我需要从 hive 表中检索必须以大写字母开头并以数字结尾的列.我用过这个查询 select * from tab1 where col1 like '[A-Z]%[0-9]'; 但无法检索记录，只能得到空结果. 解决方案 rlike/regexp select * from tab1 where col1 rlike '^[A-Z].*[0-9]$'; ..

发布时间：2021-12-28 23:48:27 sql regex hive hiveql sql-like 其他开发

mysql 的 sqoop 导入问题

我有一个基于 cdh5 的 hadoop ha 设置.我尝试使用 sqoop 从 mysql 导入表失败，并出现以下错误. 15/03/20 12:47:53 错误 manager.SqlManager:从数据库读取错误:java.sql.SQLException:流式结果集 com.mysql.jdbc.RowDataDynamic@33573e93 仍然处于活动状态.当任何流结果集打开并在给 ..

发布时间：2021-12-28 23:48:17 hadoop hive hbase sqoop 其他开发

Hive 和 Hadoop MapReduce 的关系?

是否有任何 Hive 内部进程连接到减少或映射任务? 补充一下！ Hive 如何与 MapReduce 相关联? 如何安排作业? 查询结果如何返回给hive驱动? 解决方案对于 HIVE，没有直接沟通 Map/Reduce 任务的过程.它与 Jobtracker(YARN 中的 Application Master)通信(流程 6.3)，仅用于在调度后与作业处理相关的事情 ..

发布时间：2021-12-28 23:48:11 hadoop hive mapreduce hdfs 其他开发

收集到 Hive 中的地图

我有一个 Hive 表，例如 id |价值-------------1A2乙 3一个 4乙 5 本质上，我想模仿 Python 的 defaultdict(list) 并创建一个以 id 作为键和 value 作为值的映射. 查询: select COLLECT_TO_A_MAP(id, value)从表输出: {A:[1,2,4], B:[3,5]} 我尝试使用 klout' ..

发布时间：2021-12-28 23:47:59 hadoop hive 其他开发

HDFS 文件比较

由于没有 diff，我如何比较两个 HDFS 文件? 我正在考虑使用 Hive 表并从 HDFS 加载数据，然后在 2 个表上使用连接语句.有没有更好的办法? 解决方案 hadoop 没有提供 diff 命令，但实际上你可以使用 diff 在 shell 中使用重定向代码>命令: diff ..

发布时间：2021-12-28 23:47:50 hadoop hive hdfs 其他开发

缺少 Hive 执行 Jar:/usr/local/hadoop/hive/lib/hive-exec-*.jar

我在我的 Ubuntu 机器上设置的单节点集群上运行 Hadoop 1.0.4. 我按照以下步骤下载并安装了 hive 版本 >svn co http://svn.apache.org/repos/asf/hive/trunk hive>CD蜂巢我的 hadoop 安装文件夹是 $HADOOP_HOME/hive 和 $HADOOP_HOME=/usr/local/hadoop.我在/ ..

发布时间：2021-12-28 23:47:39 hadoop jar environment-variables hive 其他开发

Hive 更改位置语句不起作用

hive>更改表 my_table_name 设置位置“hdfs://nameservice1/foo"；行耗时:0.173 秒蜂巢>更改表 my_table_name 设置位置“hdfs://nameservice1/foo/bar"；授权失败:org.apache.hadoop.security.AccessControlException:用户 hadoop_user 的路径 hdfs:// ..

发布时间：2021-12-28 23:47:29 hive 其他开发

使用 Hive 查询计算 Hadoop 中连续记录之间的差异

我有一个 Hive 表，用于保存客户呼叫的数据.为简单起见，考虑它有 2 列，第一列保存客户 ID，第二列保存调用的时间戳(unix 时间戳). 我可以查询此表以查找每个客户的所有来电: SELECT * FROM mytable SORT BY customer_id, call_time; 结果是: Customer1 时间戳11客户 1 时间戳 12客户 1 时间戳 13客户 2 ..

发布时间：2021-12-28 23:47:20 hadoop hive 其他开发

如何在 Hive 中定义嵌套的集合项

我正在尝试创建一个带有嵌套集合项的配置单元表.假设我有一个结构数组. 创建表样本(记录数组>) 行格式分隔以“,"结尾的字段以“|"结尾的集合项；第一级，分隔符 ',' 将覆盖默认分隔符 '^A'. 二级，分隔符'|'将覆盖默认的第二级分隔符 '^B' 以分离出最外层的结构(即数组). 第三级 hive 将使用默认的第三级分隔符 '^C' 作为 Struct 的分隔符现 ..

发布时间：2021-12-28 23:47:12 nested hive 其他开发

如何控制蜂巢作业名称但保留阶段信息?

我的系统定期执行许多 hive 查询.当您查看作业跟踪器时，它们显示为“SELECT field, other_field ..... (Stage-1)"等.这对我来说不是特别有帮助，所以我补充说: set mapred.job.name = 更有帮助的名字；到查询.现在我可以更好地区分它们了.但是，现在我被分成多个阶段的查询都显示为相同的名称.我最喜欢的是 set mapred ..

发布时间：2021-12-28 23:47:05 hadoop hive 其他开发

Spark HiveContext:插入覆盖它从中读取的同一个表

我想在 HiveContext 中使用 PySpark 应用 SCD1 和 SCD2.在我的方法中，我正在读取增量数据和目标表.阅读后，我加入了他们的 upsert 方法.我正在对所有源数据帧进行 registerTempTable.我正在尝试将最终数据集写入目标表，但我面临的问题是无法在读取它的表中插入覆盖. 请为此提出一些解决方案.我不想将中间数据写入物理表并再次读取. 是否有任何 ..

发布时间：2021-12-28 23:46:57 apache-spark hive pyspark hivecontext 其他开发

在 Hadoop Hive 中给定时间戳，如何获取一周第一天的日期?

除了编写自定义 UDF 来支持此问题外，是否有任何已知的方法可以实现此目的?我目前使用的是 Hive 0.13. 解决方案从 Hive 1.2 开始，你也可以这样做: select next_day(date_sub('2019-01-01', 7), 'MON') 输出: 2018-12-31 ..

发布时间：2021-12-28 23:46:47 date hadoop hive hiveql dayofweek 其他开发

hive相关内容