hive - IT屋-程序员软件开发技术分享社区

Spark Have SQL返回空数据帧

我正在使用胶水作为我的母公司元存储。我有一个每小时向注册分区写入文件的每小时作业。表定义： CREATE EXTERNAL TABLE table_name ( column_1 STRING, column_2 STRING ) PARTITIONED BY (process_date DATE) STORED AS PARQUET LOCATION "s3://bucket/ta ..

发布时间：2022-08-16 19:22:46 apache-spark hive amazon-emr aws-glue 其他开发

将配置单元查询结果输出为用引号括起的CSV

我必须从CSV文件中的配置单元表导出数据，其中的字段用双引号括起来。到目前为止，我可以使用以下查询生成不带引号的CSV INSERT OVERWRITE DIRECTORY '/user/vikas/output' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' SELECT QUERY 生成的输出如下所示 1,Vikas Sa ..

发布时间：2022-08-10 11:32:34 csv hive export-to-csv 其他开发

从给定的输入生成最高数字，并使用配置单元将0替换为9

有人能帮助/建议我如何处理配置单元中的以下情况吗？我有一列包含一些值，其中一些数字(在6位数字之后)后有0，我需要将所有这些0替换为9。如果我在5位数字之后有0，那么我需要在开始时包括0，然后再次需要替换6位数字后的0。PFB一些样本记录和预期输出。 Input output 1234560000000 ..

发布时间：2022-08-09 21:48:10 sql hive hiveql 其他开发

蜂窝与CTE连接

有人能帮我在下面的查询中添加注释联接条件吗？如果我正在执行此查询，则此查询工作正常，但当我尝试添加另一个联接代码时，它无法访问列HIGH_V2，并给出列/表ALISA NOT FOUND问题。 with MYTABLE as ( select T1.LOW_V2 as LOW_V2, T2.LOW_V as LOW_V, T2.HIGH_V as HIGH_V from T ..

发布时间：2022-08-09 21:43:52 sql hive hiveql 其他开发

在配置单元中使用子字符串和LPAD/RPAD替换数字

大家好有人帮我在配置单元中实现了以下逻辑。我在配置单元中有2个表(表1，表2)。我需要在满足某些条件的情况下将Table1的一列中的0替换为9，并需要生成一个输出列，然后生成与Table2列(High列)相同的输出列。我将从Table2列(High列)联接，并将从这两个表生成输出。 table1 SCHEME_1 LOW_1 01 12340000 0 ..

发布时间：2022-08-09 21:32:56 sql hive hiveql hive-query 其他开发

如何在配置单元中使用强制转换列作为WHERE子句条件？

例如，‘dt’是一个字符串，我将其转换为日期类型，然后我想将其用作WHERE子句中的条件，但失败了： hive> select mid, cast(to_date(from_unixtime(unix_timestamp(dt, 'yyyyMMdd'))) as date) from message_use_tags where date2021 ..

发布时间：2022-08-09 21:29:47 hive hiveql 其他开发

在配置单元中排除最少6位数字并替换尾随数字

有人能帮我在蜂窝里写下下面的逻辑吗？我在列中有一个值，其中我的数字尾随0。我需要将所有这些0替换为9，同时将0替换为9，同时我还需要考虑在9之前至少应该有6位数字，否则需要排除一些0，这样在9之前可以至少有6位数字。PFB某些情况。 1234506600000000000 在这里，我们可以看到尾随0之前的位数是8(12345066)，所以我只需要将0除以9，输出将如下所示。12345 ..

发布时间：2022-08-09 21:19:57 sql hive hiveql 其他开发

OpenCSVSerde换行符覆盖引号Char

我有许多CSV要导入到配置单元中，并且我发现，即使新行位于带引号的字段中，也会触发它，这就是我的quteChar。有什么直截了当的方法来解决这个难题吗？ Line1field1 text,Line1field2 text,”Line1field3 text with new line” Line2field1 text,”Line2field2 text, with comma” ..

发布时间：2022-08-09 20:50:35 sql csv hive special-characters hive-serde 其他开发

配置单元复杂数据类型查询

我正在尝试查询源表中的数据，但无法正确查看结果。源表结构 c1 string, c2 string, c3 string, temp1 struct > > 我有JSON格式的数 ..

发布时间：2022-07-05 13:29:47 json hive hiveql beeline tez 其他开发

将HIVE-1.0时间戳截断为秒，并将格式从"；yyyy：mm：dd：ss.sss"；更改为"；yyyy：mm：DD：ss"；

基本标题：我正在寻找一种合理的方法，仅使用hive-1.0语法来截断时间戳中的毫秒字段。我正在考虑的超级幼稚的方法是： cast(from_unixtime(second(cast([TIMESTAMP_IN_QUESTION] as string)), "yyyy:mm:dd:ss"), as timestamp) 但我相信这包括末尾毫秒字段上的.00。有没有一 ..

发布时间：2022-07-05 13:20:58 hive timestamp hiveql milliseconds 其他开发

Union All不会在配置单元中生成任何数据

我尝试为三个具有相同DDL结构的不同表执行Union all，但最终输出生成零行。我对潜在的行刑中发生的事情一无所知。有人能分享你对这件事的看法吗？我的示例配置单元SQL如下所示。谢谢。 SET hive.execution.engine=tez; SET hive.exec.dynamic.partition.mode=nonstrict; SET hive.qubole. ..

发布时间：2022-07-05 13:13:10 sql hadoop hive hiveql hive-query 其他开发

如何将查询的输出存储在配置单元的变量中

我想将CURRENT_DAY-1存储在Hive中的一个变量中。我知道已经有关于此主题的以前的帖子，但那里提供的解决方案首先建议在外壳环境中的配置单元外部定义变量，然后在配置单元内部使用该变量。 Storing result of query in hive variable 我首先使用获取了Current_Date select date_sub(FROM_UNIXTIME(U ..

发布时间：2022-07-05 13:04:21 hive hiveql 其他开发

火花作为蜂巢的执行引擎

Spark 2.4.2能否与Amazon EMR上的HIVE 2.3.4一起用作执行引擎？我已经通过以下命令将JAR文件链接到hive(scala-库、spark-core、spark-Common-network)： cd $HIVE_HOME/lib ln -s $SPARK_HOME/jars/spark-network-common_2.11-2.4.2.jar ln -s ..

发布时间：2022-05-25 17:58:20 scala apache-spark hadoop hive amazon-emr 其他开发

为什么在EMR 5.x版本中取消了对Amazon S3的直接写入？

阅读本页后： http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-differences.html “运营差异和注意事项”->“消除了对Amazon S3的直接写入”部分。我想知道-这是否意味着在EMR 4.x版本中从配置单元写入S3将比5.x版本更快？如果是这样的话，这不是一种倒退吗？为什么AWS要取消此优化 ..

发布时间：2022-05-25 17:49:14 amazon-web-services amazon-s3 hive emr amazon-emr 其他开发

Spark：哪些选项可以与DataFrame.saveAsTable或DataFrameWriter.Options一起传递？

开发人员和API文档都没有任何关于DataFrame.saveAsTable或DataFrameWriter.options可以传递哪些选项的参考，它们会影响配置单元表的保存。我希望在这个问题的答案中，我们可以汇总一些信息，这些信息将有助于Spark开发人员更好地控制Spark保存表的方式，或许还能为改进Spark的文档提供基础。推荐答案您在任何地方都看不到options文 ..

发布时间：2022-05-11 21:18:32 scala hadoop apache-spark hive parquet 其他开发

无法获取Kerberos领域

我不熟悉Kerberos/配置单元，希望使用JDBC连接配置单元(已实现Kerberos)。 > > org.apache.hadoop.conf.Configuration conf = new > > org.apache.hadoop.conf.Configuration(); > > conf.set("hadoop.security.authenticati ..

发布时间：2022-04-19 20:11:34 hadoop hive kerberos 其他开发

使用DASK从配置单元读取数据

我正在使用impala.util中的as_pandas实用程序读取从配置单元获取的dataframe表单中的数据。然而，使用 pandas ，我想我将无法处理大量数据，而且速度也会更慢。我一直在阅读有关DASK的文章，它为读取大型数据文件提供了出色的功能。如何使用它高效地从配置单元获取数据。 def as_dask(cursor): """Return a DataFrame out of ..

发布时间：2022-04-14 15:47:53 pandas hive dask Python

如何在蜂窝中显示小数点？

我希望在配置单元中显示DECIMAL数据类型的小数精度和结果。但是，如果没有小数部分，则在配置单元中不会显示小数点。 hive> select cast(11 as decimal(14,2)); 11 hive> select cast(11.22 as decimal(14,2)); 11.22 在上面的示例中，它应该显示11.00，而不是11。如何实现这一点？请帮帮忙。 ..

发布时间：2022-04-04 20:13:44 hive hiveql 其他开发

从字符串中提取键值对

我不熟悉配置单元，正在尝试运行一个查询，其中一列(col1)被描述为类型字符串，并包含诸如{color=blue, name=john, size=M}这样的键值对。我正在尝试提取一些值，以便可以执行类似于返回col1包含COLOR=BLUE的所有行的操作。我一直在尝试使用get_json_object，但我认为这不是正确的方法，因为我不确定从技术上讲，该字段是否为json数组。推 ..

发布时间：2022-04-04 20:12:18 hive hiveql key-value 其他开发

用最接近的值填充表中缺少的日期值的配置单元SQL查询

我花了几天时间试图弄清楚如何在配置单元中将丢失的日期与最接近的值相加，但没有运气。我需要基于环境约束使用配置单元SQL来实现这一点。原始表当前类似于下表。 account name,available balance,Date of balance Peter,50000,2021-05-24 Peter,50035,2021-05-25 Peter,50035,2021-05-26 P ..

发布时间：2022-04-04 20:10:54 sql date hive hiveql date-range 其他开发

hive相关内容