hive相关内容
我正在使用胶水作为我的母公司元存储。我有一个每小时向注册分区写入文件的每小时作业。 表定义: CREATE EXTERNAL TABLE table_name ( column_1 STRING, column_2 STRING ) PARTITIONED BY (process_date DATE) STORED AS PARQUET LOCATION "s3://bucket/ta
..
我必须从CSV文件中的配置单元表导出数据,其中的字段用双引号括起来。 到目前为止,我可以使用以下查询生成不带引号的CSV INSERT OVERWRITE DIRECTORY '/user/vikas/output' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' SELECT QUERY 生成的输出如下所示 1,Vikas Sa
..
有人能帮助/建议我如何处理配置单元中的以下情况吗? 我有一列包含一些值,其中一些数字(在6位数字之后)后有0,我需要将所有这些0替换为9。如果我在5位数字之后有0,那么我需要在开始时包括0,然后再次需要替换6位数字后的0。PFB一些样本记录和预期输出。 Input output 1234560000000
..
有人能帮我在下面的查询中添加注释联接条件吗?如果我正在执行此查询,则此查询工作正常,但当我尝试添加另一个联接代码时,它无法访问列HIGH_V2,并给出列/表ALISA NOT FOUND问题。 with MYTABLE as ( select T1.LOW_V2 as LOW_V2, T2.LOW_V as LOW_V, T2.HIGH_V as HIGH_V from T
..
大家好 有人帮我在配置单元中实现了以下逻辑。我在配置单元中有2个表(表1,表2)。我需要在满足某些条件的情况下将Table1的一列中的0替换为9,并需要生成一个输出列,然后生成与Table2列(High列)相同的输出列。我将从Table2列(High列)联接,并将从这两个表生成输出。 table1 SCHEME_1 LOW_1 01 12340000 0
..
例如,‘dt’是一个字符串,我将其转换为日期类型,然后我想将其用作WHERE子句中的条件,但失败了: hive> select mid, cast(to_date(from_unixtime(unix_timestamp(dt, 'yyyyMMdd'))) as date) from message_use_tags where date2021
..
有人能帮我在蜂窝里写下下面的逻辑吗? 我在列中有一个值,其中我的数字尾随0。我需要将所有这些0替换为9,同时将0替换为9,同时我还需要考虑在9之前至少应该有6位数字,否则需要排除一些0,这样在9之前可以至少有6位数字。PFB某些情况。 1234506600000000000 在这里,我们可以看到尾随0之前的位数是8(12345066),所以我只需要将0除以9,输出将如下所示。12345
..
我有许多CSV要导入到配置单元中,并且我发现,即使新行位于带引号的字段中,也会触发它,这就是我的quteChar。有什么直截了当的方法来解决这个难题吗? Line1field1 text,Line1field2 text,”Line1field3 text with new line” Line2field1 text,”Line2field2 text, with comma”
..
我正在尝试查询源表中的数据,但无法正确查看结果。 源表结构 c1 string, c2 string, c3 string, temp1 struct > > 我有JSON格式的数
..
基本标题: 我正在寻找一种合理的方法,仅使用hive-1.0语法来截断时间戳中的毫秒字段。 我正在考虑的超级幼稚的方法是: cast(from_unixtime(second(cast([TIMESTAMP_IN_QUESTION] as string)), "yyyy:mm:dd:ss"), as timestamp) 但我相信这包括末尾毫秒字段上的.00。 有没有一
..
我尝试为三个具有相同DDL结构的不同表执行Union all,但最终输出生成零行。我对潜在的行刑中发生的事情一无所知。有人能分享你对这件事的看法吗?我的示例配置单元SQL如下所示。谢谢。 SET hive.execution.engine=tez; SET hive.exec.dynamic.partition.mode=nonstrict; SET hive.qubole.
..
我想将CURRENT_DAY-1存储在Hive中的一个变量中。我知道已经有关于此主题的以前的帖子,但那里提供的解决方案首先建议在外壳环境中的配置单元外部定义变量,然后在配置单元内部使用该变量。 Storing result of query in hive variable 我首先使用 获取了Current_Date select date_sub(FROM_UNIXTIME(U
..
Spark 2.4.2能否与Amazon EMR上的HIVE 2.3.4一起用作执行引擎? 我已经通过以下命令将JAR文件链接到hive(scala-库、spark-core、spark-Common-network): cd $HIVE_HOME/lib ln -s $SPARK_HOME/jars/spark-network-common_2.11-2.4.2.jar ln -s
..
阅读本页后: http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-differences.html “运营差异和注意事项”->“消除了对Amazon S3的直接写入”部分。 我想知道-这是否意味着在EMR 4.x版本中从配置单元写入S3将比5.x版本更快? 如果是这样的话,这不是一种倒退吗?为什么AWS要取消此优化
..
开发人员和API文档都没有任何关于DataFrame.saveAsTable或DataFrameWriter.options可以传递哪些选项的参考,它们会影响配置单元表的保存。 我希望在这个问题的答案中,我们可以汇总一些信息,这些信息将有助于Spark开发人员更好地控制Spark保存表的方式,或许还能为改进Spark的文档提供基础。 推荐答案 您在任何地方都看不到options文
..
我不熟悉Kerberos/配置单元,希望使用JDBC连接配置单元(已实现Kerberos)。 > > org.apache.hadoop.conf.Configuration conf = new > > org.apache.hadoop.conf.Configuration(); > > conf.set("hadoop.security.authenticati
..
我正在使用impala.util中的as_pandas实用程序读取从配置单元获取的dataframe表单中的数据。然而,使用 pandas ,我想我将无法处理大量数据,而且速度也会更慢。我一直在阅读有关DASK的文章,它为读取大型数据文件提供了出色的功能。如何使用它高效地从配置单元获取数据。 def as_dask(cursor): """Return a DataFrame out of
..
我希望在配置单元中显示DECIMAL数据类型的小数精度和结果。但是,如果没有小数部分,则在配置单元中不会显示小数点。 hive> select cast(11 as decimal(14,2)); 11 hive> select cast(11.22 as decimal(14,2)); 11.22 在上面的示例中,它应该显示11.00,而不是11。如何实现这一点? 请帮帮忙。
..
我不熟悉配置单元,正在尝试运行一个查询,其中一列(col1)被描述为类型字符串,并包含诸如{color=blue, name=john, size=M}这样的键值对。我正在尝试提取一些值,以便可以执行类似于返回col1包含COLOR=BLUE的所有行的操作。 我一直在尝试使用get_json_object,但我认为这不是正确的方法,因为我不确定从技术上讲,该字段是否为json数组。 推
..
我花了几天时间试图弄清楚如何在配置单元中将丢失的日期与最接近的值相加,但没有运气。我需要基于环境约束使用配置单元SQL来实现这一点。原始表当前类似于下表。 account name,available balance,Date of balance Peter,50000,2021-05-24 Peter,50035,2021-05-25 Peter,50035,2021-05-26 P
..