hive相关内容
java.lang.RuntimeException:本地snappy库不可用:这个版本的libhadoop是在没有快速支持的情况下构建的。 at org.apache.hadoop.io.compress.SnappyCodec.checkNativeCodeLoaded(SnappyCodec.java:65) at org.apache.hadoop.io.compress.Snappy
..
我有这种奇怪的行为,我的用例是通过使用 sqlContext将Spark数据框写入配置单元分区表.sql(“INSERT OVERWRITE TABLE
PARTITION(”) 奇怪的是,当使用来自主机A的pyspark shell时,这种方式可行,但使用同一
..
我有一个应用程序用于连接 MySQL ,并且我有 Hibernate config 它就像这样: org.hibernate.dialect.MySQLDialect
..
插入表格webmap 选择一个.res引用,b.res资源, (从weblog中选择count(ip),其中resource = a.res和referer = b.res)从顶部权重 返回一个联接toprefres b; 我在hive-0.10.0-cdh4.5.0中运行该程序,并得到以下错误: 失败:ParseException行3:1无法识别接近'select''coun
..
我正尝试使用由十六进制值1F分隔的csvserde创建一个外部配置单元表。 csvserde在分隔的常规逗号上正常工作。 CREATE EXTERNAL TABLE example_table( id bigint, property_id字符串, application_date日期, system_time时间戳, system_end时间戳 ) ROW FORMAT S
..
这是代码: $ b #!/ usr / bin / env python import pyhs2 try: with pyhs2.connect(host ='localhost',$ b $ port = 10001, authMechanism =“PLAIN”, user ='root ', password ='test', database ='test')as
..
我有一串 :: 分隔符的单词。我如何使用 Hive UDF regexp_extract()来从字符串中提取单词? 解决方案 regexp_extract('2foa1fa :: 12hjk',' ^(\\w。*)\\:{2}(\\w。*)$',1)as word1 OUTPUT: 2foa1fa regexp_extract('2foa1fa :: 1
..
在sqlserver中,我使用下面的查询导入并创建了一个配置表。 sqoop import --connect'jdbc:sqlserver ://10.1.1.12; database = testdb'--username uname --password paswd --table demotable --hive-import --hive-table hivedb.demotab
..
我有一个带时间序列数据的1.6T Hive表。我在 scala中使用 Hive 1.2.1 和 Spark 1.6.1 。 以下是我在代码中查询的内容。但是我总是得到 Java内存不足错误。 val sid_data_df = hiveContext.sql(s“SELECT time,total_field,sid,year,date FROM tablename WHERE s
..
我在配置单元中有外部表,我试图从table_name 查询运行 select count(*),但是查询立即返回并给出了我认为已经存储的结果。查询返回的结果不正确。有没有办法强制map reduce作业,并且每次都要执行查询。 注意:所有外部表格都不遵循此行为,但其中一些表格不符合。 / p> 使用的版本:Hive 0.14.0.2.2.6.0-2800,Hadoop 2.6.0.2.
..
我有一些数据想要在多列上分组,然后在其上执行聚合函数,然后使用Hive转置到不同列中。例如, $ b 输入: 小时类型值 01 a 10 01 b 20 01 c 50 01 a 30 02 c 10 02 b 90 02 a 80 我想产生这个输出: 输出: hr a_avg b_avg c_avg 01 20 20
..
我已经创建了一个HBase,提供默认版本为10 create'tablename',{NAME => 'cf',VERSIONS => 10} 并插入两行(第1行和第2行) 放置'tablename','row1','cf:id','row1id' 放'tablename','row1','cf:name' ,'row1name' 放'tablename','ro
..
我知道这是一个重复问题,但这个链接在stackoverflow上没有解决我的问题。当我尝试运行Hive时,出现以下错误: Pawandeep-Singh-2:apache-hive-1.1.1-bin PawandeepSingh1 $ bin / hive readlink:非法选项 - f 用法:readlink [-n] [文件...] 缺少Hive Execu
..
table1包含 timelocation 2015-03-04 15:00芝加哥 2015-03-04 15:00丹佛 2015-03-04 15:00火奴鲁鲁 $ b $ p $ ID $ b $ $ b美国/芝加哥中央标准时间 美国/丹佛山地标准时间 太平洋/檀香山HAWAII-ALEUTIAN标准时间 对于表1中记录的“2015-03-
..
假设我有下面的hive表作为输入,我们称它为 connections : userid |时间戳 -------- | ------------- 1 | 1433258019 1 | 1433258020 2 | 1433258080 2 | 1433258083 2 | 1433258088 2 | 1433258170 [...] | [...]
..
试图导出分区Hive表时遇到了一些问题。这是完全支持(我试图谷歌它,并发现一个JIRA票)? sqoop导出--connect jdbc:mysql :// localhost / testdb --table sales --export-dir / user / hive / warehouse / sales --direct 以下是我得到的结果: 0000
..
我想从一个php客户端连接到hiveserver2。但是,我得到一个空白页面(我应该看到蜂巢中的表格列表)。我修改了 的代码 https://github.com/garamon/php-节俭蜂房客户端。最初,我得到这个错误 TSocket:超时从主机读取4个字节。按照此处的建议 https://stackoverflow.com/a/19199938/4379550 实施修补程序之后。错误消
..
我曾尝试使用'Order by',如下所示: 从testfilter中选择fieldA,fieldB,fieldC,fieldD where fieldA ='000009000002'按字段A,fieldB,fieldC,fieldD排序; 但是,这会导致一个无序的输出,如下所示: 000009000002 7212 023 653 000009000002
..
我从Hortonworks发行版运行Hadoop 2.4.0,Oozie 4.0.0,Hive 0.13.0。 我有多个Oozie协调器作业可以启动工作流程大约在同一时间。协调器作业每个都监视不同的目录,当_SUCCESS文件显示在这些目录中时,工作流将启动。 工作流运行Hive操作,从外部目录读取并复制东西。 SET hive.exec.dynamic.partition =
..
我是Hive Querying的新手,我正在寻找从Hive表中检索数据的最佳实践。我们已经启用了TeZ的执行引擎并启用了向量化。 我们希望从Hive表格中进行报告,我从TEZ文档中读取它可以用于实时报告。场景来自我的WEB应用程序,我想在UI上显示Hive Query Select *从Hive表中的结果,但对于任何查询,在hive命令提示符下最少需要20-60秒,即使hive表有60 GB
..