hadoop相关内容

我在ubuntu上哪里安装JDBC驱动程序?

我正在尝试在ubuntu上安装MS SQL JDBC驱动程序,以便与Hadoop的SQOOP一起使用。我对Java和Linux完全陌生,所以我不确定要把所有东西解压缩到哪里。 推荐答案 只需将其放入运行时类路径或将其路径添加到运行时类路径即可。 如何执行取决于您如何执行程序。如果您在命令控制台中使用java命令来执行.class文件,则使用-cp参数来指定要在类路径中获取的类和/ ..
发布时间:2022-08-23 19:48:07 Java开发

将Unix纪元时间转换为扩展的ISO8601

我要使用日期处理3个表,但其中一个表包含Unix纪元格式的日期。以下是3个字段的示例: Table1: 2017-02-01T07:58:40.756031Z Table2: 2017-02-07T10:16:46Z Table3: 1489236559 我想转换表3中的日期,以尽可能匹配表2的格式。这是我现在拥有的: SELECT cast(from_unixtime(tstar ..
发布时间:2022-08-23 18:14:27 其他开发

Hadoop:无法设置资源管理器进程的优先级

我是Hadoop的新手,我正在尝试使用Hadoop-3.1.2设置伪分布式模式执行。 当我尝试启动纱线服务时,我收到以下错误,请参见下面的代码片段。 $ sbin/start-yarn.sh Starting resourcemanagers on [] localhost: ERROR: Cannot set priority of resourcemanager process 132 ..
发布时间:2022-07-16 21:39:35 其他开发

Union All不会在配置单元中生成任何数据

我尝试为三个具有相同DDL结构的不同表执行Union all,但最终输出生成零行。我对潜在的行刑中发生的事情一无所知。有人能分享你对这件事的看法吗?我的示例配置单元SQL如下所示。谢谢。 SET hive.execution.engine=tez; SET hive.exec.dynamic.partition.mode=nonstrict; SET hive.qubole. ..
发布时间:2022-07-05 13:13:10 其他开发

稀疏数据/数据存储区/数据库是什么意思?

我最近一直在阅读Hadoop和HBase,并遇到了这个术语- HBase是一个开源、分布式、稀疏、面向列的存储... 稀疏是什么意思?是不是跟sparse matrix有关?我猜这是它可以有效存储的数据类型的属性,因此,我想了解更多有关它的信息。 推荐答案 在常规数据库中,行稀疏,但列不稀疏。创建行时,将为每列分配存储空间,而不考虑该字段是否存在值(该字段是为行和列的交叉点 ..
发布时间:2022-06-29 15:43:25 其他开发

更改SPARK_TEMPORY目录路径

是否可以更改Spark在写入前保存其临时文件的_temporary目录? 具体地说,因为我正在写入表的单个分区,所以我希望临时文件夹位于分区文件夹中。 可能吗? 文件输出委员会无法使用默认的${mapred.output.dir}/_temporary 由于其实现方式,文件输出委员会会创建一个推荐答案子目录来写入文件,并在提交后移到${mapred.output.dir}。 ..
发布时间:2022-06-10 20:49:29 其他开发

Spark:哪些选项可以与DataFrame.saveAsTable或DataFrameWriter.Options一起传递?

开发人员和API文档都没有任何关于DataFrame.saveAsTable或DataFrameWriter.options可以传递哪些选项的参考,它们会影响配置单元表的保存。 我希望在这个问题的答案中,我们可以汇总一些信息,这些信息将有助于Spark开发人员更好地控制Spark保存表的方式,或许还能为改进Spark的文档提供基础。 推荐答案 您在任何地方都看不到options文 ..
发布时间:2022-05-11 21:18:32 其他开发

无法获取Kerberos领域

我不熟悉Kerberos/配置单元,希望使用JDBC连接配置单元(已实现Kerberos)。 > > org.apache.hadoop.conf.Configuration conf = new > > org.apache.hadoop.conf.Configuration(); > > conf.set("hadoop.security.authenticati ..
发布时间:2022-04-19 20:11:34 其他开发

运行更大的纱线作业的主要限制是什么?我如何增加它?

运行更大的纱线作业(Hadoop版本HDP-3.1.0.0(3.1.0.0-78))的主要限制是什么?我如何增加它?基本上,我希望同时执行更多(所有都很大)的SQOOP作业。 我目前假设我需要增加资源管理器堆的大小(因为当我运行纱线作业时,这就是我在Ambari仪表板上看到的)。如何将更多资源添加到RM堆/为什么RM堆似乎只占可用总RAM的一小部分(用于纱线?)跨群集? 查看Ambar ..
发布时间:2022-04-15 18:01:27 其他开发

Spark:多个Spark-并行提交

我有一个关于阿帕奇Spark的一般性问题: 我们有一些消费Kafka消息的火花流脚本。 问题:它们随机失败,没有出现特定错误... 当我手动运行某些脚本时,它们在工作时什么也不做,其中一个脚本失败,并显示以下消息: 错误SparkUI:绑定SparkUI失败 Java.net.BindException:地址已在使用中:服务‘SparkUI’在16次重试后失败! 所以我想知 ..
发布时间:2022-04-15 17:52:50 其他开发

纱线容器内存不足

我的纱线容器内存不足: 此特定容器运行一个Apache-Spark驱动程序节点。 我不理解的部分:我将驱动程序的堆大小限制为512MB(您可以在下面的错误消息中看到这一点)。但是纱线容器抱怨内存>1 GB(也请参见下面的消息)。您可以验证YAIN正在启动Java是否与Xmx512M一起运行。我的容器设置为1 GB内存,增量为0.5 GB。此外,我托管纱线容器的物理机器每台都有32 GB。我通 ..
发布时间:2022-04-15 17:51:37 Java开发

HIVE是否会同时使用分区条件而不是分区条件执行全表查询?

我有一个由一个日期列名datetime分区的配置单元表 如果我执行类似 的查询 select * from table where datetime = "2021-05-01" and id in (1,2) 如果有额外的and id in (1,2)条件,配置单元是否会执行全表搜索? 是否可以通过explain结果确定? 推荐答案 分区清理应该可以正常工作。为了 ..
发布时间:2022-04-04 19:57:49 其他开发

如果托管表和外部表具有相同的位置,删除托管表是否会删除外部表?

在相同位置创建托管表和外部表。 当您删除内部表时,数据文件会发生什么情况? 是否会对外部表或外部表的文件位置造成问题? 推荐答案 该表是一个元数据,其中包含列规范、位置路径、表类型、SerDe、统计信息、授权等。删除位置文件夹或文件不会删除该表,只会删除数据。配置单元中的表和数据是松散连接的,这非常方便,因为您不仅可以使用配置单元管理数据,还可以在由其他一些工具生成的现有数据之上创建 ..
发布时间:2022-04-04 19:44:53 其他开发

配置单元-如何使用来自原始表的分区以SELECT方式创建表(&Q)?

我需要从我们的配置单元DLK创建一个“工作表”。而我可以使用: create table my_table as select * from dlk.big_table 很好,我在继承原始“BIG_TABLE”中的分区(属性day、month和year)或仅从这些属性创建新分区时遇到了问题。 搜索网络并没有真正帮助我回答这个问题--所有的“教程”或解决方案要么涉及create as se ..
发布时间:2022-04-04 19:40:24 其他开发

如何检查配置单元CLI中的设置?

我希望在hive命令中运行配置单元查询,并且希望使其更快,因此我运行: hive:messages> set mapred.job.priority = VERY_HIGH; hive:messages> set hi = 1; 但我发现实际上我可以将任何字符串设置为配置单元中的任何字符串,所以我想知道是否有方法可以检查我所做的所有设置? 推荐答案 若要列出当前配置单元会话中 ..
发布时间:2022-04-04 19:38:12 其他开发

区分和分组,哪个更好

我们都参考的最简单的情况: select id from mytbl group by id 和 select distinct id from mytbl 我们知道,它们生成相同的查询计划,这在Which is better: Distinct or Group By 等项目中已经反复提到 但是,在蜂窝中,前者只有一个Reduce任务,而后者有多个。 通过实验,我 ..
发布时间:2022-04-03 19:37:53 其他开发