cloudera相关内容

无法将5k / sec记录插入impala?

我正在为Impala探索POC,但是我看不到任何明显的表现。我无法插入5000条记录/秒,最大只能插入200条/秒。考虑到任何数据库性能,这真的很慢。 我尝试了两种不同的方法,但都很慢: 使用Cloudera 首先,我在系统上安装了Cloudera,并添加了最新的CDH 6.2集群。我创建了一个Java客户端,以使用ImpalaJDBC41驱动程序插入数据。我可以插入记录,但是速 ..
发布时间:2020-10-03 00:26:36 Java开发

Cloudera Manager无法打开

我有一个虚拟机: cloudera-quickstart-vm-5.13.0-0-virtualbox ,现在运行。 但是没有显示Cloudera Manager的页面。 消息:“正在尝试连接到Cloudera Manager ...” 整天显示。 我该如何解决此问题? 解决方案 Cloudera Manager必须在快速启动VM中单独重新启动。您可以运行以下命令并查看其工作原 ..
发布时间:2020-10-03 00:26:32 其他开发

在不同组中的数据类型之间进行比较时,如何处理潜在的数据丢失

背景: 我们小组正在将Cloudera升级到6.1.1,我的任务是确定如何处理跨数据类型的隐式数据类型转换的损失。有关相关的发行说明的详细信息,请参见下面的链接。 https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_611_incompatible_changes.html#hiv ..
发布时间:2020-10-03 00:26:30 其他开发

Hive 1.1中的时间戳记问题

我在生产环境(cloudera 5.5)中的配置单元中遇到一个非常奇怪的问题,这在我的本地服务器中基本上是不可复制的(不知道为什么),即对于某些记录,我从临时表中插入时时间戳值错误插入时将字符串“ 2017-10-21 23”转换为主表,并将其转换为时间戳“ 2017-10-21 23:00:00”数据类型。 示例: 2017-10-21 23-> ; 2017-10-21 22 ..
发布时间:2020-10-03 00:26:27 其他开发

Cloudera上的Kafka-test = TOPIC_AUTHORIZATION_FAILED

我们刚刚从CDH 5.3.6升级到5.10.0,并在尝试写入Kafka主题时开始出现错误。我们在所有内容上均具有默认设置,未启用SSL或Kerberos身份验证。当使用控制台生产者写我的主题之一时,出现以下错误: / usr / bin / kafka-console-producer --broker-list = myhost1 .dev.com:9092,myhost2.dev.com ..

Tableau:使用Impala连接到Cloudera Hadoop时出错

我正在使用Tableau连接到Cloudera Hadoop。我提供服务器和端口的详细信息,并使用“ Impala”进行连接。我能够成功连接,选择默认模式并选择所需的表。 在此之后,当我将维或度量拖放到“行”时/“网格”上的列,我得到以下错误: [Cloudera] [Hardy](22)ThriftHiveClient中的错误:查询返回的非零代码:10025 ,原因:失败:Seman ..
发布时间:2020-10-03 00:26:20 其他开发

是否应将Cloudera Manager 5安装在计算节点或独立服务器上?

我正在使用免费的Cloudera Manager安装小型云(10个节点)。我应该将服务器专用于Cloudera Manager,还是可以将其安装在计算节点之一上?最佳做法是什么?我有一个额外的服务器来安装管理器,如果那是一个更好的主意。 解决方案 是的,您应该包括Cloudera Manager将自己托管在您的云中。 在Cloudera Manager安装程序中,它说: Clo ..
发布时间:2020-10-03 00:26:17 其他开发

如何比较具有不同数据类型组的两列

这是我昨天提出的问题的扩展:在不同组中对数据类型进行比较时,如何处理潜在的数据丢失 在HIVE中,是否可能在 SELECT 子句内联的不同数据类型组中的两列之间执行比较?我首先需要确定每列的传入元数据是什么,然后提供选择要使用的 CAST 的逻辑。 CASE 当Column1 Column2 THEN 0-如果数据类型在不同的数据类型组中(即BIGINT STRIN ..
发布时间:2020-10-03 00:26:13 其他开发

Cloudera Impala中的多个查询执行

是否可以在impala中同时执行多个查询?如果是,则impala如何处理它? 解决方案 我当然会自己做一些测试,但是我无法使多个查询得以执行: 我正在使用Impala连接,并从.sql文件读取查询。 from impala.dbapi import connect #实际服务器和端口已更改为安全 conn = connect(host ='impala server',por ..
发布时间:2020-10-03 00:26:01 其他开发

将文本文件加载到Apache Kudu表中?

如何将文本文件加载到Apache Kudu表中? 源文件是否需要首先位于HDFS空间中? 如果它不与其他hadoop生态系统程序(例如,hive,impala)共享相同的hdfs空间,那么Apache Kudu是否等效于: hdfs dfs -put / path / to / file 在尝试加载文件之前? 解决方案 文件不必先放在HDFS中。可以从 ..
发布时间:2020-10-03 00:24:51 其他开发

Cloudera Impala连接到Tableau错误

我正在使用Tableau连接到Cloudera Hadoop。我提供服务器和端口的详细信息,并使用Impala进行连接。我能够成功连接,选择默认模式并选择所需的表。 在此之后,当我将维或度量拖放到“行”时/ 网格上的列,出现以下错误: [ Cloudera] [Hardy](22)来自ThriftHiveClient的错误: 查询返回的非零代码:10025,原因:FAILED: S ..
发布时间:2020-10-03 00:24:47 其他开发

Sqoop作业因Oracle导入的KiteSDK验证错误而失败

我正在尝试运行Sqoop作业以从Oracle数据库加载并以Parquet格式加载到Hadoop集群。作业是增量工作。 Sqoop版本为1.4.6。 Oracle版本是12c。 Hadoop版本是2.6.0(发行版是Cloudera 5.5.1)。 Sqoop命令是(创建作业并执行): $ sqoop job -fs hdfs://:// :8020 80 -创建myJob \ ..
发布时间:2020-10-03 00:24:42 数据库

是否可以在HIVE中更改分区元数据?

这是我之前提出的问题的扩展:如何比较具有不同数据类型组的两列 我们正在探索更改表中元数据的想法,而不是执行CAST操作SELECT语句中的数据。更改MySQL Metastore中的元数据非常容易。但是,是否有可能将元数据更改应用于分区(它们是每天的)?否则,当历史记录为STRING时,我们可能会陷入当前和将来的数据类型为BIGINT的问题。 问题:是否可以在HIVE中更改分区元数据? ..
发布时间:2020-10-03 00:24:37 其他开发

逗号分隔的字符串到各个行-Impala SQL

假设我们有一张桌子: 所有者|宠物 ------------------------------ 杰克| “狗,猫,鳄鱼” 玛丽| “熊,猪” 我想得到的结果是: 所有者|宠物 ------------------------------ 杰克| “狗” 杰克| “猫” 杰克| “鳄鱼” 玛丽| “熊” 玛丽| “猪” 我通过谷歌 ..
发布时间:2020-10-03 00:24:32 其他开发

如何使消费者在Kafka 0.8 API中工作

我将要编写一个原型,用于发布和使用kafka消息。 我们确实已经建立了Cloudera基础架构(动物园管理员,经纪人等),而且我已经成功地使用了Kafka命令行工具来生成和使用消息。 我正在使用 [org.apache.kafka / kafka_2.10“ 0.8.2.1”] 作为依赖项,并且已经能够使用客户端API来设置 KafkaProducer ,它发布具有纯字符串内容的消息,并且 ..
发布时间:2020-10-03 00:24:28 其他开发