cloudera相关内容
我正在为Impala探索POC,但是我看不到任何明显的表现。我无法插入5000条记录/秒,最大只能插入200条/秒。考虑到任何数据库性能,这真的很慢。 我尝试了两种不同的方法,但都很慢: 使用Cloudera 首先,我在系统上安装了Cloudera,并添加了最新的CDH 6.2集群。我创建了一个Java客户端,以使用ImpalaJDBC41驱动程序插入数据。我可以插入记录,但是速
..
我有一个虚拟机: cloudera-quickstart-vm-5.13.0-0-virtualbox ,现在运行。 但是没有显示Cloudera Manager的页面。 消息:“正在尝试连接到Cloudera Manager ...” 整天显示。 我该如何解决此问题? 解决方案 Cloudera Manager必须在快速启动VM中单独重新启动。您可以运行以下命令并查看其工作原
..
背景: 我们小组正在将Cloudera升级到6.1.1,我的任务是确定如何处理跨数据类型的隐式数据类型转换的损失。有关相关的发行说明的详细信息,请参见下面的链接。 https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_611_incompatible_changes.html#hiv
..
我在生产环境(cloudera 5.5)中的配置单元中遇到一个非常奇怪的问题,这在我的本地服务器中基本上是不可复制的(不知道为什么),即对于某些记录,我从临时表中插入时时间戳值错误插入时将字符串“ 2017-10-21 23”转换为主表,并将其转换为时间戳“ 2017-10-21 23:00:00”数据类型。 示例: 2017-10-21 23-> ; 2017-10-21 22
..
我们刚刚从CDH 5.3.6升级到5.10.0,并在尝试写入Kafka主题时开始出现错误。我们在所有内容上均具有默认设置,未启用SSL或Kerberos身份验证。当使用控制台生产者写我的主题之一时,出现以下错误: / usr / bin / kafka-console-producer --broker-list = myhost1 .dev.com:9092,myhost2.dev.com
..
我正在使用Tableau连接到Cloudera Hadoop。我提供服务器和端口的详细信息,并使用“ Impala”进行连接。我能够成功连接,选择默认模式并选择所需的表。 在此之后,当我将维或度量拖放到“行”时/“网格”上的列,我得到以下错误: [Cloudera] [Hardy](22)ThriftHiveClient中的错误:查询返回的非零代码:10025 ,原因:失败:Seman
..
我正在使用免费的Cloudera Manager安装小型云(10个节点)。我应该将服务器专用于Cloudera Manager,还是可以将其安装在计算节点之一上?最佳做法是什么?我有一个额外的服务器来安装管理器,如果那是一个更好的主意。 解决方案 是的,您应该包括Cloudera Manager将自己托管在您的云中。 在Cloudera Manager安装程序中,它说: Clo
..
这是我昨天提出的问题的扩展:在不同组中对数据类型进行比较时,如何处理潜在的数据丢失 在HIVE中,是否可能在 SELECT 子句内联的不同数据类型组中的两列之间执行比较?我首先需要确定每列的传入元数据是什么,然后提供选择要使用的 CAST 的逻辑。 CASE 当Column1 Column2 THEN 0-如果数据类型在不同的数据类型组中(即BIGINT STRIN
..
对于HDFS上的数据,我们可以 创建外部表
{ id INT, name STRING, age INT }位置“ hdfs_path”; 但是如何为上面的LOCATION指定本地路径? 谢谢。 解决方案 您可以先使用“ hdfs dfs -put”将文件上传到HDFS,然后再将其上传到HDFS在此之上创建Hive外部表。
..
我试图通过运行在cloudera quickstart VM 5.3.0上的独立Spark服务执行通过Scala IDE构建的Spark应用程序。 我的cloudera帐户JAVA_HOME是/ usr / java / default 但是,从 cloudera 用户如下: [cloudera @ localhost sbin] $ pwd / opt / clouder
..
mark @ maestro1:/ usr / lib / hadoop / wordcount_classes $ javac -classpath /usr/lib/hadoop/hadoop-common-2.0.0-cdh4.0.1.jar:/ usr / lib / hadoop / client / hadoop-mapreduce-client-core-2.0.0-cdh4.0.
..
是否可以在impala中同时执行多个查询?如果是,则impala如何处理它? 解决方案 我当然会自己做一些测试,但是我无法使多个查询得以执行: 我正在使用Impala连接,并从.sql文件读取查询。 from impala.dbapi import connect #实际服务器和端口已更改为安全 conn = connect(host ='impala server',por
..
我试图使用sqoop将表从MySQL导入到HDFS。 使用的命令行是 sqoop import --connect jdbc:mysql://192.168.10.452/qw_key_test- -username qw -P-由qw_id -m分割--10 --target-dir / user / perf / qwperf / sqoops --verbose --table q
..
如何将文本文件加载到Apache Kudu表中? 源文件是否需要首先位于HDFS空间中? 如果它不与其他hadoop生态系统程序(例如,hive,impala)共享相同的hdfs空间,那么Apache Kudu是否等效于: hdfs dfs -put / path / to / file 在尝试加载文件之前? 解决方案 文件不必先放在HDFS中。可以从
..
我正在使用Tableau连接到Cloudera Hadoop。我提供服务器和端口的详细信息,并使用Impala进行连接。我能够成功连接,选择默认模式并选择所需的表。 在此之后,当我将维或度量拖放到“行”时/ 网格上的列,出现以下错误: [ Cloudera] [Hardy](22)来自ThriftHiveClient的错误: 查询返回的非零代码:10025,原因:FAILED: S
..
我通过重新编译源代码设法在Cloudera CDH 5.4上配置了Phoenix 4.5。 sqlline.py 效果很好,但是存在火花问题。 spark-submit --my.JobRunner类\ --master yarn-部署模式客户端\ --jars`ls -dm / myapp / lib / * | tr -d'\r\n'` \ /myapp/mainjar.j
..
我正在尝试运行Sqoop作业以从Oracle数据库加载并以Parquet格式加载到Hadoop集群。作业是增量工作。 Sqoop版本为1.4.6。 Oracle版本是12c。 Hadoop版本是2.6.0(发行版是Cloudera 5.5.1)。 Sqoop命令是(创建作业并执行): $ sqoop job -fs hdfs://:// :8020 80 -创建myJob \
..
这是我之前提出的问题的扩展:如何比较具有不同数据类型组的两列 我们正在探索更改表中元数据的想法,而不是执行CAST操作SELECT语句中的数据。更改MySQL Metastore中的元数据非常容易。但是,是否有可能将元数据更改应用于分区(它们是每天的)?否则,当历史记录为STRING时,我们可能会陷入当前和将来的数据类型为BIGINT的问题。 问题:是否可以在HIVE中更改分区元数据?
..
假设我们有一张桌子: 所有者|宠物 ------------------------------ 杰克| “狗,猫,鳄鱼” 玛丽| “熊,猪” 我想得到的结果是: 所有者|宠物 ------------------------------ 杰克| “狗” 杰克| “猫” 杰克| “鳄鱼” 玛丽| “熊” 玛丽| “猪” 我通过谷歌
..
我将要编写一个原型,用于发布和使用kafka消息。 我们确实已经建立了Cloudera基础架构(动物园管理员,经纪人等),而且我已经成功地使用了Kafka命令行工具来生成和使用消息。 我正在使用 [org.apache.kafka / kafka_2.10“ 0.8.2.1”] 作为依赖项,并且已经能够使用客户端API来设置 KafkaProducer ,它发布具有纯字符串内容的消息,并且
..