hdfs 第3页 - IT屋-程序员软件开发技术分享社区

HDFS 文件比较

由于没有 diff，我如何比较两个 HDFS 文件? 我正在考虑使用 Hive 表并从 HDFS 加载数据，然后在 2 个表上使用连接语句.有没有更好的办法? 解决方案 hadoop 没有提供 diff 命令，但实际上你可以使用 diff 在 shell 中使用重定向代码>命令: diff ..

发布时间：2021-12-28 23:47:50 hadoop hive hdfs 其他开发

处理 Spark Streaming rdd 并存储到单个 HDFS 文件

我正在使用 Kafka Spark Streaming 来获取流数据. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2) 我正在使用这个 DStream 并处理 RDD val o ..

发布时间：2021-12-28 23:46:37 apache-spark hive hdfs spark-streaming 其他开发

如何在没有 hadoop 的情况下使用 Hive

我是 NoSQL 解决方案的新手，想使用 Hive.但是安装 HDFS/Hadoop 需要大量资源和时间(可能没有经验但我没有时间这样做). 有没有办法在没有 HDFS/Hadoop 的本地机器上安装和使用 Hive? 解决方案是的，你可以在没有 hadoop 的情况下运行 hive1.在本地系统上创建仓库2. 将默认 fs 设为 file:///比你可以在没有安装 hadoop ..

发布时间：2021-12-28 23:43:59 hadoop hive hdfs 其他开发

hive 中“加载数据 inpath"和“location"的区别?

在我的公司，我看到这两个命令经常使用，我想知道它们之间的区别，因为它们的功能在我看来是一样的: 1 创建表(名称字符串，数字双)；将数据 inpath '/directory-path/file.csv' 加载到 ; 2 创建表(名称字符串，数字双)；location '/directory-path/file.csv'; 他们都将数据从 HDFS 上的目录复制到 ..

发布时间：2021-12-28 23:43:04 sql hadoop hive hdfs hiveql 其他开发

Hive 数据存储在哪里?

我对 hive 在哪里存储数据感到有些困惑. 它是将数据存储在 HDFS 还是 RDBMS 中?Hive Meta store 是否使用 RDBMS 来存储 hive 表的元数据?? 提前致谢！！解决方案 Hive 数据存储在之一中Hadoop 兼容文件系统:S3、HDFS 或其他兼容文件系统. Hive 元数据像 MySQL 一样存储在 RDBMS 中，参见支持的 ..

发布时间：2021-12-28 23:41:28 hadoop hive hdfs hive-metastore 其他开发

在hadoop中合并小文件

我在 HDFS 中有一个目录(最终目录)，其中每分钟加载一些文件(例如:10 mb).一段时间后，我想将所有小文件合并为一个大文件(例如:100 mb).但是用户不断地将文件推送到最终目录.这是一个持续的过程. 所以我第一次需要将前 10 个文件组合成一个大文件(例如:large.txt)并将文件保存到 Finaldir. 现在我的问题是我将如何获得不包括前 10 个文件的接下来的 1 ..

发布时间：2021-12-28 23:41:22 hadoop mapreduce hive hdfs hadoop2 其他开发

在 hive 中，有没有办法指定在哪些列之间添加新列?

我能做到 ALTER TABLE table_name ADD COLUMNS (user_id BIGINT) 在我的非分区列的末尾和我的分区列之前添加一个新列. 有没有办法在我的非分区列中的任何地方添加一个新列?例如，我想把这个新列 user_id 作为我表的第一列解决方案是的，可以更改列的位置，但必须在使用 CHANGE COLUMN 将其添加到表中之后 ..

发布时间：2021-12-28 23:37:45 hadoop hive hdfs 其他开发

Hive 在引用的字段中加载带有逗号的 CSV

我正在尝试将 CSV 文件加载到 Hive 表中，如下所示: 创建表 mytable(num1 INT,文本 1 字符串，num2 INT,文本 2 字符串)行格式以“,"结尾的分隔字段；加载数据本地输入路径'/data.csv'OVERWRITE INTO TABLE mytable; csv 由逗号 (,) 分隔，如下所示: 1, "一些文本，其中包含逗号", 123, "更多文本" ..

发布时间：2021-12-28 23:33:16 hadoop hbase hive hdfs delimiter 其他开发

Hortonworks (HDP) 到 Cloudera (CDP) 迁移后无法创建托管 Hive 表

作为从 Hortonworks 数据平台 (HDP v3.x) 迁移到 Cloudera 数据平台 (CDP) 7.1 版的一部分，我们正在测试我们的 Hadoop 应用程序.在测试时，我们在尝试创建托管 Hive 表时发现了以下问题.请就可能的解决方案提出建议.谢谢！错误:编译语句时出错:失败:执行错误，从 org.apache.hadoop.hive.ql.ddl.DDLTask 返回 ..

发布时间：2021-12-28 23:32:19 hadoop hive hdfs cloudera cloudera-cdp 其他开发

如何调整 hive 以查询元数据?

如果我在具有某些分区列的表上运行下面的 hive 查询，我想确保 hive 不进行全表扫描，而只是从元数据本身找出结果.有什么办法可以启用此功能吗? 从 hive_table 中选择 max(partitioned_col) ; 现在，当我运行这个查询时，它会启动 map reduce 任务，我确信它会进行数据扫描，同时它可以很好地从元数据本身中找出价值. 解决方案每次更改数据时计算 ..

发布时间：2021-12-28 23:30:49 performance hadoop hive hdfs tez 其他开发

为什么 AWS EMR 中缺少 hive_staging 文件

问题 - 我正在 AWS EMR 中运行 1 个查询.它因抛出异常而失败 - java.io.FileNotFoundException: 文件 s3://xxx/yyy/internal_test_automation/2016/09/17/17156/data/feed/commerce_feed_redshift_dedup/.hive-staging_hive_2016-09-17 ..

发布时间：2021-12-28 23:30:31 amazon-web-services mapreduce hive hdfs apache-tez 其他开发

如何将小的 ORC 文件合并或合并为较大的 ORC 文件?

SO 和网络上的大多数问题/答案讨论使用 Hive 将一堆小的 ORC 文件组合成一个更大的文件，但是，我的 ORC 文件是按天分隔的日志文件，我需要将它们分开.我只想每天“汇总"ORC 文件(它们是 HDFS 中的目录). 我最有可能需要用 Java 编写解决方案并且遇到了 OrcFileMergeOperator 这可能是我需要使用的，但现在说还为时过早. 解决此问题的最佳方法是什 ..

发布时间：2021-12-28 23:15:36 java hive hdfs orc Java开发

如何使用 Hive 使用单个 hdfs 路径创建 n 个外部表

是否可以使用 Hive 创建 n 个指向单个 hdfs 路径的外部表.如果是，有什么优点和局限性. 解决方案可以在 HDFS 的同一位置上创建多个表(同时托管和外部). 在相同数据之上创建具有完全相同架构的表根本没有用，但是您可以创建具有不同列数的不同表，例如使用 RegexSerDe 创建具有不同解析列的不同表，因此您可以有不同的这些表中的模式.您可以对 Hive 中的这些表拥有 ..

发布时间：2021-12-28 23:14:11 hive hdfs create-table external-tables hiveddl 其他开发

为什么在这个 MapReduce 中最后的 reduce 步骤非常慢?(HiveQL、HDFS MapReduce)

一些背景信息: 我正在处理 Dataiku DSS、HDFS 和分区数据集.我有一个特定的作业正在运行(Hive 查询)，它有两个输入数据集 - 一个是非常大的分区数据集，另一个是小的(~250 行，2 列)非分区数据集.我们称分区表A，非分区表B. 问题: 查询格式如下， SELECT a.f1, f2, ..., fn从 A 作为左连接 B 作为 b开 a.f1 = b.f ..

发布时间：2021-12-28 23:13:58 performance hive mapreduce hdfs reduce 其他开发

pyspark 和 HDFS 命令

我想在我的 Spark 程序 (Pyspark) 开始时做一些清理工作.例如，我想删除以前运行 HDFS 的数据.在 pig 中，这可以使用诸如之类的命令来完成 fs -copyFromLocal ....rmf/path/to-/hdfs 或在本地使用 sh 命令. 我想知道如何用 Pyspark 做同样的事情. 解决方案您可以使用表单示例执行任意 shell 命令 su ..

发布时间：2021-12-22 21:33:36 python apache-spark hdfs pyspark Python

使用 Amazon EC2/S3 将本地数据复制到 Hadoop 集群上的 HDFS 的问题

我在 Amazon EC2 上设置了一个包含 5 个节点的 Hadoop 集群.现在，当我登录主节点并提交以下命令时 bin/hadoop jar .jar 它抛出以下错误(不是同时).当我不将斜杠替换为“%2F"时抛出第一个错误，当我将它们替换为“%2F"时抛出第二个错误: 1) Java.lang.IllegalArgum ..

发布时间：2021-12-21 11:19:07 amazon-s3 amazon-ec2 hadoop cloud hdfs 其他开发

Hadoop 伪分布式模式 - Datanode 和 tasktracker 未启动

我正在运行 Red Hat Enterprise Linux Server 6.4(圣地亚哥)发行版，上面安装了 Hadoop 1.1.2.我已经进行了启用伪分布式模式所需的配置.但是在尝试运行 hadoop 时，datanode 和 tasktracker 没有启动. 我无法将任何文件复制到 hdfs. [hduser@is-joshbloom-hadoop hadoop]$ hadoo ..

发布时间：2021-12-15 19:27:19 hadoop hdfs redhat 其他开发

将 HDFS 从本地磁盘替换为 s3 出现错误(org.apache.hadoop.service.AbstractService)

我们正在尝试设置 Cloudera 5.5，其中 HDFS 将只在 s3 上工作，因为我们已经在 Core-site.xml 中配置了必要的属性 fs.s3a.access.key###############fs.s3a.secret.key############### ..

发布时间：2021-12-15 19:25:57 hadoop amazon-s3 hdfs 其他开发

按现有字段对 Hive 表进行分区?

..

发布时间：2021-12-15 19:25:27 hadoop hive partitioning hdfs database-partitioning 其他开发

使用 hadoop 和 java 命令执行 map-reduce 作业有什么区别

找到许多运行 map-reduce 程序的选项.任何人都可以解释以下命令之间的区别.以及对 Map-reduce 工作的影响(如果有). java -jar MyMapReduce.jar [args]hadoop jar MyMapReduce.jar [参数]纱线 jar MyMapReduce.jar [args] 在这些命令中，哪一个最好? 可以使用以下命令中的 Web 服务端 ..

发布时间：2021-12-15 19:25:11 java hadoop mapreduce hdfs hadoop-yarn Java开发

hdfs相关内容