hdfs相关内容

HDFS 文件比较

由于没有 diff,我如何比较两个 HDFS 文件? 我正在考虑使用 Hive 表并从 HDFS 加载数据,然后在 2 个表上使用连接语句.有没有更好的办法? 解决方案 hadoop 没有提供 diff 命令,但实际上你可以使用 diff 在 shell 中使用重定向代码>命令: diff ..
发布时间:2021-12-28 23:47:50 其他开发

如何在没有 hadoop 的情况下使用 Hive

我是 NoSQL 解决方案的新手,想使用 Hive.但是安装 HDFS/Hadoop 需要大量资源和时间(可能没有经验但我没有时间这样做). 有没有办法在没有 HDFS/Hadoop 的本地机器上安装和使用 Hive? 解决方案 是的,你可以在没有 hadoop 的情况下运行 hive1.在本地系统上创建仓库2. 将默认 fs 设为 file:///比你可以在没有安装 hadoop ..
发布时间:2021-12-28 23:43:59 其他开发

hive 中“加载数据 inpath"和“location"的区别?

在我的公司,我看到这两个命令经常使用,我想知道它们之间的区别,因为它们的功能在我看来是一样的: 1 创建表(名称字符串,数字双);将数据 inpath '/directory-path/file.csv' 加载到 ; 2 创建表(名称字符串,数字双);location '/directory-path/file.csv'; 他们都将数据从 HDFS 上的目录复制到 ..
发布时间:2021-12-28 23:43:04 其他开发

Hive 数据存储在哪里?

我对 hive 在哪里存储数据感到有些困惑. 它是将数据存储在 HDFS 还是 RDBMS 中?Hive Meta store 是否使用 RDBMS 来存储 hive 表的元数据?? 提前致谢!! 解决方案 Hive 数据存储在 之一中Hadoop 兼容文件系统:S3、HDFS 或其他兼容文件系统. Hive 元数据像 MySQL 一样存储在 RDBMS 中,参见 支持的 ..
发布时间:2021-12-28 23:41:28 其他开发

在hadoop中合并小文件

我在 HDFS 中有一个目录(最终目录),其中每分钟加载一些文件(例如:10 mb).一段时间后,我想将所有小文件合并为一个大文件(例如:100 mb).但是用户不断地将文件推送到最终目录.这是一个持续的过程. 所以我第一次需要将前 10 个文件组合成一个大文件(例如:large.txt)并将文件保存到 Finaldir. 现在我的问题是我将如何获得不包括前 10 个文件的接下来的 1 ..
发布时间:2021-12-28 23:41:22 其他开发

在 hive 中,有没有办法指定在哪些列之间添加新列?

我能做到 ALTER TABLE table_name ADD COLUMNS (user_id BIGINT) 在我的非分区列的末尾和我的分区列之前添加一个新列. 有没有办法在我的非分区列中的任何地方添加一个新列?例如,我想把这个新列 user_id 作为我表的第一列 解决方案 是的,可以更改列的位置,但必须在使用 CHANGE COLUMN 将其添加到表中之后 ..
发布时间:2021-12-28 23:37:45 其他开发

Hive 在引用的字段中加载带有逗号的 CSV

我正在尝试将 CSV 文件加载到 Hive 表中,如下所示: 创建表 mytable(num1 INT,文本 1 字符串,num2 INT,文本 2 字符串)行格式以“,"结尾的分隔字段;加载数据本地输入路径'/data.csv'OVERWRITE INTO TABLE mytable; csv 由逗号 (,) 分隔,如下所示: 1, "一些文本,其中包含逗号", 123, "更多文本" ..
发布时间:2021-12-28 23:33:16 其他开发

Hortonworks (HDP) 到 Cloudera (CDP) 迁移后无法创建托管 Hive 表

作为从 Hortonworks 数据平台 (HDP v3.x) 迁移到 Cloudera 数据平台 (CDP) 7.1 版的一部分,我们正在测试我们的 Hadoop 应用程序.在测试时,我们在尝试创建托管 Hive 表时发现了以下问题.请就可能的解决方案提出建议.谢谢! 错误:编译语句时出错:失败:执行错误,从 org.apache.hadoop.hive.ql.ddl.DDLTask 返回 ..
发布时间:2021-12-28 23:32:19 其他开发

如何调整 hive 以查询元数据?

如果我在具有某些分区列的表上运行下面的 hive 查询,我想确保 hive 不进行全表扫描,而只是从元数据本身找出结果.有什么办法可以启用此功能吗? 从 hive_table 中选择 max(partitioned_col) ; 现在,当我运行这个查询时,它会启动 map reduce 任务,我确信它会进行数据扫描,同时它可以很好地从元数据本身中找出价值. 解决方案 每次更改数据时计算 ..
发布时间:2021-12-28 23:30:49 其他开发

如何将小的 ORC 文件合并或合并为较大的 ORC 文件?

SO 和网络上的大多数问题/答案讨论使用 Hive 将一堆小的 ORC 文件组合成一个更大的文件,但是,我的 ORC 文件是按天分隔的日志文件,我需要将它们分开.我只想每天“汇总"ORC 文件(它们是 HDFS 中的目录). 我最有可能需要用 Java 编写解决方案并且遇到了 OrcFileMergeOperator 这可能是我需要使用的,但现在说还为时过早. 解决此问题的最佳方法是什 ..
发布时间:2021-12-28 23:15:36 Java开发

如何使用 Hive 使用单个 hdfs 路径创建 n 个外部表

是否可以使用 Hive 创建 n 个指向单个 hdfs 路径的外部表.如果是,有什么优点和局限性. 解决方案 可以在 HDFS 的同一位置上创建多个表(同时托管和外部). 在相同数据之上创建具有完全相同架构的表根本没有用,但是您可以创建具有不同列数的不同表,例如使用 RegexSerDe 创建具有不同解析列的不同表,因此您可以有不同的这些表中的模式.您可以对 Hive 中的这些表拥有 ..
发布时间:2021-12-28 23:14:11 其他开发

为什么在这个 MapReduce 中最后的 reduce 步骤非常慢?(HiveQL、HDFS MapReduce)

一些背景信息: 我正在处理 Dataiku DSS、HDFS 和分区数据集.我有一个特定的作业正在运行(Hive 查询),它有两个输入数据集 - 一个是非常大的分区数据集,另一个是小的(~250 行,2 列)非分区数据集.我们称分区表A,非分区表B. 问题: 查询格式如下, SELECT a.f1, f2, ..., fn从 A 作为左连接 B 作为 b开 a.f1 = b.f ..
发布时间:2021-12-28 23:13:58 其他开发

pyspark 和 HDFS 命令

我想在我的 Spark 程序 (Pyspark) 开始时做一些清理工作.例如,我想删除以前运行 HDFS 的数据.在 pig 中,这可以使用诸如 之类的命令来完成 fs -copyFromLocal ....rmf/path/to-/hdfs 或在本地使用 sh 命令. 我想知道如何用 Pyspark 做同样的事情. 解决方案 您可以使用表单示例执行任意 shell 命令 su ..
发布时间:2021-12-22 21:33:36 Python

Hadoop 伪分布式模式 - Datanode 和 tasktracker 未启动

我正在运行 Red Hat Enterprise Linux Server 6.4(圣地亚哥)发行版,上面安装了 Hadoop 1.1.2.我已经进行了启用伪分布式模式所需的配置.但是在尝试运行 hadoop 时,datanode 和 tasktracker 没有启动. 我无法将任何文件复制到 hdfs. [hduser@is-joshbloom-hadoop hadoop]$ hadoo ..
发布时间:2021-12-15 19:27:19 其他开发