hdfs相关内容

Hive 为 HDFS 中的每个插入创建多个小文件

以下已经实现 Kafka Producer 使用 Spark Streaming 从 Twitter 提取数据. Kafka 消费者将数据提取到 Hive 外部表(在 HDFS 上). 虽然到目前为止工作正常.我只面临一个问题,当我的应用程序将数据插入 Hive 表时,它创建了一个小文件,每个文件的每一行数据. 下面是代码 //定义要读取的主题val 主题 = "topic_ ..
发布时间:2021-11-12 01:46:48 其他开发

Flink:X 时间后可以删除可查询状态吗?

就我而言,我只使用 Flink 的可查询状态.特别是,我不关心检查点. 发生事件时,我仅在最多 X 分钟后查询可查询状态.理想情况下,我会删除“旧"状态以节省空间. 这就是为什么我想知道:我可以在一段时间后向 Flink 的状态发出信号以清除自身吗?通过配置?通过特定的事件信号?怎么样? 解决方案 清除状态的一种方法是在状态对象(例如 ValueState 对象)上显式调用 c ..
发布时间:2021-11-12 01:05:10 Java开发

尝试使用 Fuse 挂载 HDFS.无法编译 libhdfs

我正在尝试编译 libhdfs(一个允许外部应用程序与 hdfs 交互的本机共享库).这是我使用 Fuse 挂载 Hadoop 的 hdfs 必须采取的几个步骤之一. 编译似乎进行了一段时间,但以“BUILD FAILED"和以下问题总结结束 - commons-logging#commons-logging;1.0.4:在 commons-logging#commons-loggin ..
发布时间:2021-11-11 02:52:14 其他开发

将 Impala 表从 HDFS 导出到 MySQL

我正在尝试使用 Sqoop 将一个黑斑羚表从 HDFS 导出到 MySQL.该表已经在 MySQL 中创建,并且两个表的架构应该匹配. Impala 表信息:1 开始日期字符串2 start_station_code 字符串3 end_date 字符串4 end_station_code 字符串5 duration_sec 整数6 is_member int7 cnt bigintImpala ..
发布时间:2021-08-27 19:41:25 数据库

Spark:加载多个文件、单独分析、合并结果并保存

我是 Spark 的新手,不知道如何问这个问题(使用哪些术语等),所以这是我在概念上试图实现的目标的图片: 我有很多小的、单独的 .txt“分类帐"文件(例如,当时带有时间戳和属性值的行分隔文件). 我想: 将每个“分类帐"文件读入单独的数据框(阅读:不合并为一个大数据框); 对每个单独的数据框进行一些基本的计算,得到一行新的数据值;然后 将所有单独的结果行合并为一个 ..
发布时间:2021-06-24 20:39:32 Python

apache spark:从目录中读取大型文件

我正在使用 wholeTextFiles 读取目录中的每个文件.之后,我使用 map 在rdd的每个元素上调用一个函数.整个程序每个文件仅使用50行.代码如下: def processFiles(fileNameContentsPair):fileName = fileNameContentsPair [0]结果="\ n \ n" +文件名resultEr ="\ n \ n" +文件名输入 ..
发布时间:2021-05-13 20:53:00 其他开发

使用Python在hdfs上读取/写入文件

我是Python的新手,我想从hdfs中读取一个文件(已实现). 读取文件后,我正在执行一些字符串操作,我想将这些修改后的内容写入输出文件中. 由于打开对我不起作用,因此读取了我使用子进程(花费了很多时间)获得的文件. cat = Popen(["hadoop","fs","-cat","/user/hdfs/test-python/input/test_replace"],std ..
发布时间:2021-05-13 20:52:56 Python

在S3中存储时正确的Parquet文件大小吗?

我一直在阅读有关此主题的几个问题,也阅读过几个论坛,在所有这些论坛中,他们似乎都提到从Spark生成的每个.parquet文件的大小应为64MB或1GB,但仍然可以我不介意哪种情况属于每种文件大小,其背后的原因除了HDFS将它们分成64MB的块. 我当前的测试方案如下. 数据集.coalesce(n)#为'n'4或48-原因说明如下..写.mode(SaveMode.Append).par ..
发布时间:2021-05-13 20:52:40 其他开发

用于访问HDFS中文件的URI

我已经使用Ambari设置了一个包含3个节点的集群. 现在,我想使用客户端应用程序访问HDFS中的文件. 我可以在Amabari的“数据节点"下找到所有节点URI. 访问文件我需要使用什么URI +端口?我已经使用了默认的安装过程. 解决方案 默认端口为"8020". 您可以通过3种不同的方式访问"hdfs"路径. 只需使用"/"作为根路径 例如 E ..
发布时间:2021-05-13 20:52:36 其他开发

从Java获取HDFS的文件夹大小

我必须使用具有Java子目录的HDFS文件夹大小. 在命令行中,我们可以使用-dus选项,但是任何人都可以帮助我了解如何使用Java来获取相同的信息. 解决方案 ContentSummary 类中的 getSpaceConsumed()函数将返回文件/目录占用的实际空间在群集中,即它考虑了为群集设置的复制因子. 例如,如果hadoop群集中的复制因子设置为3,并且目录大小为1. ..
发布时间:2021-05-13 20:52:32 其他开发

将文件从Hdfs复制到Hdfs Scala

是否存在使用Hadoop API/Spark Scala在Hdfs上将文件从一个目录复制到另一个目录的已知方法? 我尝试使用copyFromLocalFile,但没有帮助 解决方案 尝试使用Hadoop的 FileUtil.copy()命令,如下所述: ..
发布时间:2021-05-13 20:52:29 其他开发

如何在Hive中查找在数据库中创建的表的数量?

我需要找出在每个架构中创建的表的数量,并找出每个架构所占用的大小. 解决方案 使用shell脚本可以做到这一点 计算命令输出中的行 hive -S -e“设置hive.cli.print.header = false;使用$ schema;显示表;"|wc -l 其中$ schema是您的架构名称 模式的大小有些棘手.模式中的每个表都可以在HDFS中拥有其自己的位置,该位置与模 ..
发布时间:2021-05-13 20:52:26 其他开发

HDFS文件系统-如何获取目录中特定文件的字节数

我正在尝试获取HDFS目录中特定文件的字节数. 我尝试使用 fs.getFileStatus(),但是我看不到任何获取文件字节数的方法,我只能看到 getBlockSize()方法 有什么方法可以获取HDFS中特定文件的字节数吗? 解决方案 fs.getFileStatus()返回具有方法 getLen()的FileStatus对象,该方法将返回“此文件的长度,以字节为单位." ..
发布时间:2021-05-13 20:52:23 Java开发