hdfs 第11页 - IT屋-程序员软件开发技术分享社区

Hive 为 HDFS 中的每个插入创建多个小文件

以下已经实现 Kafka Producer 使用 Spark Streaming 从 Twitter 提取数据. Kafka 消费者将数据提取到 Hive 外部表(在 HDFS 上). 虽然到目前为止工作正常.我只面临一个问题，当我的应用程序将数据插入 Hive 表时，它创建了一个小文件，每个文件的每一行数据. 下面是代码 //定义要读取的主题val 主题 = "topic_ ..

发布时间：2021-11-12 01:46:48 hadoop hive hdfs apache-kafka spark-streaming 其他开发

Flink:X 时间后可以删除可查询状态吗?

就我而言，我只使用 Flink 的可查询状态.特别是，我不关心检查点. 发生事件时，我仅在最多 X 分钟后查询可查询状态.理想情况下，我会删除“旧"状态以节省空间. 这就是为什么我想知道:我可以在一段时间后向 Flink 的状态发出信号以清除自身吗?通过配置?通过特定的事件信号?怎么样? 解决方案清除状态的一种方法是在状态对象(例如 ValueState 对象)上显式调用 c ..

发布时间：2021-11-12 01:05:10 java scala hdfs apache-flink flink-streaming Java开发

我想用 Spark runner 运行管道，数据存储在远程机器上.已使用以下命令提交作业: ./spark-submit --class org.apache.beam.examples.WordCount --master spark://192.168.1.214:6066 --deploy-mode cluster --supervise --executor-memory 2G--tot ..

发布时间：2021-11-11 22:42:01 maven hadoop hdfs apache-beam 其他开发

Apache Beam:“无法找到 hdfs 的注册商"

我想用 Spark runner 运行管道，数据存储在远程机器上.已使用以下命令提交作业: ./spark-submit --class org.apache.beam.examples.WordCount --master spark://192.168.1.214:6066 --deploy-mode cluster --supervise --executor-memory 2G--tot ..

发布时间：2021-11-11 22:39:39 maven hadoop hdfs apache-beam 其他开发

尝试使用 Fuse 挂载 HDFS.无法编译 libhdfs

我正在尝试编译 libhdfs(一个允许外部应用程序与 hdfs 交互的本机共享库).这是我使用 Fuse 挂载 Hadoop 的 hdfs 必须采取的几个步骤之一. 编译似乎进行了一段时间，但以“BUILD FAILED"和以下问题总结结束 - commons-logging#commons-logging;1.0.4:在 commons-logging#commons-loggin ..

发布时间：2021-11-11 02:52:14 ant hadoop mount fuse hdfs 其他开发

将 Impala 表从 HDFS 导出到 MySQL

我正在尝试使用 Sqoop 将一个黑斑羚表从 HDFS 导出到 MySQL.该表已经在 MySQL 中创建，并且两个表的架构应该匹配. Impala 表信息:1 开始日期字符串2 start_station_code 字符串3 end_date 字符串4 end_station_code 字符串5 duration_sec 整数6 is_member int7 cnt bigintImpala ..

发布时间：2021-08-27 19:41:25 mysql hdfs sqoop impala hue 数据库

sqoop split by 选项在 split by 选项中使用派生列时出错

我有一个 Oracle 查询，它正在获取 2500 万条记录，没有 pk 或没有正确分布的列以按列拆分.所以我想到了使用 ROW_number() over () as RANGEGROUP 来制作一个序列号.但是当我使用这个伪列时，它给了我一个错误说在 org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:164)引起:java.s ..

发布时间：2021-08-27 19:41:14 oracle import hive hdfs sqoop 数据库

Spark:加载多个文件、单独分析、合并结果并保存

我是 Spark 的新手，不知道如何问这个问题(使用哪些术语等)，所以这是我在概念上试图实现的目标的图片: 我有很多小的、单独的 .txt“分类帐"文件(例如，当时带有时间戳和属性值的行分隔文件). 我想: 将每个“分类帐"文件读入单独的数据框(阅读:不合并为一个大数据框)；对每个单独的数据框进行一些基本的计算，得到一行新的数据值；然后将所有单独的结果行合并为一个 ..

发布时间：2021-06-24 20:39:32 python apache-spark pyspark hdfs Python

如何使用pyspark使用的通配符读取hdfs文件

有一些拼花文件路径为: /a/b/c ='str1'/d ='str' /a/b/c ='str2'/d ='str' /a/b/c ='str3'/d ='str' 我想像这样读取实木复合地板文件: df = spark.read.parquet('/a/b/c ='*'/d ='str') 但是通过使用"*" 通配符不能使用.我该怎么做?谢谢你的帮助解决 ..

发布时间：2021-05-13 20:53:08 pyspark hdfs parquet 其他开发

PySpark:如何使用Ljava.lang.Object隐蔽列

我通过像这样从HDFS读取数据在PySpark中创建了数据框: df = spark.read.parquet('path/to/parquet') 我希望数据框具有两列字符串: + ------------ + ------------------ +| my_column | my_other_column |+ ------------ + ------------------ ..

发布时间：2021-05-13 20:53:03 python pyspark hdfs java.lang Python

apache spark:从目录中读取大型文件

我正在使用 wholeTextFiles 读取目录中的每个文件.之后，我使用 map 在rdd的每个元素上调用一个函数.整个程序每个文件仅使用50行.代码如下: def processFiles(fileNameContentsPair):fileName = fileNameContentsPair [0]结果="\ n \ n" +文件名resultEr ="\ n \ n" +文件名输入 ..

发布时间：2021-05-13 20:53:00 apache-spark pyspark hdfs 其他开发

使用Python在hdfs上读取/写入文件

我是Python的新手，我想从hdfs中读取一个文件(已实现). 读取文件后，我正在执行一些字符串操作，我想将这些修改后的内容写入输出文件中. 由于打开对我不起作用，因此读取了我使用子进程(花费了很多时间)获得的文件. cat = Popen(["hadoop"，"fs"，"-cat"，"/user/hdfs/test-python/input/test_replace"]，std ..

发布时间：2021-05-13 20:52:56 python hdfs Python

尝试将稀疏df保存到hdf5时，获取"SparseDtype"对象没有属性"itemsize"吗?

我正在尝试将大型稀疏数据帧保存到hdf5文件中，但出现了归属错误: one_hot = pd.get_dummies(my_DF，columns = ['cat']，sparse = True)one_hot.to_hdf('/content/data.h5'，'table'，mode ='w'，append = True，complevel = 9，complib ='bzip2') 我 ..

发布时间：2021-05-13 20:52:53 python pandas hdfs Python

如何在Windows上为python 3.7正确设置pyarrow

我一直在尝试通过pip( pip install pyarrow ，以及建议的Yagav: py -3.7 -m pip install --user pyarrow )进行pyarrow安装.conda( conda install -c conda-forge pyarrow ，也使用了 conda install pyarrow )，从src构建lib(使用conda环境和一些魔术，我不是真 ..

发布时间：2021-05-13 20:52:48 python windows hadoop hdfs pyarrow Python

在S3中存储时正确的Parquet文件大小吗?

我一直在阅读有关此主题的几个问题，也阅读过几个论坛，在所有这些论坛中，他们似乎都提到从Spark生成的每个.parquet文件的大小应为64MB或1GB，但仍然可以我不介意哪种情况属于每种文件大小，其背后的原因除了HDFS将它们分成64MB的块. 我当前的测试方案如下. 数据集.coalesce(n)#为'n'4或48-原因说明如下..写.mode(SaveMode.Append).par ..

发布时间：2021-05-13 20:52:40 apache-spark hdfs parquet 其他开发

用于访问HDFS中文件的URI

我已经使用Ambari设置了一个包含3个节点的集群. 现在，我想使用客户端应用程序访问HDFS中的文件. 我可以在Amabari的“数据节点"下找到所有节点URI. 访问文件我需要使用什么URI +端口?我已经使用了默认的安装过程. 解决方案默认端口为"8020". 您可以通过3种不同的方式访问"hdfs"路径. 只需使用"/"作为根路径例如 E ..

发布时间：2021-05-13 20:52:36 hdfs ambari 其他开发

从Java获取HDFS的文件夹大小

我必须使用具有Java子目录的HDFS文件夹大小. 在命令行中，我们可以使用-dus选项，但是任何人都可以帮助我了解如何使用Java来获取相同的信息. 解决方案 ContentSummary 类中的 getSpaceConsumed()函数将返回文件/目录占用的实际空间在群集中，即它考虑了为群集设置的复制因子. 例如，如果hadoop群集中的复制因子设置为3，并且目录大小为1. ..

发布时间：2021-05-13 20:52:32 hdfs 其他开发

将文件从Hdfs复制到Hdfs Scala

是否存在使用Hadoop API/Spark Scala在Hdfs上将文件从一个目录复制到另一个目录的已知方法? 我尝试使用copyFromLocalFile，但没有帮助解决方案尝试使用Hadoop的 FileUtil.copy()命令，如下所述: ..

发布时间：2021-05-13 20:52:29 scala apache-spark hdfs 其他开发

如何在Hive中查找在数据库中创建的表的数量?

我需要找出在每个架构中创建的表的数量，并找出每个架构所占用的大小. 解决方案使用shell脚本可以做到这一点计算命令输出中的行 hive -S -e“设置hive.cli.print.header = false；使用$ schema；显示表；"|wc -l 其中$ schema是您的架构名称模式的大小有些棘手.模式中的每个表都可以在HDFS中拥有其自己的位置，该位置与模 ..

发布时间：2021-05-13 20:52:26 hive hdfs 其他开发

HDFS文件系统-如何获取目录中特定文件的字节数

我正在尝试获取HDFS目录中特定文件的字节数. 我尝试使用 fs.getFileStatus()，但是我看不到任何获取文件字节数的方法，我只能看到 getBlockSize()方法有什么方法可以获取HDFS中特定文件的字节数吗? 解决方案 fs.getFileStatus()返回具有方法 getLen()的FileStatus对象，该方法将返回“此文件的长度，以字节为单位." ..

发布时间：2021-05-13 20:52:23 java hdfs Java开发

hdfs相关内容