hdfs相关内容

如何使用 Ruby 在 Hadoop HDFS 中写入和读取文件?

有没有办法使用 Ruby 来处理 HDFS Api?据我所知,没有多语言文件 Api,唯一的方法是使用本机 Java Api.我尝试使用 JRuby,但此解决方案不稳定且不是很原生.此外,我查看了 HDFS Thrift Api,但它并不完整,而且还缺少许多功能(例如写入索引文件). 除了使用 JRuby 或 Thrift Api 之外,还有没有办法使用 Ruby 来处理 HDFS? ..
发布时间:2021-11-15 02:30:20 其他开发

Kafka Storm HDFS/S3 数据流

目前还不清楚您是否可以像在 Flume 中那样在 Kafka 中进行扇出(复制). 我想让 Kafka 将数据保存到 HDFS 或 S3,并将该数据的副本发送到 Storm 进行实时处理.Storm 聚合/分析的输出将存储在 Cassandra 中.我看到一些实现将所有数据从 Kafka 流入 Storm,然后从 Storm 流出两个输出.但是,我想消除 Storm 对原始数据存储的依赖. ..
发布时间:2021-11-14 23:37:05 其他开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据,其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然,每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一,还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..
发布时间:2021-11-14 23:31:34 其他开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据,其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然,每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一,还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..
发布时间:2021-11-14 23:25:50 其他开发

Spark Hadoop 无法获得广播

运行 spark-submit 作业并收到“无法获取广播_58_piece0..."错误.我真的不确定我做错了什么.我是否过度使用 UDF?功能太复杂? 作为我目标的总结,我正在解析 pdf 中的文本,这些文本以 base64 编码的字符串形式存储在 JSON 对象中.我正在使用 Apache Tika 获取文本,并尝试大量使用数据框以简化操作. 我编写了一段代码,通过 tika 将文 ..
发布时间:2021-11-14 23:08:23 其他开发

如何合并由 SPARK 数据框创建的文件夹中的所有零件文件并在 Scala 中重命名为文件夹名称

嗨,我有我的 spark 数据框的输出,它创建了文件夹结构并创建了部分文件.现在我必须合并文件夹内的所有部分文件并将该文件重命名为文件夹路径名. 这就是我做分区的方式 df.write.partitionBy("DataPartition","PartitionYear").format("csv").option("nullValue", "").option("header", "tr ..
发布时间:2021-11-14 23:03:36 其他开发

Spark:PartitionBy,更改输出文件名

目前,当我使用 paritionBy() 写入 HDFS 时: DF.write.partitionBy("id") 我会得到看起来像的输出结构(这是默认行为): ../id=1/../id=2/../id=3/ 我想要一个看起来像这样的结构: ../a/../b/../C/ 这样: 如果 id = 1,则一个如果 id = 2,则 b.. 等等 有没有办法改变文件名输出?如果没有 ..
发布时间:2021-11-14 22:58:47 其他开发

在 Spark SQL 中编写 SQL 与使用数据帧 API

我是 Spark SQL 世界中的一只新蜜蜂.我目前正在迁移我的应用程序的摄取代码,其中包括在 HDFS 中的 stage、Raw 和应用程序层中摄取数据并执行 CDC(更改数据捕获),这目前是在 Hive 查询中编写的,并通过 Oozie 执行.这需要迁移到 Spark 应用程序(当前版本 1.6).另一部分代码稍后会迁移. 在 spark-SQL 中,我可以直接从 Hive 中的表创建数 ..
发布时间:2021-11-14 21:49:48 其他开发

如何使用 spark 插入 HDFS?

我在 HDFS 中对数据进行了分区.在某些时候,我决定更新它.算法是: 从 kafka 主题中读取新数据. 找出新数据的分区名称. 从 HDFS 中具有这些名称的分区加载数据. 将 HDFS 数据与新数据合并. 覆盖磁盘上已有的分区. 问题是,如果新数据具有磁盘上尚不存在的分区怎么办.在这种情况下,它们不会被写入.https://stackoverflow.com/a/4969 ..
发布时间:2021-11-14 21:46:33 其他开发

使用 Apache Spark 和 Java 将 CSV 解析为 DataFrame/DataSet

我是 Spark 新手,我想使用 group-by &减少从 CSV 中找到以下内容(受雇者一行): 部门、职称、costToCompany、州销售,实习生,12000,UP销售,潜在客户,32000,AP销售,主管,32000,洛杉矶销售,铅,32000,田纳西州销售,潜在客户,32000,AP销售,铅,32000,田纳西州销售,主管,32000,洛杉矶销售,主管,32000,洛杉矶市场营销 ..
发布时间:2021-11-14 21:32:54 Java开发