hdfs相关内容

有 0 个数据节点正在运行,此操作中未排除任何节点

我已经建立了一个多节点的 Hadoop 集群.NameNode和Secondary namenode运行在同一台机器上,集群只有一个Datanode.所有节点都配置在 Amazon EC2 机器上. 以下是master节点上的配置文件: 大师54.68.218.192(主节点公网IP)奴隶54.68.169.62(从节点公网IP) core-site.xml fs. ..
发布时间:2021-11-27 09:36:24 其他开发

用Java在hdfs中写入文件

我想在 HDFS 中创建一个文件并在其中写入数据.我使用了这个代码: Configuration config = new Configuration();FileSystem fs = FileSystem.get(config);路径文件名路径 = 新路径("input.txt");尝试 {如果(fs.exists(文件名路径)){fs.delete(filenamePath, true); ..
发布时间:2021-11-25 19:58:01 Java Web开发

从 Spark 中的压缩读取整个文本文件

我有以下问题:假设我有一个包含压缩目录的目录,其中包含存储在 HDFS 上的多个文件.我想创建一个包含一些 T 类型对象的 RDD,即: context = new JavaSparkContext(conf);JavaPairRDDfilesRDD = context.wholeTextFiles(inputDataPath);JavaPairRDDfilesRDD = context.who ..
发布时间:2021-11-25 19:25:41 Java Web开发

HBase - WAL 和 MemStore 有什么区别?

我正在尝试了解 HBase 架构.我可以看到两个不同的术语用于同一目的. Write Ahead Logs 和 Memstore,两者都用于存储尚未持久化到永久存储的新数据.> WAL 和 MemStore 有什么区别? 更新: WAL - 用于在服务器崩溃时恢复尚未持久化的数据.MemStore - 将更新存储在内存中作为排序的键值. 在将数据写入磁盘之前,似乎有很多重 ..
发布时间:2021-11-17 02:26:21 其他开发

崩溃的 HDFS 客户端 - 如何关闭剩余的打开文件?

我的 Hadoop 应用程序遇到了一些问题. 每当我的客户端在没有关闭文件的情况下退出时(例如由于崩溃),Hadoop 中就会有从未关闭的打开文件. 当我尝试重新启动客户端时,它在重新打开这些文件以追加数据时失败.(异常信息见下文) 是否有手动关闭这些文件的好方法,或者更好的方法,即在重新打开它们之前直接检查并关闭它们? 我使用的是 Cloudera CDH5 (2.3.0 ..
发布时间:2021-11-16 19:41:29 其他开发

HDFS 命令行追加

有什么方法可以像复制文件一样从命令行追加到 HDFS 上的文件: hadoop fs -copyFromLocal URI 解决方案 此功能在 Hadoop 2.3.0 中实现为 appendToFile 语法如下: hdfs dfs -appendToFile localfile/user/hadoop/hadoopfile (这是在 2009 年考虑 HDFS Append 功能时首 ..
发布时间:2021-11-16 19:38:57 其他开发

带有附加功能的 HDFS 如何工作

让我们假设一个使用默认块大小(128 MB),并且有一个使用 130 MB 的文件;所以使用一个完整大小的块和一个 2 MB 的块.然后需要将 20 MB 附加到文件中(现在总共应该是 150 MB).会发生什么? HDFS 是否真的将最后一个块的大小从 2MB 调整为 22MB?或者创建一个新块? 追加到 HDFS 中的文件如何处理并发?是否有数据丢失的风险? HDFS 是否创 ..
发布时间:2021-11-16 19:27:00 其他开发

如何使用 Ruby 在 Hadoop HDFS 中写入和读取文件?

有没有办法使用 Ruby 来处理 HDFS Api?据我所知,没有多语言文件 Api,唯一的方法是使用本机 Java Api.我尝试使用 JRuby,但此解决方案不稳定且不是很原生.此外,我查看了 HDFS Thrift Api,但它并不完整,而且还缺少许多功能(例如写入索引文件). 除了使用 JRuby 或 Thrift Api 之外,还有没有办法使用 Ruby 来处理 HDFS? ..
发布时间:2021-11-15 02:30:20 其他开发

执行 hdfs zkfc 命令时出错

我是 hadoop、hdfs 的新手.我已经完成了接下来的步骤: 我已经在三个namenodes中启动了zookeeper: *vagrant@172:~$ zkServer.sh start 我可以看到状态: *vagrant@172:~$ zkServer.sh 状态 结果状态: 默认启用JMX使用配置:/opt/zookeeper-3.4.6/bin/../conf/zoo. ..
发布时间:2021-11-15 00:07:01 其他开发

Hbase 错误“错误:KeeperErrorCode = NoNode for/hbase/master"

在 hbase shell 中执行任何命令时,我在 hbase shell 中收到以下错误“ERROR: KeeperErrorCode = NoNode for/hbase/master". 开始使用 HBASE: HOSTCHND:hbase-2.0.0 gvm$ ./bin/start-hbase.sh本地主机:运行zookeeper,登录到/usr/local/Cellar/hb ..
发布时间:2021-11-14 23:58:37 其他开发

使用 Storm hdfs 连接器将数据写入 HDFS

可用于将数据写入 HDFS 的“storm-hdfs 连接器"的源代码.github 网址是:https://github.com/ptgoetz/storm-hdfs有一个特殊的拓扑结构:“HdfsFileTopology"用来写'|'分隔数据到 HDFS.链接:https://github.com/ptgoetz/storm-hdfs/blob/master/src/test/java/org ..
发布时间:2021-11-14 23:42:52 其他开发

Kafka Storm HDFS/S3 数据流

目前还不清楚您是否可以像在 Flume 中那样在 Kafka 中进行扇出(复制). 我想让 Kafka 将数据保存到 HDFS 或 S3,并将该数据的副本发送到 Storm 进行实时处理.Storm 聚合/分析的输出将存储在 Cassandra 中.我看到一些实现将所有数据从 Kafka 流入 Storm,然后从 Storm 流出两个输出.但是,我想消除 Storm 对原始数据存储的依赖. ..
发布时间:2021-11-14 23:37:05 其他开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据,其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然,每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一,还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..
发布时间:2021-11-14 23:31:34 其他开发

使用 Avro/Parquet 的 Spark 作业中的最大行数

我打算使用 Spark 来处理数据,其中 RDD 或 DataFrame 中的每个单独的元素/行有时可能会很大(高达几 GB). 数据可能会存储在 HDFS 中的 Avro 文件中. 显然,每个执行程序都必须有足够的 RAM 来在内存中保存这些“胖行"之一,还有一些要备用. 但是对于 Spark/HDFS 或常见序列化格式(Avro、Parquet、Sequence File.. ..
发布时间:2021-11-14 23:25:50 其他开发

Spark Hadoop 无法获得广播

运行 spark-submit 作业并收到“无法获取广播_58_piece0..."错误.我真的不确定我做错了什么.我是否过度使用 UDF?功能太复杂? 作为我目标的总结,我正在解析 pdf 中的文本,这些文本以 base64 编码的字符串形式存储在 JSON 对象中.我正在使用 Apache Tika 获取文本,并尝试大量使用数据框以简化操作. 我编写了一段代码,通过 tika 将文 ..
发布时间:2021-11-14 23:08:23 其他开发

使用 PySpark 在 HDFS 中保存和附加文件

我在 PySpark 中有一个名为 df 的数据框.我已将此 df 注册为 temptable,如下所示. df.registerTempTable('mytempTable')date=datetime.now().strftime('%Y-%m-%d %H:%M:%S') 现在从这个临时表中我将获得某些值,例如列 id 的 max_id min_id = sqlContext.sql( ..
发布时间:2021-11-14 23:05:53 其他开发

如何合并由 SPARK 数据框创建的文件夹中的所有零件文件并在 Scala 中重命名为文件夹名称

嗨,我有我的 spark 数据框的输出,它创建了文件夹结构并创建了部分文件.现在我必须合并文件夹内的所有部分文件并将该文件重命名为文件夹路径名. 这就是我做分区的方式 df.write.partitionBy("DataPartition","PartitionYear").format("csv").option("nullValue", "").option("header", "tr ..
发布时间:2021-11-14 23:03:36 其他开发

Spark:PartitionBy,更改输出文件名

目前,当我使用 paritionBy() 写入 HDFS 时: DF.write.partitionBy("id") 我会得到看起来像的输出结构(这是默认行为): ../id=1/../id=2/../id=3/ 我想要一个看起来像这样的结构: ../a/../b/../C/ 这样: 如果 id = 1,则一个如果 id = 2,则 b.. 等等 有没有办法改变文件名输出?如果没有 ..
发布时间:2021-11-14 22:58:47 其他开发