sequencefile相关内容

扩展 SequenceFileInputFormat 以包含文件名+偏移量

我希望能够创建一个自定义 InputFormat 来读取序列文件,但另外公开文件路径和该文件中记录所在的偏移量. 退一步说,这里是用例:我有一个包含可变大小数据的序列文件.键大多是不相关的,值最多为几兆字节,包含各种不同的字段.我想在 elasticsearch 中索引其中一些字段以及文件名和偏移量.这样我就可以从elasticsearch中查询到那些字段,然后使用文件名和偏移量回到sequ ..
发布时间:2022-01-14 08:06:34 Java开发

在 Spark 中写入和读取原始字节数组 - 使用 Sequence File SequenceFile

如何使用 Apache Spark 将 RDD[Array[Byte]] 写入文件并再次读取? 解决方案 常见问题似乎是奇怪的无法将异常从 BytesWritable 转换为 NullWritable.另一个常见的问题是 BytesWritable getBytes 是一堆完全没有意义的废话,根本没有得到字节.getBytes 所做的是获取您的字节,而不是在最后添加大量零!你必须使用 co ..
发布时间:2021-12-15 19:21:14 其他开发

在 PySpark 中获取序列文件格式的文件的 HDFS 文件路径

我在 HDFS 上的数据是序列文件格式.我正在使用 PySpark (Spark 1.6) 并试图实现两件事: 数据路径包含 yyyy/mm/dd/hh 格式的时间戳,我想将其引入数据本身.我试过 SparkContext.wholeTextFiles 但我认为它可能不支持序列文件格式. 如果我想处理一天的数据并且想将日期带入数据中,我该如何处理上面的一点?在这种情况下,我将加载 yy ..
发布时间:2021-06-24 20:39:23 其他开发

在PySpark 2.0中读取序列文件

我有一个序列文件,其值看起来像 (string_value, json_value) 我不在乎字符串值. 在Scala中,我可以通过以下方式读取文件 val reader = sc.sequenceFile[String, String]("/path...") val data = reader.map{case (x, y) => (y.toString)} val js ..
发布时间:2020-09-04 04:16:20 其他开发

在Hbase导出的表上运行MapReduce thorws无法找到Value类的反序列化器:'org.apache.hadoop.hbase.client.Result

我使用Hbase Export utility工具取得了Hbase表的备份。 hbase org.apache.hadoop.hbase.mapreduce .Export“FinancialLineItem”“/ project / fricadev / ESGTRF / EXPORT” 这已经在mapreduce和将我所有的表格数据传送到输出文件夹。 根据文档,输出文 ..
发布时间:2018-06-05 13:30:38 其他开发

通过Sqoop将序列文件导出到Oracle

我一直在试图找到一些关于如何使用Sqoop将序列文件导出到Oracle的文档。这是可能的吗? 目前我有我的文件(在HDFS中)以基于文本的格式,我使用Sqoop将这些文件导出到Oracle的某些表并且工作正常。现在我想将文件的格式从文本更改为序列文件或其他内容(Avro稍后)。那么,如果我想使用Sqoop将不同文件格式从HDFS导出到Oracle,我需要做什么? 任何信息都将得到高度赞 ..
发布时间:2018-06-01 12:45:47 数据库

为什么SequenceFile被截断?

我正在学习 Hadoop ,这个问题让我困惑了一阵子。基本上我正在写一个 SequenceFile 到磁盘,然后再读回来。但是,每次读取时,我都会收到 EOFException 。深层次的观察表明,在编写序列文件时,它过早地被截断,并且它总是在写入索引962之后发生,并且文件总是具有45056字节的固定大小。 我可以排除写入器/阅读器没有正确关闭。我试着用代码中显示的writer.close ..
发布时间:2018-05-31 20:07:22 Java开发

如何在没有hadoop安装的情况下在本地文件系统中创建hadoop序列文件?

是否可以在不安装hadoop的情况下从java创建hadoop序列文件?我需要一个在本地创建序列文件的独立Java程序。我的Java程序将运行在没有安装hadoop的env中。 你需要库而不是安装。使用 SequenceFile.Writer 代码: import java.io.IOException; 导入org.apache.hadoop.conf.Configurat ..
发布时间:2018-05-31 20:03:20 分布式计算/Hadoop

如何限制Hadoop序列文件的大小?

我使用txt作为输入来编写Hadoop seq文件。 我知道如何从文本文件写入序列文件。 但我想限制输出序列文件的大小,比如256MB。 有没有内建的方法可以做到这一点? 解决方案 AFIAK you'll需要编写自己的自定义输出格式来限制输出文件的大小 - 默认情况下,FileOutputFormats为每个Reducer创建一个输出文件。另外一个选项是按常规创建序列文件, ..
发布时间:2018-05-31 19:51:02 分布式计算/Hadoop

在Hadoop SequenceFile中处理Writable的全限定名称更改

我有一堆Hadoop SequenceFiles,它们是用我写的一些Writable子类编写的。我们称之为FishWritable。 这个Writable很好用了一段时间,直到我决定为了清晰起见需要重命名包。因此,现在FishWritable的完全限定名称是 com.vertebrates.fishes.FishWritable ,而不是 com.mammals.fishes.FishWri ..
发布时间:2018-05-31 19:30:09 分布式计算/Hadoop

将CSV转换为SequenceFile

我有一个CSV文件,我想将其转换为SequenceFile,我最终将使用它创建NamedVectors以用于群集作业。我一直使用seqdirectory命令尝试创建SequenceFile,然后使用-nv选项将该输出提供给seq2sparse以创建NamedVectors。看起来这是给一个大的向量作为输出,但我最终希望我的CSV的每一行都成为NamedVector。 解决方案 seqdir ..
发布时间:2018-05-31 19:15:49 分布式计算/Hadoop

扩展SequenceFileInputFormat以包含文件名+偏移量

我希望能够创建一个自定义的InputFormat来读取序列文件,但是另外公开该文件中记录所在位置的文件路径和偏移量。 退一步说,这里是用例:我有一个包含可变大小数据的序列文件。密钥大部分是不相关的,值高达几兆字节,包含各种不同的字段。我想索引一些在elasticsearch中的这些字段以及文件名和偏移量。这样,我可以从elasticsearch中查询这些字段,然后使用文件名和偏移量返回序列文 ..
发布时间:2018-05-31 19:09:31 Java开发

Hadoop HDFS:读取正在写入的序列文件

我将日志写入Hadoop序列文件到HDFS中,我在每一串日志之后调用syncFS(),但是我从来没有关闭文件(除了我正在执行日常滚动时)。 我想保证的是文件在文件仍在写入时可供读者使用。 我可以通过FSDataInputStream读取序列文件的字节,但是如果我尝试使用SequenceFile.Reader.next(key,val),它会在第一次调用时返回false 。 我知道 ..
发布时间:2018-05-31 19:00:29 分布式计算/Hadoop

使用pyspark,在hadoop文件系统上读写二维图像

我希望能够在hdfs文件系统上读取/写入图像,并利用hdfs位置。 我有一个图像集合,其中每个图像都由 2D基本附加信息数组uint16 存储为xml文件。 我想通过hdfs文件系统创建存档,并使用spark来分析存档。现在我正努力将数据存储在hdfs文件系统上,以便充分利用spark + hdfs结构。 据我所知,最好的方法是创建一个sequenceFile包装器。我有 ..
发布时间:2018-05-31 18:43:28 分布式计算/Hadoop

RDD保存在pyspark序列文件

我能够运行此脚本保存在文本格式文件,但是当我尝试运行saveAsSequenceFile它示数出来。如果任何一个有关于如何将RDD保存为序列文件的想法,请让我知道这个过程。我试图寻找“学习星火”的解决方案,以及官方星火文档。 这成功运行 dataRDD = sc.textFile(“/用户/ Cloudera的/ sqoop_import /部门”) dataRDD.saveAsTextFi ..
发布时间:2016-05-22 16:43:00 Python