sequencefile - IT屋-程序员软件开发技术分享社区

扩展 SequenceFileInputFormat 以包含文件名+偏移量

我希望能够创建一个自定义 InputFormat 来读取序列文件，但另外公开文件路径和该文件中记录所在的偏移量. 退一步说，这里是用例:我有一个包含可变大小数据的序列文件.键大多是不相关的，值最多为几兆字节，包含各种不同的字段.我想在 elasticsearch 中索引其中一些字段以及文件名和偏移量.这样我就可以从elasticsearch中查询到那些字段，然后使用文件名和偏移量回到sequ ..

发布时间：2022-01-14 08:06:34 java hadoop mapreduce sequencefile Java开发

hadoop mapreduce:java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z

我正在尝试从 map-reduce 作业中编写一个快速的块压缩序列文件.我在用hadoop 2.0.0-cdh4.5.0 和 snappy-java 1.0.4.1 这是我的代码: 包jinvestor.jhouse.mr；导入 java.io.ByteArrayOutputStream；导入 java.io.IOException；导入 java.io.OutputStream；导入 j ..

发布时间：2022-01-13 23:25:39 java hadoop mapreduce sequencefile snappy Java开发

在 Spark 中写入和读取原始字节数组 - 使用 Sequence File SequenceFile

如何使用 Apache Spark 将 RDD[Array[Byte]] 写入文件并再次读取? 解决方案常见问题似乎是奇怪的无法将异常从 BytesWritable 转换为 NullWritable.另一个常见的问题是 BytesWritable getBytes 是一堆完全没有意义的废话，根本没有得到字节.getBytes 所做的是获取您的字节，而不是在最后添加大量零！你必须使用 co ..

发布时间：2021-12-15 19:21:14 scala hadoop hdfs apache-spark sequencefile 其他开发

hadoop mapreduce: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z

我正在尝试从 map-reduce 作业编写一个 snappy 块压缩序列文件.我在用hadoop 2.0.0-cdh4.5.0 和 snappy-java 1.0.4.1 这是我的代码: package jinvestor.jhouse.mr;导入 java.io.ByteArrayOutputStream;导入 java.io.IOException;导入 java.io.Output ..

发布时间：2021-12-15 19:16:24 java hadoop mapreduce sequencefile snappy Java开发

在 PySpark 中获取序列文件格式的文件的 HDFS 文件路径

我在 HDFS 上的数据是序列文件格式.我正在使用 PySpark (Spark 1.6) 并试图实现两件事: 数据路径包含 yyyy/mm/dd/hh 格式的时间戳，我想将其引入数据本身.我试过 SparkContext.wholeTextFiles 但我认为它可能不支持序列文件格式. 如果我想处理一天的数据并且想将日期带入数据中，我该如何处理上面的一点?在这种情况下，我将加载 yy ..

发布时间：2021-06-24 20:39:23 apache-spark pyspark sequencefile 其他开发

在PySpark 2.0中读取序列文件

我有一个序列文件，其值看起来像 (string_value, json_value) 我不在乎字符串值. 在Scala中，我可以通过以下方式读取文件 val reader = sc.sequenceFile[String, String]("/path...") val data = reader.map{case (x, y) => (y.toString)} val js ..

发布时间：2020-09-04 04:16:20 apache-spark pyspark sequencefile 其他开发

在Hbase导出的表上运行MapReduce thorws无法找到Value类的反序列化器：'org.apache.hadoop.hbase.client.Result

我使用Hbase Export utility工具取得了Hbase表的备份。 hbase org.apache.hadoop.hbase.mapreduce .Export“FinancialLineItem”“/ project / fricadev / ESGTRF / EXPORT” 这已经在mapreduce和将我所有的表格数据传送到输出文件夹。根据文档，输出文 ..

发布时间：2018-06-05 13:30:38 mapreduce hbase hdfs hadoop2 sequencefile 其他开发

通过Sqoop将序列文件导出到Oracle

我一直在试图找到一些关于如何使用Sqoop将序列文件导出到Oracle的文档。这是可能的吗？目前我有我的文件（在HDFS中）以基于文本的格式，我使用Sqoop将这些文件导出到Oracle的某些表并且工作正常。现在我想将文件的格式从文本更改为序列文件或其他内容（Avro稍后）。那么，如果我想使用Sqoop将不同文件格式从HDFS导出到Oracle，我需要做什么？任何信息都将得到高度赞 ..

发布时间：2018-06-01 12:45:47 oracle hadoop sqoop hcatalog sequencefile 数据库

为什么SequenceFile被截断？

我正在学习 Hadoop ，这个问题让我困惑了一阵子。基本上我正在写一个 SequenceFile 到磁盘，然后再读回来。但是，每次读取时，我都会收到 EOFException 。深层次的观察表明，在编写序列文件时，它过早地被截断，并且它总是在写入索引962之后发生，并且文件总是具有45056字节的固定大小。我可以排除写入器/阅读器没有正确关闭。我试着用代码中显示的writer.close ..

发布时间：2018-05-31 20:07:22 java hadoop sequencefile Java开发

如何在没有hadoop安装的情况下在本地文件系统中创建hadoop序列文件？

是否可以在不安装hadoop的情况下从java创建hadoop序列文件？我需要一个在本地创建序列文件的独立Java程序。我的Java程序将运行在没有安装hadoop的env中。你需要库而不是安装。使用 SequenceFile.Writer 代码： import java.io.IOException; 导入org.apache.hadoop.conf.Configurat ..

发布时间：2018-05-31 20:03:20 hadoop sequencefile 分布式计算/Hadoop

如何限制Hadoop序列文件的大小？

我使用txt作为输入来编写Hadoop seq文件。我知道如何从文本文件写入序列文件。但我想限制输出序列文件的大小，比如256MB。有没有内建的方法可以做到这一点？解决方案 AFIAK you'll需要编写自己的自定义输出格式来限制输出文件的大小 - 默认情况下，FileOutputFormats为每个Reducer创建一个输出文件。另外一个选项是按常规创建序列文件， ..

发布时间：2018-05-31 19:51:02 hadoop mapreduce sequencefile 分布式计算/Hadoop

创建具有大（> 1GB）BytesWritable值大小的SequenceFile时的NegativeArraySizeException

我尝试了不同的方法，用创建一个大的Hadoop SequenceFile，只需一个短（ 1GB）值（BytesWriteable）。以下示例适用于开箱即用： https://svn.apache.org/repos/asf/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-map ..

发布时间：2018-05-31 19:34:26 hadoop out-of-memory heap large-files sequencefile 分布式计算/Hadoop

在Hadoop SequenceFile中处理Writable的全限定名称更改

我有一堆Hadoop SequenceFiles，它们是用我写的一些Writable子类编写的。我们称之为FishWritable。这个Writable很好用了一段时间，直到我决定为了清晰起见需要重命名包。因此，现在FishWritable的完全限定名称是 com.vertebrates.fishes.FishWritable ，而不是 com.mammals.fishes.FishWri ..

发布时间：2018-05-31 19:30:09 serialization hadoop sequencefile 分布式计算/Hadoop

将CSV转换为SequenceFile

我有一个CSV文件，我想将其转换为SequenceFile，我最终将使用它创建NamedVectors以用于群集作业。我一直使用seqdirectory命令尝试创建SequenceFile，然后使用-nv选项将该输出提供给seq2sparse以创建NamedVectors。看起来这是给一个大的向量作为输出，但我最终希望我的CSV的每一行都成为NamedVector。解决方案 seqdir ..

发布时间：2018-05-31 19:15:49 hadoop mahout sequencefile 分布式计算/Hadoop

扩展SequenceFileInputFormat以包含文件名+偏移量

我希望能够创建一个自定义的InputFormat来读取序列文件，但是另外公开该文件中记录所在位置的文件路径和偏移量。退一步说，这里是用例：我有一个包含可变大小数据的序列文件。密钥大部分是不相关的，值高达几兆字节，包含各种不同的字段。我想索引一些在elasticsearch中的这些字段以及文件名和偏移量。这样，我可以从elasticsearch中查询这些字段，然后使用文件名和偏移量返回序列文 ..

发布时间：2018-05-31 19:09:31 java hadoop mapreduce sequencefile Java开发

Hadoop HDFS：读取正在写入的序列文件

我将日志写入Hadoop序列文件到HDFS中，我在每一串日志之后调用syncFS（），但是我从来没有关闭文件（除了我正在执行日常滚动时）。我想保证的是文件在文件仍在写入时可供读者使用。我可以通过FSDataInputStream读取序列文件的字节，但是如果我尝试使用SequenceFile.Reader.next（key，val），它会在第一次调用时返回false 。我知道 ..

发布时间：2018-05-31 19:00:29 hadoop hdfs sequencefile 分布式计算/Hadoop

我如何使用Mahout的序列文件API代码？

在Mahout中存在一个用于创建序列文件的命令，如 bin / mahout seqdirectory -c UTF-8 -i -o 。我想使用这个命令作为代码API。解决方案您可以这样做： import org.apache.hadoop.conf.Configuration; 导入org.apache.hadoop.fs.FileSystem; 导入org ..

发布时间：2018-05-31 18:53:57 hadoop mahout sequencefile 分布式计算/Hadoop

hadoop mapreduce：java.lang.UnsatisfiedLinkError：org.apache.hadoop.util.NativeCodeLoader.buildSupportsSappeppy（）Z

我试图从map-reduce作业写出一个活泼的块压缩序列文件。我使用 hadoop 2.0.0-cdh4.5.0和snappy-java 1.0.4.1 这是我的代码： package jinvestor.jhouse.mr; import java.io.ByteArrayOutputStream; import java.io.IOException; impo ..

发布时间：2018-05-31 18:49:21 java hadoop mapreduce sequencefile snappy Java开发

使用pyspark，在hadoop文件系统上读写二维图像

我希望能够在hdfs文件系统上读取/写入图像，并利用hdfs位置。我有一个图像集合，其中每个图像都由 2D基本附加信息数组uint16 存储为xml文件。我想通过hdfs文件系统创建存档，并使用spark来分析存档。现在我正努力将数据存储在hdfs文件系统上，以便充分利用spark + hdfs结构。据我所知，最好的方法是创建一个sequenceFile包装器。我有 ..

发布时间：2018-05-31 18:43:28 hadoop apache-spark sequencefile pyspark 分布式计算/Hadoop

RDD保存在pyspark序列文件

我能够运行此脚本保存在文本格式文件，但是当我尝试运行saveAsSequenceFile它示数出来。如果任何一个有关于如何将RDD保存为序列文件的想法，请让我知道这个过程。我试图寻找“学习星火”的解决方案，以及官方星火文档。这成功运行 dataRDD = sc.textFile（“/用户/ Cloudera的/ sqoop_import /部门”） dataRDD.saveAsTextFi ..

发布时间：2016-05-22 16:43:00 python apache-spark pyspark sequencefile Python

sequencefile相关内容