sequencefile相关内容
我希望能够创建一个自定义 InputFormat 来读取序列文件,但另外公开文件路径和该文件中记录所在的偏移量. 退一步说,这里是用例:我有一个包含可变大小数据的序列文件.键大多是不相关的,值最多为几兆字节,包含各种不同的字段.我想在 elasticsearch 中索引其中一些字段以及文件名和偏移量.这样我就可以从elasticsearch中查询到那些字段,然后使用文件名和偏移量回到sequ
..
我正在尝试从 map-reduce 作业中编写一个快速的块压缩序列文件.我在用hadoop 2.0.0-cdh4.5.0 和 snappy-java 1.0.4.1 这是我的代码: 包jinvestor.jhouse.mr;导入 java.io.ByteArrayOutputStream;导入 java.io.IOException;导入 java.io.OutputStream;导入 j
..
如何使用 Apache Spark 将 RDD[Array[Byte]] 写入文件并再次读取? 解决方案 常见问题似乎是奇怪的无法将异常从 BytesWritable 转换为 NullWritable.另一个常见的问题是 BytesWritable getBytes 是一堆完全没有意义的废话,根本没有得到字节.getBytes 所做的是获取您的字节,而不是在最后添加大量零!你必须使用 co
..
我正在尝试从 map-reduce 作业编写一个 snappy 块压缩序列文件.我在用hadoop 2.0.0-cdh4.5.0 和 snappy-java 1.0.4.1 这是我的代码: package jinvestor.jhouse.mr;导入 java.io.ByteArrayOutputStream;导入 java.io.IOException;导入 java.io.Output
..
我在 HDFS 上的数据是序列文件格式.我正在使用 PySpark (Spark 1.6) 并试图实现两件事: 数据路径包含 yyyy/mm/dd/hh 格式的时间戳,我想将其引入数据本身.我试过 SparkContext.wholeTextFiles 但我认为它可能不支持序列文件格式. 如果我想处理一天的数据并且想将日期带入数据中,我该如何处理上面的一点?在这种情况下,我将加载 yy
..
我有一个序列文件,其值看起来像 (string_value, json_value) 我不在乎字符串值. 在Scala中,我可以通过以下方式读取文件 val reader = sc.sequenceFile[String, String]("/path...") val data = reader.map{case (x, y) => (y.toString)} val js
..
我使用Hbase Export utility工具取得了Hbase表的备份。 hbase org.apache.hadoop.hbase.mapreduce .Export“FinancialLineItem”“/ project / fricadev / ESGTRF / EXPORT” 这已经在mapreduce和将我所有的表格数据传送到输出文件夹。 根据文档,输出文
..
我一直在试图找到一些关于如何使用Sqoop将序列文件导出到Oracle的文档。这是可能的吗? 目前我有我的文件(在HDFS中)以基于文本的格式,我使用Sqoop将这些文件导出到Oracle的某些表并且工作正常。现在我想将文件的格式从文本更改为序列文件或其他内容(Avro稍后)。那么,如果我想使用Sqoop将不同文件格式从HDFS导出到Oracle,我需要做什么? 任何信息都将得到高度赞
..
我正在学习 Hadoop ,这个问题让我困惑了一阵子。基本上我正在写一个 SequenceFile 到磁盘,然后再读回来。但是,每次读取时,我都会收到 EOFException 。深层次的观察表明,在编写序列文件时,它过早地被截断,并且它总是在写入索引962之后发生,并且文件总是具有45056字节的固定大小。 我可以排除写入器/阅读器没有正确关闭。我试着用代码中显示的writer.close
..
是否可以在不安装hadoop的情况下从java创建hadoop序列文件?我需要一个在本地创建序列文件的独立Java程序。我的Java程序将运行在没有安装hadoop的env中。 你需要库而不是安装。使用 SequenceFile.Writer 代码: import java.io.IOException; 导入org.apache.hadoop.conf.Configurat
..
我使用txt作为输入来编写Hadoop seq文件。 我知道如何从文本文件写入序列文件。 但我想限制输出序列文件的大小,比如256MB。 有没有内建的方法可以做到这一点? 解决方案 AFIAK you'll需要编写自己的自定义输出格式来限制输出文件的大小 - 默认情况下,FileOutputFormats为每个Reducer创建一个输出文件。另外一个选项是按常规创建序列文件,
..
我尝试了不同的方法,用 创建一个大的Hadoop SequenceFile,只需一个短( 1GB)值(BytesWriteable)。 以下示例适用于开箱即用: https://svn.apache.org/repos/asf/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-map
..
我有一堆Hadoop SequenceFiles,它们是用我写的一些Writable子类编写的。我们称之为FishWritable。 这个Writable很好用了一段时间,直到我决定为了清晰起见需要重命名包。因此,现在FishWritable的完全限定名称是 com.vertebrates.fishes.FishWritable ,而不是 com.mammals.fishes.FishWri
..
我有一个CSV文件,我想将其转换为SequenceFile,我最终将使用它创建NamedVectors以用于群集作业。我一直使用seqdirectory命令尝试创建SequenceFile,然后使用-nv选项将该输出提供给seq2sparse以创建NamedVectors。看起来这是给一个大的向量作为输出,但我最终希望我的CSV的每一行都成为NamedVector。 解决方案 seqdir
..
我希望能够创建一个自定义的InputFormat来读取序列文件,但是另外公开该文件中记录所在位置的文件路径和偏移量。 退一步说,这里是用例:我有一个包含可变大小数据的序列文件。密钥大部分是不相关的,值高达几兆字节,包含各种不同的字段。我想索引一些在elasticsearch中的这些字段以及文件名和偏移量。这样,我可以从elasticsearch中查询这些字段,然后使用文件名和偏移量返回序列文
..
我将日志写入Hadoop序列文件到HDFS中,我在每一串日志之后调用syncFS(),但是我从来没有关闭文件(除了我正在执行日常滚动时)。 我想保证的是文件在文件仍在写入时可供读者使用。 我可以通过FSDataInputStream读取序列文件的字节,但是如果我尝试使用SequenceFile.Reader.next(key,val),它会在第一次调用时返回false 。 我知道
..
在Mahout中存在一个用于创建序列文件的命令,如 bin / mahout seqdirectory -c UTF-8 -i -o 。我想使用这个命令作为代码API。 解决方案 您可以这样做: import org.apache.hadoop.conf.Configuration; 导入org.apache.hadoop.fs.FileSystem; 导入org
..
我试图从map-reduce作业写出一个活泼的块压缩序列文件。我使用 hadoop 2.0.0-cdh4.5.0和snappy-java 1.0.4.1 这是我的代码: package jinvestor.jhouse.mr; import java.io.ByteArrayOutputStream; import java.io.IOException; impo
..
我希望能够在hdfs文件系统上读取/写入图像,并利用hdfs位置。 我有一个图像集合,其中每个图像都由 2D基本附加信息数组uint16 存储为xml文件。 我想通过hdfs文件系统创建存档,并使用spark来分析存档。现在我正努力将数据存储在hdfs文件系统上,以便充分利用spark + hdfs结构。 据我所知,最好的方法是创建一个sequenceFile包装器。我有
..
我能够运行此脚本保存在文本格式文件,但是当我尝试运行saveAsSequenceFile它示数出来。如果任何一个有关于如何将RDD保存为序列文件的想法,请让我知道这个过程。我试图寻找“学习星火”的解决方案,以及官方星火文档。 这成功运行 dataRDD = sc.textFile(“/用户/ Cloudera的/ sqoop_import /部门”) dataRDD.saveAsTextFi
..