snappy - IT屋-程序员软件开发技术分享社区

JavaScript-从AWS S3存储桶中读取镶木地板数据(快速压缩)

在NodeJS中，我正在尝试读取拼图文件(comage=‘Snappy’)，但失败。我使用https://github.com/ironSource/parquetjsNPM模块打开并读取本地文件，但Reader.Cursor()引发神秘错误‘尚未实现’。无论使用哪种压缩(普通、RLE或Snappy)来创建输入文件，都会引发相同的错误。以下是我的代码： const readP ..

发布时间：2022-08-15 16:44:51 javascript node.js amazon-s3 parquet snappy 前端开发

hadoop mapreduce:java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z

我正在尝试从 map-reduce 作业中编写一个快速的块压缩序列文件.我在用hadoop 2.0.0-cdh4.5.0 和 snappy-java 1.0.4.1 这是我的代码: 包jinvestor.jhouse.mr；导入 java.io.ByteArrayOutputStream；导入 java.io.IOException；导入 java.io.OutputStream；导入 j ..

发布时间：2022-01-13 23:25:39 java hadoop mapreduce sequencefile snappy Java开发

如何在 Windows 10 上安装 snappy C 库以在 Anaconda 中与 python-snappy 一起使用?

我想在 Windows 10 上的 Anaconda 2 安装中使用 pip 安装 parquet for python. 在安装时我遇到了描述的错误这里，安装程序找不到snappy-ch. 答案中没有提到如何在 Windows 上安装它. 我从 http://google.github.io/snappy/ 下载了 Snappy 库，并且现在我被困住了. 从我的错误消息 ..

发布时间：2022-01-10 21:15:06 python python-2.7 installation anaconda snappy Python

Linux x86_64 上的 Cassandra 启动错误 1.2.6

尝试在 linux 上从最新的稳定版本安装 cassandra - http://cassandra.apache.org/download/ - 1.2.6 我已修改 cassndra.yaml 以指向自定义目录而不是/var，因为我没有对/var 的写访问权限我在启动时看到此错误.由于该版本似乎相对较新，因此无法在 google 上找到任何答案.只是把它贴在这里以防万一我这边犯了 ..

发布时间：2021-12-31 17:43:53 java linux cassandra x86-64 snappy Java开发

Parquet vs ORC vs ORC with Snappy

我正在对 Hive 可用的存储格式进行一些测试，并使用 Parquet 和 ORC 作为主要选项.我包括一次默认压缩的 ORC 和一次 Snappy. 我读过很多文档，说 Parquet 在时间/空间复杂度上比 ORC 更好，但我的测试与我浏览过的文档相反. 关注我的数据的一些细节. Table A- 文本文件格式- 2.5GB表 B - ORC - 652MB表 C - 带有 Sn ..

发布时间：2021-12-28 23:32:47 hadoop hive parquet snappy orc 其他开发

如何加载在 HIVE 中压缩的 json snappy

我在 HDFS 中有一堆 json snappy 压缩文件.它们是 HADOOP snappy 压缩的(不是 python，参见其他 SO 问题)并且有嵌套结构. 找不到加载它们的方法进入 HIVE(使用 json_tuple)? 我可以获得一些有关如何加载它们的资源/提示以前的参考文献(没有有效答案) pyspark 如何加载压缩的 snappy 文件 Hive: ..

发布时间：2021-12-28 23:28:26 json apache-spark hadoop hive snappy 其他开发

hadoop mapreduce: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z

我正在尝试从 map-reduce 作业编写一个 snappy 块压缩序列文件.我在用hadoop 2.0.0-cdh4.5.0 和 snappy-java 1.0.4.1 这是我的代码: package jinvestor.jhouse.mr;导入 java.io.ByteArrayOutputStream;导入 java.io.IOException;导入 java.io.Output ..

发布时间：2021-12-15 19:16:24 java hadoop mapreduce sequencefile snappy Java开发

Spark + Parquet + Snappy:spark shuffle 数据后整体压缩率下降

社区！请帮助我了解如何使用 Spark 获得更好的压缩率? 让我描述一下案例: 我有数据集，我们将其称为 HDFS 上的产品，它是使用 Sqoop ImportTool 作为镶木地板文件使用编解码器 snappy 导入的.作为导入的结果，我有 100 个文件，总共 46 GB du，文件大小不同(最小 11MB，最大 1.5GB，平均 ~ 500MB).记录总数略高于 80 ..

发布时间：2021-11-14 22:19:42 apache-spark apache-spark-sql spark-dataframe parquet snappy 其他开发

使用 Python 编写 Parquet 文件的方法?

我无法找到允许使用 Python 编写 Parquet 文件的库.如果我可以结合使用 Snappy 或类似的压缩机制，我会加分. 到目前为止，我发现的唯一方法是使用带有 pyspark.sql.DataFrame Parquet 支持的 Spark. 我有一些脚本需要编写非 Spark 作业的 Parquet 文件.是否有任何方法可以在 Python 中编写不涉及 pyspark.sq ..

发布时间：2021-11-14 22:16:10 python apache-spark apache-spark-sql parquet snappy Python

UnsatisfiedLinkError:/tmp/snappy-1.1.4-libsnappyjava.so 加载共享库 ld-linux-x86-64.so.2 时出错:没有这样的文件或目录

我正在尝试在 kubernetes 中运行 Kafka Streams 应用程序.当我启动 pod 时，出现以下异常: 线程“streams-pipe-e19c2d9a-d403-4944-8d26-0ef27ed5c057-StreamThread-1"中的异常java.lang.UnsatisfiedLinkError:/tmp/snappy-1.1.4-5cec5405-2ce7-4046 ..

发布时间：2021-11-12 03:33:22 java apache-kafka apache-kafka-streams snappy Java开发

UnsatisfiedLinkError:/tmp/snappy-1.1.4-libsnappyjava.so 加载共享库 ld-linux-x86-64.so.2 时出错:没有这样的文件或目录

我正在尝试在 kubernetes 中运行 Kafka Streams 应用程序.当我启动 pod 时，出现以下异常: 线程“streams-pipe-e19c2d9a-d403-4944-8d26-0ef27ed5c057-StreamThread-1"中的异常java.lang.UnsatisfiedLinkError:/tmp/snappy-1.1.4-5cec5405-2ce7-4046 ..

发布时间：2021-11-12 01:43:52 java apache-kafka apache-kafka-streams snappy Java开发

snappy wkhtmltopdf 包装器将生成的 html 文件发送到浏览器

我像鼹鼠一样用谷歌搜索，但找不到正确的方法. 我正在使用 WKHTMLTOPDF Wrapper Snappy 创建 PDF. 如何将使用 generateFromHtml 方法生成的 pdf 直接发送到浏览器?这就是我想要做的: header('Content-Type: application/pdf');header('Content-Disposition: attachme ..

发布时间：2021-09-27 20:16:30 php wkhtmltopdf snappy PHP

pandas df.to_parquet 写入多个较小的文件

是否可以使用 Pandas 的 DataFrame.to_parquet 功能将写入拆分为多个近似所需大小的文件? 我有一个非常大的 DataFrame (100M x 100)，并且正在使用 df.to_parquet('data.snappy', engine='pyarrow', compression='snappy') 写入一个文件，但这会生成一个大约 4GB 的文件.相反，我希望 ..

发布时间：2021-07-14 21:12:15 pandas save parquet pyarrow snappy Python

配置单元ORC上的Presto查询错误，无法从DOUBLE类型的ORC流中读取真实的SQL类型

我能够预先运行查询以从Hive ORC(snappy)表中读取非浮点列.但是，当我通过presto cli选择所有float数据类型列时，出现以下错误消息.除了将文件类型更改为targetHive表中的double之外，其他任何建议都是可行的选择 presto:sample>从emp_detail中选择*; 查询20200107_112537_00009_2zpay失败:打开Hive拆 ..

发布时间：2021-05-14 19:09:45 hive presto orc snappy 其他开发

蜂巢实木复合地板活泼压缩不起作用

我正在使用表属性创建一个表骨架 TBLPROPERTIES('PARQUET.COMPRESSION'='SNAPPY') (因为文件为镶木地板格式)，并在创建表之前将一些参数设置为: set hive.exec.dynamic.partition.mode = nonstrict;设置parquet.enable.dictionary = false;设置hive.plan.seriali ..

发布时间：2021-05-14 19:09:27 hadoop hive hiveql parquet snappy 其他开发

设置实木复合地板snappy输出文件的大小是否为蜂巢?

我正在尝试在dfs.block.size边界上拆分由蜂巢INSERT OVERWRITE TABLE ...创建的镶木地板/易拉皮文件，因为当分区中的文件大于块大小时，impala会发出警告. impala记录以下警告: Parquet文件不应拆分为多个hdfs-block.file = hdfs://////000000_0(共7 ..

发布时间：2021-05-14 19:07:43 hive impala parquet snappy 其他开发

模块'snappy'没有属性'decompress'

我正在尝试使用kafka-python.它要求安装Snappy.所以我安装了 pip install snappy 点安装python_snappy-0.5.2-cp36-cp36m-win_amd64.whl 两种方法都可以使Snappy成功安装. 但是在两次尝试在我导入"kafka"的地方运行python代码时，我都遇到了错误. 错误: AttributeError: ..

发布时间：2021-02-14 19:55:56 python python-3.x kafka-consumer-api snappy Python

为什么在Hive中查询Parquet文件比文本文件要慢?

我决定将Parquet用作配置单元表的存储格式，在我将其实际实现在集群中之前，我决定运行一些测试.出乎意料的是，在我的测试中，Parquet的速度较慢，而通常的说法是，它比纯文本文件要快. 请注意，我在MapR上使用的是Hive-0.13 ---------------------------------------------------------- | | ..

发布时间：2020-11-22 02:14:57 hadoop hive parquet mapr snappy 其他开发

mvn和make软件包错误

好.这是问题所在，这让我发疯了！！！我按照在线说明进行操作，安装了hadoop，并在运行文本时说无法加载快速的本地库. 据说我必须先安装snappy，然后再安装hadoop-snappy. 我从谷歌代码下载snappy-1.0.4并执行以下操作: cd ../snappy-1.0.4 ./配置制作 sudo make install 然后是以下情况的问题: mvn软件包-Dsnappy. ..

发布时间：2020-07-07 05:31:31 hadoop snappy 其他开发

由于tmp文件夹存在优先权，Snappy Compression无法正常工作

每当我尝试使用Pig，Sqoop或Spark以压缩格式存储数据时，我都会遇到问题.我知道问题出在将我们的tmp文件夹安装到nonexec上，这导致例如snappy给我这个错误: java.lang.IllegalArgumentException:java.lang.UnsatisfiedLinkError:/tmp/snappy-1.1.2-fe4e30d0-e4a5-4b1a-ae31- ..

发布时间：2020-07-07 05:30:29 hadoop hdfs sqoop snappy 其他开发

snappy相关内容