large-data相关内容

使用转换表替换大表中的值

我正在尝试替换以空格分隔的大文本文件中的值,但找不到针对此特定问题的合适答案: 假设我有一个文件“OLD_FILE",其中包含一个标题和大约 200 万行: COL1 COL2 COL3 COL4 COL5rs10 7 92221824 C Ars1000000 12 125456933 G Ars10000010 4 21227772 T Crs10000012 4 1347325 G ..
发布时间:2021-07-17 20:57:48 服务器开发

将大型 csv 转换为稀疏矩阵以在 sklearn 中使用

我有一个以 csv 格式保存的 ~30GB(压缩 ~1.7 GB | 180K 行 x 32K 列)矩阵.我想将此矩阵转换为稀疏格式,以便能够在内存中加载完整的数据集,以便使用 sklearn 进行机器学习.填充的单元格包含小于 1 的浮点数.大矩阵的一个警告是目标变量存储为最后一列.允许在 sklearn 中使用这个大矩阵的最佳方法是什么?IE.如何在不将原始矩阵加载到内存中的情况下将 ~30G ..
发布时间:2021-07-16 19:51:19 Python

python中大型数据集的多重处理(查找重复项)

我有一个 json 文件,我想从中删除重复的行,但它太大而无法放入内存.我找到了一种方法来完成它,但我猜这不是最好的方法. 我的问题是对于 12GB 的数据集,它在 8 分钟内运行.但要求是扩展代码,以便它可以在 100gb 数据集上运行.有关如何执行此操作的任何指示?我应该在 python 中使用多线程还是多处理来实现这一点?或者其他方法? 这是代码: 导入json导入时间""" ..
发布时间:2021-06-04 19:58:33 Python

清除numpy.memmap

给出一个用 mode ='r'创建的 numpy.memmap 对象(即只读),有一种方法可以强制它清除所有已加载的页面物理RAM,而不删除对象本身? 换句话说,我希望对 memmap 实例的引用保持有效,但是所有用于缓存磁盘数据的物理内存都将被取消提交.对 memmap 数组的任何视图也必须保持有效. 我希望将其用作诊断工具,以帮助将脚本的“实际"内存需求与使用 memmap 引起的 ..
发布时间:2021-05-29 19:31:04 Python

将大型3D NumPy数组加载到Paraview中

将大型3D NumPy数组保存到的最佳文件格式是什么,以便我可以轻松地将其加载到Paraview中? 我有一个非常大的3D NumPy数组,其中填充了数据点.我正在尝试使用一些不同的方法将这个大型数组加载到Paraview中,但是我一直没有成功.数组的尺寸为(2000,1500,200). 到目前为止,我已经使用 gridToVTK 将数组转换为 .vtr 文件,但是如果数组大得多, ..
发布时间:2021-05-29 19:31:00 其他开发

Powershell问题-寻找最快的方法来遍历500k对象,以在另一个500k对象数组中寻找匹配项

我有两个使用import-csv cmdlet导入的大型.csv文件.我做了很多搜索和尝试,最后发布帖子,寻求帮助以简化此操作. 我需要遍历第一个数组,该数组的范围从80k行到500k行.这些数组中的每个对象都有多个属性,然后我需要在第二个数组中找到相同大小的第二个数组中的对应条目,该属性与该属性匹配. 我正在将它们作为[systems.collection.arrayList]导入, ..
发布时间:2021-05-29 19:30:57 其他开发

在 Shiny 中从大数据图中高效渲染数据点

目标 实施一个闪亮的应用程序,以有效地可视化和调整上传的数据集.每个集合可能包含100000至200000行.数据调整完成后,可以下载调整后的数据.分步进行: 数据上传 数据选择和可视化 数据(点)删除 下载选项 问题 虽然该应用程序主要运行,但数据可视化和删除需要太多时间. 代码 样本数据 生成了一些样本数据.数据可以上传到闪亮的应用程序.样本数据 ..
发布时间:2021-05-29 19:30:53 其他开发

我如何阅读大型csv(20G)

我是python的新用户.我的问题是: 我有三个csv文件(每个文件约15G,有三列),我想将它们读入python并删除dur = 0的行我的csv就是这样. sn_fx sn_tx dur5129789 3310325 25129789 5144184 15129789 5144184 15129789 5144184 15129789 5144184 15129789 6302346 ..
发布时间:2021-05-29 19:30:40 Python

Python大文件,如何查找具有特定字符串的特定行

我正在使用Python处理非常大的文本文件(〜52GB,8亿行,每行30列数据)中的数据.我正在尝试找到一种有效的方法来查找特定的行.幸运的是,该字符串始终位于第一列. 整个工作正常,内存不是问题(我没有加载它,只是根据需要打开和关闭文件),并且无论如何我都在群集上运行它.它更多的是关于速度.该脚本需要几天才能运行! 数据看起来像这样: scaffold126 1 C 0:0:20 ..
发布时间:2021-05-29 19:30:35 Python

在Python 3中大于10 ^ 2000的数字的平方根

我想在 Python 中计算大于 10^2000 的数字的平方根.如果我将此数字当作普通整数对待,我将始终得到以下结果: Traceback(最近一次通话最近):中的文件"...",第3行打印(q *(0.5))OverflowError:int太大,无法转换为float 我该如何解决?还是存在除使用Python之外的其他可能性来计算此平方根? 解决方案 通常的平 ..
发布时间:2021-05-29 19:30:34 Python

numpy:布尔索引和内存使用情况

考虑以下 numpy 代码: A [开始:结束] = B [掩码] 这里: A 和 B 是具有相同列数的二维数组; start 和 end 是标量; mask 是一维布尔数组; (结束-开始)== sum(mask). 原则上,可以使用 O(1)临时存储执行上述操作,方法是将 B 的元素直接复制到 A 这是实际上发生的事情吗?还是 numpy 为 B [mask] ..
发布时间:2021-05-29 19:30:28 Python

基于条件的2个大型数据集的模糊模糊字符串匹配-Python

我有 2 个已读入 Pandas DataFrames 的大型数据集(分别为 ~ 20K 行和 ~40K 行).当我尝试在地址字段上使用pandas.merge完全合并这两个DF时,与行数相比,我得到的匹配数很少.所以我想我会尝试对字符串匹配进行模糊处理,以查看它是否可以改善输出匹配的数量. 我通过尝试在DF1中创建新列(20K行)来解决这个问题,这是在DF1 [addressline]到D ..
发布时间:2021-05-29 19:30:25 Python

Neo4j&Spring Data Neo4j 4.0.0:导入大型数据集

我想通过Spring Data Neo4j 4.0.0将实时日志记录数据插入Neo4j 2.2.1.日志记录数据非常大,可能会达到数十万条记录.如何实现这种功能的最佳方法是什么?在所有节点实体对象创建结束时仅使用.save(Iterable)方法是否安全?Spring Data Neo4j 4.0.0中是否有类似批量插入机制的东西?预先感谢! 解决方案 由于SDN4可以直接与现有数据库一起 ..
发布时间:2021-05-15 20:52:46 其他开发

“大数据"使用熊猫的工作流程

在学习熊猫的过程中,我试图迷惑了这个问题很多月了.我在日常工作中使用SAS,这非常有用,因为它提供了核心支持.但是,由于许多其他原因,SAS作为一个软件还是很糟糕的. 有一天,我希望用python和pandas代替SAS,但目前我缺少大型数据集的核心工作流程.我并不是在说需要分布式网络的“大数据",而是文件太大而无法容纳在内存中,但又足够小而无法容纳在硬盘驱动器上. 我的第一个想法是使 ..
发布时间:2021-05-13 20:51:24 Python

我该如何浏览&列出XML消息的XPATH?

我如何浏览&列出XML消息的XPATH? **** 请参阅下面的“编辑"部分: 感谢您调查此问题.我不确定这是否是发布此主题的合适论坛.如果没有,请让我知道发布此主题的正确论坛. 我们有一个复杂的XML消息(XML格式的数据).我们正在探索一种提取此XML消息及其元素/属性级别数据内容的所有XPATH的方法.我们尝试使用XMLSPY,&xmltwig,但是没有运气.如果我们提供X ..
发布时间:2021-05-13 19:32:20 其他开发

可视化非常大的图形的软件

我有一个很大的文本节点(名称)图(大约205k边缘和200k节点),我想使用Graphviz之类的东西来可视化. 在Graphviz上运行此问题(使用sfdp)的问题是,如果我关闭了重叠功能(这对于生成可读图是必需的),则sfdp的内存将耗尽. 是否还有其他类似Graphviz的工具可以将这种大小的图转换为不重叠节点的图像? 解决方案 我还没有尝试使用如此大的数据集,但是可以给 ..
发布时间:2021-05-13 19:27:45 其他开发

大N的[1,2,3,...,N]的抽样排列

我必须使用 所以我尝试了 >>>random.sample(list(itertools.permutations(range(1,53))),1000) 但是,鉴于 52!非常大, list 操作使我的计算机上的内存和交换空间最大化.我不能只选择 itertools.permutations 生成的前1000个排列,因为它具有确定性,并且会影响我的遗传算法. 有没有更好的方法来 ..
发布时间:2021-05-10 19:05:09 Python

根据单列(AWK)中的值拆分大文件

我想根据第六列中的值(大约10 * 10 ^ 3个唯一值)分割一个大文件(10 ^ 6行).但是,由于记录的数量,我无法使其正常运行.它应该很容易,但是已经花费了几个小时,而且我没有任何进一步的看法. 我尝试了两种选择: 选项1 awk'{print>$ 6".txt"}'input.fileawk:无法打开"Parent = mRNA:Solyc06g051570.2.1.txt"以 ..
发布时间:2021-05-09 20:44:42 其他开发

尝试加载5GB文本文件时出现Python MemoryError

我想读取以文本格式存储在5GB文件中的数据.当我尝试使用此代码读取文件的内容时: file = open('../data/entries_en.txt','r')数据= file.readlines() 发生错误:数据= file.readlines()内存错误我的笔记本电脑有8GB内存,当我要运行该程序时至少有4GB可用空间.但是当我监视系统性能时,当python使用约1.5GB内存时 ..
发布时间:2021-05-07 18:48:29 Python

带有大数据的PhpSpreadsheet

我有一个包含3070个值的多维数组 $ tbl = array(大批("KDNR" =>1,"GESCHL" =>“测试","TITEL" =>“测试","VORNAME" =>“测试","FAMNAME" =>“测试","PLZ" =>“测试","ORT" =>“测试","STRASSE" =>“测试","EMAIL" =>“测试","PRIVTEL" =>“测试"),"KDNR" =>2, ..
发布时间:2021-05-05 19:52:28 PHP