large-data相关内容

Java:一种快速对数组进行多次计算的方法

很抱歉,如果这不是这些问题的正确答案,但我需要一些基本帮助. 我有一个名为Differential的类,该类具有成员变量mValues(List>).我要做的是遍历所有值并将它们相互比较.这意味着对于五个值,我正在进行10个比较.但是,这将至少用于20,000个列表.我要进行三个计算,我想知道应该如何处理. 我当前的想法来自此多线程示例 我当时以为我会使用完成服务来遍历多线程中的 ..
发布时间:2020-04-29 03:25:24 Java开发

优化HDF5数据集的读写速度

我目前正在运行一个实验,该实验是在空间上扫描目标并在每个离散像素处获取示波器轨迹.通常我的走线长度为200Kpts.扫描完整个目标之后,我会在空间上组合这些时域信号,并从本质上播放已扫描内容的电影.我的扫描区域大小为330x220像素,因此整个数据集都比我必须使用的计算机上的RAM大. 首先,我只是将每个示波器迹线保存为一个numpy数组,然后在我的扫描完成下采样/过滤等之后,然后以不会遇到 ..
发布时间:2020-04-29 03:25:20 Python

如何设计HTTP API推送海量数据?

我需要为客户端提供HTTP API,以一组记录的形式推送大量数据. 我的第一个想法是提供一组三个呼叫,例如: "BeginPushData"(无参数,返回ID) "PushSomeData"(参数:ID,数据子集,无返回值) "EndPushData"(参数:id) 第一个调用应用于初始化一些临时数据结构并为用户提供标识符,以便后续调用可以引用它,并且多个用户的数据也不会混乱.在所 ..
发布时间:2020-04-29 03:25:17 其他开发

在Oracle中使用大量数据在同一张表中进行字段比较的最快方法

我正在从一个部门的csv文件中接收信息,以便与不同部门的相同信息进行比较以检查差异(每百万行数据中约3/4的行,每行44列).将数据存储在表格中之后,我就有了一个程序,该程序将获取数据并基于总部发送报告.我觉得我要解决的方法不是最有效的.我正在使用oracle进行此比较. 这就是我所拥有的: 我有一个vb.net程序,该程序可以解析数据并将其插入到提取表中 我运行一个过程,对两个 ..
发布时间:2020-04-29 03:25:13 数据库

如何设计一个可以存储非常大的数据的表?

我需要在Oracle中设计一个表,该表一天将存储2-5 TB的数据.它可以增长到200TB,超过200 TB时将清除记录. 将其保留在OLTP中是可行的选择,还是需要将其转移到数据仓库DB? 请提出建议,在设计此表或数据库的架构时应牢记. 另外,请告知它是否为SQL Server,因为我可以使用任何一个数据库. 解决方案 这种大小会使您进入VLDB领域(非常大的数据库). 在那 ..
发布时间:2020-04-29 03:25:09 数据库

找到一个非常大的矩阵的转置

我有这个巨大的二维数据数组.它以行顺序存储: A(1,1)A(1,2)A(1,3)..... A(n-2,n)A(n-1,n)A(n,n) 我想将其重新排列为列顺序 A(1,1)A(2,1)A(3,1)..... A(n,n-2)A(n,n-1)A(n,n) 数据集非常大-超出了计算机RAM上的容量. (n约为10,000,但每个数据项占用约1K的空间.) 有人知道精巧或有效 ..
发布时间:2020-04-29 03:25:03 其他开发

调用函数时的熊猫,大数据,HDF表和内存使用情况

简短问题 当熊猫在HDFStore上工作时(例如.mean()或.apply()),它会将完整数据作为DataFrame加载到内存中,还是作为Serie处理逐条记录? > 详细说明 我必须处理大型数据文件,并且可以指定数据文件的输出格式. 我打算使用Pandas来处理数据,我想设置最佳格式以使其发挥最大性能. 我已经看到panda.read_table()已经走了很长一段 ..
发布时间:2020-04-29 03:24:56 Python

如何提高填充大树视图的性能?

首先,我要回答自己的问题Q/A风格,因此我并不一定需要任何人来回答.这是我学到的东西,许多人可以利用它. 我有一个树视图,其中包含许多不同的节点.每个节点在其Data属性中都有一个对象,该对象从一个对象的主列表中引用不同的层次结构,该列表非常大(成千上万个项目).一个节点代表此主要列出的对象上的特定属性,该树允许用户选择一个节点来查看属于该特定选定类别的那些项. 在填充树时,它变得非常 ..
发布时间:2020-04-29 03:24:54 其他开发

SQL Server-合并大型表而不锁定数据

我有大量的数据(约300万条记录),需要每天将它们与更新和新记录合并.我有一个存储过程,该过程实际上将记录集分解为1000个记录块,并在临时表中使用MERGE命令,以避免在更新数据时锁定活动表.问题在于它并不能完全帮助您.该表仍然“锁定",并且使用该数据的我们的网站在尝试访问数据时收到超时.我什至尝试将其分成100个记录块,甚至尝试使用WAITFOR DELAY '000:00:5'来查看它是否有 ..

将R与tidyquant和Massiv数据一起使用

在使用R时,我遇到了一个奇怪的问题: 我正在按照以下方式处理日期: 从数据库中读取数据到数据帧中,填充缺失值,将数据分组并嵌套到组合的主键中,创建时间序列并针对每个组进行预测,然后对数据进行分组和清理,然后将其写回到数据库中. 类似这样: https://cran.rstudio.com/web/packages/sweep/vignettes/SW01_Forecasting_Time_S ..
发布时间:2020-04-29 03:24:43 其他开发

R中大型复杂调查数据集的方法?

我不是调查方法学家或人口统计学家,而是Thomas Lumley的R调查软件包的狂热爱好者.我一直在使用一个相对较大的复杂调查数据集,即“医疗保健成本和利用项目(HCUP)国家紧急部门样本( 2006年至2012年的完整数据集包含198,102,435个观测值.我将数据细分为40,073,358个与66个变量相关的与创伤相关的出院.对这些数据运行甚至简单的调查程序都将花费大量时间.我尝试使用子设 ..
发布时间:2020-04-29 03:24:40 其他开发

numpy.memmap的字符串数组?

是否可以使用 numpy.memmap 可以将基于磁盘的大型字符串映射到内存中? 我知道可以对浮点数之类的东西进行处理,但是这个问题专门针对字符串. 我对固定长度和可变长度字符串的解决方案都很感兴趣. 该解决方案可以自由规定任何合理的文件格式. 解决方案 如果所有字符串都具有相同的长度(如术语“数组"所建议),则很容易实现: a = numpy.memmap("da ..
发布时间:2020-04-29 03:24:36 Python

是否可以仅保存对称矩阵的一半以节省内存?

在Ax=b类型问题中使用了一个大矩阵. A 是对称的.有什么算法可以让我们仅保存矩阵的一半并对其进行像x=A\b这样的运算? 解决方案 您将只保存一半的内存,但是您可以通过创建矩阵的平面版本,进行保存,然后对其进行展平来实现此目的.请注意,所需的额外时间可能并不能使您节省金钱, % pretend this is symettric... A = rand(10, 10); % s ..
发布时间:2020-04-29 03:24:34 其他开发

PHP和百万数组宝贝

假设您有以下整数数组: array(1, 2, 1, 0, 0, 1, 2, 4, 3, 2, [...] ); 整数最多可容纳一百万个条目;它们只是经过预先生成并存储在JSON格式的文件中(大小约为2MB),而不是进行硬编码.这些整数的顺序很重要,我不能每次都随机生成它,因为它应该是一致的,并且在相同的索引处始终具有相同的值. 如果此文件随后在PHP中被读回(例如,使用file_ ..
发布时间:2020-04-29 03:24:22 PHP