large-data相关内容

Python fork():将数据从子级传递到父级

我有一个主要的Python进程,并且使用我需要将大量且相当复杂的数据结构从工作人员传递回主流程.您会为此推荐哪些现有库? 数据结构是列表,字典, numpy数组,自定义类(可以调整)和上述内容的多层组合. 应避免使用磁盘I/O.如果我还可以避免创建数据副本(例如通过使用某种共享内存解决方案),那也将很好,但并不是硬约束. 出于这个问题的目的,必须使用os.fork()或使用其包装 ..
发布时间:2020-04-29 03:24:15 Python

将Excel表数据传输到SQL 2008R2的最快方法

有人知道使用外部实用程序(即bcp)将数据表和Excel表(VBA阵列)中的数据以最快的方式从SQL 2008中以 导入到表中吗? 请记住,我的数据集通常是6500-15000行,大约150-250列;最后我在自动VBA批处理脚本中传输了其中的20-150. 我尝试了几种从Excel表(VBA)到SQL 2008获取大量数据的方法.下面列出了这些方法: 方法1.将表传递到VBA Arr ..
发布时间:2020-04-29 03:24:13 其他开发

使用C#排序巨大的二进制文件

我有一个大文件,大小约为400 GB.每天由外部封闭系统生成.它是具有以下格式的二进制文件: byte[8]byte[4]byte[n] 其中n等于字节[4]的int32值. 此文件没有定界符,要读取整个文件,请重复直到EOF.每个“项目"都表示为byte [8] byte [4] byte [n]. 文件看起来像 byte[8]byte[4]byte[n]byte[8 ..
发布时间:2020-04-29 03:24:09 C#/.NET

R可以处理多少数据?

通过“处理",我的意思是处理多列数据行. R如何与Excel,SPSS,SAS和其他工具相提并论? R是查看“大数据"(亿万至数十亿行)的可行工具吗?如果不是,哪种统计编程工具最适合分析大型数据集? 解决方案 如果您查看高级-通过CRAN上的Performance Computing Task View ,您将很好地了解R在高性能方面可以做什么. ..
发布时间:2020-04-29 03:24:05 其他开发

R程序中超大矩阵的svd

我在txt文件中有一个60,000 x 60,000矩阵,我需要获取此矩阵的svd.我使用R,但我不知道R是否可以生成它. 解决方案 我认为可以使用irlba包以及bigmemory和bigalgebra来计算(部分)svd,而无需使用大量内存. 首先让我们创建一个20000 * 20000矩阵并将其保存到文件中 require(bigmemory) require(bigal ..
发布时间:2020-04-29 03:24:01 其他开发

R中的大型固定效应二项式回归

我需要在具有480.000个条目和3个固定效果变量的相对较大的数据帧上进行逻辑回归.固定效果var A具有3233级,var B具有2326级,var C具有811级.因此,我总共有6370个固定效果.数据是横截面的.如果由于回归矩阵对于我的内存而言似乎太大而无法使用常规的glm函数运行此回归(我收到消息"Error: cannot allocate vector of size 22.9 Gb" ..

D3:如何显示大型数据集

我有一个包含10 ^ 5个数据点的大型数据集.现在,我正在考虑与大型数据集有关的以下问题: 有没有一种有效的方法可以可视化非常大的数据集?在我的情况下,我有一个用户集,每个用户有10 ^ 3个项目.共有10 ^ 5项.我想一次显示每个用户的所有项目,以实现用户之间的快速比较.有人建议使用列表,但是在处理这个大数据集时,我认为列表不是唯一的选择. 注意 我想一次显示每个用户的所有项 ..
发布时间:2020-04-29 03:23:49 其他开发

如何通过参数将大于200个字符的字符串传递给存储过程

我陷入一个问题,在我的代码中,我必须对数据表中存在的所有文章进行求和,将所有文章ID连接到一个字符串中,例如"a1,a2,a3",这应该是工作. 但是我有很大的ID,大约有150篇文章,所以我尝试传递给存储过程的字符串大约是1300个字符,当它转到存储过程时,它将截断为200个字符. 您知道在不使用SQL Server截断此字符串的情况下将大字符串传递给存储过程的任何解决方案吗? ..
发布时间:2020-04-29 03:23:48 C#/.NET

在SAS中从长到宽转置

我有一个非常大的数据集(1800万个观测值),我希望通过基于一个变量的子集并从那些子集/集合中创建900个新变量来进行转置.示例代码和所需的输出格式如下: 示例数据: data long1 ; input famid year faminc ; cards ; var1 96 40000 var1 97 40500 var1 98 41000 var2 96 45000 v ..
发布时间:2020-04-29 03:23:43 其他开发

设计外部存储器排序算法

如果我有一个很大的列表存储在需要排序的外部存储器中. Asumimg该列表对于内部存储器而言太大了,在设计外部排序算法时应考虑哪些主要因素? 解决方案 在构建自己的外部排序之前,您可能会先看一下操作系统提供的工具. Windows具有SORT.EXE,尽管它具有...特质,但在某些文本文件上也能很好地工作. GNU排序也很好.您可以尝试使用其中任何一个数据来查看它们是否可以满足您的需求. ..
发布时间:2020-04-29 03:23:40 其他开发

MATLAB以不同方式随机排列列

我有一个非常大的矩阵A,具有N行和M列.我基本上想做以下操作 for k = 1:N A(k,:) = A(k,randperm(M)); end 但快速高效. (M和N都很大,这只是一个更大的外循环中的一个内循环.) 更多背景信息:我正在尝试为相关矩阵实施置换测试( http: //en.wikipedia.org/wiki/Resampling_%28statistic ..
发布时间:2020-04-29 03:23:36 其他开发

大卫星图像处理

我正在尝试运行Mort Canty的 http://mcanty.homepage.t-online.de/二进制的RapidEye多光谱图像上的Python iMAD实现.它基本上计算了两个图像的规范相关性,然后将它们相减.我遇到的问题是 图片为5000 x 5000 x 5(带)像素.如果我尝试在 整个图像出现内存错误. 使用诸如pyTables之类的东西可以帮助我吗? Mort ..
发布时间:2020-04-29 03:23:30 Python

大型模型的QCompleter

QCompleter在大型数据集(大型模型)上的工作速度稍慢:当我开始在QCombobox中输入字符时,它会花几秒钟的时间来显示带有变体的自动完成弹出窗口,而输入第二个字符QCompleter却没有按键也要反应几秒钟.下一个字符工作正常.型号大小约为10万条记录.是否可以提高QCompleter性能或在第二个或第三个输入符号后显示弹出窗口?有一些很好的例子吗? 解决方案 解决方案类似于以下 ..
发布时间:2020-04-29 03:23:26 其他开发

使用Python从保存在H5文件中的超大数据集生成pcolormesh图像

我正在收集大量数据,这些数据将使用h5py保存到单个H5文件中.我想将这些图像修补到一个pcolormesh图中,以保存为单个图像. 我正在研究的一个简单示例生成2000x2000随机数据点的数组,并使用h5py将它们保存在H5文件中.然后,我尝试将数据导入这些文件中,并尝试将其作为pcolormesh绘制在matplotlib中,但是我总是遇到memoryError(这是预期的). ..
发布时间:2020-04-29 03:23:20 Python

在Java中高效读取zip文件

我正在处理一个处理大量数据的项目. 我有成千上万个zip文件,每个zip文件包含一个简单的txt文件,其中包含数千行(约80k行). 我当前正在执行以下操作: for(File zipFile: dir.listFiles()){ ZipFile zf = new ZipFile(zipFile); ZipEntry ze = (ZipEntry) zf.entries().nextElem ..
发布时间:2020-04-29 03:23:16 Java开发

Python中的日志计算

我正在计算类似: f(i)是一个函数,它为{1,2,...,5000}中的任何i返回[-1,1]中的实数. 很明显,总和的结果在[-1,1]中的某个位置,但是当我似乎无法使用直接编码在Python中进行计算时,由于0.55000变为0并且comb(5000,2000) inf,导致计算出的总和变成NaN. 所需的解决方案是在两面都使用日志. 使用身份a × b = 2log ..
发布时间:2020-04-29 03:23:14 Python

不管正确设置如何,在上传大文件时重置PHP连接

我遇到一个非常普遍的问题,似乎所有可用的解决方案都无法正常工作. 我们有一台LAMP服务器正在接收大量流量.使用此服务器,我们执行常规文件提交上载.在上传小文件时,它可以完美运行.在大约4-5MB的文件上,此提交上传间歇性地失败了(有时可以,但是很多次失败). 我们在PHP上具有以下配置: max_input_time: 600 max_execution_time: 600 m ..
发布时间:2020-04-29 03:23:10 PHP