vectorization相关内容

在大型数据集中每次提交案件的时候,开放案件的计数方法是有效的

在一个大型数据集(〜1M个案例)中,每个案例都有一个“创建”和“审查” dateTime 。我想计算在每个案例创建时打开的其他案例的数量。案例在他们的“创建”和“被审查”之间打开 dataTimes 。 几个解决方案适用于小数据集 20分钟,6 * 4GHz内核和64GB RAM。即使使用多核心图书馆,最多也可以将时间缩短到8或10倍。不足以处理〜1M个案例。 我正在寻找为了更有效的方 ..
发布时间:2017-07-13 20:32:51 其他开发语言

以1个I / O传递方式提取numpy字典中最快的方式

假设我有一个数组: arr = np.array([[1,20,5] [1,20,8], [3,10,4], [2,30,6], [3,10,5]]) ,我想形成一个字符串,为每行匹配每个值的第三列的总和在第一列中,即返回 {1:13,2:6,3:9} 。为了使事情变得更具挑战性,我的阵列中有10亿行,第一列有10万行。 方法1:可以调用 np.uniq ..
发布时间:2017-05-21 21:32:56 Python

映射2个向量 - 帮助向量化

在Matlab中工作我有两个不同长度的x坐标向量。例如: xm = [15 20 24 25 26 35 81 84 93]; xn = [14 22 26 51 55 59 70 75 89 96]; 我需要将xm映射到xn,换句话说,找出xn中的哪个坐标最接近XM。所以如果我有与这些坐标相关联的值,我可以使用这个地图作为索引,并将这些值相关联。 两个向量 ..
发布时间:2017-05-21 14:54:23 其他开发

用大熊猫数据框向量化复杂切片

为了速度,我希望能够向量化这段代码。目的是计算一个函数,在这种情况下是从两个单独的数组中引用的一对日期的元组的标准偏差。 import pandas as pd import numpy as np asd_1 = pd.Series 0.01 * np.random.randn(252),index = pd.date_range('2011-1-1',periods = 2 ..
发布时间:2017-04-14 05:21:15 Python

使用数据帧列表和向量列表并行使用子集

这样做: 洋葱$ yearone $ id%in%mask $ yearone 这不是: 洋葱[1] [1]%mask%1 onion [1] ['id']%in%mask [1] 为什么?没有一个明显的方式来向量化DF和成员中的并行列(所以我每年只能在DF和成员中都存在id),我使用for循环,但是我并不幸运地找到表达索引的正确方法...帮助 ..
发布时间:2017-03-26 04:34:29 其他开发

R data.frame从变量中获取值,该变量由另一个变量选择,向量化

我有一些数据带有许多类似的变量,其中有一个额外的变量,它指出了我真正想要的那些类似变量的哪一个。使用循环我可以查找正确的值,但是数据很大,循环很慢,看起来应该是可以向量化的。我只是没有想出如何。 编辑:所选的变量将被用作同一数据框架中的新变量,所以顺序很重要。下面给出的示例中还没有显示许多其他变量。 示例数据集: set.seed(0) df ..
发布时间:2017-03-26 03:30:53 其他开发

向量化的“in”功能在朱莉亚?

我经常想循环一个数据帧的长数组或列,对于每个项目,看它是否是另一个数组的成员。而不是做 giant_list = [“a”,“c”,“j”] good_letters = [“一个“,”b“] isin = falses(size(giant_list,1)) for i = 1:size(giant_list,1) isin [i] = giant_list [i] in g ..
发布时间:2017-03-26 00:09:02 其他开发

R数据表,访问赋值函数内的矩阵

我有以下data.table 结构(list(xi = c(1,1,1,2 ,2,2,3,3,3),yi = c(1,2, 3,1,2,3,1,2,3),flag = c(0,0,0,0) ,0,0,0,0,0)),.names = c(“xi”, “yi”,“flag”),row.names = c(NA,-9L),class = c (“data.table”, “data.frame ..
发布时间:2017-03-12 12:24:47 其他开发

在大数据集中每个案例提交时计算打开案例的有效方法

在大型数据集(〜1M个案)中,每个案例都有一个“创建”和一个“审查” dateTime 。我想计算在创建每个案例时打开的其他案例的数量。 几个解决方案适用于小型数据集 20分钟在我的服务器与6 * 4GHz核心& 64GB内存。即使使用多核库,我也可以将时间减少 ..
发布时间:2017-03-12 10:48:01 其他开发

矢量化是什么意思?

这是一个好主意,向量化的代码?什么时候做什么是好的做法?下面会发生什么? 解决方案 矢量化意味着编译器检测到您的独立指令可以作为一个执行 SIMD 说明。通常的例子是,如果你对于(i = 0; i [i] = a [i] + b [i]; } 它将被矢量化为(使用向量符号) for(i = 0; i a [i:i + VF] [i:i + VF] + ..
发布时间:2016-12-22 21:13:00 C/C++开发