sampling相关内容

对数采样

我正在处理 [minValue,maxValue] 之间的值,我想在此范围之间创建一个值向量.但我想要更多接近 minValue 的值. 示例: 分钟 = 1最大值 = 100 向量 = [1,1.1,1.5,2,3,5,10,15,30,50,100]; 类似的东西. 目标是在最小值附近更准确. 可以实现吗? 解决方案 您可以从以恒定步长(例如 0.1 ..
发布时间:2021-07-14 20:01:47 其他开发

洗牌向量 - sample() 的所有可能结果?

我有一个包含五个项目的向量. my_vec 如果我想将这些值重新排列成一个新的向量(shuffle),我可以使用 sample(): shuffled_vec 简单 - 但 sample() 函数只给了我一种可能的洗牌.如果我想知道所有可能的改组组合怎么办?各种“combn"函数似乎没有帮助,expand.grid() 给了我所有可能的组合 with 替换,当我需要它时没有替换.执行此 ..
发布时间:2021-07-14 20:01:43 其他开发

如何使用网格从数据集中采样点?

所以我有一些数据包含大约一百万个 (r, phi) 坐标,以及它们的强度.我想以网格模式对这些数据进行采样,这样我就可以减少使用的内存并更快地绘图.但是,我想对 X,Y 中的数据进行采样,因为我会将坐标转换为 (X,Y) 坐标以绘制它们. 我想我可以使用网格来制作一个我想要采样的模板,但我被困在下一步. 我似乎无法在 google 或这里找到任何有用的搜索,但如果这个问题太简单,我深表 ..
发布时间:2021-07-14 20:01:39 Python

如何将 .WAV 音频数据样本转换为双精度类型?

我正在开发一个处理音频数据的应用程序.我正在使用 java(我添加了 MP3SPI、Jlayer 和 Tritonus).我正在将音频数据从 .wav 文件提取到字节数组.我正在使用的音频数据样本是 16 位立体声. 根据我读过的一个样本的格式是: AABBCCDD 其中 AABB 代表左声道和 CCDD 右声道(每个声道 2 个字节).我需要将此示例转换为双值类型.我正在阅读有 ..
发布时间:2021-07-14 20:01:36 Java开发

在控制比例的同时从 data.frame 采样[分层采样]

我有以下数据集 id1 在 df 中,我观察到的 40% status 是“2".我正在寻找一个函数来从 df 中提取 10 个观察值的样本,同时保持上述比例. 我已经看到 从 R 中的数据帧分层随机抽样 但它不是在谈论比例. 解决方案 您可以尝试我的“splitstackshape"包中的 stratified 功能: 库(splitstackshape)分层(df,“状态" ..
发布时间:2021-07-14 20:01:19 其他开发

最大样本

如果我想对数字进行采样以创建向量,我会这样做: set.seed(123)x 如果我想抽取 20 个总和为 100 的随机数,然后抽取 30 个数字但总和仍然为 100,该怎么办.我想这将比看起来更具挑战性.?sample 并在 Google 上搜索并没有为我提供线索.如果与所需的总和不够接近(例如在 5 以内),我想可能需要一些时间来进行采样然后拒绝. 有没有更好的方法来实现这一目标 ..
发布时间:2021-07-14 20:01:14 其他开发

分层抽样 - 没有足够的观察

我想要实现的是从每个组中获取 10% 的样本(这是 2 个因素的组合 - 新近度和频率类别).到目前为止,我已经考虑过包 sampling 和函数 strata().这看起来很有希望,但我收到以下错误,很难理解错误消息以及错误或如何解决这个问题. 这是我的代码: >d[1:10,]日期 id_email_op 新近频率 r_cat f_cat1 29.8.2011 19393 294 1 ..
发布时间:2021-07-14 20:01:10 其他开发

Tensorflow 数据集 API 中的过采样功能

请问当前数据集的API是否允许实现过采样算法?我处理高度不平衡的阶级问题.我认为在数据集解析(即在线生成)期间对特定类进行过采样会很好.我已经看到了rejection_resample 函数的实现,但是这会删除样本而不是复制它们,并且它会减慢批处理的生成速度(当目标分布与初始分布大不相同时).我想实现的是:举个例子,看它的类概率决定是否复制它.然后调用 dataset.shuffle(...) d ..
发布时间:2021-07-14 20:01:07 Python

numpy.random.choice 中的替换是什么意思?

这里解释功能numpy.random.choice.但是,我对第三个参数 replace 感到困惑.它是什么?在什么情况下它会有用?谢谢! 解决方案 控制样本是否返回样本池.如果您只想要独特的样本,那么这应该是错误的. ..
发布时间:2021-07-14 20:01:04 Python

以恒定速率循环以高精度进行信号采样

我正在尝试在 Python 中以 10Khz 的频率对信号进行采样.尝试运行此代码时没有问题(1KHz): import sched, time我 = 0def f(): # 采样函数s.enter(0.001, 1, f, ())全球我我 += 1如果我 == 1000:我 = 0打印“一秒"s = sched.scheduler(time.time, time.sleep)s.enter(0 ..
发布时间:2021-07-14 20:00:58 Python

R中具有多个概率的随机样本

我需要从列表中取出一组受试者样本,将他们指定为控制组,以便进行一项研究,该研究必须具有相似的变量组成.我正在尝试使用示例函数在 R 中执行此操作,但我不知道如何为每个变量指定不同的概率.假设我有一个带有以下标题的表格: ID 名称广告系列性别 我需要一个包含 10 个主题的样本,其中包含以下广告系列属性的组成: D2D --> 25% F2F --> 38% TM - ..
发布时间:2021-07-14 20:00:23 其他开发

在 caret R 包中控制交叉验证的抽样

我有以下问题.在来自 N 个科目的数据集中,我每个科目都有几个样本.我想在数据集上训练一个模型,但我想确保在每次重采样中,在训练集中没有受试者的重复. 或者,我会按主题阻止交叉验证.这可能吗? 如果没有 caret 包,我会做类似的事情(模拟代码) subjects ..
发布时间:2021-07-03 18:33:58 其他开发

为什么 set.seed() 会影响 R 中的 sample()

我一直认为 set.seed() 只会让随机变量生成器(例如,rnorm)为任何特定的输入值集生成唯一的序列.> 然而,我想知道,为什么当我们设置 set.seed() 时,函数 sample() 不能正确地完成它的工作? 问题 具体来说,给定下面的例子,有没有一种方法可以在 rnorm 之前使用 set.seed 但samplesample,/code> 仍会从此 rnorm 生成 ..
发布时间:2021-07-02 19:45:46 其他开发

每次运行与样本相关的内容时,Spark 都会重新采样我的数据

我正在数据集上运行分层样本,其中我将样本保存在名为 df 的数据帧上.在 df 上运行计数时,每次运行计数(不重新运行分层采样)时,它都会给我不同的计数,就好像每次对 df 进行操作时,我的数据都会重新采样.我有一个种子设置为 12,我使用 spark 函数 sampleBy. 我是 Spark 新手,这正常吗?我该如何解决这个问题? 解决方案 如果没有代码,有点难以确定,但是,如果 ..
发布时间:2021-06-25 18:32:39 其他开发