resampling相关内容

生成唯一(非重复)随机数的高效算法

我想解决以下问题。我必须在10 ^ 20数量级的一个非常大的集合中进行采样,并提取一个没有重复大约10%-20%大小的样本。给定集合的大小,我相信像Fisher-Yates这样的算法是不可行的。 我想像随机路径树之类的东西可能可以在O(n log n)中完成,并且不能更快地完成,但是我想问一下 谢谢您的时间! 解决方案 我不知道我下面描述的技术在形式化随机测试中的表现如何,但是 ..
发布时间:2020-06-03 20:13:49 其他开发

熊猫-计算相对于最早价值的每日差异

这可能很容易,但是由于某种原因,我发现很难完成.任何提示将非常感谢.我有一些每天5分钟间隔的时间序列数据,ala: Date Values 2012-12-05 09:30:00 5 2012-12-05 09:35:00 7 2012-12-05 09:40:00 3 2012-12-05 09:45:00 2 2012-12-0 ..
发布时间:2020-05-24 03:36:44 Python

如何对不规则的时间戳列表进行重新采样/降采样?

一个简单的问题,但我找不到一个简单的答案. 我有一个数据列表,该列表以秒为单位计算事件发生的时间: [200.0 420.0 560.0 1100.0 1900.0 2700.0 3400.0 3900.0 4234.2 4800.0 etc..] 我想统计每小时(3600秒)发生了多少事件,并为这些计数创建一个新列表. 我知道这称为下采样,但是我能找到的所有信息都与传统时间 ..
发布时间:2020-05-24 03:28:12 Python

熊猫重新采样的奇怪行为

我正在经历一个熊猫时间序列(Python)的重采样功能的相当奇怪的行为.我使用的是最新版本的熊猫(0.12.0) 采用以下时间序列: dates = [datetime(2011, 1, 2, 1), datetime(2011, 1, 2, 2), datetime(2011, 1, 2, 3), datetime(2011, 1, 2, 4), datetime ..
发布时间:2020-05-24 03:05:40 Python

使用熊猫在滚动窗口中重新采样

假设我有每日数据(不规则排列),我想每个月计算过去的移动标准偏差(或任意非线性函数) 5个月.例如,对于2012年5月,我将计算从2012年1月到2012年5月(5个月)的时间段的stddev.对于2012年6月,该期间从2012年2月开始,依此类推.最终结果是一个包含月度值的时间序列. 我无法应用滚动窗口,因为这首先是每天的操作,其次我需要指定值的数量(滚动窗口不按时间范围汇总,一些帖子解 ..
发布时间:2020-05-24 02:30:52 Python

重新采样Pandas数据框并合并列中的字符串

我想对熊猫数据框重新采样,并将不同的功能应用于不同的列.问题是我无法正确处理带有字符串的列.我想应用一个将字符串与定界符(例如“-")合并的函数.这是一个数据示例: import pandas as pd import numpy as np idx = pd.date_range('2017-01-31', '2017-02-03') data=list([[1,10,"ok"],[2,2 ..
发布时间:2020-05-24 02:22:01 Python

熊猫在我的数据中按第一天重新采样

我在熊猫数据框中输入了Yahoo财经的每日股票价格.我想使用.resample()通过获取每月第一个QUOTED每日价格的价格将其转换为每月的股票价格. .resample('MS', how='first') 返回每个月的正确价格,但它会将索引更改为该月的第一天,而通常一个月的第一天的报价可能是该月的2号或3号,因为假期和周末. 如何仅通过对现有日期重新采样而不更改它们来使用re ..
发布时间:2020-05-24 02:10:37 Python

Python数据帧在微秒内重新采样

我正在对数据帧进行重采样,它可以在数小时,数分钟的时间内运行,但不会在不到sec的时间内进行重采样.程序即使在很短的时间间隔内也会挂起.那我想念什么吗? 我尝试了0.000001S,U等.到目前为止没有任何效果. 我的时间格式:2015-08-29 19:30:47.015506 您可以看到变量sf代表重采样频率. grph = df.set_index('Date and ..
发布时间:2020-05-24 01:45:19 Python