resampling相关内容
我想解决以下问题。我必须在10 ^ 20数量级的一个非常大的集合中进行采样,并提取一个没有重复大约10%-20%大小的样本。给定集合的大小,我相信像Fisher-Yates这样的算法是不可行的。 我想像随机路径树之类的东西可能可以在O(n log n)中完成,并且不能更快地完成,但是我想问一下 谢谢您的时间! 解决方案 我不知道我下面描述的技术在形式化随机测试中的表现如何,但是
..
我有一张图片(逻辑值),像这样 我需要将此图像从像素重新采样为毫米或厘米;这是我用来重新采样的代码: function [ Ires ] = imresample3( I, pixDim ) [r,c]=size(I); x=1:1:c; y=1:1:r; [X,Y]=meshgrid(x,y); rn=r*pixDim; cn=c*
..
进行了搜索,但没有找到解决方案-如果已经有一个询问的问题,但我会很感激链接 我有一个这样的数据框(df): timestamp value 2016-03-11 07:37:40 24.6018 2016-03-11 07:37:45 24.6075 2016-03-11 07:37:50 24.599 2016-03-11 07:37:55 24.6047 2016
..
我有一个与此类似的df: print(df) A B C DATE_TIME 2016-10-08 13:57:00 in 5.61 0 2016-10-08 14:02:00 in 8.05 0 2016-10-08 14:07:00 out 7.92 0
..
问题 我将一个csv放到存在一些日期时间间隔的数据帧中-采样频率为15分钟,对于每个日期时间戳,总是有一个由三个值组成的块.在此示例中,缺少日期时间2017-12-11 23:15:00的块. ID Datetime Value 0 a 2017-12-11 23:00:00 20.0 1 b 2017-12-1
..
这可能很容易,但是由于某种原因,我发现很难完成.任何提示将非常感谢.我有一些每天5分钟间隔的时间序列数据,ala: Date Values 2012-12-05 09:30:00 5 2012-12-05 09:35:00 7 2012-12-05 09:40:00 3 2012-12-05 09:45:00 2 2012-12-0
..
我想对倒计时的熊猫时间序列重新采样.例如,让我们设置一个简单的11天时间序列: >>> index = pd.date_range('01-01-2018', '01-11-2018', freq='D') >>> randint = np.random.randint(low=0, high=9, size=(len(index), 1)) >>> df = pd.DataFrame(r
..
一个简单的问题,但我找不到一个简单的答案. 我有一个数据列表,该列表以秒为单位计算事件发生的时间: [200.0 420.0 560.0 1100.0 1900.0 2700.0 3400.0 3900.0 4234.2 4800.0 etc..] 我想统计每小时(3600秒)发生了多少事件,并为这些计数创建一个新列表. 我知道这称为下采样,但是我能找到的所有信息都与传统时间
..
这是设置代码: import pandas from datetime import datetime a_values = [1728, 1635, 1733] a_index = [datetime(2011, 10, 31), datetime(2012, 1, 31), datetime(2012, 4, 30)] a = pandas.Series(data=a_values,
..
我正在经历一个熊猫时间序列(Python)的重采样功能的相当奇怪的行为.我使用的是最新版本的熊猫(0.12.0) 采用以下时间序列: dates = [datetime(2011, 1, 2, 1), datetime(2011, 1, 2, 2), datetime(2011, 1, 2, 3), datetime(2011, 1, 2, 4), datetime
..
我有一个像这样的数据框: Maximum Demand (KVA) Consumption (KVAh) Power Factor Timestamp 2017-04-01 01:00:00
..
我是python的新手,正在使用pandas包(python3.6)中的Dataframe. 我将其设置为以下代码, df = DataFrame({'list1': list1, 'list2': list2, 'list3': list3, 'list4': list4, 'list5': list5, 'list6': list6}) 并给出类似ValueError: arr
..
假设我有每日数据(不规则排列),我想每个月计算过去的移动标准偏差(或任意非线性函数) 5个月.例如,对于2012年5月,我将计算从2012年1月到2012年5月(5个月)的时间段的stddev.对于2012年6月,该期间从2012年2月开始,依此类推.最终结果是一个包含月度值的时间序列. 我无法应用滚动窗口,因为这首先是每天的操作,其次我需要指定值的数量(滚动窗口不按时间范围汇总,一些帖子解
..
我想对熊猫数据框重新采样,并将不同的功能应用于不同的列.问题是我无法正确处理带有字符串的列.我想应用一个将字符串与定界符(例如“-")合并的函数.这是一个数据示例: import pandas as pd import numpy as np idx = pd.date_range('2017-01-31', '2017-02-03') data=list([[1,10,"ok"],[2,2
..
样本数据: import pandas as pd import numpy as np import datetime data = {'value': [1,2,4,3], 'names': ['joe', 'bob', 'joe', 'bob']} start, end = datetime.datetime(2015, 1, 1), datetime.datetime(2015,
..
我在熊猫数据框中输入了Yahoo财经的每日股票价格.我想使用.resample()通过获取每月第一个QUOTED每日价格的价格将其转换为每月的股票价格. .resample('MS', how='first') 返回每个月的正确价格,但它会将索引更改为该月的第一天,而通常一个月的第一天的报价可能是该月的2号或3号,因为假期和周末. 如何仅通过对现有日期重新采样而不更改它们来使用re
..
我正在对数据帧进行重采样,它可以在数小时,数分钟的时间内运行,但不会在不到sec的时间内进行重采样.程序即使在很短的时间间隔内也会挂起.那我想念什么吗? 我尝试了0.000001S,U等.到目前为止没有任何效果. 我的时间格式:2015-08-29 19:30:47.015506 您可以看到变量sf代表重采样频率. grph = df.set_index('Date and
..
我正在尝试对该数据帧的此 Timestamp 列进行重新采样: Transit.head(): Timestamp Plate Gate 0 2013-11-01 21:02:17 4f5716dcd615f21f658229a8570483a8 65 1 2013-11-01 16:1
..
import pandas as pd mydata = [{'ID' : '10', 'Entry Date': '10/10/2016', 'Exit Date': '15/10/2016'}, {'ID' : '20', 'Entry Date': '10/10/2016', 'Exit Date': '18/10/2016'}] mydata2 = [{'ID':
..
我有一个数据框t_unit,它是pd.read_csv()函数的结果. datetime B18_LR_T B18_B1_T 24/03/2016 09:00 21.274 21.179 24/03/2016 10:00 19.987 19.868 24/03/2016 11:00 21.632 21.417 24/03/2016 12:00 26.
..