time-series相关内容
大家好,我有两个系列的数据:每日原始股票价格回报(正或负浮动)和交易信号(买入=1,卖出=-1,无交易=0). 原始价格回报只是今天价格除以昨天价格的对数: log(p_today/p_yesterday) 一个例子: raw_return_series = [ 0.0063 -0.0031 0.0024 ..., -0.0221 0.0097 -0.0015] 交易信号系列如下所示
..
我有一个多天的日内日志返回系列,我想将其缩减为每日 ohlc.我可以做类似的事情 hi = series.resample('B', how=lambda x: np.max(np.cumsum()))低 = series.resample('B', how=lambda x: np.min(np.cumsum())) 但每次调用计算 cumsum 似乎效率低下.有没有办法先计算 cumsum
..
我有一个包含大量日内数据的 DataFrame,DataFrame 有几天的数据,日期不连续. 2012-10-08 07:12:22 0.0 0 0 2315.6 0 0.0 02012-10-08 09:14:00 2306.4 20 326586240 2306.4 472 2306.8 42012-10-08 09:15:00 2306.8 34 249805440 2306.8 36
..
我们每个月必须拟合大约 2000 个或奇数的时间序列,特别是它们具有非常特殊的行为,有些是 arma/arima,有些是 ewma,有些是 arch/garch,有或没有季节性和/或趋势(唯一的共同点是时间序列方面). 理论上可以使用 aic 或 bic 标准构建集成模型来选择最佳拟合模型,但社区是否知道任何试图解决此问题的库? Google 让我知道了 Rob J Hyndman 的
..
我正在寻找一种在不拆分索引和值列的情况下将 DataFrame 转换为 TimeSeries 的方法.有任何想法吗?谢谢. In [20]: import pandas as pd在 [21] 中:将 numpy 导入为 np在 [22] 中:日期 = pd.date_range('20130101',periods=6)在 [23] 中:df = pd.DataFrame(np.random.
..
我是 pandas 的新手,现在我不知道如何安排我的时间系列,看看吧: 日期 &连接时间19/06/2017 12:3919/06/2017 12:4019/06/2017 13:1120/06/2017 12:0220/06/2017 12:0421/06/2017 09:3221/06/2017 18:2321/06/2017 18:5121/06/2017 19:0821/06/2017
..
考虑到内部和外部气候,我正在尝试预测墙壁的湿热响应.根据文献研究,我认为 RNN 应该可以做到这一点,但我无法获得良好的准确性. 数据集有 12 个输入特征(外部和内部气候数据的时间序列)和 10 个输出特征(湿热响应的时间序列),均包含 10 年的每小时值.该数据是使用湿热模拟软件创建的,没有丢失数据. 数据集特征: 数据集目标: 与大多数时间序列预测问题不同,我想预测每
..
对于我的一个项目,我必须将大量事件输入数据库以供以后处理,并且我正在尝试确定哪种 DBMS 最适合我的目的. 我有: 目前大约有 400,000,000 个离散事件 大约 600 GB 的数据将存储在数据库中 这些事件有多种格式,但我估计单个属性的数量约为 5,000.大多数事件每个仅包含大约 100 个属性的值.属性值将被视为任意字符串,在某些情况下,还可以视为整数.
..
我有兴趣监视一些对象.我希望每 15 分钟获得大约 10000 个数据点.(也许一开始不是,但这是“一般的球场").我还希望能够获得每日、每周、每月和每年的统计数据.将数据保持最高分辨率(15 分钟)两个月以上并不重要. 我正在考虑存储这些数据的各种方法,并且一直在研究经典的关系数据库或无模式数据库(例如 SimpleDB). 我的问题是,这样做的最佳方式是什么?我更喜欢开源(免费)解
..
存储数千个(但可能很快会变成数百万个)真实世界硬件传感器的时间序列数据的最佳方式是什么?传感器本身是不同的,有些只捕获一个变量,有些则多达十几个.我需要每小时存储这些值,并且我不想删除早于 x 的数据,即数据将继续增长. 目前,我使用 mySQL 数据库来存储这些时间序列(它还提供一个 Web 前端,为每个传感器显示漂亮的时间序列图).我为每个传感器准备了一张桌子,现在总共大约有 11000
..
我一直在尝试实时检测正弦时间序列数据中的峰值,但是到目前为止我还没有成功.我似乎无法找到一种实时算法,可以以合理的准确度检测正弦信号中的峰值.我要么没有检测到峰值,要么沿着正弦波得到无数个点被检测为峰值. 对于类似正弦波且可能包含一些随机噪声的输入信号,什么是好的实时算法? 作为一个简单的测试用例,考虑一个频率和幅度始终相同的平稳正弦波.(确切的频率和幅度无关紧要;我任意选择了 60
..
我试图向自己解释将 ARIMA 模型应用于时间序列数据集的预测结果.数据来自M1-Competition,系列为MNB65.我正在尝试将数据拟合到 ARIMA(1,0,0) 模型并获得预测.我正在使用 R.以下是一些输出片段: >有马(x,订单= c(1,0,0))系列:x具有非零均值的 ARIMA(1,0,0)调用:arima(x = x, order = c(1, 0, 0))系数:ar1拦
..
我正在处理大量时间序列.这些时间序列基本上是每 10 分钟进行一次的网络测量,其中一些是周期性的(即带宽),而另一些则不是(即路由流量). 我想要一个简单的算法来进行在线“异常值检测".基本上,我想将每个时间序列的整个历史数据保存在内存中(或磁盘上),并且我想检测实时场景中的任何异常值(每次捕获新样本时).实现这些结果的最佳方法是什么? 我目前正在使用移动平均线来消除一些噪音,但接下来
..
在 sklearn 中,GridSearchCV 可以将管道作为参数,通过交叉验证找到最佳估计器.然而,通常的交叉验证是这样的: 为了交叉验证时间序列数据,训练和测试数据通常是这样拆分的: 也就是说,测试数据应该总是领先于训练数据. 我的想法是: 编写我自己的k-fold版本类并将其传递给GridSearchCV,这样我就可以享受管道的便利.问题是让 GridSearchC
..
我有几个如下所示的数据文件: X 码年月日pp1 4515 1953 6 1 02 4515 1953 6 2 03 4515 1953 6 3 04 4515 1953 6 4 05 4515 1953 6 5 3.5 有时会丢失数据,但我没有 NA,这些行根本不存在.当数据丢失时,我需要创建 NA.虽然我可以通过将其转换为 zoo 对象并检查严格的规律性(我以前从未使用过 zoo)来识别何
..
我想要一个相关的系数和 Newey-West 标准误差. 我正在寻找可以执行以下 R 代码正在执行的操作的 Python 库(理想情况下,但任何可行的解决方案都可以): 库(三明治)库(lmtest)a |t|)(截取) 2.0576208 2.5230532 0.815528
..
我有一个数据集,其中包含动物在 12 个月内每小时访问的次数.我想使用快速傅立叶变换来检查周期性模式和周期性.过去,我为此使用过 Statistica;但是,我想使用 R 来绘制频谱密度与周期的关系图.有没有一种简单的方法可以在 R 中做到这一点?如果可能,我想确定 12 小时和 24 小时的活动高峰. 解决方案 你可以考虑以下函数. TSA 包中的periodogram 立即绘制周
..
有哪些算法可用于时间序列预测/回归? 使用神经网络怎么样?(关于这个主题的最佳文档?) 是否有可以提供帮助的 Python 库/代码片段? 解决方案 时间序列回归的经典方法有: 自回归模型(有关于它们的全部文献) 高斯过程 傅里叶分解或类似方法提取信号的周期性分量(即数据中隐藏的振荡) 我知道的其他不太常见的方法是 慢特征分析,一种提取时间序列驱动力的算法
..
我的 tbl_df: >str(p2p_dt_SKILL_A)“tbl_dt"、“tbl"、“data.table"和“data.frame"类:693 obs.35 个变量:$补丁:因子w/7个级别“BVG1",“BVG11",..:1 2 3 4 5 6 7 1 2 3 ...$ Skill : Factor w/15 level "A","BROADBAND",..: 1 1 1 1 1
..
我在 Python (pandas) 中有日期写为“2010 年 1 月 31 日".要应用线性回归,我希望有 3 个单独的变量:天数、月数、年数. 将 pandas 中的日期列拆分为 3 列的方法是什么?另一个问题是将相同但分组的日子分成 3 组:1-10、11-20、21-31. 解决方案 df['date'] = pd.to_datetime(df['date'])#创建3个额
..