binning相关内容

基于定义的时间间隔 (bin) 的时间序列平均值

这是我的数据集的一个示例.我想每 10 秒根据时间(即 ts)计算 bin 平均值.您能否提供一些提示以便我继续? 就我而言,我想平均每 10 秒的时间 (ts) 和 Var.例如,我会得到一个 Var 和 ts 从 0 到 10 秒的平均值;我将在 11 到 20 秒等范围内得到另一个 Var 和 ts 的平均值. df = data.frame(ts = seq(1,100,by=0 ..
发布时间:2022-01-11 09:54:39 其他开发

谷歌图表直方图的公式

Google Charts 使用什么公式来构建直方图?例如,它是否使用 Sturge 规则?多恩法则?斯科特的规则?等.是否有任何关于它如何构建默认 bin 大小、最小值和最大值的文档? 这是直方图 Google 图表页面. Google Charts 会自动为您选择 bin 数量.所有 bin 的宽度相等,高度与 bin 中数据点的数量成正比.在其他方面,直方图类似于柱状图. ..

如何在 Python 中将一系列浮点值合并到直方图中?

我有一组浮点值(总是小于 0).我想将其放入直方图中,IE.直方图中的每个条形都包含值范围 [0,0.150) 我拥有的数据如下所示: 0.0000.0050.1240.0000.0040.0000.1110.112 在我下面的代码中,我希望得到看起来像这样的结果 [0, 0.005) 5[0.005, 0.011) 0...等等.. 我试图用我的这段代码做这样的分箱.但它似乎不起作 ..
发布时间:2022-01-07 23:35:50 Python

如何在 R 中使用中断进行切割

我试图了解 cut 如何划分和创建间隔;尝试了 ?cut,但无法弄清楚 r 中的 cut 是如何工作的. 这是我的问题: set.seed(111)数据 1 1.为什么 data1cut 结果中没有包含 8、9、10? 2. 为什么 summary(data1) 和 summary(data1cut) 产生不同的结果? summary(data1)最小一曲.中位数第三曲.最大限度.1. ..
发布时间:2021-12-28 12:03:28 其他开发

Pandas:将类别转换为数字

假设我有一个包含以下国家/地区的数据框: cc |温度美国 |37.0CA |12.0美国 |35.0AU |20.0 我知道有一个 pd.get_dummies 函数可以将国家/地区转换为“one-hot encodings".但是,我希望将它们转换为索引,这样我就会得到 cc_index = [1,2,1,3] . 我假设有比使用 get_dummies 和 numpy where ..
发布时间:2021-12-03 08:53:01 Python

使用 Python Pandas 对列进行分箱

我有一个带有数值的数据框列: df['百分比'].head()46.544.2100.042.12 我想将该列视为 bin 计数: bins = [0, 1, 5, 10, 25, 50, 100] 如何将结果作为带有值计数的 bin 获得? [0, 1] bin 数量[1, 5] 等[5, 10] 等... 解决方案 您可以使用 pandas.cut: bins = [0, 1, ..
发布时间:2021-12-03 08:20:17 Python

获取直方图数据

有没有办法在 MySQL 中指定 bin 大小?现在,我正在尝试以下 SQL 查询: select total, count(total) from faults GROUP BY total; 正在生成的数据足够好,但行太多了.我需要的是一种将数据分组到预定义箱中的方法.我可以用脚本语言来做到这一点,但有没有办法直接在 SQL 中做到这一点? 示例: +--------------+ ..
发布时间:2021-11-20 22:45:05 数据库

计算数组中元素的最快方法是什么?

在我的模型中,要完成的最重复的任务之一是计算数组中每个元素的数量.计数来自一个封闭的集合,所以我知道有 X 类型的元素,它们全部或部分填充数组,以及代表“空"单元格的零.该数组没有以任何方式排序,并且可能排序很长(大约 100 万个元素),并且该任务在一次模拟(也是数百次模拟的一部分)期间完成了数千次.结果应该是一个大小为X的向量r,所以r(k)是k在数组. 示例: 对于 X = 9, ..
发布时间:2021-11-18 03:05:58 其他开发

使用两个时间戳对数据进行分箱

我发帖是因为我没有找到与此主题相关的内容. 我的目标本质上是生成一个时间分箱图,绘制一些聚合值.例如.通常这会很容易,因为每个值都有一个时间戳,因此可以相对直接地进入 bin. 但是,我的问题在于每个值都有两个时间戳 - 开始和结束.与甘特图类似,这是一个我绘制的数据示例.我基本上想将时间线存在于所述 bin 中的值(平均值)分箱(bin 边界可能是新/旧任务开始/结束的地方).喜欢. ..
发布时间:2021-09-07 20:09:21 其他开发

分箱 Pandas 列的时间戳

我正在尝试在数据框中合并一列时间戳.时间戳的格式为 0:00:00,我认为它们是字符串.我尝试使用 uber.dtypes() 但它一直返回错误: ---------------------------------------------------------------------------TypeError Traceback(最近一次调用最后一次) ..
发布时间:2021-09-07 19:57:59 Python

R中的分箱时间数据

我有鸟类出发和到达的时间数据(例如,到达时间为 17:23:54).我想将数据分成 2 小时的时间段(例如 0:00:00-1:59:59...等),所以总共有 12 个时间段.数据最终会进入一个条形图,在 x 轴上有时间段,在 y 轴上计数.包包‘binr’是我最好的选择吗? 谢谢 解决方案 只需使用 ?cut 因为它有一个用于 ?cut.POSIXt 日期/时间的方法.例如: ..
发布时间:2021-09-07 19:43:37 其他开发

VB.net 直方图 - 如何对数据进行分箱

我正在研究直方图类,特别是分箱方法. 关于此,我有两个问题: 从逻辑/统计的角度来看,这是一个正确/合适的算法吗 代码是否最优或至少不错 - 请告诉我如何改进它 非常感谢任何帮助 - 提前谢谢. 这是我目前的代码... 公共类历史Dim data() As DoubleDim bins as Integer = 0Dim bw As Double = 0Dim _m ..
发布时间:2021-08-30 18:49:01 其他开发

Python:检查值属于哪个 bin

我有一个值列表和一个 bin 边缘列表.现在我需要检查它们所属的所有值.有没有比遍历值然后遍历 bin 并检查该值是否属于当前 bin 更 Pythonic 的方法,例如: my_list = [3,2,56,4,32,4,7,88,4,3,4]箱 = [0,20,40,60,80,100]对于 my_list 中的 i:对于范围内的 j(len(bins)):如果 bins(j) 这对我来 ..
发布时间:2021-07-02 20:09:16 Python

将数值变量分类为组/箱/中断

我正在尝试将数字变量(年龄)分类为由间隔定义的组,因此它不会是连续的.我有这个代码: data$agegrp(data$age >= 40 & data$age 以上代码在生存包下不起作用.它给了我: 复杂赋值中的无效函数 你能指出错误在哪里吗?data 是我正在使用的数据框. 解决方案 我会在这里使用 findInterval() : 先编一些样本数据 set.seed ..
发布时间:2021-06-30 19:48:01 其他开发