binning相关内容
我重新集中了我的问题,并尝试尽可能具体.在下面,我还包括到目前为止使用的代码; (1)从SQL中提取数据时,我的时间是混合格式,其中包含一个很难使用的字母.为了避免出现问题,我尝试提出申请;df.time = pd.to_timedelta(df.time,unit ='ms'),这很好,因为它不知道如何提取小时和分钟.例子; 2019.11.22D01:18:00.01000,我只需要以以
..
我有一个数据框,我想按一列进行分类(即分组为子范围),并对每个分类取第二列的平均值: 将pandas导入为pd将numpy导入为npdata = pd.DataFrame(columns = ['Score','Age'])data.Score = [1,1,1,1,0,1,2,1,0,1,1,0,2,1,1,2,1,0,1,1,-1,1,0,1,1,0,1,0,-2,1]data.Age =
..
我正在测试以下代码. 将numpy导入为np将熊猫作为pd导入#将matplotlib.pyplot导入为plt#plt.style.use('seaborn-white')df = pd.read_csv('C:\\ Users \\ ryans \\ OneDrive \\ Desktop \\ business.csv')X = df [['latitude','longitude','a
..
我正在尝试通过装箱表示一些连续的数据.区域的连续加权数据应归类为:VeryHigh,High,Low,VeryLow.权重值基于按区域分组的某些事件类型之间的相互作用,因此可以根据报表用户选择的类型进行更改. 我在下面提供了一些示例数据,并概述了到目前为止所做的事情. 从五组区域数据(A-E)开始.在每个事件中都有一个或多个事件类型.每个事件都有一个权重及其在区域内发生的次数(计数).
..
Google图表用于构建直方图的公式是什么?例如,它是否使用Sturge规则?杜恩的法则?斯科特的法则?等等.是否有任何文档说明如何构造默认箱大小,最小和最大? 这里是 直方图 Google图表的页面. Google图表会自动为您选择垃圾箱数.所有容器的宽度均等,高度与容器中数据点的数量成正比.在其他方面,直方图类似于柱状图. 解决方案 在
..
我想从连续变量中创建一个装箱变量.我想要10个垃圾箱,并根据抽搐分类的结果设置断点.如何将每个值分配给这10个仓位之一? # dataframe w/ values (AllwdAmt) df
..
如何将两个数据集X和Y转换为x轴/索引相同的直方图,而不是将变量X的x轴范围统称为低于或高于变量Y的x轴范围(例如下面的代码生成)?我希望将numpy直方图的输出值准备好之后再绘制在共享的直方图中. import numpy as np from numpy.random import randn n = 100 # number of bins #datasets X = randn
..
我正在寻找一种更快的替代R的hist(x, breaks=XXX, plot=FALSE)$count函数的方法,因为我不需要生成任何其他输出(因为我想在sapply调用中使用它,因此需要进行一百万次迭代其中将调用此函数),例如 x = runif(100000000, 2.5, 2.6) bincounts = hist(x, breaks=seq(0,3,length.out=100),
..
给出一些遵循任意分布的数字列表,如何定义matplotlib.pyplot.hist()的bin位置,以使每个bin中的面积等于(或接近)某个恒定面积A?面积应通过将垃圾箱中的项目数乘以垃圾箱的宽度计算得出,其值应不大于A. 这是一个MWE,用于显示带有正态分布样本数据的直方图: import matplotlib.pyplot as plt import numpy as np x
..
我有一组数据,并且想要对其进行直方图处理.我需要这些垃圾箱具有相同的 size ,这意味着它们必须包含相同数量的对象,而不是更常见的(empy.histogram)等距间隔 /em>垃圾箱. 这自然会以垃圾箱宽度为代价,而垃圾箱宽度可能会有所不同,并且通常会有所不同. 我将指定所需箱的数量和数据集,以获取箱边缘作为回报. Example: data = numpy.array([1.,
..
我在float中设置了一组值(总是小于0).我想归类为直方图, IE.直方图中的每个条形图都包含[0,0.150)范围的值 我的数据如下: 0.000 0.005 0.124 0.000 0.004 0.000 0.111 0.112 在下面的代码中,我希望得到类似 的结果 [0, 0.005) 5 [0.005, 0.011) 0 ...etc.. 我试图用我的这段代码
..
简介 在gnuplot中,有一种解决方案可以从名为hist.dat的文件创建直方图 1 2 2 2 3 通过使用命令 binwidth=1 set boxwidth binwidth bin(x,width)=width*floor(x/width) + binwidth/2.0 plot [0:5][0:*] "hist.dat" u (bin($1,binwidth)):
..
如果我的.dat文件已经具有正确的装箱数据,我知道如何在gnuplot中创建直方图(只需使用"with box").有没有办法获取数字列表并让gnuplot根据用户提供的范围和容器大小提供直方图? 解决方案 是的,它虽然既隐藏又快速简单: binwidth=5 bin(x,width)=width*floor(x/width) plot 'datafile' using (bin(
..
我目前正在使用大型物候数据集,其中在给定的月份中有多处树木观察。我想将这些观察结果分配到三个月的群集或垃圾箱中。我当前正在使用以下代码: Cluster.GN
..
我已使用下面的代码将year.month字符串“ bin”到三个月的bin中。问题是我希望每个垃圾箱都有一个数字,该数字对应于垃圾箱按时间顺序出现的位置(即第一个垃圾箱= 1,第二垃圾箱= 2,依此类推)。现在,第一个月的垃圾箱已分配给数字4,但我不确定为什么。任何帮助将不胜感激! >头(Master.feed.parts.gn $ yr.mo,n = 20) [1]“ 2007.10”“
..
我想构建一个六边形图,其中每个仓位都是绘制“落入该仓位的1类和2类点之间的比率”(无论是否为对数)。 x
..
如果我在Python中有一个pandas DataFrame,如下所示: import numpy as np import pandas as pd a = np.random.uniform(0,10,20) b = np.random.uniform(0,1,20) data = np.vstack([ a,b])。T df = pd.DataFrame(data
..
使用python,我创建了以下包含相似值的数据框: cosinFcolor cosinEdge cosinTexture histoFcolor histoEdge histoTexture提花卡 1 0.770 0.489 0.388 0.57500000 0.5845137 0.3920000 0.00000000 2 0.067 0.496 0.912 0.13865546 0
..
我正在比较两年的每日土壤湿度(SM)测量值。一年内,SM的范围从0到0.6。 在下雨多的那一年,SM的范围从0到0.8。在这些数据中,我还有一些 NA's ,其中SM传感器由于某种原因无法工作。 让我们重新创建类似的东西: library(data.table) set.seed(24 ) dt1
..
我有两列这些数据.如您在图表中所见,数据有太多噪声.因此,我想离散化大小为5的列"r",并将每一行分配给其对应的bin,然后计算每个bin的f的平均值. > dr r f 1 65.06919 21.796 2 62.36986 22.836 3 59.81639 22.980 4 57.42822 22.061 5 55.22681 21
..