以编程方式发现“重要”数据点 [英] Programmatically finding "significant" data points

查看:79
本文介绍了以编程方式发现“重要”数据点的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

大家好,


我在列表中有一组有序的数字数据。在折线图上绘制数字

会产生低 - 高 - 低 - 高 - 高 - 低(随机)
模式。我需要一种算法来提取重要数据。高和低

从这些数据中得出。


以下是一些示例数据:

data = [0.10,0.50,0.60 ,0.40,0.39,0.50,1.00,0.80,0.60,1.20,

1.10,1.30,1.40,1.50,1.05,1.20,0.90,0.70,0.80,0.40,0.45,0.35,
0.10]


在这些数据中,一些重要的要点包括:

data [0]

数据[2]

数据[4]

数据[6]

数据[8]

数据[ 9]

数据[13]

数据[14]

.....


我如何对这些数据进行排序并取出这些

的重要性?


感谢您的帮助!


Erik

Hi all,

I have a collection of ordered numerical data in a list. The numbers
when plotted on a line chart make a low-high-low-high-high-low (random)
pattern. I need an algorithm to extract the "significant" high and low
points from this data.

Here is some sample data:
data = [0.10, 0.50, 0.60, 0.40, 0.39, 0.50, 1.00, 0.80, 0.60, 1.20,
1.10, 1.30, 1.40, 1.50, 1.05, 1.20, 0.90, 0.70, 0.80, 0.40, 0.45, 0.35,
0.10]

In this data, some of the significant points include:
data[0]
data[2]
data[4]
data[6]
data[8]
data[9]
data[13]
data[14]
.....

How do I sort through this data and pull out these points of
significance?

Thanks for your help!

Erik

推荐答案

erikcw写道:
erikcw wrote:

我有列表中有序数值数据的集合。在折线图上绘制数字

会产生低 - 高 - 低 - 高 - 高 - 低(随机)
模式。我需要一种算法来提取重要数据。高和低

从这些数据中得出。
I have a collection of ordered numerical data in a list. The numbers
when plotted on a line chart make a low-high-low-high-high-low (random)
pattern. I need an algorithm to extract the "significant" high and low
points from this data.



....

....


>

我如何对这些数据进行排序并提取这些

重要性的观点?
>
How do I sort through this data and pull out these points of
significance?



获取有关统计数据的书籍。一个想法如下。如果您希望点数

以单个值为中心,您可以计算点的中位数或平均值,计算它们的标准差(也就是价差),以及删除

积分超过中位数标准差的N倍。


Jeremy


- -

Jeremy Sanders
http://www.jeremysanders。 net /


" erikcw"写道:
"erikcw" wrote:

我在列表中有一组有序的数值数据。在折线图上绘制数字

会产生低 - 高 - 低 - 高 - 高 - 低(随机)
模式。我需要一种算法来提取重要数据。高和低

从这些数据中得出。


以下是一些示例数据:

data = [0.10,0.50,0.60 ,0.40,0.39,0.50,1.00,0.80,0.60,1.20,

1.10,1.30,1.40,1.50,1.05,1.20,0.90,0.70,0.80,0.40,0.45,0.35,
0.10]
I have a collection of ordered numerical data in a list. The numbers
when plotted on a line chart make a low-high-low-high-high-low (random)
pattern. I need an algorithm to extract the "significant" high and low
points from this data.

Here is some sample data:
data = [0.10, 0.50, 0.60, 0.40, 0.39, 0.50, 1.00, 0.80, 0.60, 1.20,
1.10, 1.30, 1.40, 1.50, 1.05, 1.20, 0.90, 0.70, 0.80, 0.40, 0.45, 0.35,
0.10]



愚蠢的解决方案:


for i in range(1,len(data) - 1):

如果数据[i-1]< data [i] data [i + 1]或data [i-1] data [i]<数据[i + 1]:

打印我


(上面没有处理边缘,但这很容易修复)


< / F>

silly solution:

for i in range(1, len(data)-1):
if data[i-1] < data[i] data[i+1] or data[i-1] data[i] < data[i+1]:
print i

(the above doesn''t handle the "edges", but that''s easy to fix)

</F>


erikcw< er ******** ***@gmail.com写道:
erikcw <er***********@gmail.comwrote:

我在列表中有一组有序数值数据。在折线图上绘制数字

会产生低 - 高 - 低 - 高 - 高 - 低(随机)
模式。我需要一种算法来提取重要数据。高和低

来自这些数据。
I have a collection of ordered numerical data in a list. The numbers
when plotted on a line chart make a low-high-low-high-high-low (random)
pattern. I need an algorithm to extract the "significant" high and low
points from this data.



我不确定,在这种情况下你所说的有序是什么意思。正如杰里米指出的那样,你需要找到一个合适的统计测试。

适当性取决于你的数据(大概)是如何分配的。

,你究竟想要测试什么。例如。 do te数据品脱来自

不同的某种情况?或者你只是在寻找极端的价值(可能是异常值?)?


所以它更像是一个统计问题,而不是一个蟒蛇问题。 />

cu

Philipp


-

Philipp Pagel博士电话。 + 49-8161-71 2131

基因组定向生物信息学传真部。 + 49-8161-71 2186

慕尼黑技术大学
http://mips.gsf.de/staff/pagel


这篇关于以编程方式发现“重要”数据点的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆