在流数据计算直方图 - 在线直方图计算 [英] Calculating a histogram on a streaming data - Online histogram calculation

查看:279
本文介绍了在流数据计算直方图 - 在线直方图计算的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我在寻找一种算法来生成柱状图在大量的数据流,最大值和最小值都没有提前,但标准差已知的和平均都在一个特定的范围内。

I am looking for an algorithm to generate a histogram over a large amount of streaming data, the max and min are not known in advance but standard deviation and mean are in a particular range.

我AP preciate你的想法。

I appreciate your ideas.

干杯,

推荐答案

我刚刚找到一个解决方案。秒。 2.2论文从流式并行决策树算法在线直方图建设的。该算法中被NumericHistogram类蜂巢项目实施的:

I just found one solution. Sec. 2.2 of "On-line histogram building from A streaming parallel decision tree algorithm" paper. The algo is implemented by NumericHistogram class in Hive project :

有一个通用的,可重复使用直方图级   支持部分聚合。   该算法适于启发式   从下面的文章:耶尔   本 - 哈伊姆和埃拉德汤姆 - 托夫,A   流并行决策树   算法,J.机器学习   研究11(2010年),第849--872。   虽然没有近似   保证,它似乎很好地工作   有充分的数据和一个大的(例如,   20-80)数柱状图箱。

A generic, re-usable histogram class that supports partial aggregations. The algorithm is a heuristic adapted from the following paper: Yael Ben-Haim and Elad Tom-Tov, "A streaming parallel decision tree algorithm", J. Machine Learning Research 11 (2010), pp. 849--872. Although there are no approximation guarantees, it appears to work well with adequate data and a large (e.g., 20-80) number of histogram bins.

这篇关于在流数据计算直方图 - 在线直方图计算的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆