输入Weka Apriori的arff文件 [英] Input arff file for Weka Apriori

查看:70
本文介绍了输入Weka Apriori的arff文件的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试对版本历史进行关联挖掘.我在mysql中有交易数据.Weka先验算法需要某种格式的arff或csv文件.每个项目都必须有列.对于交易中的每个项目,这些值将被指定为TRUE或FALSE.我正在寻找一种使用Weka InstanceQuery创建此文件的方法.如果交易数据很大,还有哪些选择.

I am trying to do association mining on version history. I have my transaction data in mysql. Weka apriori algorithm requires arff or csv file in a certain format. It has to have columns for each item. The values will be specified as TRUE or FALSE for each item in a transaction. I am looking for a way to create this file using Weka InstanceQuery. Also what are the options if the transaction data is huge.

推荐答案

对于第二部分,我可以回答:如果交易数据巨大,则可以选择.Weka是一款优秀的软件,但其先验实现速度非常慢.我建议在 http://fimi.ua.ac.be/src/(我使用了Ferenc Bodon列表中的第一个.)

I can answer for the second part: options if the transaction data is huge. Weka is a good software but their apriori implementation is horribly slow. I recommend implementations at http://fimi.ua.ac.be/src/ (I used the first one in the list from Ferenc Bodon).

Bodon的实现使用Trie数据结构而不是Weka使用的哈希表.因此,我在工作中发现,Weka需要3天的时间才能完成Bodon的实施可以在不到一个小时的时间内完成的工作(是的,两者之间的差别非常大!).

Bodon's implementation use Trie data structure instead of hashtables that Weka uses. Because of this, I found in my work, that Weka would take 3 days to finish something that Bodon's implementation could in less than an hour (yes, the difference is this huge!!).

此外,Bodon的实现使用一种简单的输入格式:每笔交易用一行,项目之间用空格隔开.

Plus, Bodon's implementation uses a simple input format: one line for each transaction, with items separated by spaces.

这篇关于输入Weka Apriori的arff文件的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆