最简单的特征选择算法 [英] simplest feature selection algorithm

查看:133
本文介绍了最简单的特征选择算法的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想创建自己的简单特征选择算法。该数据集,我要一起工作是这里 (非常著名的数据集)。有人可以给我如何做到这一点的指针?

I am trying to create my own and simple feature selection algorithm. The data set that I am going to work with is here (very famous data set). Can someone give me a pointer on how to do so?

我打算写一个特点排名算法的文本分类。这是电影审查的情感分析,将之列为无论是积极的还是消极的。

I am planning to write a feature rank algorithm for a text classification. This is for a sentiment analysis of movie reviews, classifying them as either positive or negative.

所以我的问题是关于如何编写一个文本数据集的简单特征选择。

So my question is on how to write a simple feature selection for a text data set.

推荐答案

特征选择方法是一个很大的话题。你可以用下面的启动:

Feature selection methods are a big topic. You can start with following:

  1. 卡方

  1. Chi square

互信息

词频

等。阅读本文,如果你有时间:在特征选择比较研究文本分类这将帮助你很多。

etc. Read this paper if you have time: Comparative study on feature selection in text categorization this will help you lot.

的实际实现取决于你如何pre-过程中的数据。基本上,它保持计数,无论是哈希表或数据库。

The actual implementation depends on how you pre-process the data. Basically its keeping the counts, be it hash table or a database.

这篇关于最简单的特征选择算法的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆