document-classification相关内容

获取指定词的WordNet的域名

我知道 WordNet 有域层次结构:例如运动->足球. 1) 是否可以列出所有与“sport->football"子域相关的词? 响应:守门员、前锋、点球、球、场、球场、裁判等. 2) 获取给定单词的域名,例如“守门员"? 需要像 [sport->football;运动->曲棍球]或[足球;曲棍球]或只是“足球". 用于文档分类任务. 解决方案 WordNet 有一个上 ..

有哪些用于推荐相关文章的经过验证的真实算法?

很常见的情况,我敢打赌.您有一个博客或新闻网站,并且有很多文章或博客或任何您称之为的东西,并且您想在每篇文章的底部推荐其他似乎相关的内容. 让我们假设每个项目的元数据很少.也就是说,没有标签、类别.将其视为一大块文本,包括标题和作者姓名. 您如何查找可能相关的文档? 我对实际算法很感兴趣,而不是现成的解决方案,虽然我可以看看用 ruby​​ 或 python 实现的东西,或者依赖 ..

如何使用朴素贝叶斯实现TF_IDF功能加权

我正在尝试实施朴素的贝叶斯分类器进行情感分析.我计划使用TF-IDF加权度量.我现在有点卡住了. NB通常使用单词(特征)频率来找到最大似然.那么如何在朴素贝叶斯中引入TF-IDF加权度量? 解决方案 您将TF-IDF权重用作统计模型中的特征/预测变量.我建议使用gensim [1]或scikit-learn [2]来计算权重,然后将其传递给您的朴素贝叶斯拟合过程. 可能还会对sci ..

NLTK和scikit-learn中的Bernoulli Naive Bayes之间有不同的结果

使用NLTK中的Bernoulli Naive Bayes算法和scikit-learn模块中的一种对文本(仅分为两类)进行分类时,我得到了截然不同的结果.尽管两者之间的总体精度是可比的(尽管相差甚远),但I型和II型错误的差异却很明显.特别是,NLTK朴素贝叶斯分类器给出的Type I错误要多于Type II错误,而scikit-learn则相反.这种“异常"似乎在不同功能和不同训练样本之间是一 ..
发布时间:2020-06-12 18:59:18 其他开发

Weka可以处理多少文字?

我有一个情感分析任务,我需要指定weka可以处理多少数据(以我的情况为例).我已经有2500条意见的语料库已被标记.我知道这是一个很小的语料库,但是我的论文导师要我专门讨论Weka可以处理多少数据. 解决方案 Weka的局限性在于您使用的学习算法以及可用于训练的内存量.大多数分类器要求将整个集合加载到内存中进行训练,但是也有用于流式传输数据的选项.有关更多信息,请参见关于大数据的weka页 ..

用于文本分类的词性(POS)标签特征选择

我有使用Stanford POS标记器获得的POS标记语句.例如: /DT岛/NN是/VBD非常/RB美丽/JJ ./. I/PRP爱/VBP it/PRP ./. (也提供xml格式) 任何人都可以解释如何从POS标签语句中进行特征选择并将其转换为特征向量以使用机器学习方法进行文本分类. 解决方案 一种简单的入门方法如下所示(假设单词顺序对您的分类算法并不重要). ..

如何在分类中包括单词作为数字特征

在任何机器学习算法中,将单词本身用作特征的最佳方法是什么? 我必须从特定段落中提取单词相关功能的问题.我应该使用字典中的索引作为数字功能吗?如果是这样,我将如何对其进行归一化? 通常,单词本身如何在NLP中用作功能? 解决方案 有几种常规技术,可将单词映射到 features (二维数据矩阵中的列)其中的行是各个数据向量),用于输入机器学习模型. 一个 Boolean 字段, ..

可扩展或在线核心外多标签分类器

在过去的2-3周中,我一直在为这个问题绞尽脑汁. 我遇到了一个多标签(不是多类)问题,其中每个样本都可以属于多个标签. 我有大约450万个文本文档作为培训数据,大约有100万个文本作为测试数据.标签大约是35K. 我正在使用 scikit-learn .对于特征提取,我以前使用的是TfidfVectorizer,它根本无法缩放,现在我使用的HashVectorizer更好,但考虑到我拥 ..

推荐相关文章的尝试算法有哪些?

我敢打赌,这是很常见的情况.您有一个博客或新闻网站,并且有大量的文章或标语或任何您所谓的名称,并且您想在每个内容的底部建议其他似乎相关的内容. 让我们假设关于每个项目的元数据很少.也就是说,没有标签,类别.视为标题,作者名称等一大块文字. 您如何查找可能相关的文件? 我对真正的算法感兴趣,而不是现成的解决方案,尽管我可以看看用ruby或python实现的东西,还是依赖mysql或 ..

如何使用csr_matrix初始化gensim语料库变量?

我有X作为我使用scikit的tfidf矢量化器获得的csr_matrix,而y是一个数组 我的计划是使用LDA创建功能,但是,我没找到如何使用X作为csr_matrix初始化gensim的语料库变量的方法.换句话说,我既不想下载gensim文档中所示的语料库,也不想将X转换为密集矩阵,因为它会占用大量内存,并且计算机可能会挂起. 简而言之,我的问题如下 如果我有一个代表整个语料 ..
发布时间:2020-04-30 08:37:59 Python

文本分类/分类算法

我的目标是为[半自动]自动分配文本,以不同的类别。有一组用户定义的类别和一套文本为每类。理想的算法应该能够从一个人定义的分类学习,然后自动进行分类的新文本。 任何人都可以提出这样一个实现ше的算法,或许.NET库? 解决方案 这样做是不平凡的。很明显,你可以建立一个特定的关键字映射到类别的词典。只要找到一个关键字建议某一类。 然而,在自然语言文字,关键字通常会不会在他们的干形式。你会需要一些 ..
发布时间:2015-11-30 16:00:43 C/C++