document-classification - IT屋-程序员软件开发技术分享社区

获取指定词的WordNet的域名

我知道 WordNet 有域层次结构:例如运动->足球. 1) 是否可以列出所有与“sport->football"子域相关的词? 响应:守门员、前锋、点球、球、场、球场、裁判等. 2) 获取给定单词的域名，例如“守门员"? 需要像 [sport->football;运动->曲棍球]或[足球；曲棍球]或只是“足球". 用于文档分类任务. 解决方案 WordNet 有一个上 ..

发布时间：2022-01-02 17:33:46 nlp cluster-analysis semantic-web wordnet document-classification 其他开发

有哪些用于推荐相关文章的经过验证的真实算法?

很常见的情况，我敢打赌.您有一个博客或新闻网站，并且有很多文章或博客或任何您称之为的东西，并且您想在每篇文章的底部推荐其他似乎相关的内容. 让我们假设每个项目的元数据很少.也就是说，没有标签、类别.将其视为一大块文本，包括标题和作者姓名. 您如何查找可能相关的文档? 我对实际算法很感兴趣，而不是现成的解决方案，虽然我可以看看用 ruby 或 python 实现的东西，或者依赖 ..

发布时间：2021-12-14 09:49:25 text machine-learning information-retrieval document-classification AI人工智能

如何使用朴素贝叶斯实现TF_IDF功能加权

我正在尝试实施朴素的贝叶斯分类器进行情感分析.我计划使用TF-IDF加权度量.我现在有点卡住了. NB通常使用单词(特征)频率来找到最大似然.那么如何在朴素贝叶斯中引入TF-IDF加权度量? 解决方案您将TF-IDF权重用作统计模型中的特征/预测变量.我建议使用gensim [1]或scikit-learn [2]来计算权重，然后将其传递给您的朴素贝叶斯拟合过程. 可能还会对sci ..

发布时间：2020-06-12 18:59:24 bayesian sentiment-analysis document-classification tf-idf 其他开发

NLTK和scikit-learn中的Bernoulli Naive Bayes之间有不同的结果

使用NLTK中的Bernoulli Naive Bayes算法和scikit-learn模块中的一种对文本(仅分为两类)进行分类时，我得到了截然不同的结果.尽管两者之间的总体精度是可比的(尽管相差甚远)，但I型和II型错误的差异却很明显.特别是，NLTK朴素贝叶斯分类器给出的Type I错误要多于Type II错误，而scikit-learn则相反.这种“异常"似乎在不同功能和不同训练样本之间是一 ..

发布时间：2020-06-12 18:59:18 nltk scikit-learn document-classification 其他开发

获取指定单词的WordNet域名

我知道WordNet具有域层次结构:例如运动->足球. 1)是否可以列出与"sport-> football"子域相关的所有单词? Response: goalkeeper, forward, penalty, ball, field, stadium, referee and so on. 2)获取给定单词的域名，例如“守门员"? Need something lik ..

发布时间：2020-05-18 00:34:18 nlp cluster-analysis semantic-web wordnet document-classification 其他开发

Weka可以处理多少文字?

我有一个情感分析任务，我需要指定weka可以处理多少数据(以我的情况为例).我已经有2500条意见的语料库已被标记.我知道这是一个很小的语料库，但是我的论文导师要我专门讨论Weka可以处理多少数据. 解决方案 Weka的局限性在于您使用的学习算法以及可用于训练的内存量.大多数分类器要求将整个集合加载到内存中进行训练，但是也有用于流式传输数据的选项.有关更多信息，请参见关于大数据的weka页 ..

发布时间：2020-05-04 10:27:13 machine-learning nlp weka sentiment-analysis document-classification AI人工智能

用于文本分类的词性(POS)标签特征选择

我有使用Stanford POS标记器获得的POS标记语句.例如: /DT岛/NN是/VBD非常/RB美丽/JJ ./. I/PRP爱/VBP it/PRP ./. (也提供xml格式) 任何人都可以解释如何从POS标签语句中进行特征选择并将其转换为特征向量以使用机器学习方法进行文本分类. 解决方案一种简单的入门方法如下所示(假设单词顺序对您的分类算法并不重要). ..

发布时间：2020-05-04 09:34:01 machine-learning document-classification feature-selection part-of-speech AI人工智能

如何在分类中包括单词作为数字特征

在任何机器学习算法中，将单词本身用作特征的最佳方法是什么? 我必须从特定段落中提取单词相关功能的问题.我应该使用字典中的索引作为数字功能吗?如果是这样，我将如何对其进行归一化? 通常，单词本身如何在NLP中用作功能? 解决方案有几种常规技术，可将单词映射到 features (二维数据矩阵中的列)其中的行是各个数据向量)，用于输入机器学习模型. 一个 Boolean 字段， ..

发布时间：2020-05-04 09:31:04 machine-learning nlp classification document-classification AI人工智能

可扩展或在线核心外多标签分类器

在过去的2-3周中，我一直在为这个问题绞尽脑汁. 我遇到了一个多标签(不是多类)问题，其中每个样本都可以属于多个标签. 我有大约450万个文本文档作为培训数据，大约有100万个文本作为测试数据.标签大约是35K. 我正在使用 scikit-learn .对于特征提取，我以前使用的是TfidfVectorizer，它根本无法缩放，现在我使用的HashVectorizer更好，但考虑到我拥 ..

发布时间：2020-05-04 09:28:58 machine-learning classification scikit-learn document-classification text-classification AI人工智能

推荐相关文章的尝试算法有哪些?

我敢打赌，这是很常见的情况.您有一个博客或新闻网站，并且有大量的文章或标语或任何您所谓的名称，并且您想在每个内容的底部建议其他似乎相关的内容. 让我们假设关于每个项目的元数据很少.也就是说，没有标签，类别.视为标题，作者名称等一大块文字. 您如何查找可能相关的文件? 我对真正的算法感兴趣，而不是现成的解决方案，尽管我可以看看用ruby或python实现的东西，还是依赖mysql或 ..

发布时间：2020-05-04 08:55:56 text machine-learning information-retrieval document-classification AI人工智能

Libsvm模型文件格式没有模型编号

我正在使用libsvm进行文档分类.我在项目中使用svm.cc和svm.h.然后，我叫svm_train.我使用svm_save_model将模型保存在文件中. 我有类别. svm模型文件为: svm_type c_svc kernel_type rbf gamma 0.001002 nr_class 3 total_sv 9 rho -0.000766337 0.00314423 0 ..

发布时间：2020-04-30 10:47:48 machine-learning svm libsvm document-classification svmlight AI人工智能

抑制libsvm中的输出(python)

我正在使用来自python的libsvm(svmutils)进行分类任务.分类器是准确的.但是，我得到这样的输出: * optimization finished, #iter = 75 nu = 0.000021 obj = -0.024330, rho = 0.563710 nSV = 26, nBSV = 0 Total nSV = 26 * optimization finished ..

发布时间：2020-04-30 10:45:15 python machine-learning classification libsvm document-classification AI人工智能

如何使用csr_matrix初始化gensim语料库变量?

我有X作为我使用scikit的tfidf矢量化器获得的csr_matrix，而y是一个数组我的计划是使用LDA创建功能，但是，我没找到如何使用X作为csr_matrix初始化gensim的语料库变量的方法.换句话说，我既不想下载gensim文档中所示的语料库，也不想将X转换为密集矩阵，因为它会占用大量内存，并且计算机可能会挂起. 简而言之，我的问题如下如果我有一个代表整个语料 ..

发布时间：2020-04-30 08:37:59 python scikit-learn document-classification lda gensim Python

斯坦福NLP分类器的示例

我正在尝试学习斯坦福NLP分类器，并希望解决文档分类问题。任何人都可以建议我找到一个有效的例子吗？我也在查看Open NLP库，并且能够找到许多工作示例，例如 ..

发布时间：2019-01-07 16:38:43 java machine-learning stanford-nlp document-classification Java开发

如何将属性类型更改为字符串（WEKA - CSV到ARFF）

我想使用WEKA库制作一个SMS SPAM分类器。我有一个包含“label”和“text”标题的CSV文件。当我使用下面的代码，它创建一个ARFF文件有两个属性： @attribute label {ham，spam} $ b @attribute text {'Go until jurong point'，'Ok lar ...'等} 目前，文字属性的格式似乎是标称属性 ..

发布时间：2017-02-24 21:49:40 java csv weka document-classification arff Java开发

文本分类/分类算法

我的目标是为[半自动]自动分配文本，以不同的类别。有一组用户定义的类别和一套文本为每类。理想的算法应该能够从一个人定义的分类学习，然后自动进行分类的新文本。任何人都可以提出这样一个实现ше的算法，或许.NET库？解决方案这样做是不平凡的。很明显，你可以建立一个特定的关键字映射到类别的词典。只要找到一个关键字建议某一类。然而，在自然语言文字，关键字通常会不会在他们的干形式。你会需要一些 ..

发布时间：2015-11-30 16:00:43 algorithm text-mining document-classification C/C++

document-classification相关内容