tf-idf 第7页 - IT屋-程序员软件开发技术分享社区

加权词嵌入是什么意思?

在我尝试实施的纸张中， > 在这项工作中，使用三种类型的文本对推文进行了建模表示.第一个是单词袋模型，权重为 tf-idf(期限频率 -反向文档频率)(部分 2.1.1).第二个表示通过平均所有单词(在句子中)的词嵌入来表示的句子，第三个表示一个通过对所有单词的加权单词嵌入进行平均来得出句子，单词的权重由tf-idf给出(部分 2.1.2). 我不确定第三种表示形式是被提及的， ..

发布时间：2020-05-04 09:27:20 machine-learning nlp word2vec tf-idf word-embedding AI人工智能

将scipy.sparse.csr.csr_matrix转换为列表列表

我正在学习多标签分类，并尝试从scikit学习中实施tfidf教程. 我正在处理文本语料库以计算其tf-idf分数. 我正在为此目的使用模块sklearn.feature_extraction.text.使用CountVectorizer和TfidfTransformer，现在我为每个词汇集了语料库矢量和tfidf. 问题是我现在有一个稀疏矩阵，例如: (0, 47) 0.104275891 ..

发布时间：2020-05-04 09:17:39 python machine-learning scipy scikit-learn tf-idf AI人工智能

在scikit-learn tf-idf矩阵中获取文档名称

我已经创建了一个TF-IDF矩阵，但现在我想检索顶部2个字的每个文档.我想通过文件ID，它应该给我顶2个字. 现在，我有这样的示例数据: from sklearn.feature_extraction.text import TfidfVectorizer d = {'doc1':"this is the first document",'doc2':"it is a sunny d ..

发布时间：2020-05-04 09:12:00 python matrix machine-learning scikit-learn tf-idf AI人工智能

我可以在scikit-learn中使用CountVectorizer来计数未用于提取令牌的文档的频率吗?

我一直在使用scikit-learn中的CountVectorizer类. 我知道，如果按照以下所示的方式使用，则最终输出将由一个包含特征或标记计数的数组组成. 这些令牌是从一组关键字中提取的，即 tags = [ "python, tools", "linux, tools, ubuntu", "distributed systems, linux, network ..

发布时间：2020-05-04 09:05:15 python machine-learning scikit-learn tf-idf AI人工智能

保留TFIDF结果以使用Scikit for Python预测新内容

我正在python上使用sklearn进行一些聚类.我已经训练了200,000个数据，下面的代码效果很好. corpus = open("token_from_xml.txt") vectorizer = CountVectorizer(decode_error="replace") transformer = TfidfTransformer() tfidf = transformer.f ..

发布时间：2020-05-04 08:56:22 python machine-learning scikit-learn tf-idf AI人工智能

sklearn TfidfVectorizer:通过不删除其中的停用词来生成自定义NGram

以下是我的代码: sklearn_tfidf = TfidfVectorizer(ngram_range= (3,3),stop_words=stopwordslist, norm='l2',min_df=0, use_idf=True, smooth_idf=False, sublinear_tf=True) sklearn_representation = sklearn_tfidf.f ..

发布时间：2020-05-04 08:55:24 machine-learning scikit-learn statistics tf-idf AI人工智能

scikit-learn中的TfidfVectorizer:ValueError:np.nan是无效的文档

我正在使用scikit-learn的TfidfVectorizer从文本数据中提取一些特征.我有一个带分数(可以为+1或-1)和审阅(文本)的CSV文件.我将这些数据提取到一个DataFrame中，以便可以运行Vectorizer. 这是我的代码: import pandas as pd import numpy as np from sklearn.feature_extractio ..

发布时间：2020-05-04 08:54:34 python pandas machine-learning scikit-learn tf-idf AI人工智能

Python:tf-idf-cosine:查找文档相似性

我正在关注一个教程，该教程可在第1部分&中找到. 第2部分.不幸的是，作者没有时间进行最后一节，涉及使用余弦相似度实际找到两个文档之间的距离.我在 stackoverflow 中的以下链接的帮助下，遵循了本文中的示例.上面链接中提到的代码(只是为了使生活更轻松) from sklearn.feature_extraction.text import CountVectorizer from ..

发布时间：2020-05-04 08:50:04 python machine-learning nltk information-retrieval tf-idf AI人工智能

Lucene 4.9:从索引中获取一些选定文档的TF-IDF

我已经在stackoverflow以及其他在线资源上看到了很多类似的问题.但是，看起来Lucene API的相应部分发生了很大变化，因此可以总结一下:我找不到任何适用于最新Lucene版本的示例. 我所拥有的: Lucene索引+ IndexReader + IndexSearcher 一堆文件(及其ID) 我想要什么: 对于在至少一个所选文档中仅出现的所有术语，我想为每个文 ..

发布时间：2020-05-04 07:52:59 lucene tf-idf term 其他开发

如何使用Lucene和Java与tf-idf计算余弦相似度

我有一个查询和一组文档.我需要根据与tf-idf的余弦相似度对这些文档进行排名.有人可以告诉我我可以从Lucene那里得到什么支持来进行计算吗?我可以直接从Lucene计算哪些参数(我可以直接通过Lucene中的某种方法获取tf，idf吗?)，以及如何计算与Lucene的余弦相似度(如果我传递了查询的两个向量，是否有任何函数可以直接返回余弦相似度?文档?) 预先感谢解决方案 Luc ..

发布时间：2020-05-04 07:42:02 java lucene tf-idf cosine-similarity Java开发

Lucene自定义评分的数字字段

除了在文本内容字段上具有tf-idf相似性的标准术语搜索之外，我还希望基于数字字段的“相似性"进行评分.这种相似性取决于查询和文档中的值之间的距离(例如，高斯，其中m = [用户输入]，s = 0.5) 即假设文档代表人，而人员文档有两个字段: 说明(全文) 年龄(数字). 我想查找类似文件说明:(x y z)年龄:30 但年龄不是过滤条件，而是分数的一部分(30 ..

发布时间：2020-05-04 07:27:38 lucene tf-idf scoring 其他开发

大数据集的TFIDF

我有一个大约有800万条新闻文章的语料库，我需要以稀疏矩阵的形式获取它们的TFIDF表示形式.我已经能够使用scikit-learn来实现相对较少的样本数量的操作，但是我认为它不能用于如此庞大的数据集，因为它首先将输入矩阵加载到内存中，这是一个昂贵的过程. 有人知道，为大型数据集提取TFIDF向量的最佳方法是什么? 解决方案 Gensim具有高效的 tf-idf模型，并且不需要一次将 ..

发布时间：2020-05-04 07:24:05 python lucene nlp scikit-learn tf-idf Python

我如何对solr/lucene分数进行归一化?

我正在尝试找出如何提高solr搜索结果的得分.我的应用程序需要从solr结果中获取分数，并根据查询结果的好坏来显示一些“星星". 5颗星=几乎/精确到0颗星，这意味着与搜索不完全匹配，例如只有一个元素命中.但是我得到的分数从1.4到0.8660254都返回了我将给5星的结果.我需要做的是以某种方式将这些结果转换成一定百分比，以便我可以用正确的星数标记这些结果. 我运行的查询给出的1.4分是: ..

发布时间：2020-05-04 07:22:56 search lucene solr normalization tf-idf 其他开发

在lucene中获得两个文档之间的余弦相似度

我在Lucene中建立了索引.我想要不指定查询，而只是获得索引中两个文档之间的分数(余弦相似度或另一个距离?). 例如，我从先前打开的IndexReader ir中获取ID为2和4的文档. 文档d1 = ir.document(2); 文档d2 = ir.document(4); 如何获得这两个文档之间的余弦相似度? 谢谢解决方案建立索引时，可以选择存储项频率向量. ..

发布时间：2020-05-04 07:22:37 lucene similarity trigonometry tf-idf 其他开发

从TF-IDF到Spark，Pyspark中的LDA群集

我正在尝试对存储在格式关键字listofwords中的推文进行聚类我的第一步是使用数据框为提取单词列表的TF-IDF值 dbURL = "hdfs://pathtodir" file = sc.textFile(dbURL) #Define data frame schema fields = [StructField('key',StringType(),False),Stru ..

发布时间：2020-04-30 08:39:13 python apache-spark pyspark tf-idf lda Python

SMOTE初始化期望n_neighbors< = n_samples，但是n_samples< n_邻居

我已经预先清理了数据，下面显示了前4行的格式: [IN] df.head() [OUT] Year cleaned 0 1909 acquaint hous receiv follow letter clerk crown... 1 1909 ask secretari state war whether is ..

发布时间：2020-04-26 11:02:18 scikit-learn knn tf-idf oversampling imblearn 其他开发

如何可视化kmeans聚类的tf-idf向量的数据点?

我有一份文档清单和整个语料库中每个唯一单词的tf-idf分数. 如何在2维图上可视化它，以便我可以衡量运行k均值需要多少个聚类? 这是我的代码: sentence_list=["Hi how are you", "Good morning" ...] vectorizer=TfidfVectorizer(min_df=1, stop_words='english', decode_er ..

发布时间：2020-04-26 10:21:16 python scipy scikit-learn k-means tf-idf Python

如何在Lucene中实现tf-idf和余弦相似度？

如何在Lucene中实现tf-idf和余弦相似度？我正在使用Lucene 4.2。我创建的程序不使用tf-idf和Cosine相似，它只使用TopScoreDocCollector。 import com.mysql .jdbc.Statement; import java.io.BufferedReader; import java.io.File; import java. ..

发布时间：2019-01-02 22:28:11 java lucene tf-idf cosine-similarity Java开发

余弦相似度

我计算了两个文件的tf / idf值。以下是tf / idf值： 1.txt 0.0 0.5 2.txt 0.0 0.5 文件如下： 1.txt =>狗猫 2.txt => cat elephant 如何使用这些值来计算余弦相似度？我知道我应该计算点积，然后通过它找到距离并除以点积。如何使用我的值来计算？ ..

发布时间：2018-12-06 12:52:58 java similarity cosine tf-idf dot-product Java开发

如何计算两个向量的余弦相似度？

如何找到矢量之间的余弦相似度？我需要找到相似度来衡量两行文本之间的相关性。例如，我有两个句子，如：用户界面系统用户界面机 ...及其在tF-idf之后的各自向量，然后使用LSI进行标准化，例如 [1,0.5] 和 [0.5,1] 。我如何衡量这些向量之间的熟悉程度？解决方案公共类CosineSimilarity扩展AbstractSimi ..

发布时间：2018-12-04 13:57:29 java vector trigonometry cosine tf-idf Java开发

tf-idf相关内容