term-document-matrix相关内容

R中的TermDocumentMatrix错误

我一直在研究R中的许多{tm}包的在线示例,试图创建一个TermDocumentMatrix。创建和清理语料库非常简单,但当我尝试创建矩阵时,我总是遇到错误。错误为: UseMethod(“meta”,x)出错: 没有适用于“Character”类的对象的“meta”的方法 此外:警告消息: 在mclApply(unname(Content(X)),Term Freq,Control)中: ..
发布时间:2022-08-28 20:43:46 其他开发

如何告诉 Solr 返回每个文档的命中搜索词?

我有一个关于 Solr 查询的问题.当我使用多个搜索词执行查询时,这些搜索词都由 OR 逻辑链接(例如 q=content:(foo OR bar OR foobar)),Solr 会返回一个文档列表,所有这些搜索词都匹配条款.但是 Solr 不 返回的是哪些文档被哪些词条命中.所以在上面的例子中,我想知道的是我的结果列表中哪些文档包含术语 foo 等.根据这些信息,我将能够创建一个术语文档矩阵. ..
发布时间:2021-12-30 08:04:32 其他开发

R 我如何使用 TermDocumentMatrix() 保留标点符号

我有一个大型数据框,我在其中识别字符串中的模式,然后提取它们.我提供了一个小的子集来说明我的任务.我通过创建一个包含多个单词的 TermDocumentMatrix 来生成我的模式.我将这些模式与 stringi 和 stringr 包中的 stri_extract 和 str_replace 一起使用,以在“punct_prob"数据框中进行搜索. 我的问题是我需要在 'punct_pro ..
发布时间:2021-09-08 20:09:45 其他开发

每项频率 - R TM DocumentTermMatrix

我对 R 非常陌生,无法完全理解 DocumentTermMatrixs.我有一个用 TM 包创建的 DocumentTermMatrix,它有术语频率和里面的术语,但我不知道如何访问它们. 理想情况下,我希望: 术语#“那个"200“是"400“一个"200 目前我的代码是: 库(tm)common.words ..
发布时间:2021-09-08 20:09:36 其他开发

R 和 tm 包:用一个或两个单词的字典创建一个术语文档矩阵?

目的:我想使用包含复合词或bigrams的字典创建一个术语-文档矩阵em>,作为一些关键字. Web 搜索: 作为文本挖掘和 R 中的 tm 包的新手,我访问了网络以找出如何做这个.以下是我找到的一些相关链接: tm-package 网站上的常见问题 找到 2 &使用 r tm 包的 3 个词组 用 r 中的 tm 包计数器 ngram r 中多个术语的findassocs ..
发布时间:2021-09-08 20:09:02 其他开发

如何在 tm 中仅为 TermDocumentMatrix 创建选择语料库术语的子集

我有一个庞大的语料库,我只对我预先知道的少数术语的外观感兴趣.有没有办法使用 tm 包从语料库创建术语文档矩阵,其中只使用和包含我预先指定的术语? 我知道我可以对语料库的结果 TermDocumentMatrix 进行子集化,但由于内存大小限制,我想避免构建完整的术语文档矩阵. 解决方案 您可以通过构建自定义转换函数来修改语料库以仅保留您想要的术语.请参阅 tm 包的插图 和 con ..
发布时间:2021-09-08 20:08:54 其他开发

如何计算术语文档矩阵?

我知道 Term-Document Matrix 是一个数学矩阵,它描述了在文档集合中出现的术语的频率.在文档-术语矩阵中,行对应于集合中的文档,列对应于术语. 我正在使用 sklearn 的 CountVectorizer 从字符串(文本文件)中提取特征以简化我的任务.以下代码根据 sklearn_documentation from sklearn.feature_extraction ..
发布时间:2021-07-16 20:07:47 Python

使用TM包在R TermDocumentMatrix中查找自定义单词的频率

我将大约50,000行varchar数据转换为一个语料库,然后使用TM程序包清理了该语料库,使用了停用词,标点符号和数字. 然后我将其转换为TermDocumentMatrix,并使用函数findFreqTerms和findMostFreqTerms进行文本分析. findMostFreqTerms返回常用字及其在数据中显示的次数. 但是,我想使用一个表示搜索"word"并返回"wor ..
发布时间:2020-07-14 06:16:36 其他开发

R:在R中的文档术语矩阵中查找与文档中的术语“欺诈"相关的前10个术语

我有一个以年份命名的39个文本文件的语料库-1945.txt,1978.txt .... 2013.txt. 我已将它们导入R并使用TM包创建了文档术语矩阵. 我正在尝试调查从1945年到2013年,与“欺诈"一词相关的字词是如何变化的. 所需的输出将是一个39 x 10/5的矩阵,其中以年作为行标题,将前10或5个词作为列. 任何帮助将不胜感激. 谢谢. 我的TDM的结构 ..
发布时间:2020-07-14 06:16:09 其他开发

大文本语料库打破了tm_map

在过去的几天里,我一直在为此而挣扎.我搜索了所有的SO档案,并尝试了建议的解决方案,但似乎无法正常工作.我在2000 06、1995 -99等文件夹中有txt文档集,并且想要运行一些基本的文本挖掘操作,例如创建文档术语矩阵和术语文档矩阵,以及基于单词的共置位置进行一些操作.我的脚本适用于较小的语料库,但是,当我尝试使用较大的语料库时,它会使我失望.我已经为一种这样的文件夹操作粘贴了代码. l ..
发布时间:2020-05-18 00:52:32 其他开发

如何有效地计算文档流中文档之间的相似度

我收集了Text文档(在Node.js中),其中一个文档i表示为单词列表. 考虑到新文档是作为一种文档流出现的,计算这些文档之间相似度的有效方法是什么? 我目前在每个文档中单词的归一化频率上使用cos相似度.由于可伸缩性问题,我不使用TF-IDF(术语频率,反文档频率),因为我收到的文档越来越多. 最初 我的第一个版本是从当前可用的文档开始,计算一个大的Term-Document ..