term-document-matrix相关内容
我一直在研究R中的许多{tm}包的在线示例,试图创建一个TermDocumentMatrix。创建和清理语料库非常简单,但当我尝试创建矩阵时,我总是遇到错误。错误为: UseMethod(“meta”,x)出错: 没有适用于“Character”类的对象的“meta”的方法 此外:警告消息: 在mclApply(unname(Content(X)),Term Freq,Control)中:
..
我的文件有超过 400 万行,我需要一种更有效的方法将我的数据转换为语料库和文档术语矩阵,以便我可以将其传递给贝叶斯分类器. 考虑以下代码: 库(tm)GetCorpus 输出: >检查(公司)>[[1]]>让大狗狩猎[[2]]
..
我有一个关于 Solr 查询的问题.当我使用多个搜索词执行查询时,这些搜索词都由 OR 逻辑链接(例如 q=content:(foo OR bar OR foobar)),Solr 会返回一个文档列表,所有这些搜索词都匹配条款.但是 Solr 不 返回的是哪些文档被哪些词条命中.所以在上面的例子中,我想知道的是我的结果列表中哪些文档包含术语 foo 等.根据这些信息,我将能够创建一个术语文档矩阵.
..
我有一个大型数据框,我在其中识别字符串中的模式,然后提取它们.我提供了一个小的子集来说明我的任务.我通过创建一个包含多个单词的 TermDocumentMatrix 来生成我的模式.我将这些模式与 stringi 和 stringr 包中的 stri_extract 和 str_replace 一起使用,以在“punct_prob"数据框中进行搜索. 我的问题是我需要在 'punct_pro
..
我对 R 非常陌生,无法完全理解 DocumentTermMatrixs.我有一个用 TM 包创建的 DocumentTermMatrix,它有术语频率和里面的术语,但我不知道如何访问它们. 理想情况下,我希望: 术语#“那个"200“是"400“一个"200 目前我的代码是: 库(tm)common.words
..
目的:我想使用包含复合词或bigrams的字典创建一个术语-文档矩阵em>,作为一些关键字. Web 搜索: 作为文本挖掘和 R 中的 tm 包的新手,我访问了网络以找出如何做这个.以下是我找到的一些相关链接: tm-package 网站上的常见问题 找到 2 &使用 r tm 包的 3 个词组 用 r 中的 tm 包计数器 ngram r 中多个术语的findassocs
..
我有一个庞大的语料库,我只对我预先知道的少数术语的外观感兴趣.有没有办法使用 tm 包从语料库创建术语文档矩阵,其中只使用和包含我预先指定的术语? 我知道我可以对语料库的结果 TermDocumentMatrix 进行子集化,但由于内存大小限制,我想避免构建完整的术语文档矩阵. 解决方案 您可以通过构建自定义转换函数来修改语料库以仅保留您想要的术语.请参阅 tm 包的插图 和 con
..
我尝试使用 tm_map.它给出了以下错误.我该如何解决这个问题? 要求(tm)byword
..
我有一个 dtm,想从文档术语矩阵中按频率提取每个文档的前 5 个术语. 我有一个使用 tm 包构建的 dtm 条款文档 aaaa aac abrt 被滥用 接受 接受1 0 0 0 0 0 02 0 0 0 0 0 03 0 0 0 0 0 04 0 0 0 0 0 05 0 0 0 0 0 06 0 0 0 0 0 0 所需的输出应采用以下形式: ID1 学期1 学期2 学期3
..
我使用 R 中的 tm 包创建了一个 termDocumentMatrix. 我正在尝试创建一个包含 50 个最常出现的术语的矩阵/数据框. 当我尝试转换为矩阵时,出现此错误: >ap.m 所以我尝试使用 Matrix 包转换为稀疏矩阵: >A
..
我知道 Term-Document Matrix 是一个数学矩阵,它描述了在文档集合中出现的术语的频率.在文档-术语矩阵中,行对应于集合中的文档,列对应于术语. 我正在使用 sklearn 的 CountVectorizer 从字符串(文本文件)中提取特征以简化我的任务.以下代码根据 sklearn_documentation from sklearn.feature_extraction
..
我将大约50,000行varchar数据转换为一个语料库,然后使用TM程序包清理了该语料库,使用了停用词,标点符号和数字. 然后我将其转换为TermDocumentMatrix,并使用函数findFreqTerms和findMostFreqTerms进行文本分析. findMostFreqTerms返回常用字及其在数据中显示的次数. 但是,我想使用一个表示搜索"word"并返回"wor
..
我有一个以年份命名的39个文本文件的语料库-1945.txt,1978.txt .... 2013.txt. 我已将它们导入R并使用TM包创建了文档术语矩阵. 我正在尝试调查从1945年到2013年,与“欺诈"一词相关的字词是如何变化的. 所需的输出将是一个39 x 10/5的矩阵,其中以年作为行标题,将前10或5个词作为列. 任何帮助将不胜感激. 谢谢. 我的TDM的结构
..
我一直在使用tm包来进行一些文本分析. 我的问题是创建一个单词及其频率与之相关的列表 library(tm) library(RWeka) txt
..
我正在尝试使用NLTK和熊猫创建术语文档矩阵. 我写了以下函数: def fnDTM_Corpus(xCorpus): import pandas as pd '''to create a Term Document Matrix from a NLTK Corpus''' fd_list = [] for x in range(0, len(xCorpus.
..
我使用R中的一个csv文件制作了wordcloud.我在tm包中使用了TermDocumentMatrix方法.这是我的代码: csvData
..
在过去的几天里,我一直在为此而挣扎.我搜索了所有的SO档案,并尝试了建议的解决方案,但似乎无法正常工作.我在2000 06、1995 -99等文件夹中有txt文档集,并且想要运行一些基本的文本挖掘操作,例如创建文档术语矩阵和术语文档矩阵,以及基于单词的共置位置进行一些操作.我的脚本适用于较小的语料库,但是,当我尝试使用较大的语料库时,它会使我失望.我已经为一种这样的文件夹操作粘贴了代码. l
..
我收集了Text文档(在Node.js中),其中一个文档i表示为单词列表. 考虑到新文档是作为一种文档流出现的,计算这些文档之间相似度的有效方法是什么? 我目前在每个文档中单词的归一化频率上使用cos相似度.由于可伸缩性问题,我不使用TF-IDF(术语频率,反文档频率),因为我收到的文档越来越多. 最初 我的第一个版本是从当前可用的文档开始,计算一个大的Term-Document
..
查找ngram时如何在R的单独变量中存储术语文档矩阵的稀疏性和最大术语长度? library(tm) library(RWeka) #stdout
..
我尝试创建一个矩阵,为此,我想降低文本. 为此,我使用以下R指令: matrix = create_matrix(tweets[,1], toLower = TRUE, language="english", removeStopwords=FALSE, removeNumbers=TRUE, ste
..