text-mining - IT屋-程序员软件开发技术分享社区

R中随时间变化的动态主题模型/主题

我有一个数据库，里面有1998至2008年间报纸上有关水资源政策的文章。我想看看这段时间报纸的发布情况是如何变化的。我的问题是，我应该使用动态主题建模还是主题随时间推移模型来处理这项任务？它们是否会明显好于传统的LDA模型(在LDA模型中，我基于整个文本语料库来拟合主题模型，并根据每个文档的标记方式绘制主题的趋势图)？如果是，是否有可以在R中用于DTA/TOT型号的包？推荐答案所以 ..

发布时间：2022-08-28 20:49:34 r text-mining topic-modeling 其他开发

R中的TermDocumentMatrix错误

我一直在研究R中的许多{tm}包的在线示例，试图创建一个TermDocumentMatrix。创建和清理语料库非常简单，但当我尝试创建矩阵时，我总是遇到错误。错误为： UseMethod(“meta”，x)出错：没有适用于“Character”类的对象的“meta”的方法此外：警告消息：在mclApply(unname(Content(X))，Term Freq，Control)中： ..

发布时间：2022-08-28 20:43:46 r text-mining tm corpus term-document-matrix 其他开发

使用多核时tm_map变换函数的行为不一致

这篇文章的另一个潜在标题可能是R中的并行处理，核心数、循环块大小和对象大小之间的比率重要吗？"；我有一个语料库，我正在使用tm包运行一些转换。由于语料库很大，我使用的是多并行程序包的并行处理。有时转换会执行任务，但有时不会。例如，tm::removeNumbers()。语料库中的第一个文档的内容值为&n417"；。因此，如果预处理成功，则此文档将转换为仅&q；n&q ..

发布时间：2022-08-28 20:35:02 r parallel-processing text-mining tm doparallel 其他开发

R 正则表达式 Lookbehind

我有一个用以下格式的字符串填充的向量: 向量的第一个条目如下所示: 199719982001199719982002199719982003199719982003 对于第一个条目，我们有:year1 = 1997, year2 = 1998, id1 = 2, id2 = 001. 我想写一个正则表达式来提取year1、id1和id ..

发布时间：2022-01-13 17:01:42 regex r package text-mining 其他开发

一个(生物医学)词的词干的所有可能的词形补全

我熟悉 R 中 tm 包中的词干和补全. 我试图想出一种快速而肮脏的方法来查找给定单词的所有变体(在某个语料库中).例如，如果我的输入是“白细胞"和“白细胞"，我想得到“白细胞". 如果我现在必须这样做，我可能会选择这样的: 图书馆(tm)图书馆(RWeka)字典 ..

发布时间：2022-01-02 18:00:39 python r nlp bioinformatics text-mining Python

情感分析 - wordNet , sentiWordNet 词典

我需要一个正面和负面词的列表，并根据词的强度和周数为词分配权重.我有: 1.) WordNet - 它为每个单词提供 + 或 - 分数. 2.) SentiWordNet - 给出 [0,1] 范围内的正值和负值. 我检查了几个字， love - wordNet 对名词和动词都给出了 0.0，我不知道为什么我认为它至少在某些因素上应该是积极的. 压制 - wordNe ..

发布时间：2022-01-02 17:58:36 nlp text-mining wordnet sentiment-analysis 其他开发

字节 vs 字符 vs 单词 - n-gram 的粒度是什么?

至少可以考虑 3 种类型的 n-gram 来表示文本文档: 字节级 n-grams 字符级 n-grams 词级 n-grams 我不清楚哪一个应该用于给定的任务(聚类、分类等).我在某处读到，当文本包含拼写错误时，字符级 n-gram 比单词级 n-gram 更受欢迎，因此“玛丽爱狗"与“玛丽 lpves 狗"保持相似. 在选择“正确"表示时是否还有其他标准需要考虑? ..

发布时间：2022-01-02 17:55:24 nlp data-mining text-mining n-gram AI人工智能

在 scikit learn 中保存和重用 TfidfVectorizer

我在 scikit 中使用 TfidfVectorizer 学习从文本数据创建矩阵.现在我需要保存这个对象以便以后重用.我尝试使用泡菜，但出现以下错误. loc=open('vectorizer.obj','w')pickle.dump(self.vectorizer,loc)*** 类型错误:不能pickle instancemethod 对象我尝试在 sklearn.externals ..

发布时间：2022-01-02 17:45:40 python nlp scikit-learn pickle text-mining Python

我正在从事一个项目，该项目由一个网站组成，该网站连接到 NCBI(国家生物技术信息中心)并在那里搜索文章.事情是我必须对所有结果进行一些文本挖掘.我使用 JAVA 语言进行文本挖掘，使用 AJAX 和 ICEFACES 开发网站.我有什么:从搜索返回的文章列表.每篇文章都有一个 ID 和一个摘要.这个想法是从每个抽象文本中获取关键字.然后比较所有摘要中的所有关键词，找出重复最多的关键词.然后在网站 ..

发布时间：2022-01-02 17:34:53 java nlp text-mining Java开发

如何使用新(测试)数据重新创建相同的 DocumentTermMatrix

假设我有基于文本的训练数据和测试数据.更具体地说，我有两个数据集 - 训练和测试 - 它们都有一列包含文本并且对手头的工作感兴趣. 我在 R 中使用了 tm 包来处理训练数据集中的文本列.去除空格、标点符号和停用词后，我提取了语料库，最后创建了一个 1 克的文档术语矩阵，其中包含每个文档中单词的频率/计数.然后我采用了预先确定的截止值，比如 50，只保留那些计数大于 50 的术语. 在 ..

发布时间：2022-01-02 17:30:24 r machine-learning nlp text-mining tm AI人工智能

如何在 OpenNLP 中创建一个好的 NER 训练模型?

我刚刚开始使用 OpenNLP.我需要创建一个简单的训练模型来识别名称实体. 在此处阅读文档 https:///opennlp.apache.org/docs/1.8.0/apidocs/opennlp-tools/opennlp/tools/namefind 我看到这个简单的文字来训练模型: 皮埃尔·温肯 61 岁，将于 11 月 29 日加入董事会担任非执行董事.先生 .文肯 ..

发布时间：2022-01-02 17:25:44 java nlp text-mining opennlp named-entity-recognition Java开发

什么是 CoNLL 数据格式?

我是文本挖掘的新手.我正在使用一个开源 jar (Mate Parser)，它在依赖解析后以 CoNLL 2009 格式为我提供输出.我想将依赖解析结果用于信息提取.但我能够理解一些输出但无法理解 CoNLL 数据格式.任何人都可以帮助我让我了解 CoNLL 数据格式吗?任何类型的指针将不胜感激. 解决方案有很多不同的CoNLL 格式，因为 CoNLL 是每年不同的共享任务.此处描述了 ..

发布时间：2022-01-02 17:23:16 nlp text-parsing text-mining information-extraction 其他开发

R 文本挖掘:计算特定单词在语料库中出现的次数?

我看到这个问题用其他语言回答过，但没有用 R 语言回答过. [专门用于 R 文本挖掘] 我有一组从语料库中获取的常用短语.现在我想搜索这些短语在另一个语料库中出现的次数. 有没有办法在 TM 包中做到这一点?(或其他相关包) 例如，假设我有一组短语，即从 CorpusA 获得的“标签".另一个语料库 CorpusB，包含数千个子文本.我想知道标签中的每个短语在 CorpusB 中 ..

发布时间：2021-12-30 16:18:35 r count text-mining phrase 其他开发

'utf8towcs' 中的 R tm 包无效输入

我正在尝试使用 R 中的 tm 包来执行一些文本分析.我绑定了以下内容: require(tm)数据集 ..

发布时间：2021-12-28 16:38:15 r utf-8 iconv text-mining 其他开发

如何清理 R 中的 Twitter 数据?

我使用 twitteR 包从 twitter 中提取了推文，并将它们保存到一个文本文件中. 我对语料库进行了以下操作 xx ..

发布时间：2021-12-25 20:13:02 r twitter text-mining data-cleaning 其他开发

如何在熊猫数据框中找到一列的 ngram 频率?

以下是我拥有的输入熊猫数据框. 我想找到unigrams的频率&二元组.我期望的示例如下所示如何使用 nltk 或 scikit learn 来做到这一点? 我写了下面的代码，它接受一个字符串作为输入.如何将其扩展到系列/数据框? from nltk.collocations import *desc='john 是一个男人，你是他，你是他的人'令牌 = nltk.word_ ..

发布时间：2021-12-25 14:54:57 pandas nlp scikit-learn nltk text-mining Python

将 scikit-learn TfIdf 与 gensim LDA 结合使用

我在 scikit 中使用了各种版本的 TFIDF，学习对一些文本数据进行建模. vectorizer = TfidfVectorizer(min_df=1,stop_words='english') 结果数据 X 的格式如下: ..

发布时间：2021-12-25 14:42:30 python scikit-learn text-mining lda Python

使用 R 从搜索结果 URL 中提取文本

我对 R 有所了解，但不是专业人士.我正在使用 R 进行文本挖掘项目. 我用关键字搜索了美联储网站，比如“通货膨胀".搜索结果的第二页有网址:(https://search.newyorkfed.org/board_public/search?start=10&Search=&number=10&text=inflation). 此页面有 10 个搜索结果(10 个网址).我想用 R ..

发布时间：2021-12-17 14:16:47 r web-scraping nlp text-mining 其他开发

R:提取和粘贴关键字匹配

我是 R 的新手，一直在努力解决这个问题.我想创建一个新列，检查“text"列中是否存在一组单词(“foo"、“x"、“y")，然后将该值写入新列. 我有一个如下所示的数据框:a-> id 文本时间用户名1 “你好 x" 10 “我"2 “foo 和 y" 5 “你"3 “无" 15 “大家"4 "x,y,foo" 0 "知道" 正确的输出应该是: a2 -> id tex ..

发布时间：2021-11-16 23:18:29 r apply text-mining grepl 其他开发

Java 中是否有用于文本分析/挖掘的 API?

我想知道是否有一个API可以在Java中进行文本分析.可以提取文本中的所有单词、单独的单词、表达式等的东西.可以通知是否找到单词的东西是数字、日期、年份、名称、货币等. 我现在开始进行文本分析，所以我只需要一个 API 即可启动.我做了一个网络爬虫，现在我需要一些东西来分析下载的数据.需要统计页面字数、相似字数、数据类型以及与文本相关的其他资源的方法. Java 中是否有用于文本分析的 ..

发布时间：2021-11-15 01:50:47 java api nlp analysis text-mining Java开发

text-mining相关内容