text-mining相关内容

R中随时间变化的动态主题模型/主题

我有一个数据库,里面有1998至2008年间报纸上有关水资源政策的文章。我想看看这段时间报纸的发布情况是如何变化的。我的问题是,我应该使用动态主题建模还是主题随时间推移模型来处理这项任务?它们是否会明显好于传统的LDA模型(在LDA模型中,我基于整个文本语料库来拟合主题模型,并根据每个文档的标记方式绘制主题的趋势图)?如果是,是否有可以在R中用于DTA/TOT型号的包? 推荐答案 所以 ..
发布时间:2022-08-28 20:49:34 其他开发

R中的TermDocumentMatrix错误

我一直在研究R中的许多{tm}包的在线示例,试图创建一个TermDocumentMatrix。创建和清理语料库非常简单,但当我尝试创建矩阵时,我总是遇到错误。错误为: UseMethod(“meta”,x)出错: 没有适用于“Character”类的对象的“meta”的方法 此外:警告消息: 在mclApply(unname(Content(X)),Term Freq,Control)中: ..
发布时间:2022-08-28 20:43:46 其他开发

使用多核时tm_map变换函数的行为不一致

这篇文章的另一个潜在标题可能是R中的并行处理,核心数、循环块大小和对象大小之间的比率重要吗?"; 我有一个语料库,我正在使用tm包运行一些转换。由于语料库很大,我使用的是多并行程序包的并行处理。 有时转换会执行任务,但有时不会。例如,tm::removeNumbers()。语料库中的第一个文档的内容值为&n417";。因此,如果预处理成功,则此文档将转换为仅&q;n&q ..
发布时间:2022-08-28 20:35:02 其他开发

R 正则表达式 Lookbehind

我有一个用以下格式的字符串填充的向量: 向量的第一个条目如下所示: 199719982001199719982002199719982003199719982003 对于第一个条目,我们有:year1 = 1997, year2 = 1998, id1 = 2, id2 = 001. 我想写一个正则表达式来提取year1、id1和id ..
发布时间:2022-01-13 17:01:42 其他开发

情感分析 - wordNet , sentiWordNet 词典

我需要一个正面和负面词的列表,并根据词的强度和周数为词分配权重.我有: 1.) WordNet - 它为每个单词提供 + 或 - 分数. 2.) SentiWordNet - 给出 [0,1] 范围内的正值和负值. 我检查了几个字, love - wordNet 对名词和动词都给出了 0.0,我不知道为什么我认为它至少在某些因素上应该是积极的. 压制 - wordNe ..
发布时间:2022-01-02 17:58:36 其他开发

字节 vs 字符 vs 单词 - n-gram 的粒度是什么?

至少可以考虑 3 种类型的 n-gram 来表示文本文档: 字节级 n-grams 字符级 n-grams 词级 n-grams 我不清楚哪一个应该用于给定的任务(聚类、分类等).我在某处读到,当文本包含拼写错误时,字符级 n-gram 比单词级 n-gram 更受欢迎,因此“玛丽爱狗"与“玛丽 lpves 狗"保持相似. 在选择“正确"表示时是否还有其他标准需要考虑? ..
发布时间:2022-01-02 17:55:24 AI人工智能

在 JAVA 中使用哪个 NLP 工具包?

我正在从事一个项目,该项目由一个网站组成,该网站连接到 NCBI(国家生物技术信息中心)并在那里搜索文章.事情是我必须对所有结果进行一些文本挖掘.我使用 JAVA 语言进行文本挖掘,使用 AJAX 和 ICEFACES 开发网站.我有什么:从搜索返回的文章列表.每篇文章都有一个 ID 和一个摘要.这个想法是从每个抽象文本中获取关键字.然后比较所有摘要中的所有关键词,找出重复最多的关键词.然后在网站 ..
发布时间:2022-01-02 17:34:53 Java开发

如何使用新(测试)数据重新创建相同的 DocumentTermMatrix

假设我有基于文本的训练数据和测试数据.更具体地说,我有两个数据集 - 训练和测试 - 它们都有一列包含文本并且对手头的工作感兴趣. 我在 R 中使用了 tm 包来处理训练数据集中的文本列.去除空格、标点符号和停用词后,我提取了语料库,最后创建了一个 1 克的文档术语矩阵,其中包含每个文档中单词的频率/计数.然后我采用了预先确定的截止值,比如 50,只保留那些计数大于 50 的术语. 在 ..
发布时间:2022-01-02 17:30:24 AI人工智能

如何在 OpenNLP 中创建一个好的 NER 训练模型?

我刚刚开始使用 OpenNLP.我需要创建一个简单的训练模型来识别名称实体. 在此处阅读文档 https:///opennlp.apache.org/docs/1.8.0/apidocs/opennlp-tools/opennlp/tools/namefind 我看到这个简单的文字来训练模型: 皮埃尔·温肯 61 岁,将于 11 月 29 日加入董事会担任非执行董事.先生 .文肯 ..
发布时间:2022-01-02 17:25:44 Java开发

什么是 CoNLL 数据格式?

我是文本挖掘的新手.我正在使用一个开源 jar (Mate Parser),它在依赖解析后以 CoNLL 2009 格式为我提供输出.我想将依赖解析结果用于信息提取.但我能够理解一些输出但无法理解 CoNLL 数据格式.任何人都可以帮助我让我了解 CoNLL 数据格式吗?任何类型的指针将不胜感激. 解决方案 有很多不同的CoNLL 格式,因为 CoNLL 是每年不同的共享任务.此处描述了 ..
发布时间:2022-01-02 17:23:16 其他开发

R 文本挖掘:计算特定单词在语料库中出现的次数?

我看到这个问题用其他语言回答过,但没有用 R 语言回答过. [专门用于 R 文本挖掘] 我有一组从语料库中获取的常用短语.现在我想搜索这些短语在另一个语料库中出现的次数. 有没有办法在 TM 包中做到这一点?(或其他相关包) 例如,假设我有一组短语,即从 CorpusA 获得的“标签".另一个语料库 CorpusB,包含数千个子文本.我想知道标签中的每个短语在 CorpusB 中 ..
发布时间:2021-12-30 16:18:35 其他开发

如何在熊猫数据框中找到一列的 ngram 频率?

以下是我拥有的输入熊猫数据框. 我想找到unigrams的频率&二元组.我期望的示例如下所示 如何使用 nltk 或 scikit learn 来做到这一点? 我写了下面的代码,它接受一个字符串作为输入.如何将其扩展到系列/数据框? from nltk.collocations import *desc='john 是一个男人,你是他,你是他的人'令牌 = nltk.word_ ..
发布时间:2021-12-25 14:54:57 Python

使用 R 从搜索结果 URL 中提取文本

我对 R 有所了解,但不是专业人士.我正在使用 R 进行文本挖掘项目. 我用关键字搜索了美联储网站,比如“通货膨胀".搜索结果的第二页有网址:(https://search.newyorkfed.org/board_public/search?start=10&Search=&number=10&text=inflation). 此页面有 10 个搜索结果(10 个网址).我想用 R ..
发布时间:2021-12-17 14:16:47 其他开发

R:提取和粘贴关键字匹配

我是 R 的新手,一直在努力解决这个问题.我想创建一个新列,检查“text"列中是否存在一组单词(“foo"、“x"、“y"),然后将该值写入新列. 我有一个如下所示的数据框:a-> id 文本 时间 用户名1 “你好 x" 10 “我"2 “foo 和 y" 5 “你"3 “无" 15 “大家"4 "x,y,foo" 0 "知道" 正确的输出应该是: a2 -> id tex ..
发布时间:2021-11-16 23:18:29 其他开发

Java 中是否有用于文本分析/挖掘的 API?

我想知道是否有一个API可以在Java中进行文本分析.可以提取文本中的所有单词、单独的单词、表达式等的东西.可以通知是否找到单词的东西是数字、日期、年份、名称、货币等. 我现在开始进行文本分析,所以我只需要一个 API 即可启动.我做了一个网络爬虫,现在我需要一些东西来分析下载的数据.需要统计页面字数、相似字数、数据类型以及与文本相关的其他资源的方法. Java 中是否有用于文本分析的 ..
发布时间:2021-11-15 01:50:47 Java开发