text-mining 第7页 - IT屋-程序员软件开发技术分享社区

文本挖掘 - 从非结构化文本中提取波段名称

我知道这是一个笼统的、开放式的问题.我基本上是在寻求帮助来决定前进的方向，也许是一些阅读材料. 我正在研究一种进行非结构化文本挖掘的算法，并试图从该文本中提取特定的内容 - 乐队(单个艺术家、乐队等)的名称.文本本身没有可预测的结构，但相对较小(1、2 行文本). 一些例子可能是(非真实事件): 在温布利大球场举行的绿日音乐会非凡代表——诺拉·琼斯在波兰——在波兰歌剧院现在，我正 ..

发布时间：2021-06-07 20:39:48 text nlp text-mining named-entity-recognition 其他开发

基于释义检测查找相似文本

我有兴趣根据释义找到类似的内容(文本).我该怎么做呢?有没有可以做到这一点的特定工具?最好在python中. 解决方案我相信您正在寻找的工具是潜在语义分析. 鉴于我的帖子会很长，我不会详细解释它背后的理论——如果你认为它确实是你要找的东西，我建议你查一下.最好的起点是这里: http://staff.scm.uws.edu.au/~lapark/lt.pdf 总而言之， ..

发布时间：2021-06-07 20:38:38 nlp nltk text-mining semantic-analysis 其他开发

使用“TermDocumentMatrix"时出错和“Dist"R中的函数

我一直在尝试复制示例此处:但我在此过程中遇到了一些问题. 直到这里一切正常: docsTDM UseMethod("meta", x) 中的错误:没有适用于“元"的方法应用于“字符"类的对象另外:警告信息: 在 mclapply(unname(content(x)), termFreq, control) 中: 所有调度的内核都遇到了用户代码中的错误所以我能够通过改变 ..

发布时间：2021-06-07 20:38:15 r text-mining text-classification text-analysis 其他开发

使用 quanteda 进行 R 文本挖掘

我有一个数据集(Facebook 帖子)(通过 netvizz)并且我在 R 中使用了 quanteda 包.这是我的 R 代码. #加载相关词典(相关分析)liwcdict ..

发布时间：2021-06-07 20:37:01 r text-mining text-analysis quanteda 其他开发

在 Python 中从非结构化文本中提取一个人的年龄

我有一个包含简短传记的行政文件数据集.我试图通过使用 python 和一些模式匹配来提取人们的年龄.一些句子的例子是: “邦德先生，67 岁，是英国的一名工程师" “34 岁的 Amanda B. Bynes 是一名女演员" “彼得帕克(45 岁)将成为我们的下一任管理员" “迪伦先生今年 46 岁." “史蒂夫·琼斯，年龄:32，" 这些是我在数据集中识别的一些模式.我想补充 ..

发布时间：2021-06-07 20:35:13 python nlp pattern-matching text-mining Python

到目前为止，我已经成为学校项目的一部分，这个项目非常有趣，而且变得更加有趣.我拥有大约60万条推文(每条推文都包含屏幕名称，地理位置，文本等)，我的目标是尝试将每个用户分类为男性还是女性.现在使用Twitter4J，我可以获得用户的全名，朋友数，转发消息等.因此，我想知道是否可以同时查看用户名和进行文本分析.我原本以为我可以将其变成基于规则的分类器，在该分类器中，我可以先查看用户的名称，然后分析他 ..

发布时间：2021-05-31 18:43:02 twitter machine-learning classification text-mining AI人工智能

sendiwordnet 3.0结果表明什么?

sentiwordnett的结果表示什么? 如果商品的给定值为0.6337，是否表示商品一词为正的概率为0.6337，或者表示商品一词的权重为0.6337?大于善，但赋予非凡的价值仅为0.272727. ，sentiwordnet的格式为 POS ID PosScore NegScore SynsetTerms光泽度如何精确计算最终结果?(使用演示代码 http://se ..

发布时间：2021-05-31 18:42:31 machine-learning text-mining sentiment-analysis AI人工智能

TF-IDF文档术语矩阵和LDA:R中的错误消息

我们可以将tf-idf文档术语矩阵输入到潜在Dirichlet分配(LDA)中吗?如果是，怎么办? 在我的情况下不起作用，并且LDA函数需要“词频"文档词矩阵. 谢谢 (我提出的问题尽可能简洁.因此，如果您需要更多详细信息，我可以添加 ####################################################################### ..

发布时间：2021-05-29 20:06:09 r matrix text-mining lda tidytext 其他开发

在字符串向量的元素之间获取最小的共享部分

具有字符串向量列表: xx ..

发布时间：2021-05-16 19:49:46 string r intersection text-mining fuzzy-search 其他开发

如何使用gengensim中的潜在狄利克雷分配(LDA)来抽象两字主题而不是字母组合?

LDA原始输出单字 topic1-潜水，水，蒸气，潜水主题2-二氧化物，植物，绿色，碳必需的输出二元语法主题 topic1-潜水，水蒸气 topic2-绿色植物，二氧化碳有什么主意吗? 解决方案您可以使用word2vec从使用LDA提取的前n个主题中获取最相似的术语. LDA输出使用抽象主题(例如:-san_fran ..

发布时间：2021-05-10 19:05:58 nlp text-mining lda gensim 其他开发

如何计算h点

我正在尝试编写一个计算h点的函数.该功能是在秩频率数据帧上定义的.考虑以下data.frame: DATA ..

发布时间：2021-05-09 20:07:49 r function if-statement text-mining quanteda 其他开发

如何使用tf-idf选择停用词? (非英语语料库)

我已经设法评估了给定语料库的 tf-idf函数.如何找到每个文档的停用词和最佳词汇?我知道给定单词和文档的tf-idf低意味着它不是选择该文档的好单词. 解决方案停用词是那些在文档中非常普遍出现的词，因此失去了它们的代表性.观察此现象的最佳方法是测量一个术语中出现的文档数量，并过滤出现在其中50％以上，或者您需要调整的前500个阈值或某种阈值中的文档. 文档中最好的术语(如更具代表 ..

发布时间：2020-11-27 21:43:35 information-retrieval text-mining stop-words tf-idf 其他开发

gensim的get_document_topics方法返回的概率之和不等于1

有时它返回所有主题的概率，一切都很好，但是有时它仅返回几个主题的概率，它们加起来并不等于一个，看来这取决于文档.通常，当它返回很少的主题时，概率加起来大约是80％，那么它是否仅返回最相关的主题?有没有办法强迫它返回所有概率? 也许我遗漏了一些东西，但是找不到有关该方法的参数的任何文档. 解决方案我遇到了相同的问题，并通过在调用gensim.models.ldamodel.LdaMo ..

发布时间：2020-11-13 06:18:42 text-mining gensim lda topic-modeling 其他开发

使用Gensim为LDA模型获取最佳主题数的最佳方法是什么?

我正在尝试为Gensim中的LDA模型获取最佳主题数.我发现的一种方法是计算每个模型的对数似然并相互比较，例如在使用潜在Dirichlet分配的输入参数因此，我研究了用Gensim计算LDA模型的对数可能性，并遇到了以下帖子:基本上说update_alpha()方法实现了Jonathan的 Huang中描述的方法. Dirichlet分布参数的最大似然估计.仍然我不知道如何在不更改代码的情 ..

发布时间：2020-11-13 06:13:39 python text-mining lda gensim topic-modeling Python

在R中重命名文件扩展名

我只是想将文件扩展名更改为.doc.我正在尝试下面的代码，但是它不起作用.怎么会?我正在使用startingDir ..

发布时间：2020-11-06 03:36:23 r text-mining file-rename 其他开发

如何使用结合了regex&的Python在文本文件中搜索模式字符串/文件操作并存储模式实例?

因此，基本上，我正在文本文件内的两个尖括号内寻找4位代码.我知道我需要打开文本文件，然后逐行解析，但是我不确定在检查“文件中的行"之后构造代码的最佳方法. 我认为我可以以某种方式拆分，剥离或分区，但是我还编写了一个正则表达式，并在其上进行了编译，因此如果返回匹配对象，我认为我不能将其与基于字符串的对象一起使用操作.另外我不确定我的正则表达式是否足够贪婪... 我想将所有找到的匹配的所有 ..

发布时间：2020-11-06 01:17:08 python regex file-io text-mining string-parsing Python

从多个文件夹中读取多个文本文件

我正在尝试读取子文件夹中的所有'* .txt'文件，但似乎循环中存在问题.基本上，文件夹的结构如下: branch1 branch 2 txt.file result I want 1 -------- 2002----------a---------------a ---------2003----------b---------------b+c ..

发布时间：2020-11-05 22:51:26 r file text-mining 其他开发

从R中的文本列中提取特定数据

我在列中有一组药品名称数据.我正在尝试从该数据中提取每种药物的名称，强度和单位.术语MG和ML是设置中强度的限定词.例如，让我们考虑以下给定的药物名称数据集. Medicine name ---------------------- FALCAN 150 MG tab AUGMENTIN 500MG tab PRE-13 0.5 ML PFS inj NS.9%w/v 250 ML ..

发布时间：2020-11-02 22:15:22 r extract text-mining 其他开发

设置编码以将文本文件读入tm Corpora

使用tm Corpus加载一堆文档，我需要指定编码。所有文档都是UTF-8编码的。如果通过文本编辑器的openend内容还可以，但是语料库内容中充满了奇怪的符号（indicio。，“sœs....”）源文本为西班牙语。 ES_es library（tm） cname ..

发布时间：2020-10-29 06:52:39 text encoding text-mining tm corpus 其他开发

从R中的文本中提取任何格式的日期

我想从给定文本中提取日期，日期可以是任何格式 2018年4月10日，10-04-2018，10/04/2018，2018/04/10，04.10.2018喜欢其他格式.... 我有新闻数据，想从文本中提取日期例如：“我的朋友”将于2018年7月10日或2018年7月10日到来我要从中提取日期给定的文本请帮助预先感谢解决方案我们使用 str_ext ..

发布时间：2020-10-18 23:15:13 r datetime text-mining text-extraction 其他开发

text-mining相关内容