text-mining相关内容

文本挖掘 - 从非结构化文本中提取波段名称

我知道这是一个笼统的、开放式的问题.我基本上是在寻求帮助来决定前进的方向,也许是一些阅读材料. 我正在研究一种进行非结构化文本挖掘的算法,并试图从该文本中提取特定的内容 - 乐队(单个艺术家、乐队等)的名称.文本本身没有可预测的结构,但相对较小(1、2 行文本). 一些例子可能是(非真实事件): 在温布利大球场举行的绿日音乐会非凡代表——诺拉·琼斯在波兰——在波兰歌剧院 现在,我正 ..
发布时间:2021-06-07 20:39:48 其他开发

基于释义检测查找相似文本

我有兴趣根据释义找到类似的内容(文本).我该怎么做呢?有没有可以做到这一点的特定工具?最好在python中. 解决方案 我相信您正在寻找的工具是潜在语义分析. 鉴于我的帖子会很长,我不会详细解释它背后的理论——如果你认为它确实是你要找的东西,我建议你查一下.最好的起点是这里: http://staff.scm.uws.edu.au/~lapark/lt.pdf 总而言之, ..
发布时间:2021-06-07 20:38:38 其他开发

使用“TermDocumentMatrix"时出错和“Dist"R中的函数

我一直在尝试复制示例 此处:但我在此过程中遇到了一些问题. 直到这里一切正常: docsTDM UseMethod("meta", x) 中的错误:没有适用于“元"的方法应用于“字符"类的对象 另外:警告信息: 在 mclapply(unname(content(x)), termFreq, control) 中: 所有调度的内核都遇到了用户代码中的错误 所以我能够通过改变 ..
发布时间:2021-06-07 20:38:15 其他开发

在 Python 中从非结构化文本中提取一个人的年龄

我有一个包含简短传记的行政文件数据集.我试图通过使用 python 和一些模式匹配来提取人们的年龄.一些句子的例子是: “邦德先生,67 岁,是英国的一名工程师" “34 岁的 Amanda B. Bynes 是一名女演员" “彼得帕克(45 岁)将成为我们的下一任管理员" “迪伦先生今年 46 岁." “史蒂夫·琼斯,年龄:32," 这些是我在数据集中识别的一些模式.我想补充 ..
发布时间:2021-06-07 20:35:13 Python

使用朴素贝叶斯分类来标识Twitter用户的性别

到目前为止,我已经成为学校项目的一部分,这个项目非常有趣,而且变得更加有趣.我拥有大约60万条推文(每条推文都包含屏幕名称,地理位置,文本等),我的目标是尝试将每个用户分类为男性还是女性.现在使用Twitter4J,我可以获得用户的全名,朋友数,转发消息等.因此,我想知道是否可以同时查看用户名和进行文本分析.我原本以为我可以将其变成基于规则的分类器,在该分类器中,我可以先查看用户的名称,然后分析他 ..

sendiwordnet 3.0结果表明什么?

sentiwordnett的结果表示什么? 如果商品的给定值为0.6337,是否表示商品一词为正的概率为0.6337,或者表示商品一词的权重为0.6337?大于善,但赋予非凡的价值仅为0.272727. ,sentiwordnet的格式为 POS ID PosScore NegScore SynsetTerms光泽度 如何精确计算最终结果?(使用演示代码 http://se ..
发布时间:2021-05-31 18:42:31 AI人工智能

TF-IDF文档术语矩阵和LDA:R中的错误消息

我们可以将tf-idf文档术语矩阵输入到潜在Dirichlet分配(LDA)中吗?如果是,怎么办? 在我的情况下不起作用,并且LDA函数需要“词频"文档词矩阵. 谢谢 (我提出的问题尽可能简洁.因此,如果您需要更多详细信息,我可以添加 ####################################################################### ..
发布时间:2021-05-29 20:06:09 其他开发

如何使用gengensim中的潜在狄利克雷分配(LDA)来抽象两字主题而不是字母组合?

LDA原始输出 单字 topic1-潜水,水,蒸气,潜水 主题2-二氧化物,植物,绿色,碳 必需的输出 二元语法主题 topic1-潜水,水蒸气 topic2-绿色植物,二氧化碳 有什么主意吗? 解决方案 您可以使用word2vec从使用LDA提取的前n个主题中获取最相似的术语. LDA输出 使用抽象主题(例如:-san_fran ..
发布时间:2021-05-10 19:05:58 其他开发

如何使用tf-idf选择停用词? (非英语语料库)

我已经设法评估了给定语料库的 tf-idf函数.如何找到每个文档的停用词和最佳词汇?我知道给定单词和文档的tf-idf低意味着它不是选择该文档的好单词. 解决方案 停用词是那些在文档中非常普遍出现的词,因此失去了它们的代表性.观察此现象的最佳方法是测量一个术语中出现的文档数量,并过滤出现在其中50%以上,或者您需要调整的前500个阈值或某种阈值中的文档. 文档中最好的术语(如更具代表 ..
发布时间:2020-11-27 21:43:35 其他开发

gensim的get_document_topics方法返回的概率之和不等于1

有时它返回所有主题的概率,一切都很好,但是有时它仅返回几个主题的概率,它们加起来并不等于一个,看来这取决于文档.通常,当它返回很少的主题时,概率加起来大约是80%,那么它是否仅返回最相关的主题?有没有办法强迫它返回所有概率? 也许我遗漏了一些东西,但是找不到有关该方法的参数的任何文档. 解决方案 我遇到了相同的问题,并通过在调用gensim.models.ldamodel.LdaMo ..
发布时间:2020-11-13 06:18:42 其他开发

使用Gensim为LDA模型获取最佳主题数的最佳方法是什么?

我正在尝试为Gensim中的LDA模型获取最佳主题数.我发现的一种方法是计算每个模型的对数似然并相互比较,例如在使用潜在Dirichlet分配的输入参数 因此,我研究了用Gensim计算LDA模型的对数可能性,并遇到了以下帖子:基本上说update_alpha()方法实现了Jonathan的 Huang中描述的方法. Dirichlet分布参数的最大似然估计.仍然我不知道如何在不更改代码的情 ..
发布时间:2020-11-13 06:13:39 Python

如何使用结合了regex&的Python在文本文件中搜索模式字符串/文件操作并存储模式实例?

因此,基本上,我正在文本文件内的两个尖括号内寻找4位代码.我知道我需要打开文本文件,然后逐行解析,但是我不确定在检查“文件中的行"之后构造代码的最佳方法. 我认为我可以以某种方式拆分,剥离或分区,但是我还编写了一个正则表达式,并在其上进行了编译,因此如果返回匹配对象,我认为我不能将其与基于字符串的对象一起使用操作.另外我不确定我的正则表达式是否足够贪婪... 我想将所有找到的匹配的所有 ..
发布时间:2020-11-06 01:17:08 Python

从多个文件夹中读取多个文本文件

我正在尝试读取子文件夹中的所有'* .txt'文件,但似乎循环中存在问题.基本上,文件夹的结构如下: branch1 branch 2 txt.file result I want 1 -------- 2002----------a---------------a ---------2003----------b---------------b+c ..
发布时间:2020-11-05 22:51:26 其他开发

从R中的文本列中提取特定数据

我在列中有一组药品名称数据.我正在尝试从该数据中提取每种药物的名称,强度和单位.术语MG和ML是设置中强度的限定词.例如,让我们考虑以下给定的药物名称数据集. Medicine name ---------------------- FALCAN 150 MG tab AUGMENTIN 500MG tab PRE-13 0.5 ML PFS inj NS.9%w/v 250 ML ..
发布时间:2020-11-02 22:15:22 其他开发

从R中的文本中提取任何格式的日期

我想从给定文本中提取日期,日期可以是任何格式 2018年4月10日,10-04-2018,10/04/2018,2018/04/10,04.10.2018喜欢其他格式.... 我有新闻数据,想从文本中提取日期 例如:“我的朋友”将于2018年7月10日或2018年7月10日到来 我要从中提取日期给定的文本 请帮助 预先感谢 解决方案 我们使用 str_ext ..
发布时间:2020-10-18 23:15:13 其他开发