text-mining相关内容
我知道这是一个笼统的、开放式的问题.我基本上是在寻求帮助来决定前进的方向,也许是一些阅读材料. 我正在研究一种进行非结构化文本挖掘的算法,并试图从该文本中提取特定的内容 - 乐队(单个艺术家、乐队等)的名称.文本本身没有可预测的结构,但相对较小(1、2 行文本). 一些例子可能是(非真实事件): 在温布利大球场举行的绿日音乐会非凡代表——诺拉·琼斯在波兰——在波兰歌剧院 现在,我正
..
我有兴趣根据释义找到类似的内容(文本).我该怎么做呢?有没有可以做到这一点的特定工具?最好在python中. 解决方案 我相信您正在寻找的工具是潜在语义分析. 鉴于我的帖子会很长,我不会详细解释它背后的理论——如果你认为它确实是你要找的东西,我建议你查一下.最好的起点是这里: http://staff.scm.uws.edu.au/~lapark/lt.pdf 总而言之,
..
我一直在尝试复制示例 此处:但我在此过程中遇到了一些问题. 直到这里一切正常: docsTDM UseMethod("meta", x) 中的错误:没有适用于“元"的方法应用于“字符"类的对象 另外:警告信息: 在 mclapply(unname(content(x)), termFreq, control) 中: 所有调度的内核都遇到了用户代码中的错误 所以我能够通过改变
..
我有一个数据集(Facebook 帖子)(通过 netvizz)并且我在 R 中使用了 quanteda 包.这是我的 R 代码. #加载相关词典(相关分析)liwcdict
..
我有一个包含简短传记的行政文件数据集.我试图通过使用 python 和一些模式匹配来提取人们的年龄.一些句子的例子是: “邦德先生,67 岁,是英国的一名工程师" “34 岁的 Amanda B. Bynes 是一名女演员" “彼得帕克(45 岁)将成为我们的下一任管理员" “迪伦先生今年 46 岁." “史蒂夫·琼斯,年龄:32," 这些是我在数据集中识别的一些模式.我想补充
..
到目前为止,我已经成为学校项目的一部分,这个项目非常有趣,而且变得更加有趣.我拥有大约60万条推文(每条推文都包含屏幕名称,地理位置,文本等),我的目标是尝试将每个用户分类为男性还是女性.现在使用Twitter4J,我可以获得用户的全名,朋友数,转发消息等.因此,我想知道是否可以同时查看用户名和进行文本分析.我原本以为我可以将其变成基于规则的分类器,在该分类器中,我可以先查看用户的名称,然后分析他
..
sentiwordnett的结果表示什么? 如果商品的给定值为0.6337,是否表示商品一词为正的概率为0.6337,或者表示商品一词的权重为0.6337?大于善,但赋予非凡的价值仅为0.272727. ,sentiwordnet的格式为 POS ID PosScore NegScore SynsetTerms光泽度 如何精确计算最终结果?(使用演示代码 http://se
..
我们可以将tf-idf文档术语矩阵输入到潜在Dirichlet分配(LDA)中吗?如果是,怎么办? 在我的情况下不起作用,并且LDA函数需要“词频"文档词矩阵. 谢谢 (我提出的问题尽可能简洁.因此,如果您需要更多详细信息,我可以添加 #######################################################################
..
具有字符串向量列表: xx
..
LDA原始输出 单字 topic1-潜水,水,蒸气,潜水 主题2-二氧化物,植物,绿色,碳 必需的输出 二元语法主题 topic1-潜水,水蒸气 topic2-绿色植物,二氧化碳 有什么主意吗? 解决方案 您可以使用word2vec从使用LDA提取的前n个主题中获取最相似的术语. LDA输出 使用抽象主题(例如:-san_fran
..
我正在尝试编写一个计算h点的函数.该功能是在秩频率数据帧上定义的.考虑以下data.frame: DATA
..
我已经设法评估了给定语料库的 tf-idf函数.如何找到每个文档的停用词和最佳词汇?我知道给定单词和文档的tf-idf低意味着它不是选择该文档的好单词. 解决方案 停用词是那些在文档中非常普遍出现的词,因此失去了它们的代表性.观察此现象的最佳方法是测量一个术语中出现的文档数量,并过滤出现在其中50%以上,或者您需要调整的前500个阈值或某种阈值中的文档. 文档中最好的术语(如更具代表
..
有时它返回所有主题的概率,一切都很好,但是有时它仅返回几个主题的概率,它们加起来并不等于一个,看来这取决于文档.通常,当它返回很少的主题时,概率加起来大约是80%,那么它是否仅返回最相关的主题?有没有办法强迫它返回所有概率? 也许我遗漏了一些东西,但是找不到有关该方法的参数的任何文档. 解决方案 我遇到了相同的问题,并通过在调用gensim.models.ldamodel.LdaMo
..
我正在尝试为Gensim中的LDA模型获取最佳主题数.我发现的一种方法是计算每个模型的对数似然并相互比较,例如在使用潜在Dirichlet分配的输入参数 因此,我研究了用Gensim计算LDA模型的对数可能性,并遇到了以下帖子:基本上说update_alpha()方法实现了Jonathan的 Huang中描述的方法. Dirichlet分布参数的最大似然估计.仍然我不知道如何在不更改代码的情
..
我只是想将文件扩展名更改为.doc.我正在尝试下面的代码,但是它不起作用.怎么会?我正在使用startingDir
..
因此,基本上,我正在文本文件内的两个尖括号内寻找4位代码.我知道我需要打开文本文件,然后逐行解析,但是我不确定在检查“文件中的行"之后构造代码的最佳方法. 我认为我可以以某种方式拆分,剥离或分区,但是我还编写了一个正则表达式,并在其上进行了编译,因此如果返回匹配对象,我认为我不能将其与基于字符串的对象一起使用操作.另外我不确定我的正则表达式是否足够贪婪... 我想将所有找到的匹配的所有
..
我正在尝试读取子文件夹中的所有'* .txt'文件,但似乎循环中存在问题.基本上,文件夹的结构如下: branch1 branch 2 txt.file result I want 1 -------- 2002----------a---------------a ---------2003----------b---------------b+c
..
我在列中有一组药品名称数据.我正在尝试从该数据中提取每种药物的名称,强度和单位.术语MG和ML是设置中强度的限定词.例如,让我们考虑以下给定的药物名称数据集. Medicine name ---------------------- FALCAN 150 MG tab AUGMENTIN 500MG tab PRE-13 0.5 ML PFS inj NS.9%w/v 250 ML
..
使用tm Corpus加载一堆文档,我需要指定编码。 所有文档都是UTF-8编码的。如果通过文本编辑器的openend内容还可以,但是语料库内容中充满了奇怪的符号(indicio。,“sœs....”) 源文本为西班牙语。 ES_es library(tm) cname
..
我想从给定文本中提取日期,日期可以是任何格式 2018年4月10日,10-04-2018,10/04/2018,2018/04/10,04.10.2018喜欢其他格式.... 我有新闻数据,想从文本中提取日期 例如:“我的朋友”将于2018年7月10日或2018年7月10日到来 我要从中提取日期给定的文本 请帮助 预先感谢 解决方案 我们使用 str_ext
..