text-analysis相关内容

用于情感分析的训练数据

我可以从哪里获得在企业领域中已被归类为正面/负面情绪的文档语料库?我想要大量为公司提供评论的文档,例如分析师和媒体提供的公司评论. 我发现有产品和电影评论的语料库.是否有业务领域的语料库,包括与业务语言相匹配的公司评论? 解决方案 http://www.cs.cornell.edu/home/llee/data/ http://mpqa.cs.pitt.edu/corpora/ ..

将稀疏矩阵 (csc_matrix) 转换为 Pandas 数据帧

我想将此矩阵转换为熊猫数据框.csc_matrix 括号中的第一个数字应该是索引,第二个数字应该是列,最后的数字是数据. 我想这样做是为了在文本分析中做特征选择,第一个数字代表文档,第二个数字是词的特征,最后一个数字是TFIDF分数. 获取数据框帮助我将文本分析问题转化为数据分析. 解决方案 from scipy.sparse import csc_matrixcsc = ..
发布时间:2022-01-02 17:26:57 Python

NLP:定性地“积极"与“负面"句子

我需要您的帮助来确定分析“正面"与“负面"的行业特定句子(即电影评论)的最佳方法.之前看过OpenNLP之类的库,但是太底层了——它只是给了我基本的句子构成;我需要的是一个更高层次的结构:- 希望有词表- 希望可以在我的数据集上训练 谢谢! 解决方案 您正在寻找的通常称为 情绪分析.通常,情绪分析无法处理微妙的微妙之处,例如讽刺或讽刺,但如果您将大量数据投入其中,它的表现会很好. ..
发布时间:2022-01-02 17:23:53 其他开发

如何从一系列文本条目中提取常见/重要的短语

我有一系列文本项目——来自 MySQL 数据库的原始 HTML.我想在这些条目中找到最常见的短语(不是最常见的短语,理想情况下,不强制逐字匹配). 我的例子是 Yelp.com 上的任何评论,它显示了来自给定餐厅数百条评论的 3 个片段,格式为: “尝尝汉堡"(在 44 条评论中) 例如,此页面的“评论要点"部分: http://www.yelp.com/biz/sushi ..
发布时间:2022-01-02 17:22:10 其他开发

如何检测文本文档中的重复项并返回重复项的相似性?

我正在编写一个爬虫来从某个网站获取内容,但内容可以复制,我想要为了避免这种情况.所以我需要一个函数可以在两个文本之间返回相同的百分比来检测两个可能重复的内容示例: 文本 1:“我正在写一个爬虫" 文本 2:“我正在编写一些文本爬虫来获取" 比较函数将文本 2 作为相同文本 1 返回 5/8%(其中 5 是文本 2 相同文本 1 的字数(按词序比较),8 是文本 2 的总字数).如果删 ..
发布时间:2022-01-02 17:17:57 其他开发

如何使用 SQL (BigQuery) 计算 TF/IDF

我正在对 reddit 评论进行文本分析,我想在 BigQuery 中计算 TF-IDF. 解决方案 这个可能更容易理解 - 采用一个已经包含每个电视台和每天单词数的数据集: #在这个查询中date+station的组合代表一个“文档"带有数据 AS (选择 *从`gdelt-bq.gdeltv2.iatv_1grams`20190601 和 20190629 之间的日期AND 站不在( ..
发布时间:2021-12-30 22:44:22 其他开发

从小文本内容(如推文)生成标签

我之前已经问过一个类似的问题,但我没有注意到我有很大的限制:我正在处理小文本集,例如用户推文以生成标签(关键字). 而且似乎已接受的建议(逐点互信息算法)旨在处理更大的文档. 有了这个限制(处理一小组文本),我如何生成标签? 问候 解决方案 多词标签的两阶段方法 您可以将所有推文合并到一个更大的文档中,然后从整个推文集合中提取n 个最有趣的搭配.然后,您可以返回并使 ..
发布时间:2021-12-25 20:32:44 其他开发

如何在大量文本中查找常用短语

我正在做一个项目,我需要在大量文本中挑选出最常见的短语.例如,假设我们有如下三个句子: 狗跳过了女人. 狗跳上了车. 狗跳了上了楼梯. 从上面的例子中,我想提取“the dog jumped",因为它是文本中最常见的短语.起初我想,“哦,让我们使用有向图 [带有重复节点]": 有向图 http://img.skitch.com/20091218-81ii2femnfgfipd ..
发布时间:2021-12-24 14:46:02 AI人工智能

Java 中 Tf Idf 的任何教程或代码

我正在寻找一个可以计算 tf-idf 计算的简单 java 类.我想对 2 个文档进行相似性测试.我发现了很多使用 tf-idf 类的 BIG API.我不想使用大的 jar 文件,只是为了做我的简单测试.请帮忙 !或者至少有人可以告诉我如何找到TF?和以色列国防军?我会计算结果:)或者如果你能告诉我一些好的 Java 教程.请不要告诉我寻找谷歌,我已经做了 3 天,但找不到任何东西:(也请不要向 ..
发布时间:2021-12-20 14:29:11 Java开发

从乱码的 PDF 中提取文本

我有一个包含重要文本信息的 PDF 文件. 问题是我无法提取文本,我得到的只是一堆乱码.如果我将文本从 PDF 阅读器复制并粘贴到文本文件中,也会发生同样的情况.即使在 Acrobat Reader 中 File -> Save as text 也失败了. 我已经使用了所有可以使用的工具,结果都是一样的.我相信这与字体嵌入有关,但我不知道究竟是什么? 我的问题: 这种奇怪的 ..
发布时间:2021-12-14 16:07:16 其他开发

Java 文本分析库

我正在寻找一种 Java 驱动的解决方案,以满足分析句子以记录关键字是正面使用还是负面使用的要求. 即关键字可能是“白菜"和句子:- '我喜欢卷心菜但不喜欢豌豆' 而且我想要某种类型的 Java 文本分析器来将此记录为肯定的.lucene (Hibernate-Search) 库可以用于此目的吗? 有什么想法吗? 解决方案 您正在寻找“情绪分析".一种可能性是 Li ..
发布时间:2021-11-27 12:00:17 Java开发

在 Azure ML 中自定义命名实体识别模型

我们可以使用单独的训练数据集在 Azure ML Studio 中自定义命名实体识别 (NER) 模型吗?我想做的是从文本中找出非英文名称.(训练数据集包括将用于训练的名称集) 解决方案 遗憾的是,该模块计划在未来使用一组自定义实体执行 NER,但目前尚不可用. 如果您熟悉 Python 并愿意付出额外的努力,您可以考虑使用 自然语言工具包(NLTK).Sujit Pal 有一个不错 ..

使用“TermDocumentMatrix"时出错和“Dist"R中的函数

我一直在尝试复制示例 此处:但我在此过程中遇到了一些问题. 直到这里一切正常: docsTDM UseMethod("meta", x) 中的错误:没有适用于“元"的方法应用于“字符"类的对象 另外:警告信息: 在 mclapply(unname(content(x)), termFreq, control) 中: 所有调度的内核都遇到了用户代码中的错误 所以我能够通过改变 ..
发布时间:2021-06-07 20:38:15 其他开发

检查字符串是否是名称的可能缩写

我正在尝试开发一个 python 算法来检查一个字符串是否可以是另一个单词的缩写.例如 fck 是 fc kopenhavn 的匹配项,因为它匹配单词的第一个字符.fhk 不匹配. fco 不应与 fc kopenhavn 匹配,因为没有人会将 FC Kopenhavn 缩写为 FCO. irl 与现实生活中的 匹配. ifk 是 ifk goteborg 的匹配项. aik 是 a ..
发布时间:2021-06-07 20:36:03 Python

计算单词之间的相关系数?

对于文本分析程序,我想分析文本中某些单词的同时出现.例如,我希望看到“巴拉克"和“奥巴马"一词比其他词更经常出现(即具有正相关). 这似乎并不那么困难.但是,老实说,我只知道如何计算两个数字之间的相关性,而不是如何计算文本中两个单词之间的相关性. 我如何最好地解决这个问题? 如何计算单词之间的相关性? 我考虑使用条件概率,因为奥巴马比奥巴马更有可能.但是,我尝试解决的问题更为根 ..
发布时间:2021-04-24 20:35:39 其他开发

文本分析-无法在csv或xls文件中写入Python程序的输出

嗨,我正在尝试使用python 2.x中的朴素贝叶斯分类器进行情感分析.它使用txt文件读取情感,然后根据示例txt文件情感给出正或负输出. 我想要输出与输入相同的形式,例如我有一个让let坐着1000个原始情感的文本文件,并且我希望输出对每个情感都显示正面还是负面. 请帮忙. 下面是我正在使用的代码 import math import string def Naive_Bayes_Cl ..
发布时间:2020-05-18 01:05:36 Python