corpus相关内容

R中的TermDocumentMatrix错误

我一直在研究R中的许多{tm}包的在线示例,试图创建一个TermDocumentMatrix。创建和清理语料库非常简单,但当我尝试创建矩阵时,我总是遇到错误。错误为: UseMethod(“meta”,x)出错: 没有适用于“Character”类的对象的“meta”的方法 此外:警告消息: 在mclApply(unname(Content(X)),Term Freq,Control)中: ..
发布时间:2022-08-28 20:43:46 其他开发

带有音节重音信息的英语单词的语料库/数据集?

我知道这是一个很长的尝试,但是有谁知道一个包含音节重音信息的英语单词数据集?像下面这样简单的东西会很棒: AARD vark有能力的关于帐户酸加词法广告... 解决方案 我知道的最接近的事情是 CMU 发音词典.我不认为它明确标记了重读音节,但它应该是一个开始. ..
发布时间:2022-01-21 13:33:04 其他开发

寻找数据集以测试 FULLTEXT 样式搜索

我正在寻找一个文本语料库来运行一些试验全文样式数据搜索.要么是我可以下载的东西,要么是生成它的系统.更随机的东西会更好,例如1,000,000 篇维基百科文章,格式易于插入 2 列数据库(id、文本). 有什么想法或建议吗? 解决方案 因为我熟悉它,所以我会把它扔出去 - Prosper.com 提供他们的会员贷款列表以供分析 通过 XML 导出.导出将包含大约 50,000 个带有 ..
发布时间:2022-01-21 12:55:28 数据库

以编程方式安装 NLTK 语料库/模型,即没有 GUI 下载器?

我的项目使用 NLTK.如何列出项目的语料库&模型要求,以便它们可以自动安装?我不想通过nltk.download() GUI,一一安装包. 另外,有什么方法可以冻结相同的需求列表(如 pip freeze)? 解决方案 NLTK 站点确实在此页面底部列出了用于下载包和集合的命令行界面: http://www.nltk.org/data 命令行用法因您使用的 Python ..
发布时间:2022-01-13 17:04:29 其他开发

NLP:构建(小型)语料库,或“从哪里获得大量不太专业的英语文本文件?"

有没有人建议在哪里可以找到用于小型语料库的日常英语文本的档案或集合?我一直在使用古腾堡项目书籍作为工作原型,并希望融入更多现代语言.最近的答案这里间接指出了一个很棒的usenet 电影评论存档,我没有想到,而且非常好.对于这个特定的程序,技术使用网档案或编程邮件列表会使结果倾斜并且难以分析,但任何类型的一般博客文本、聊天记录或任何可能对其他人有用的东西都会非常有帮助.此外,非常感谢部分或可下载的研 ..
发布时间:2022-01-02 17:59:08 其他开发

来自 nltk 模块的类似方法在不同的机器上产生不同的结果.为什么?

我已经教了一些关于使用 Python 进行文本挖掘的入门课程,课程中使用提供的练习文本尝试了类似的方法.一些学生对 text1.similar() 的结果与其他学生不同. 所有版本等都是一样的. 有谁知道为什么会出现这些差异?谢谢. 在命令行中使用的代码. 蟒蛇>>>导入 nltk>>>nltk.download() #这里使用弹窗下载文本>>>从 nltk.book 导入 * ..
发布时间:2022-01-02 17:58:06 Python

如何“更新"现有的命名实体识别模型 - 而不是从头开始创建?

请参阅 OpenNLP - 命名实体识别的教程步骤:链接到教程我正在使用 此处 找到的“en-ner-person.bin"模型在教程中,有关于训练和创建新模型的说明.有没有办法用额外的训练数据“更新"现有的“en-ner-person.bin"? 假设我有一个包含 500 个其他人名的列表,否则这些人名不会被识别为人 - 如何生成新模型? 解决方案 抱歉,我花了一段时间才整理出一个 ..
发布时间:2022-01-02 17:21:20 Java开发

在 NLTK/Python 中使用电影评论语料库进行分类

我希望按照 NLTK 第 6 章的思路进行一些分类.这本书似乎跳过了创建类别的步骤,我不确定我做错了什么.我的脚本在这里,响应如下.我的问题主要源于第一部分——基于目录名称的类别创建.这里的其他一些问题使用了文件名(即 pos_1.txt 和 neg_1.txt),但我更喜欢创建可以将文件转储到的目录. from nltk.corpus import movie_reviews评论 = Cate ..
发布时间:2022-01-02 17:12:28 Python

使用 NLTK 创建新语料库

我认为我的标题的答案通常是去阅读文档,但我浏览了NLTK书 但它没有给出答案.我对 Python 有点陌生. 我有一堆 .txt 文件,我希望能够使用 NLTK 为语料库 nltk_data 提供的语料库函数. 我已经尝试过 PlaintextCorpusReader 但我无法进一步: >>>import nltk>>>from nltk.corpus import Plaintex ..
发布时间:2022-01-02 17:11:26 Python

从 TAG 格式创建更复杂的正则表达式

所以我无法弄清楚我的正则表达式有什么问题.(原始对话,包括对这些 TAG 格式的解释,可以在这里找到:从 TAG 格式转换为 Corpus 的 Regex). 我以这样的字符串开头: Arms_NNS folded_VVN ,_, NNS 也可以是 NN,VVN 也可以是 VBG.我只想找到那个和其他具有相同标签的字符串(NNS 或 NN 后跟 b VVN 或 VBG 后跟逗号) ..
发布时间:2021-11-26 16:07:18 其他开发

从 TAG 格式创建更复杂的正则表达式

所以我无法弄清楚我的正则表达式有什么问题.(原始对话,包括对这些 TAG 格式的解释,可以在这里找到:从 TAG 格式转换为 Corpus 的 Regex). 我以这样的字符串开头: Arms_NNS folded_VVN ,_, NNS 也可以是 NN,VVN 也可以是 VBG.我只想找到那个和其他具有相同标签的字符串(NNS 或 NN 后跟 b VVN 或 VBG 后跟逗号) ..
发布时间:2021-11-25 08:40:24 C#

通过python连接时如何更改默认的Mysql连接超时?

我使用 python 连接到 mysql 数据库 con = _mysql.connect('localhost', 'dell-pc', '', 'test')我编写的程序完全执行需要很多时间,即大约 10 个小时.实际上,我正在尝试从语料库中读取不同的单词.读取完成后出现超时错误. 我检查了 Mysql 默认超时时间: +----------------------------+--- ..
发布时间:2021-11-20 21:34:13 数据库

如何重新连接到 R tm 包中的 PCorpus?

我创建了一个 PCorpus,据我所知它存储在 HDD 上,代码如下: pc = PCorpus(vs, readerControl = list(language = "pl"), dbControl = list(dbName = "pcorpus", dbType = "DB1")) 我以后如何重新连接到该数据库? 解决方案 据我所知,你不能.“数据库"实际上是一个文件哈希对象, ..
发布时间:2021-09-08 20:09:56 其他开发

使用字典时 DocumentTermMatrix 计数错误

实际上,我正在尝试使用朴素贝叶斯算法基于 twitter 数据进行情感分析. 我查看了 2000 条推文. 将数据输入 R studio 后,我按如下方式拆分和预处理日期: train_size = floor(0.75 * nrow(Tweets_Model_Input))set.seed(123)train_sub = 样本(seq_len(nrow(Tweets_Model_I ..
发布时间:2021-09-08 20:09:48 其他开发

如何在 tm 中仅为 TermDocumentMatrix 创建选择语料库术语的子集

我有一个庞大的语料库,我只对我预先知道的少数术语的外观感兴趣.有没有办法使用 tm 包从语料库创建术语文档矩阵,其中只使用和包含我预先指定的术语? 我知道我可以对语料库的结果 TermDocumentMatrix 进行子集化,但由于内存大小限制,我想避免构建完整的术语文档矩阵. 解决方案 您可以通过构建自定义转换函数来修改语料库以仅保留您想要的术语.请参阅 tm 包的插图 和 con ..
发布时间:2021-09-08 20:08:54 其他开发

如何在 R tm 包中显示语料库文本?

我是 R 和 tm 包的新手,所以请原谅我的愚蠢问题;-)如何在 R tm 包中显示纯文本语料库的文本? 我在一个语料库中加载了一个包含 323 个纯文本文件的语料库: src 但是当我调用语料库时: 语料库[[1]] 我总是得到一些这样的输出而不是语料库文本本身: >元数据:7内容:字符数:144内容:字符数:141内容:字符数:224内容:字符数:75内容:字符数:105 ..
发布时间:2021-09-08 20:08:23 其他开发