qdap - IT屋-程序员软件开发技术分享社区

创建具有 4M 行的语料库和 DTM 的更有效方法

我的文件有超过 400 万行，我需要一种更有效的方法将我的数据转换为语料库和文档术语矩阵，以便我可以将其传递给贝叶斯分类器. 考虑以下代码: 库(tm)GetCorpus 输出: >检查(公司)>[[1]]>让大狗狩猎[[2]] ..

发布时间：2022-01-13 19:20:26 r data.table corpus term-document-matrix qdap 其他开发

R将语料库分解成句子

我有许多 PDF 文档，我已将它们读入带有库 tm 的语料库中.如何将语料库分解成句子? 这可以通过使用readLines 后跟sentSplit 从包qdap [*] 读取文件来完成.该功能需要一个数据框.它还需要放弃语料库并单独读取所有文件. 如何通过 tm 中的语料库传递函数 sentSplit {qdap}?或者有更好的方法吗? 注意:在库openNLP中有一个函数sen ..

发布时间：2021-12-28 12:16:15 r split tm sentence qdap 其他开发

将书面数字转换为 R 中的数字

有谁知道将数字的文本表示转换为实际数字的函数，例如'20305' 变成 20305.我在数据帧行中写了数字，想将它们转换为数字. 在 qdap 包中，您可以用单词替换数字表示的数字(例如，1001 变成一千)，但反过来不行: 库(qdap)replace_number("我喜欢 346457 个冰淇淋筒.")[1] “我喜欢三十四万六千四百五十七个蛋卷冰淇淋." 解决方案这是一个可以 ..

发布时间：2021-12-22 19:44:36 r text qdap 其他开发

将短语列表与文档语料库匹配并返回短语频率

我有一个短语列表和一个文档语料库.语料库中有 100k+ 个短语和 60k+ 个文档.这些短语可能/可能不存在于语料库中.我期待找到语料库中每个短语的词频. 示例数据集: 短语 ..

发布时间：2021-09-06 19:41:58 r text-mining tm word-frequency qdap 其他开发

将书写的数字转换为 R 中的数字

有谁知道将数字的文本表示转换为实际数字的函数，例如'20305' 变成 20305.我在数据帧行中写了数字，想将它们转换为数字. 在包 qdap 中，您可以用单词替换数字表示的数字(例如，1001 变成一千一)，但反过来不行: 库(qdap)replace_number("我喜欢 346457 个冰淇淋筒.")[1] “我喜欢三十四万六千四百五十七个蛋卷冰淇淋." 解决方案这是一个可 ..

发布时间：2021-09-06 19:03:42 r text qdap 其他开发

替换 R 中的字符串，给出模式向量和替换向量

给定一个我想替换的具有不同占位符的字符串，R 是否有一个函数可以替换所有给定的模式向量和替换向量? 我设法用一个列表和一个循环来完成 >图书馆(字符串)>tt_ori "，ttlist[[var]]))+ tt_out ..

发布时间：2021-08-31 18:46:57 r stringr qdap 其他开发

将字符串值替换为R中查找列表中的值

我有一个数据集，其中包含之类的列 string ..

发布时间：2020-11-21 19:06:50 r replace gsub qdap 其他开发

R将语料库分解为句子

我有许多PDF文档，已经将其阅读成库tm的语料库.一个人怎么能把语料分解成句子呢? 这可以通过从软件包qdap [*]中读取readLines和sentSplit的文件来完成.该功能需要一个数据框.它还将需要放弃语料库并单独读取所有文件. 如何在tm中的语料库上传递函数sentSplit {qdap}?还是有更好的方法?. 注意:库openNLP中有一个函数sentDetect， ..

发布时间：2020-07-06 23:21:58 r split tm sentence qdap 其他开发

在不使用sendSplit的情况下使用R的qdap软件包估计文档极性

我想将qdap的polarity函数应用于文档向量，每个文档可以包含多个句子，并为每个文档获取相应的极性.例如: library(qdap) polarity(DATA$state)$all$polarity # Results: [1] -0.8165 -0.4082 0.0000 -0.8944 0.0000 0.0000 0.0000 -0.5774 0.0000 [10] ..

发布时间：2020-05-18 00:53:16 r nlp sentiment-analysis qdap 其他开发

我有一个很长的字符向量(例如"Hello World"等)，有1.7M行，我需要使用两个向量之间的映射来替换其中的单词，并将结果保存在相同的向量中.这是一个简单的示例: library(qdap) line = c("one", "two one", "four phones") e = c("one", "two") r = c("ONE", "TWO") line = mgsub(e,r ..

发布时间：2020-05-08 21:42:45 r memory-management qdap 其他开发

更有效的手段创建一个语料库和DTM有4M行

我的文件有超过400万行，我需要一个更有效的方式将我的数据转换为语料库和文档术语矩阵，以便我可以将其传递给贝叶斯分类器。请考虑以下代码： library（tm） GetCorpus { doc.corpus ..

发布时间：2017-03-12 10:24:56 r data.table corpus term-document-matrix qdap 其他开发

qdap相关内容