qdap相关内容
我的文件有超过 400 万行,我需要一种更有效的方法将我的数据转换为语料库和文档术语矩阵,以便我可以将其传递给贝叶斯分类器. 考虑以下代码: 库(tm)GetCorpus 输出: >检查(公司)>[[1]]>让大狗狩猎[[2]]
..
我有许多 PDF 文档,我已将它们读入带有库 tm 的语料库中.如何将语料库分解成句子? 这可以通过使用readLines 后跟sentSplit 从包qdap [*] 读取文件来完成.该功能需要一个数据框.它还需要放弃语料库并单独读取所有文件. 如何通过 tm 中的语料库传递函数 sentSplit {qdap}?或者有更好的方法吗? 注意:在库openNLP中有一个函数sen
..
有谁知道将数字的文本表示转换为实际数字的函数,例如'20305' 变成 20305.我在数据帧行中写了数字,想将它们转换为数字. 在 qdap 包中,您可以用单词替换数字表示的数字(例如,1001 变成一千),但反过来不行: 库(qdap)replace_number("我喜欢 346457 个冰淇淋筒.")[1] “我喜欢三十四万六千四百五十七个蛋卷冰淇淋." 解决方案 这是一个可以
..
我有一个短语列表和一个文档语料库.语料库中有 100k+ 个短语和 60k+ 个文档.这些短语可能/可能不存在于语料库中.我期待找到语料库中每个短语的词频. 示例数据集: 短语
..
有谁知道将数字的文本表示转换为实际数字的函数,例如'20305' 变成 20305.我在数据帧行中写了数字,想将它们转换为数字. 在包 qdap 中,您可以用单词替换数字表示的数字(例如,1001 变成一千一),但反过来不行: 库(qdap)replace_number("我喜欢 346457 个冰淇淋筒.")[1] “我喜欢三十四万六千四百五十七个蛋卷冰淇淋." 解决方案 这是一个可
..
给定一个我想替换的具有不同占位符的字符串,R 是否有一个函数可以替换所有给定的模式向量和替换向量? 我设法用一个列表和一个循环来完成 >图书馆(字符串)>tt_ori ",ttlist[[var]]))+ tt_out
..
我有一个数据集,其中包含 之类的列 string
..
我有许多PDF文档,已经将其阅读成库tm的语料库.一个人怎么能把语料分解成句子呢? 这可以通过从软件包qdap [*]中读取readLines和sentSplit的文件来完成.该功能需要一个数据框.它还将需要放弃语料库并单独读取所有文件. 如何在tm中的语料库上传递函数sentSplit {qdap}?还是有更好的方法?. 注意:库openNLP中有一个函数sentDetect,
..
我想将qdap的polarity函数应用于文档向量,每个文档可以包含多个句子,并为每个文档获取相应的极性.例如: library(qdap) polarity(DATA$state)$all$polarity # Results: [1] -0.8165 -0.4082 0.0000 -0.8944 0.0000 0.0000 0.0000 -0.5774 0.0000 [10]
..
我有一个很长的字符向量(例如"Hello World"等),有1.7M行,我需要使用两个向量之间的映射来替换其中的单词,并将结果保存在相同的向量中.这是一个简单的示例: library(qdap) line = c("one", "two one", "four phones") e = c("one", "two") r = c("ONE", "TWO") line = mgsub(e,r
..
我的文件有超过400万行,我需要一个更有效的方式将我的数据转换为语料库和文档术语矩阵,以便我可以将其传递给贝叶斯分类器。 请考虑以下代码: library(tm) GetCorpus { doc.corpus
..