word-frequency相关内容

合并词频数据列表

这似乎应该是一个显而易见的问题,但是列表上的教程和文档将不可用.其中许多问题源于我的文本文件的大小(数百MB),以及我试图将它们简化为系统可管理的内容的原因.结果,我正在按段进行工作,现在正在尝试合并结果. 我有多个单词频率列表(其中约40个).列表可以通过Import []获取,也可以作为Mathematica中生成的变量获取.每个列表如下所示,并且是使用Tally []和Sort []命 ..
发布时间:2020-07-14 06:16:14 其他开发

R:在R中的文档术语矩阵中查找与文档中的术语“欺诈"相关的前10个术语

我有一个以年份命名的39个文本文件的语料库-1945.txt,1978.txt .... 2013.txt. 我已将它们导入R并使用TM包创建了文档术语矩阵. 我正在尝试调查从1945年到2013年,与“欺诈"一词相关的字词是如何变化的. 所需的输出将是一个39 x 10/5的矩阵,其中以年作为行标题,将前10或5个词作为列. 任何帮助将不胜感激. 谢谢. 我的TDM的结构 ..
发布时间:2020-07-14 06:16:09 其他开发

Solr中的词频

我正在尝试使用solr获得单词的频率.当我给出此查询时: localSolr/solr/select?q=someQuery&rows=0&facet=true&facet.field=content&wt=xml solr给我类似的频率 ..
发布时间:2020-07-14 06:15:07 Java开发

使用python排序单词频率计数

我必须使用python计算文本中的单词频率.我想到了将单词保留在字典中,并对每个单词进行计数. 现在,如果我必须根据出现的次数对单词进行排序.我可以使用相同的字典来代替使用具有键作为计数和单词数组作为值的新字典吗? 解决方案 您可以使用同一词典: >>> d = { "foo": 4, "bar": 2, "quux": 3 } >>> sorted(d.items(), ke ..
发布时间:2020-07-08 09:36:31 Python

PHP中文本中最常用的单词

我在stackoverflow上找到了下面的代码,它在查找字符串中最常见的单词时效果很好.但是,我可以排除对"a,如果,您,拥有等"这样的普通单词的指望吗?还是我必须在计数后删除这些元素?我该怎么做?预先感谢. ..
发布时间:2020-07-03 07:22:37 PHP

字数:麦克罗伊的解决方案效率如何?

长话短说:1986年,一名访调员要求唐纳德·努斯(Donald Knuth)编写一个程序,该程序以文本和N作为输入,并列出按频率排列的N个最常用词。 Knuth制作了一个10页的Pascal程序,Douglas McIlroy用以下6行shell脚本回答了该问题: tr -cs A-Za-z'\n'| tr A-Z a-z | 排序| uniq -c | 排序-rn | s ..
发布时间:2020-06-03 20:03:52 其他开发

计算每个单词的频率

有一个包含一些文本文件的目录。如何计算每个文件中每个单词的频率?单词表示一组可以包含字母,数字和下划线字符的字符。 解决方案 应该计算文件中所有单词的频率: private void countWordsInFile(字符串文件,Dictionary单词) { var content = File.ReadAllText(file); var wordP ..
发布时间:2020-05-31 18:48:23 C#/.NET

有效地计算字符串中的单词频率

我正在解析一长串文本,并计算每个单词在Python中出现的次数.我有一个可以正常工作的函数,但是我正在寻找关于是否有办法使它更高效(就速度而言)以及是否还有python库函数可以为我做到这一点的建议,因此,我不会重新发明轮子? 您能建议一种更有效的方法来计算长字符串(字符串中通常超过1000个单词)中出现的最常见单词吗? 还有什么最好的方法将字典排序到列表中,其中第一个元素是最常见的单 ..
发布时间:2020-05-25 00:17:56 Python

Python nltk计算单词和短语的频率

我正在使用NLTK并试图使单词短语的计数达到特定文档的特定长度以及每个短语的频率.我将字符串标记化以获取数据列表. from nltk.util import ngrams from nltk.tokenize import sent_tokenize, word_tokenize from nltk.collocations import * data = ["this", "is", ..
发布时间:2020-05-18 01:17:34 Python

如何在Word2Vec的训练模型中计算单词频率?

我需要计算word2vec的训练模型中每个单词的频率.我想要的输出看起来像这样: term count apple 123004 country 4432180 runs 620102 ... 有可能这样做吗?我如何从word2vec中获取这些数据? 解决方案 您正在使用哪个word2vec实现? 在流行的gensim库中,在建立Word2Vec模型的词汇表 ..

如何使用nltk计算文本中存在的单词的频率

我有一个python脚本,可以读取文本并应用预处理功能以进行分析. 问题是我想计算单词的出现频率,但是系统崩溃并显示以下错误. 在tag_and_save中的文件"F:\ AIenv \ textAnalysis \ setup.py",第208行 file.write(word +"/" + tag +“(frequency =" + str(freq_tagged_data [word ..
发布时间:2020-05-18 01:07:14 Python

Postgres中字符串的词频?

是否可以从Postgres中包含文本字符串的字段中识别出不同的单词和每个单词的计数? 解决方案 像这样吗? SELECT some_pk, regexp_split_to_table(some_column, '\s') as word FROM some_table 然后轻松地获得不同的单词: SELECT DISTINCT word FROM ( ..
发布时间:2020-05-18 00:36:54 其他开发

字符串到字典的字数统计

所以我在做作业时遇到了麻烦. 编写一个函数word_counter(input_str),它使用字符串input_str并返回一个字典,该字典将input_str中的单词映射到它们的出现次数. 到目前为止,我的代码是: def word_counter(input_str): '''function that counts occurrences of words in a s ..
发布时间:2020-05-05 13:39:16 Python

在lucene索引中计算单词频率

有人可以帮助我在所有lucene索引中找到单词频率吗? 例如,如果doc A有3个单词(B),而doc C有2个单词,我想返回一个方法,该方法返回5,表示所有Lucene索引中单词(B)的频率 解决方案 已多次询问: 获取Lucene中的术语频率 如何计算一组文档的术语频率? 从Lucene索引中获取频率最高的词条 如何获取solr词频? ..
发布时间:2020-05-04 07:27:58 其他开发

在网页上找到最频繁的单词(使用Jsoup)?

在我的项目中,我必须计算维基百科文章中最常用的词。我发现Jsoup解析HTML格式,但仍然留下词频问题。在Jsoup中是否有一个函数可以计算单词的频率,或者通过任何方式来查找哪些单词在网页上最频繁使用Jsoup? 谢谢。 解决方案 是的,您可以使用Jsoup从网页获取文本,如下所示: Document doc = Jsoup.connect(“http://en.wikipe ..
发布时间:2018-06-21 16:36:41 Java开发

用前导数字排列字符串的向量

我正在做一个家庭作业问题,需要我从输入文件中读取单词,并输入一个整数k。该解决方案需要打印出一个单词及其频率列表,从最频繁到最频繁。如果唯一字的数量小于k,那么只能输出该字数。 这可能是地图等容器的蛋糕,但是这个问题限制了我只能使用向量和字符串,没有其他的STL容器。 我卡在一个文件中的所有单词列表和它们的对应点频率。现在我需要根据它们的频率对它们进行排序并输出k个单词。 问题是 ..
发布时间:2017-11-04 22:27:43 C/C++开发