information-retrieval相关内容

计算热门话题或标签的最佳方法是什么?

许多网站提供一些统计数据,例如“过去 24 小时内最热门的话题".例如,Topix.com 在其“新闻趋势"部分中显示了这一点.在那里,您可以看到提及次数增长最快的主题. 我想计算这样一个“嗡嗡声";对于一个话题,太.我怎么能这样做?该算法应该对总是不太热的主题进行加权.通常(几乎)没人提及的话题应该是最热门的话题. Google 提供“热门趋势",topix.com 显示“热门话题" ..
发布时间:2022-01-18 21:03:37 其他开发

Java 开源文本挖掘框架

我想知道最好的基于 Java 的开源文本挖掘框架,以使用 botg 机器学习和字典方法. 我正在使用 Mallet,但没有那么多文档,我不知道它是否符合我的所有要求. 解决方案 老实说,我认为这里提供的几个答案非常好.但是,为了满足我的要求,我选择使用 Apache UIMA 和 ClearTK.它支持多种 ML 方法,我没有任何许可证问题.另外,我可以对其他 ML 方法进行封装,并 ..

使用 Lucene 提升新文档

Lucene 是否提供了一种增加新文档的方法? 例如,假设 Lucene 文档包含一个日期字段.是否有可能在不让用户改变她的查询的情况下,以更高的分数呈现最新的文档? 我不想采用粗略的“按日期排序"解决方案,因为它会完全取消评分算法. 解决方案 将文档放入索引时使用 Document.setBoost(float value). 您可以不断地重新调整现有文档上的值,或者拥 ..
发布时间:2022-01-15 12:53:42 Java开发

为什么 Lucene 不支持对现有文档进行任何类型的更新

我的用例涉及索引一个 Lucene 文档,然后在以后的多个场合添加指向该现有文档的术语,而不是为每个新术语删除和重新添加整个文档(因为性能,而不是保留原始条款). 我知道文档不能真正更新.我的问题是为什么? 或者更准确地说,为什么不支持所有形式的更新(术语、存储字段)? 为什么不可能添加另一个术语来指向现有文档 - 从技术上讲:所需要的不仅仅是将现有的文档 ID 放在术语的发布列表中 ..
发布时间:2022-01-15 12:52:27 Java开发

如何检测文本文档中的重复项并返回重复项的相似性?

我正在编写一个爬虫来从某个网站获取内容,但内容可以复制,我想要为了避免这种情况.所以我需要一个函数可以在两个文本之间返回相同的百分比来检测两个可能重复的内容示例: 文本 1:“我正在写一个爬虫" 文本 2:“我正在编写一些文本爬虫来获取" 比较函数将文本 2 作为相同文本 1 返回 5/8%(其中 5 是文本 2 相同文本 1 的字数(按词序比较),8 是文本 2 的总字数).如果删 ..
发布时间:2022-01-02 17:17:57 其他开发

关于结构 tcp_info 的良好文档

我正在获取 tcp 连接的性能参数,其中一个参数是带宽.我打算使用从 linux 2.6 开始支持的 tcp_info 结构,它保存有关 tcp 连接的元数据.可以使用 tcp_info 上的 getsockopt() 函数调用来检索信息.我花了很多时间找到一个很好的文档来解释该结构中的所有参数,但找不到. 此外,我测试了一个小程序,从 tcp_info 中检索 tcp 连接的值,在那里我发 ..
发布时间:2021-12-28 13:03:01 其他开发

计算两个列表之间的相似度

编辑:由于每个人都感到困惑,我想简化我的问题.我有两个有序列表.现在,我只想计算一个列表与另一个列表的相似程度. 例如, 1,7,4,5,8,91、7、5、4、9、6 什么是衡量这两个列表之间相似性的好方法,因此顺序很重要.例如,我们应该惩罚相似性,因为 4,5 在两个列表中交换? 我有 2 个系统.一个最先进的系统和一个我实施的系统.给定一个查询,两个系统都返回一个文档排序列表. ..

如何从 PDF 文件中提取突出显示的部分

有没有办法以编程方式从 PDF 文件中提取突出显示的文本?欢迎任何语言.我找到了几个包含 Python、Java 和 PHP 的库,但没有一个能胜任. 解决方案 好的,经过查找,我找到了将突出显示的文本从 pdf 导出到文本文件的解决方案.不是很难: 首先,使用您喜欢使用的工具突出显示文本(就我而言,我在使用 Goodreader 应用程序在 iPad 上阅读时突出显示). 将 ..
发布时间:2021-12-14 16:06:34 其他开发

有哪些用于推荐相关文章的经过验证的真实算法?

很常见的情况,我敢打赌.您有一个博客或新闻网站,并且有很多文章或博客或任何您称之为的东西,并且您想在每篇文章的底部推荐其他似乎相关的内容. 让我们假设每个项目的元数据很少.也就是说,没有标签、类别.将其视为一大块文本,包括标题和作者姓名. 您如何查找可能相关的文档? 我对实际算法很感兴趣,而不是现成的解决方案,虽然我可以看看用 ruby​​ 或 python 实现的东西,或者依赖 ..

Python:tf-idf-cosine:查找文档相似度

我正在学习 第 1 部分 上的教程 &第 2 部分.不幸的是,作者没有时间进行最后一节,其中涉及使用余弦相似度来实际找到两个文档之间的距离.我在 stackoverflow 的以下链接的帮助下遵循了文章中的示例,其中包括上面链接中提到的代码(只是为了让生活更轻松) from sklearn.feature_extraction.text import CountVectorizer从 sklea ..

是否有任何 API 可以让我按图像搜索?

我有一张图片,我想搜索一下它是什么.有任何可用的 API 吗? 解决方案 我相信有不少.您想搜索基于内容的图像检索 (CBIR).维基百科有一个 CBIR 引擎 的页面,其中包括大量开源引擎.例如,isk-daemon 和 LIRE 都是开源的 CBIR 库: isk-daemon 是一个开源的独立服务器和库,能够将基于内容的(视觉)图像搜索添加到任何相关图像网站或软件. LI ..

如何从几个文本文件中获取元组列表?

我想访问46个子目录中的.txt文件,并提取每个文件文本中的0和1.到目前为止,我已经编写了以下代码: 从pathlib导入路径def count_0s(路径):对于路径中的p:list_zeros = []list_ones = []对于p.read_text().splitlines()中的行:零= 0零+ = line.count('0')1 = 0一个+ = line.count('1' ..
发布时间:2021-05-15 21:12:39 Python

如何在文档中执行语义相似度

我正在做一个项目,其中我需要根据像搜索引擎这样的搜索查询对文本文档进行排名,但是我需要对具有单词或句子的语义相似性的文档进行排名,关于如何使用Java查找语义相似性,我无法开始.是否有任何链接或任何论文,通过它我可以开始发现文档或任何构想中单词的语义相似性. 解决方案 看看这个 ..
发布时间:2021-05-15 21:12:36 其他开发

Java NLP:标记文本时提取索引

当标记文本字符串时,我需要提取标记词的索引.例如,给定: “玛丽没有亲吻约翰" 我需要类似的东西: [[Mary,0),(did,5),(n't,8),(kiss,12),(John,17)] 0、5、8、12和17对应于令牌开始处的索引(在原始字符串中).我不能仅仅依靠空格,因为有些单词变成了2个标记.此外,我不能仅在字符串中搜索令牌,因为该单词可能会出现多次. 一个巨大的障 ..
发布时间:2021-05-15 21:12:33 Java开发

如何显示NDCG分数很重要

假设我的检索系统的NDCG分数是0.8.我如何解释这个分数.我如何告诉读者这个分数很重要? 解决方案 要了解这一点,我们来查看一个标准化折扣累积增益(nDCG)的示例. 对于nDCG,我们需要DCG和理想DCG(IDCG) 首先让我们了解什么是累积增益(CG), 示例:假设我们有[Doc_1,Doc_2,Doc_3,Doc_4,Doc_5]Doc_1是100%相关的Doc_2具有70 ..
发布时间:2021-05-15 21:12:30 其他开发