indexing相关内容

使用 lucene 改进多线程索引

我正在尝试使用多个线程在 Lucene 中构建我的索引.因此,我开始编写代码并编写了以下代码.首先,我找到文件,并为每个文件创建一个线程来索引它.之后我加入线程并优化索引.它有效,但我不确定......我可以大规模信任它吗?有什么办法可以改善吗? import java.io.File;导入 java.io.FileFilter;导入 java.io.FileReader;导入 java.io. ..
发布时间:2022-01-15 13:10:52 Java开发

Lucene.Net 最佳实践

使用 Lucene.Net 的最佳实践是什么?或者我在哪里可以找到一个好的 lucene.net 使用示例? 解决方案 如果你打算使用 Lucene,我会买一本从头到尾的好书.Lucene 的学习曲线非常陡峭(在我看来).重要的不仅仅是知道如何搜索您的 - 它还涉及索引它.进行基本搜索很容易,但是创建一个包含数百万条数据记录的索引并且仍然能够对其进行闪电般的快速搜索是可能的,但非常困难.没 ..
发布时间:2022-01-15 13:08:43 C#/.NET

Apache Lucene:如何在索引时使用 TokenStream 手动接受或拒绝令牌

我正在寻找一种使用 Apache Lucene 编写自定义索引的方法(准确地说是 PyLucene,但 Java 的答案很好). 我想做的是:当向索引添加文档时,Lucene 会对其进行标记,删除停用词等.如果我不是,通常使用 Analyzer 来完成搞错了. 我想要实现的是以下内容:在 Lucene 存储给定术语之前,我想执行查找(例如,在字典中)以检查是否保留该术语或丢弃它(如果该 ..
发布时间:2022-01-15 13:03:07 Java开发

Lucene 4.0 IndexWriter updateDocument 用于数字项

我只是想知道如何根据数字字段更新(删除/插入)文档.到目前为止,我这样做了: LuceneManager.updateDocument(writer, new Term("id", NumericUtils.intToPrefixCoded(sentenceId)), newDoc); 但现在在 Lucene 4.0 中,NumericUtils 类已更改为 this 我不太明白.有什么帮助吗 ..
发布时间:2022-01-15 13:01:42 Java开发

Lucene 和特殊字符

我正在使用 Lucene.Net 2.0 来索引数据库表中的某些字段.其中一个字段是允许特殊字符的“名称"字段.当我执行搜索时,它找不到包含带有特殊字符的术语的文档. 我这样索引我的字段: Directory DALDirectory = FSDirectory.GetDirectory(@"C:\Indexes\Name", false);Analyzer 分析器 = new Stand ..
发布时间:2022-01-15 12:55:32 C#/.NET

使用 lucene 进行多语言搜索

我正在进行多语言搜索.并且我会使用 lucene 作为工具来做这件事. 我已经有翻译的内容了,每个文档会有 3 或 4 种语言. 对于索引和搜索,可能有 4 种策略,对于每个文档/内容: 每种语言都在不同的索引/目录中编入索引. 每种语言都在不同的文档中编入索引,但在同一个索引中. 每种语言都被索引在不同的字段中,但在同一个文档中. 所有语言都被索引在文档的同一个字段中 ..
发布时间:2022-01-15 12:53:09 其他开发

Apache Lucene 8.4.1 如何获取索引字段和术语列表?

我是 Apache Lucene 的新手,我正在使用 Apache Lucene 8.4.1,我可以进行 Lucene 索引和搜索,但不知道如何使用 java 读取和列出索引/打印索引.如何获取索引字段和术语列表?. 我可以通过使用从其他 Stackoverflow 文章中获取的以下函数来获取归档列表. public static String[] getFieldNames(IndexR ..
发布时间:2022-01-15 12:51:25 其他开发

如何在 Lucene 3.5.0 中提取文档术语向量

我正在使用 Lucene 3.5.0,我想输出每个文档的术语向量.例如,我想知道一个词在所有文档和每个特定文档中的频率.我的索引代码是: import java.io.FileFilter;导入 java.io.FileReader;导入 java.io.IOException;导入java.io.File;导入 java.io.FileReader;导入 java.io.BufferedRea ..
发布时间:2022-01-15 12:48:01 Java开发

像关系数据库一样使用 Lucene

我只是想知道我们是否可以在 lucene 中实现一些 RDBMS 功能. 示例:1) 我有 10,000 个项目文档(pdf 文件),必须对其内容进行索引,以使它们可供搜索.2)每个文件都与一个项目有关.项目可以包含项目名称、编号、开始日期、结束日期、位置、类型等详细信息. 我必须在 pdf 文件的内容中搜索给定关键字,但在显示结果时,我想显示项目元数据,如第 (2) 点所述. ..
发布时间:2022-01-15 12:47:48 其他开发

在 JavaScript 中通过 JSON 对象进行类似 Lucene 的搜索

我有一个相当大的 JSON 对象数组(它是一个具有艺术家、专辑等属性的音乐库,用 loadonce=true 提供 jqgrid),我想通过整个集合实现类似 lucene(类似谷歌)的查询- 但在本地,即在浏览器中,不与网络服务器通信.有什么 javascript 框架可以帮助我吗? 解决方案 浏览您的记录,通过组合所有搜索来创建一次性索引单个字符串字段中的字段称为索引. 将这些 ..
发布时间:2022-01-15 12:46:03 前端开发

如何在 Lucene 3.0.2 中索引和搜索文本文件?

我是 Lucene 的新手,在创建查询文本文件集合的简单代码时遇到了一些问题. 我试过 这个例子,但是和新版本的Lucene不兼容. UDPATE: 这是我的新代码,但还是不行还没有. 解决方案 Lucene 是一个相当大的话题,涉及到很多类和方法,如果不了解一些基本概念,通常是无法使用它的.如果您需要快速可用的服务,请改用 Solr.如果您需要完全控制 Lucene,请继续阅 ..
发布时间:2022-01-15 12:43:18 Java开发

你如何在 .net 上运行 Lucene?

Lucene 是一个优秀的搜索引擎,但是 .NET 版本落后于 Java 官方版本(.NET 最新稳定版本是 2.0,而 Java Lucene 最新版本是 2.4,它有更多功能). 你如何解决这个问题? 解决方案 我发现了一种让我感到惊讶的方法:从 Java .jar 文件创建一个 .NET DLL!使用 IKVM 你可以 下载Lucene,获取.jar文件,运行: ikvmc ..
发布时间:2022-01-15 12:42:25 Java开发

Node.js 有没有好的索引/搜索引擎?

我正在为 node.js 应用程序寻找一个好的开源(使用 LGPL 或许可许可证)索引引擎,比如 Lucene.我正在寻找进程内索引和搜索,但对像 Sphinx 或 Solr 这样的索引服务器不感兴趣. 我也不害怕为 C/C++ 库创建绑定,所以我也愿意接受这些建议. 到目前为止我已经找到了 node-clucene 似乎不再积极维护(并且有几个未解决的问题) 我可以为 CLu ..
发布时间:2022-01-15 12:41:25 前端开发

C# Lucene 获取所有索引

我正在使用 Lucene 开发一个 Windows 应用程序.我想获取所有索引关键字并将它们用作搜索字段自动建议的来源.如何在 Lucene 中接收所有索引关键字?我是 C# 的新手.代码本身很受欢迎.谢谢. 解决方案 您是否要从索引中提取所有术语? private void GetIndexTerms(string indexFolder){列表termlist = new ..
发布时间:2022-01-15 12:37:48 C#/.NET

相似度计算和查询时间值之间的 Lucene fieldNorm 差异

我试图了解如何计算 fieldNorm(在索引时),然后在查询时使用(并且显然是重新计算). 在所有示例中,我都使用没有停用词的 StandardAnalyzer. 在索引内容时调试 DefaultSimilarity 的 computeNorm 方法,我注意到它返回的 2 个特定文档: 文档 A 为 0.5(其字段中有 4 个标记) 文档 B 为 0.70710677(其字段 ..
发布时间:2022-01-15 12:35:10 其他开发

如何使用 Lucene 获取频繁出现的短语

我想用 Lucene 获得一些经常出现的短语.我从 TXT 文件中获取了一些信息,并且由于没有短语信息而丢失了很多上下文,例如“信息检索"被索引为两个单独的词. 有什么方法可以得到这样的短语?我在互联网上找不到任何有用的东西,所有的建议、链接、提示,尤其是示例,都非常感谢! 编辑:我只按标题和内容存储我的文档: 文档 doc = new Document();doc.add(new ..
发布时间:2022-01-15 12:35:00 Java开发

lucene如何索引文件?

我阅读了一些关于 Lucene 的文档;我也阅读了此链接中的文档(http://lucene.sourceforge.net/talks/pisa). 我不太了解 Lucene 如何索引文档,也不了解 Lucene 使用哪些算法进行索引? 在上面的链接中,它说 Lucene 使用这种算法进行索引: 增量算法: 维护一组段索引 为每个传入文档创建索引 将新索引推入堆栈 设 ..
发布时间:2022-01-15 12:21:53 其他开发

格式化多维数组 Python

如何编写代码,在出现负值后立即将多维数组 a 中每个单独数组的值更改为零.因此,a 中的第二个数组的负值 [12,34,5,6,88,-10,30,75] 为 -10,它会将所有该值和紧随其后的值为零.将数组转换为 [12,34,5,6,88,0,0,0].我怎样才能获得预期的输出? 将 numpy 导入为 npa = np.array([[12,45,50,60,30],[12,34,5,6, ..
发布时间:2022-01-15 11:09:21 Python

AS/400 DB2 逻辑文件与表索引

我来自 MSSQL 背景,当我问我公司的人是否在某些列上创建了索引时,他们会说是,但我会指出这些称为逻辑文件的东西. 在 iSeries 导航器中,这些逻辑文件显示在“视图"类别下.当我单击“索引"类别时,什么都没有,这让我相信实际上没有在任何列上创建索引,至少据我了解.逻辑文件似乎是按某些列排序的视图. 所以我的问题是,逻辑文件和索引(MSSQL 意义上的索引)是一回事吗? 解 ..
发布时间:2022-01-14 22:10:04 其他开发