lucene相关内容

Lucene 希伯来语分析器

有人知道是否存在吗? 我已经在谷歌上搜索了几个月... 谢谢 解决方案 更新 HebMorph 出于对您的问题的好奇,我联系了 Itamar Syn-Hershko,他大约一年前在 Lucene 邮件列表中很活跃,当时他正在为 Lucene 开发希伯来语分析器.我问他是否完成了他的分析仪.以下是他回应中的一些相关内容: 长话短说,不,我没有.没有像样的免费/开源希 ..
发布时间:2022-01-15 12:48:27 其他开发

即时搜索 PB 级数据

我需要在 CSV 格式文件中搜索超过 PB 的数据.使用 LUCENE 建立索引后,索引文件的大​​小是原始文件的两倍.是否可以减少索引文件的大​​小???HADOOP中如何分发LUCENE索引文件以及如何在搜索环境中使用?还是有必要,我应该使用 solr 来分发 LUCENE 索引吗???我的要求是对 PB 的文件进行即时搜索.... 解决方案 任何体面的现成搜索引擎(如 Lucene) ..
发布时间:2022-01-15 12:48:16 Java开发

是否有适用于 Lucene 的快速、准确的荧光笔?

我一直在使用 (Java) Lucene 的荧光笔(在 Sandbox 包中)一段时间.但是,在匹配搜索结果中的正确词时,这并不是很准确 - 它适用于简单的查询,例如搜索两个单独的词会在结果中突出显示两个代码片段. 但是,它不适用于更复杂的查询.在最简单的情况下,诸如“Stack Overflow"之类的短语查询将匹配突出显示中出现的所有 Stack 或 Overflow,这会给用户一种效果 ..
发布时间:2022-01-15 12:48:11 Java开发

如何在 Lucene 3.5.0 中提取文档术语向量

我正在使用 Lucene 3.5.0,我想输出每个文档的术语向量.例如,我想知道一个词在所有文档和每个特定文档中的频率.我的索引代码是: import java.io.FileFilter;导入 java.io.FileReader;导入 java.io.IOException;导入java.io.File;导入 java.io.FileReader;导入 java.io.BufferedRea ..
发布时间:2022-01-15 12:48:01 Java开发

Sitecore - 使用非上下文数据源索引来自演示组件的数据

我有一个 Sitecore 网站,其中许多页面主要由指向内容树中其他地方的数据源的各种子布局组合而成. 这是一个基本的问题示例.查看有关苹果的页面的人可能会看到“苹果"一词 10 次.但是,Lucene 不会为该单词索引 Apple 页面项,因为它存储在其他项中. 我确定这一定是一个常见问题,但我似乎找不到任何建议. 解决方案 这是一个常见问题,在 38:29 的截屏视频中有解 ..
发布时间:2022-01-15 12:47:55 其他开发

像关系数据库一样使用 Lucene

我只是想知道我们是否可以在 lucene 中实现一些 RDBMS 功能. 示例:1) 我有 10,000 个项目文档(pdf 文件),必须对其内容进行索引,以使它们可供搜索.2)每个文件都与一个项目有关.项目可以包含项目名称、编号、开始日期、结束日期、位置、类型等详细信息. 我必须在 pdf 文件的内容中搜索给定关键字,但在显示结果时,我想显示项目元数据,如第 (2) 点所述. ..
发布时间:2022-01-15 12:47:48 其他开发

Lucene OR 使用布尔查询进行搜索

我有一个包含多个字段的索引,其中一个是一个字符串字段,我在其中存储产品的类别名称......例如“电子产品"、“家庭"、“花园"等 new StringField("category_name", categoryName, Field.Store.YES));//categoryName 是一个值,例如“Electronics" 我正在执行布尔查询以按名称、价格和类别查找产品,但我不确定如何 ..
发布时间:2022-01-15 12:47:20 Java开发

计算lucene索引中的词频

谁能帮我找到所有lucene索引中的词频 例如,如果文档 A 有 3 个单词 (B) 而文档 C 有 2 个,我想要一个返回 5 的方法,显示所有 lucene 索引中单词 (B) 的频率 解决方案 这个问题已经问了很多次了: 获取 Lucene 中的词频 如何计算文档集的词频? 从 Lucene 索引中获取频率最高的词 如何获取 solr 词频? ..
发布时间:2022-01-15 12:47:04 其他开发

搜索存储在 Hadoop 中的文档 - 使用哪个工具?

我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI... 当您阅读有关该工具的信息时,您通常可以确定其他工具中的每一个都会被提及. 我不希望您向我解释每个工具 - 当然不会.如果您可以帮助我针对我的特定场景缩小此设置范围,那就太好了.到目前为止,我不确定以上哪一个适合,而且看 ..
发布时间:2022-01-15 12:46:55 其他开发

Lucene:如何获取文档的分数

我想输出文档的分数.我为此编写的代码是: IndexReader reader = IndexReader.open(FSDirectory.open(indexDir));IndexSearcher searcher = new IndexSearcher(reader);Analyzer 分析器 = new IKAnalyzer();QueryParser parser = new Quer ..
发布时间:2022-01-15 12:46:40 其他开发

Solr 中的查询超时

我通过自定义开发层对 solr 进行查询,并且在我的层中超时的少数查询仍在 solr 实例中.solr 中是否有一个参数可以用来使特定查询超时 解决方案 如 中所述客户端断开连接后 Solr 查询是否继续? 和 写在 Solr 常见问题解答中 在内部,Solr 不会对任何请求进行超时 - 它允许更新和查询都需要花费多长时间才能完全处理. 但在常见问题解答中的同一位置写入 ..
发布时间:2022-01-15 12:46:34 Java开发

如何从 Lucene 的特定字段中获取唯一术语列表?

我有一个来自包含多个字段的大型语料库的索引.这些字段中只有一个包含文本.我需要根据该字段从整个索引中提取唯一词.有谁知道我如何在 java 中使用 Lucene 做到这一点? 解决方案 你正在寻找 术语向量(字段中所有单词的集合以及每个单词的使用次数,不包括停用词).您将使用 IndexReader 的 getTermFreqVector(docid, field) 用于索引中的每个文档, ..
发布时间:2022-01-15 12:46:26 Java开发

在 JavaScript 中通过 JSON 对象进行类似 Lucene 的搜索

我有一个相当大的 JSON 对象数组(它是一个具有艺术家、专辑等属性的音乐库,用 loadonce=true 提供 jqgrid),我想通过整个集合实现类似 lucene(类似谷歌)的查询- 但在本地,即在浏览器中,不与网络服务器通信.有什么 javascript 框架可以帮助我吗? 解决方案 浏览您的记录,通过组合所有搜索来创建一次性索引单个字符串字段中的字段称为索引. 将这些 ..
发布时间:2022-01-15 12:46:03 前端开发

使用 RAM 目录

什么时候应该使用 Lucene 的 RAMDirectory?与其他存储机制相比,它有哪些优势?最后,我在哪里可以找到一个简单的代码示例? 解决方案 当您不想永久存储索引数据时.我将其用于测试目的.将数据添加到您的 RAMDirectory,在 RAMDir 中进行单元测试. 例如 public static void main(String[] args) {尝试 {目录目录 = ..
发布时间:2022-01-15 12:45:55 其他开发

Lucene爬虫(需要建立lucene索引)

如果可能的话,我正在寻找用 java 或任何其他语言编写的 Apache Lucene 网络爬虫.爬虫必须使用lucene并创建有效的lucene索引和文档文件,所以这就是nutch被淘汰的原因例如... 有谁知道这样的网络爬虫存在吗?如果答案是肯定的,我可以在哪里找到它.天呐…… 解决方案 你要问的是两个组件: 网络爬虫 基于 Lucene 的自动索引器 首先要说一句 ..
发布时间:2022-01-15 12:45:48 Java开发

数字字段的 Lucene 自定义评分

除了在文本内容字段上使用 tf-idf 相似性进行标准术语搜索之外,我还希望根据数字字段的“相似性"进行评分.这种相似性将取决于查询中的值与文档中的值之间的距离(例如,m= [用户输入],s= 0.5 的高斯) 即假设文档代表人,并且个人文档有两个字段: 说明(全文) 年龄(数字). 我想查找类似的文档 描述:(x y z) 年龄:30 但年龄不是过滤器,而是分数的 ..
发布时间:2022-01-15 12:45:41 其他开发

Zend Lucene 和 Java Lucene 的性能比较

Zend Lucene 和 Java Lucene 是用 PHP 构建的分别是java,PHP语言的层次比java高. 只是想知道这两者在索引构建和数据搜索方面的性能差异有多大? 让java创建和重建索引,让php使用索引是否更有效? 解决方案 这是来自 Zend 认证工程师的一句话. 根据我更好的判断,我工作的公司迁移了我们的以前的搜索解决方案Zend_Search_L ..
发布时间:2022-01-15 12:45:35 PHP