lucene相关内容

如何指示 Lucene 中的 StandardAnalyzer 不要删除停用词?

简单问题:如何让Lucene的StandardAnalyzer在分析我的句子时不去掉停用词? 解决方案 答案取决于版本.对于 Lucene 3.0.3(当前),您需要使用一组空的停用词来构造 StandardAnalyzer,使用如下内容: Analyzer ana = new StandardAnalyzer(LUCENE_30, Collections.emptySet()); ..
发布时间:2022-01-15 13:17:23 其他开发

需要知道使用 RAMDirectory 的利弊

我需要提高 Lucene 搜索查询的性能.我可以使用 RAMDirectory 吗?它会优化性能吗?是否有任何索引大小限制?如果有人能列出使用 RAMDirectory 的优缺点,我将不胜感激. 谢谢. 解决方案 我比较FSDirectory和RAMDirectory. 索引大小为 1.4G Centos,5G 内存 搜索1000个关键词,平均/最小/最大响应时间(ms ..
发布时间:2022-01-15 13:17:16 其他开发

如何在 Elasticsearch 中加入 - 或在 Lucene 级别

在 Elasticsearch 中执行相当于 SQL 联接的最佳方法是什么? 我有一个包含两个大表的 SQL 设置:Persons 和 Items.一个人可以拥有许多项.Person 和 Item 行都可以更改(即更新).我必须运行搜索,根据人和项目的各个方面进行过滤. 在 Elasticsearch 中,您可以将 Person 设为 Item 的嵌套文档,然后使用 has_child ..
发布时间:2022-01-15 13:16:59 其他开发

在 Lucene 中索引和搜索日期

我尝试使用 DateTools.dateToString() 方法来索引日期.它可以正常用于索引和搜索. 但是我已经索引的数据有一些引用,它已经将 Date 索引为一个新的 Date().getTime(). 所以我的问题是如何对这些数据执行 RangeSearch Query... 有什么解决办法吗??? 提前致谢. 解决方案 您需要在日期字段上使用 TermRa ..
发布时间:2022-01-15 13:16:52 Java开发

Lucene - 它是巨大索引的正确答案吗?

Lucene 是否能够索引 500M 的文本文档,每个文档大小为 50K? 对于单项搜索和 10 项搜索,此类索引的预期性能如何? 我应该担心并直接转移到分布式索引环境吗? 萨尔 解决方案 是的,Lucene 应该可以处理这个问题,根据下面的文章:http://www.lucidimagination.com/content/scaling-lucene-and-solr ..
发布时间:2022-01-15 13:16:43 其他开发

如何加快 Elasticsearch 的恢复速度?

我正在处理 6B 小文档的 ES 集群,以 6.5K 索引组织,总共 6TB.索引在 7 个服务器之间复制和分片.索引占用率从几 KB 到数百 GB 不等. 在使用 ES 之前,我使用的是具有相同文档组织的 Lucene. 基于 Lucene 的应用程序很快就恢复了.事实上,当查询到达时,索引是延迟加载的,然后 IndexReader 被缓存,以加快未来的回复速度. 现在,使用 ..
发布时间:2022-01-15 13:16:36 其他开发

使用 Solr 索引多种语言

我们正在设置一个 Solr 来索引文档,其中标题字段可以是各种语言.谷歌搜索后,我发现了两个选项: 定义不同的架构字段每种语言,即title_en,title_fr,... 应用不同的过滤到每种语言然后查询标题字段之一对应的语言. 创作不同的 Solr 内核来处理每个语言并进行我们的应用查询正确的 Solr 核心. 哪个更好?有什么大起大落? 谢谢 解决方案 还有第三种 ..
发布时间:2022-01-15 13:16:29 Java开发

在 solr 6.0 中找不到 schema.xml 文件,所以要配置它,我应该添加一个新文件,还是会自动发生?

我在 solR 中创建了一个名为“testcore"的新核心,但是在 solR 6.0 中我无法在 conf 文件夹中找到 Schema.xml 文件,所以我应该手动创建它还是它会自动配置自己? 我想从示例文档中索引一个示例,所以要索引它我应该提到 Schema.xml 文档,否则它会自动发生,因为 solR 6 是无模式的. 我正在努力学习本教程 https://example ..
发布时间:2022-01-15 13:16:21 服务器开发

Lucene 作为数据存储

是否可以使用 Lucene 作为成熟的数据存储(像其他(mongo,couch)nosql 变体). 我知道有一些限制,例如一个索引器新更新的文档不会显示在其他索引器中.所以我们需要重启索引器来获取更新. 但我最近偶然发现了 solr,似乎通过某种快照复制可以避免这些问题. 所以我认为我可以使用 lucene 作为数据存储,因为这也使用 mongo 和 couch 内部使用的相同 ..
发布时间:2022-01-15 13:16:06 Java开发

“-"的 Lucene 索引问题特点

我在使用 Lucene 索引时遇到问题,该索引的索引词包含“-"字符. 它适用于某些包含“-"的单词,但不适用于所有单词,我找不到原因,为什么它不起作用. 我正在搜索的字段经过分析并包含带有和不带有“-"字符的单词的版本. 我正在使用分析器:org.apache.lucene.analysis.standard.StandardAnalyzer 这里是一个例子: 如果 ..
发布时间:2022-01-15 13:15:59 Java开发

Lucene不是空查询?

我们如何构造一个查询来搜索不为空的特定字段? field_name:* 不起作用.我试过 field_name:[a* to z*] 这适用于英语,但不涵盖所有语言. 还有其他建议吗? 解决方案 目前 Lucene 不支持.请参阅 this 进行讨论. 另一种选择可能是将一些预定义的字符串(如 nullnullnullnull)存储为字段值(如果它为空).然后您可以使用否 ..
发布时间:2022-01-15 13:15:49 Java开发

什么时候在 Sitecore 7 构建中绝对使用 SOLR 而不是 Lucene?

我的客户没有预算来设置和维护 SOLR 服务器以在其生产环境中使用.如果我正确理解了 Sitecore 7 内容搜索 API,那么配置使用 Lucene 并不是什么大问题.大部分配置类似,代码相同,以后可以换一个SOLR服务器. 网站建设有 多面搜索页面 在登陆页面和其他页面上列出将利用 Content Search API 的组件 具有自定义构面的存储桶 该网站有大约 5, ..
发布时间:2022-01-15 13:15:40 其他开发

Elasticsearch 中的嵌套 vs 对象

有人能解释一下 Elasticsearch 文档中“对象"和“嵌套"字段的区别吗? 我知道默认情况下字段被定义为对象.我也知道我可以使用这样的点访问对象字段:my_field.name、my_field.title 等. 对象文档:http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/mapping- ..
发布时间:2022-01-15 13:15:30 其他开发

如何查找类似文件

如何在 Lucene 中找到给定文档的相似文档.我不知道文本是什么,我只知道文件是什么.有没有办法在lucene中找到类似的文件.我是新手,所以我可能需要一些手握. 解决方案 你可能要检查 lucene 的 MoreLikeThis 功能. MoreLikeThis 根据文档中的术语构造一个 lucene 查询,以在索引中查找其他相似文档. http://lucene.apac ..
发布时间:2022-01-15 13:15:20 其他开发

使用 solr 构建标签云

尊敬的 stackoverflow 社区: 给定一些文本,我希望得到文本中最常用的 TOP 50 词,并从中创建一个标签云,从而以图形方式显示文本的要点. 文本实际上是一组 100 条左右的评论,每个 ITEM(一张图片)大约有 120 条,我还想保持云更新 - 通过保持评论索引,并在每次出现新的 Web 请求时使用云生成代码运行. 我决定使用 Solr 来索引文本,现在想知道如 ..
发布时间:2022-01-15 13:15:14 Java开发

Lucene/Solr 如何在多字段/分面搜索中实现高性能?

上下文 这是一个主要关于 Lucene(或可能是 Solr)内部的问题.主要主题是分面搜索,其中可以沿着对象的多个独立维度(方面)进行搜索(例如汽车的大小、速度、价格). 当使用关系数据库实现时,对于大量构面,多字段索引没有用,因为可以按任何顺序搜索构面,因此使用特定有序多索引的机会很小,并创建所有可能的排序指数难以忍受. Solr 被宣传为可以很好地应对分面搜索任务,如果我认为 ..
发布时间:2022-01-15 13:15:05 其他开发

lucene 3.5中分组和分面有什么区别

我在 lucene 3.5 contrib 文件夹中找到了两个插件:一个是分组,另一个是 facet.在我的选择中,它们都用于将我的文档分成不同的类别.为什么 lucene 现在有两个插件呢? 解决方案 它们是两个不同的 lucene 特性: Grouping 首次发布于 Lucene 3.2,其相关的 jira 问题是 LUCENE-1421:允许按指定字段对搜索结果进行分组.例如 ..
发布时间:2022-01-15 13:14:57 其他开发

如何使用与 Solr 的 n-gram 近似匹配?

我们有一个电影和连续剧数据库,并且由于数据来自许多不同可靠性的来源,我们希望能够对剧集的标题进行模糊字符串匹配.我们在应用程序中使用 Solr 进行搜索,但默认匹配机制在单词级别上运行,这对于短字符串(如标题)来说不够好 我过去使用过 n-gram 近似匹配,我很高兴发现 Lucene(和 Solr)支持开箱即用的东西.不幸的是,我无法正确配置它. 我认为我需要一个特殊的字段类型,所以 ..
发布时间:2022-01-15 13:14:41 其他开发

对与 Lucene 或 Solr 一起使用的爬虫工具的建议?

对于 HTML 和 XML 文档(本地或基于 Web)并在 Lucene/Solr 解决方案空间中运行良好的爬虫(蜘蛛)是什么?可以是基于 Java 的,但不是必须的. 解决方案 在我看来,这是一个非常重要的漏洞,它阻碍了 Solr 的广泛采用.新的 DataImportHandler 是导入结构化数据的良好第一步,但 Solr 没有一个好的文档摄取管道.Nutch 确实有效,但是 Nut ..
发布时间:2022-01-15 13:14:23 其他开发

query_string 和 multi_match 有什么区别?

运行此查询时: {“请求参数" : {“查询":“文本",“字段":[“字段 1",“字段 2"]}} - {“多匹配":{“查询":“文本",“字段":[“字段 1",“字段 2"]}} 有什么区别?什么时候用一个,什么时候用另一个? 解决方案 query_string 支持 Lucene 语法来解释文本,其中 multi_match 只是尝试将给定的 "text" 与列出的字段 ..
发布时间:2022-01-15 13:14:14 其他开发