lucene 第4页 - IT屋-程序员软件开发技术分享社区

如何指示 Lucene 中的 StandardAnalyzer 不要删除停用词?

简单问题:如何让Lucene的StandardAnalyzer在分析我的句子时不去掉停用词? 解决方案答案取决于版本.对于 Lucene 3.0.3(当前)，您需要使用一组空的停用词来构造 StandardAnalyzer，使用如下内容: Analyzer ana = new StandardAnalyzer(LUCENE_30, Collections.emptySet()); ..

发布时间：2022-01-15 13:17:23 lucene 其他开发

需要知道使用 RAMDirectory 的利弊

我需要提高 Lucene 搜索查询的性能.我可以使用 RAMDirectory 吗?它会优化性能吗?是否有任何索引大小限制?如果有人能列出使用 RAMDirectory 的优缺点，我将不胜感激. 谢谢. 解决方案我比较FSDirectory和RAMDirectory. 索引大小为 1.4G Centos，5G 内存搜索1000个关键词，平均/最小/最大响应时间(ms ..

发布时间：2022-01-15 13:17:16 lucene lucene.net 其他开发

如何在 Elasticsearch 中加入 - 或在 Lucene 级别

在 Elasticsearch 中执行相当于 SQL 联接的最佳方法是什么? 我有一个包含两个大表的 SQL 设置:Persons 和 Items.一个人可以拥有许多项.Person 和 Item 行都可以更改(即更新).我必须运行搜索，根据人和项目的各个方面进行过滤. 在 Elasticsearch 中，您可以将 Person 设为 Item 的嵌套文档，然后使用 has_child ..

发布时间：2022-01-15 13:16:59 join lucene nosql elasticsearch bigdata 其他开发

在 Lucene 中索引和搜索日期

我尝试使用 DateTools.dateToString() 方法来索引日期.它可以正常用于索引和搜索. 但是我已经索引的数据有一些引用，它已经将 Date 索引为一个新的 Date().getTime(). 所以我的问题是如何对这些数据执行 RangeSearch Query... 有什么解决办法吗??? 提前致谢. 解决方案您需要在日期字段上使用 TermRa ..

发布时间：2022-01-15 13:16:52 java lucene Java开发

Lucene - 它是巨大索引的正确答案吗?

Lucene 是否能够索引 500M 的文本文档，每个文档大小为 50K? 对于单项搜索和 10 项搜索，此类索引的预期性能如何? 我应该担心并直接转移到分布式索引环境吗? 萨尔解决方案是的，Lucene 应该可以处理这个问题，根据下面的文章:http://www.lucidimagination.com/content/scaling-lucene-and-solr ..

发布时间：2022-01-15 13:16:43 lucene 其他开发

如何加快 Elasticsearch 的恢复速度?

我正在处理 6B 小文档的 ES 集群，以 6.5K 索引组织，总共 6TB.索引在 7 个服务器之间复制和分片.索引占用率从几 KB 到数百 GB 不等. 在使用 ES 之前，我使用的是具有相同文档组织的 Lucene. 基于 Lucene 的应用程序很快就恢复了.事实上，当查询到达时，索引是延迟加载的，然后 IndexReader 被缓存，以加快未来的回复速度. 现在，使用 ..

发布时间：2022-01-15 13:16:36 performance elasticsearch lucene 其他开发

使用 Solr 索引多种语言

我们正在设置一个 Solr 来索引文档，其中标题字段可以是各种语言.谷歌搜索后，我发现了两个选项: 定义不同的架构字段每种语言，即title_en，title_fr,... 应用不同的过滤到每种语言然后查询标题字段之一对应的语言. 创作不同的 Solr 内核来处理每个语言并进行我们的应用查询正确的 Solr 核心. 哪个更好?有什么大起大落? 谢谢解决方案还有第三种 ..

发布时间：2022-01-15 13:16:29 java lucene solr Java开发

在 solr 6.0 中找不到 schema.xml 文件，所以要配置它，我应该添加一个新文件，还是会自动发生?

我在 solR 中创建了一个名为“testcore"的新核心，但是在 solR 6.0 中我无法在 conf 文件夹中找到 Schema.xml 文件，所以我应该手动创建它还是它会自动配置自己? 我想从示例文档中索引一个示例，所以要索引它我应该提到 Schema.xml 文档，否则它会自动发生，因为 solR 6 是无模式的. 我正在努力学习本教程 https://example ..

发布时间：2022-01-15 13:16:21 apache search solr lucene solrj 服务器开发

Lucene 作为数据存储

是否可以使用 Lucene 作为成熟的数据存储(像其他(mongo，couch)nosql 变体). 我知道有一些限制，例如一个索引器新更新的文档不会显示在其他索引器中.所以我们需要重启索引器来获取更新. 但我最近偶然发现了 solr，似乎通过某种快照复制可以避免这些问题. 所以我认为我可以使用 lucene 作为数据存储，因为这也使用 mongo 和 couch 内部使用的相同 ..

发布时间：2022-01-15 13:16:06 c# java lucene solr nosql Java开发

“-"的 Lucene 索引问题特点

我在使用 Lucene 索引时遇到问题，该索引的索引词包含“-"字符. 它适用于某些包含“-"的单词，但不适用于所有单词，我找不到原因，为什么它不起作用. 我正在搜索的字段经过分析并包含带有和不带有“-"字符的单词的版本. 我正在使用分析器:org.apache.lucene.analysis.standard.StandardAnalyzer 这里是一个例子: 如果 ..

发布时间：2022-01-15 13:15:59 java lucene indexing escaping character Java开发

Lucene不是空查询?

我们如何构造一个查询来搜索不为空的特定字段? field_name:* 不起作用.我试过 field_name:[a* to z*] 这适用于英语，但不涵盖所有语言. 还有其他建议吗? 解决方案目前 Lucene 不支持.请参阅 this 进行讨论. 另一种选择可能是将一些预定义的字符串(如 nullnullnullnull)存储为字段值(如果它为空).然后您可以使用否 ..

发布时间：2022-01-15 13:15:49 java lucene Java开发

什么时候在 Sitecore 7 构建中绝对使用 SOLR 而不是 Lucene?

我的客户没有预算来设置和维护 SOLR 服务器以在其生产环境中使用.如果我正确理解了 Sitecore 7 内容搜索 API，那么配置使用 Lucene 并不是什么大问题.大部分配置类似，代码相同，以后可以换一个SOLR服务器. 网站建设有多面搜索页面在登陆页面和其他页面上列出将利用 Content Search API 的组件具有自定义构面的存储桶该网站有大约 5, ..

发布时间：2022-01-15 13:15:40 solr lucene sitecore sitecore7 其他开发

Elasticsearch 中的嵌套 vs 对象

有人能解释一下 Elasticsearch 文档中“对象"和“嵌套"字段的区别吗? 我知道默认情况下字段被定义为对象.我也知道我可以使用这样的点访问对象字段:my_field.name、my_field.title 等. 对象文档:http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/mapping- ..

发布时间：2022-01-15 13:15:30 search lucene elasticsearch 其他开发

如何查找类似文件

如何在 Lucene 中找到给定文档的相似文档.我不知道文本是什么，我只知道文件是什么.有没有办法在lucene中找到类似的文件.我是新手，所以我可能需要一些手握. 解决方案你可能要检查 lucene 的 MoreLikeThis 功能. MoreLikeThis 根据文档中的术语构造一个 lucene 查询，以在索引中查找其他相似文档. http://lucene.apac ..

发布时间：2022-01-15 13:15:20 lucene full-text-search morelikethis 其他开发

使用 solr 构建标签云

尊敬的 stackoverflow 社区: 给定一些文本，我希望得到文本中最常用的 TOP 50 词，并从中创建一个标签云，从而以图形方式显示文本的要点. 文本实际上是一组 100 条左右的评论，每个 ITEM(一张图片)大约有 120 条，我还想保持云更新 - 通过保持评论索引，并在每次出现新的 Web 请求时使用云生成代码运行. 我决定使用 Solr 来索引文本，现在想知道如 ..

发布时间：2022-01-15 13:15:14 java lucene solr visualization data-visualization Java开发

Lucene/Solr 如何在多字段/分面搜索中实现高性能?

上下文这是一个主要关于 Lucene(或可能是 Solr)内部的问题.主要主题是分面搜索，其中可以沿着对象的多个独立维度(方面)进行搜索(例如汽车的大小、速度、价格). 当使用关系数据库实现时，对于大量构面，多字段索引没有用，因为可以按任何顺序搜索构面，因此使用特定有序多索引的机会很小，并创建所有可能的排序指数难以忍受. Solr 被宣传为可以很好地应对分面搜索任务，如果我认为 ..

发布时间：2022-01-15 13:15:05 lucene internals faceted-search 其他开发

lucene 3.5中分组和分面有什么区别

我在 lucene 3.5 contrib 文件夹中找到了两个插件:一个是分组，另一个是 facet.在我的选择中，它们都用于将我的文档分成不同的类别.为什么 lucene 现在有两个插件呢? 解决方案它们是两个不同的 lucene 特性: Grouping 首次发布于 Lucene 3.2，其相关的 jira 问题是 LUCENE-1421:允许按指定字段对搜索结果进行分组.例如 ..

发布时间：2022-01-15 13:14:57 lucene grouping faceted-search facet 其他开发

如何使用与 Solr 的 n-gram 近似匹配?

我们有一个电影和连续剧数据库，并且由于数据来自许多不同可靠性的来源，我们希望能够对剧集的标题进行模糊字符串匹配.我们在应用程序中使用 Solr 进行搜索，但默认匹配机制在单词级别上运行，这对于短字符串(如标题)来说不够好我过去使用过 n-gram 近似匹配，我很高兴发现 Lucene(和 Solr)支持开箱即用的东西.不幸的是，我无法正确配置它. 我认为我需要一个特殊的字段类型，所以 ..

发布时间：2022-01-15 13:14:41 search lucene solr approximate 其他开发

对与 Lucene 或 Solr 一起使用的爬虫工具的建议?

对于 HTML 和 XML 文档(本地或基于 Web)并在 Lucene/Solr 解决方案空间中运行良好的爬虫(蜘蛛)是什么?可以是基于 Java 的，但不是必须的. 解决方案在我看来，这是一个非常重要的漏洞，它阻碍了 Solr 的广泛采用.新的 DataImportHandler 是导入结构化数据的良好第一步，但 Solr 没有一个好的文档摄取管道.Nutch 确实有效，但是 Nut ..

发布时间：2022-01-15 13:14:23 lucene solr web-crawler 其他开发

query_string 和 multi_match 有什么区别?

运行此查询时: {“请求参数" : {“查询":“文本"，“字段":[“字段 1"，“字段 2"]}} - {“多匹配":{“查询":“文本"，“字段":[“字段 1"，“字段 2"]}} 有什么区别?什么时候用一个，什么时候用另一个? 解决方案 query_string 支持 Lucene 语法来解释文本，其中 multi_match 只是尝试将给定的 "text" 与列出的字段 ..

发布时间：2022-01-15 13:14:14 elasticsearch lucene 其他开发

lucene相关内容