lucene 第3页 - IT屋-程序员软件开发技术分享社区

Lucene 上打开的文件太多错误

我正在进行的项目是索引一定数量的数据(带有长文本)并将它们与每个间隔(大约 15 到 30 分钟)的单词列表进行比较. 一段时间后，比如第 35 轮，在第 36 轮开始索引新数据集时出现此错误: [ERROR] (2011-06-01 10:08:59,169) org.demo.service.LuceneService.countDocsInIndex(?:?):countDocsI ..

发布时间：2022-01-15 13:20:09 linux indexing lucene ioexception file-not-found 服务器开发

如何使用 couchdb-lucene 在 CouchDB 中索引数组(标签)

设置: 我有一个使用 CouchDB 的项目.文档将有一个名为“标签"的字段.这个“tags"字段是一个字符串数组(例如，“tags":[“tag1"，“tag2"，“etc"]).我正在使用 couchdb-lucene 作为我的搜索提供程序. 问题: 用什么函数可以让couchdb-lucene对“tags"的元素进行索引? 如果你有想法但没有测试环境，打出来，我试试， ..

发布时间：2022-01-15 13:19:59 arrays indexing lucene tags couchdb 其他开发

在 ElasticSearch 中保存用户搜索查询的最佳方法是什么?

我正在开发使用 ElasticSearch 和 SQL 数据库的应用程序.那么，保存用户搜索查询并显示统计信息(例如最受欢迎的请求是什么)的最佳方法是什么?简单的方法是保存在 SQL 数据库中并计数.但也许 ElasticSearch 中内置了一些技术? 解决方案您可以通过在 ES 集群中创建第二个索引来做到这一点.当用户通过您的应用程序提交搜索时，您需要执行两个步骤. 将搜索作为 ..

发布时间：2022-01-15 13:19:51 mysql postgresql elasticsearch lucene full-text-search 数据库

在使用 Lucene Fuzzy Search 时如何获得匹配的模糊词及其偏移量? IndexSearcher mem = ....(一些标准代码)QueryParser parser = new QueryParser(Version.LUCENE_30, CONTENT_FIELD, 分析器);TopDocs topDocs = mem.search(parser.parse("wuzzy ..

发布时间：2022-01-15 13:19:46 java lucene fuzzy-search Java开发

在包含 1 亿个字符串的大型文本文件中进行高效的子字符串搜索(无重复字符串)

我有一个包含 1 亿个字符串(没有重复字符串)的大型文本文件(1.5 Gb)，并且所有字符串在文件中逐行排列.我想在java中制作一个wepapplication，以便当用户给出关键字(子字符串)时，他可以获得包含该关键字的文件中存在的所有字符串的计数.我已经知道一种技术 LUCENE..还有其他方法可以做到这一点吗??我希望在 3-4 秒内得到结果.我的系统有 4GB 内存和双核配置....需要 ..

发布时间：2022-01-15 13:19:38 java mysql file search lucene Java开发

在 Lucene 中正确索引纬度和经度值

我正在使用 Lucene API 开发“在给定半径内基于美国的最近城市搜索"功能.我在 Lucene 中索引城市的纬度和经度值如下: doc.Add(new Field("latitude", paddedLatitude, Field.Store.YES, Field.Index.UN_TOKENIZED));doc.Add(new Field("longitude", paddedLon ..

发布时间：2022-01-15 13:19:31 lucene lucene.net 其他开发

如何在 Lucene 5 中获取 Span Term Query 的匹配跨度?

在 Lucene 中，要获取一个术语周围的单词，建议使用 Span Queries.http://lucidworks.com 中有很好的演练/blog/accessing-words-around-a-positional-match-in-lucene/ 应该使用 getSpans() 方法访问跨度. SpanTermQueryfleceQ = new SpanTermQuery(ne ..

发布时间：2022-01-15 13:19:23 lucene 其他开发

当通过休眠在数据库中发生任何更新时，lucene 索引未同步

我正在使用以下环境在基于 Lucene 的 Hibernate Search 上研究一些 POC: hibernate-search-engine-4.4.2.Final.jar lucene-core-3.6.2.jar MySQL 5.5 在域类上使用 @Indexed 注释. 在字段上使用 @Field(index=Index.YES, analyze=Analyze.YES ..

发布时间：2022-01-15 13:19:17 hibernate lucene hibernate-search 其他开发

如何对用 lucene 索引的文档进行分类

我用 Lucene 对一组文档进行了分类(字段:内容、类别).每个文档都有自己的类别，但其中一些被标记为未分类.有没有什么方法可以在java中轻松分类这些文档? 解决方案从 Lucene 5.2.1 开始，您可以使用索引文档以对新文档进行分类.开箱即用，Lucene 提供了一个朴素贝叶斯分类器，一个 k-最近邻分类器(基于 MoreLikeThis 类)和基于感知器的分类器. 缺 ..

发布时间：2022-01-15 13:19:07 java lucene machine-learning classification Java开发

为什么路由不适用于 ElasticSearch Bulk API?

我正在向 ElasticSearch 设置批量请求并指定要路由到的分片. 但是当我运行它时，文档会被发送到不同的分片. 这是 ElasticSEarch 批量中的错误吗?当我只索引一个文档时它就可以工作.它在我搜索时有效.但不是在我进行批量导入时. 复制: curl -XPOST 'http://192.168.1.115:9200/_bulk?routing=a' -d '{ ..

发布时间：2022-01-15 13:19:01 lucene elasticsearch 其他开发

可以在 Elasticsearch 中存储图像吗?

是否可以在 Elasticsearch 集群中存储图像?如果是，那么是否有关于工作流程的资源?我检查了以下链接:https://github.com/kzwang/elasticsearch-imagep> 由于我们必须处理大型图像文件(超过 500GB)，我们计划使用 HDFS. 解决方案将整个图像存储在 Elasticsearch 中并没有什么好处，因为如果图像被缩放/裁剪然后用作 ..

发布时间：2022-01-15 13:18:54 elasticsearch lucene hdfs 其他开发

Solr 关联

最近几天，我们正在考虑使用 Solr 作为我们选择的搜索引擎.我们需要的大多数功能都是开箱即用的，或者可以轻松配置.然而，我们绝对需要的一项功能似乎在 Solr 中被很好地隐藏(或缺失)了. 我会尝试用一个例子来解释.我们有很多实际上是企业的文件: Apache1...麦当劳2... ..

发布时间：2022-01-15 13:18:46 lucene search-engine solr 其他开发

Lucene IndexWriter 添加文档速度慢

我编写了一个小循环，将 10,000 个文档添加到 IndexWriter 中，并且花了很长时间才完成. 还有其他方法可以索引大量文档吗? 我问是因为当它上线时，它必须加载 15,000 条记录. 另一个问题是如何避免在重新启动 Web 应用程序时再次加载所有记录? 编辑这是我使用的代码； for (int t = 0; t ..

发布时间：2022-01-15 13:18:38 c# lucene lucene.net C#/.NET

使用 Lucene 搜索 API 查找完全匹配

我正在使用 Lucene 开发公司搜索 API.我的 Lucene 公司索引有 2 家公司:1.Abigail Adams National Bancorp, Inc.2.国民银行如果用户键入 National Bancorp，则只应返回公司#2(即 National Bancorp)而不是#1.....即.只应返回完全匹配.如何实现此功能? 感谢阅读. 解决方案可以使用K ..

发布时间：2022-01-15 13:18:31 lucene lucene.net 其他开发

Solr:结合 EdgeNGramFilterFactory 和 NGramFilterFactory

我遇到需要同时使用 EdgeNGramFilterFactory 和 NGramFilterFactory 的情况. 我正在使用 NGramFilterFactory 执行“包含"样式搜索，最小字符数为 2.我还想搜索第一个字母，例如带有前端 EdgeNGramFilterFactory 的“startswith". 我不想将 NGramFilterFactory 降低到最少 1 个字 ..

发布时间：2022-01-15 13:18:22 java lucene solr Java开发

lucene 如何与 Neo4j 一起工作

我是 Neo4j 和 Solr/Lucene 的新手.我读过我们可以在 Neo4j 中使用 lucene 查询，这是如何工作的?Neo4j中使用lucene查询有什么用? 我还需要一个建议.我需要编写一个应用程序来搜索和分析数据.这可能对我 Neo4j 或 Solr 有帮助吗? 解决方案 Neo4J 使用 lucene 作为其遗留索引.目前，Neo4J 支持多种索引，比如在节点上创 ..

发布时间：2022-01-15 13:18:12 solr lucene neo4j 其他开发

加入 Lucene

有没有办法在 Lucene 中实现 JOINS? 解决方案您可以手动进行通用连接 - 运行两次搜索，获取所有结果(而不是前 N 个)，在您的连接键上对它们进行排序并与两个有序列表相交.但这会让你的堆变得非常困难(如果列表甚至适合它). 有可能的优化，但在非常特定的条件下. IE.- 你做一个自加入，并且只使用(随机访问)Filters 进行过滤，没有Queries.然后，您可以手 ..

发布时间：2022-01-15 13:18:05 join lucene 其他开发

Lucene.Net 下划线导致令牌分裂

..

发布时间：2022-01-15 13:18:00 tsql lucene 其他开发

向 Lucene 文档添加多值字符串字段，逗号重要吗?

我正在构建一个 Lucene 索引并添加文档. 我有一个多值字段，在本例中我将使用类别. 一个项目可以有很多类别，例如，牛仔裤可以属于服装、裤子、男装、女装等. 将字段添加到文档时，逗号会有所不同吗?Lucene 会直接忽略它们吗?如果我将逗号更改为空格会有所不同吗?这会自动使该字段成为多值吗? String categoriesForItem = getCategories( ..

发布时间：2022-01-15 13:17:37 java lucene Java开发

ElasticSearch 在哪里存储持久设置?

当我通过获取我的 ElasticSearch 服务器设置时 curl -XGET localhost:9200/_cluster/settings 我看到了持久性和暂时性设置. {“执着的": {“cluster.routing.allocation.cluster_concurrent_rebalance":“0"，"threadpool.index.size": "20","thre ..

发布时间：2022-01-15 13:17:31 lucene elasticsearch 其他开发

lucene相关内容