lucene相关内容

了解 Elasticsearch 中的分段

我假设 Elasticsearch 中的每个分片都是一个索引.但我在某处读到每个段都是一个 Lucene 索引. 究竟什么是细分?它如何影响搜索性能?使用默认 Elasticsearch 设置,我每天的索引大小达到 450GB 左右(我每天创建一个新的). 当我执行 curl -XPOST "http://localhost:9200/logstash-2013.03.0$i_opti ..
发布时间:2022-01-15 12:41:00 其他开发

在提供 Lucene 索引时使用免费工具进行实体提取/识别

我目前正在研究从文本(网络上的很多文章)中提取人名、位置、技术词汇和类别的选项,然后将其输入 Lucene/ElasticSearch 索引.然后将附加信息添加为元数据,并应提高搜索的精度. 例如当有人查询“wicket"时,他应该能够确定他是指板球运动还是 Apache 项目.到目前为止,我试图自己实现这一点,但取得了轻微的成功.现在我找到了很多工具,但我不确定它们是否适合这项任务,以及它 ..
发布时间:2022-01-15 12:40:55 其他开发

Debian - Solr 没有启动并且日志文件被删除

我刚刚从 http://www.eu.apache.org/dist/lucene/solr/5.3.1/solr-5.3.1.tgz 然后我用 tar zxvf solr-5.3.1.tgz 解压到/bin/目录,用 cd/solr-5.3.1/bin 启动二进制文件 ./solr start 根据教程和自述文件,第一次试运行不需要更多. 最多等待 30 秒才能看到 Solr 在 ..
发布时间:2022-01-15 12:40:32 Java开发

在使用 Lucene 进行搜索时,我们能否在 templateId 中分配多个模板 ID(就像我们在 relatedId 中所做的那样)?

我有五个复选框 搜索全部 模板 1 模板 2 模板 3 模板 4 如果用户选择 Search All,那么我们可以简单地传递索引名称并获取结果,如果用户选择模板特定复选框之一,我们同样可以通过传递模板名称来完成,但如果有的话两个模板特定的复选框(或者可能是三个)被选中,然后? 我们可以用管道分隔模板ID吗? 解决方案 您可能需要更改 Advanced Databa ..
发布时间:2022-01-15 12:40:17 C#/.NET

优化 API 以减少分段并消除 ES 删除的文档不起作用

这是我之前问题的延续 大量删除的文档计数是否会影响 ES 查询性能与我的 ES 索引中已删除的文档相关. 正如答案中所指出的,我使用 优化 APIES 1.X 版本,其中 强制合并 API 不可用,但在阅读了弹性创始人 Say Bannon 的优化 API github 链接(之前在 ES 网站上找不到它)后,看起来它做了同样的工作. 在运行优化 API 后,我收到了索引的成功消息,但 ..
发布时间:2022-01-15 12:39:57 其他开发

如何在我的 Lucene 应用程序中使用 ASCIIFoldingFilter?

我有一个从索引中搜索的标准 Lucene 应用程序.我的索引包含很多法语术语,我想使用 ASCIIFoldingFilter. 我已经做了很多搜索,但我不知道如何使用它.构造函数接受一个 TokenStream 对象,当您向它发送一个字段时,我是否调用分析器上检索 TokenStream 的方法?那我该怎么办?有人可以指出一个使用 TokenFilter 的例子吗?谢谢. 解决方案 ..
发布时间:2022-01-15 12:39:47 Java开发

在 lucene .net 中查找字段的所有可用值

如果我有一个字段 x,它可以包含一个值 y 或 z 等,有没有一种方法可以查询,以便我可以只返回已被索引的值? 示例x 可用的可设置值 = test1, test2, test3, test4 第 1 项:字段 x = test1 第 2 项:字段 x = test2 第 3 项:字段 x = test4 第 4 项:字段 x = test1 执行所需的查询将返 ..
发布时间:2022-01-15 12:39:37 其他开发

如何在大型内容交付 webfarm 中维护 Sitecore Lucene 索引?

我知道 Lucene 索引不能共享: Sitecore 在 Lucene 的文件系统中保留一份本地副本每个实例,不支持共享索引实例. 是否可以在 CM 和 CD 之间 xcopy Lucene 索引? 是否有其他方法或建议可以在 30 多个内容交付服务器中维护索引? 更新:我完全意识到 CD 必须启动自己的索引更新.对于超过 30 台 CD 服务器,我认为可能会有一段时间并 ..
发布时间:2022-01-15 12:39:20 其他开发

solr中一个方面的多个范围

如何格式化 Solr 构面查询以包含两个页面查看范围? 以下将仅返回 200 TO 250 范围,而 500 至 550 范围内不返回任何内容. 浏览量:[200 TO 250] OR [500 TO 550] 我很想获得与页面浏览量在 200 到 250 之间以及在 500 到 550 之间的人匹配的记录数. 解决方案 原来我每次都需要 ..
发布时间:2022-01-15 12:39:12 其他开发

Lucene 有效载荷评分

我想弄清楚有效载荷评分在 lucene 中的工作原理.由于我不明白 PayloadFunction 适合哪里,我想我并不真正了解它是如何工作的.尝试用谷歌搜索它,但除了建议通过源代码之外找不到太多.好吧,如果有人可以在这里解释它会很好,否则它是源代码:) 解决方案 一共有三个部分.首先,您应该在分析期间生成有效载荷.这可以使用 PayloadAttribute 来完成.您只需在分析期间将此 ..
发布时间:2022-01-15 12:39:05 其他开发

Lucene Porter Stemmer 未公开

如何在 Lucene 3.6.2 中使用 Porter Stemmber 类?这是我所拥有的: import org.apache.lucene.analysis.PorterStemmer;...PorterStemmer 词干 = 新 PorterStemmer();term = stemmer.stem(term); 有人告诉我:PorterStemmer 在 org.apache.lu ..
发布时间:2022-01-15 12:38:52 Java开发

KeywordAnalyzer 和 LowerCaseFilter/LowerCaseTokenizer

我想构建自己的分析器,同时使用过滤器/标记器. 我的意思是,相同的字段是 Keyword(整个流作为单个标记)和小写 如果 KeywordAnalyzer仅使用,字段的值不区分大小写.如果我使用 LowerCaseTokenizer 或LowerCaseFilter 我要结合它们与其他执行相同操作的分析器 KeywordAnalyzer(不使用字母、空格、删除停用词等分隔) 问题 ..
发布时间:2022-01-15 12:38:37 Java开发

如何在日期之间搜索(休眠搜索)?

我想知道如何使用 Range-Query 在 Hibernate Search 中按日期搜索,或者是否有任何过滤器我必须实现.以下是我在记录实体中的字段 /*** 分析开始的时间.*/@Temporal(TemporalType.TIMESTAMP)@Field(index = Index.UN_TOKENIZED)@DateBridge(分辨率 = 分辨率.MILLISECOND)私人日期开始 ..
发布时间:2022-01-15 12:38:24 Java开发

如何从 Lucene 中的文档术语向量中获取位置?

我需要遍历 Lucene 索引中的所有文档,并获取每个术语在每个文档中出现的位置.据我能够从 Lucene javadoc 中了解到,这样做的方法是执行以下操作: IndexReader ir = gainIndexReader();术语 tv = ir.getTermVector( doc, field );条款枚举条款 = tv.iterator();PostingsEnum p = nul ..
发布时间:2022-01-15 12:38:16 Java开发