lucene 第14页 - IT屋-程序员软件开发技术分享社区

了解 Elasticsearch 中的分段

我假设 Elasticsearch 中的每个分片都是一个索引.但我在某处读到每个段都是一个 Lucene 索引. 究竟什么是细分?它如何影响搜索性能?使用默认 Elasticsearch 设置，我每天的索引大小达到 450GB 左右(我每天创建一个新的). 当我执行 curl -XPOST "http://localhost:9200/logstash-2013.03.0$i_opti ..

发布时间：2022-01-15 12:41:00 elasticsearch lucene 其他开发

我目前正在研究从文本(网络上的很多文章)中提取人名、位置、技术词汇和类别的选项，然后将其输入 Lucene/ElasticSearch 索引.然后将附加信息添加为元数据，并应提高搜索的精度. 例如当有人查询“wicket"时，他应该能够确定他是指板球运动还是 Apache 项目.到目前为止，我试图自己实现这一点，但取得了轻微的成功.现在我找到了很多工具，但我不确定它们是否适合这项任务，以及它 ..

发布时间：2022-01-15 12:40:55 lucene nlp semantic-web mahout opennlp 其他开发

我正在尝试通过 SOLR 和 lucene 对文档中的文件进行索引.

正如我在标题中所说:我正在使用 Java，但是当我在 Eclipse 上运行代码时，出现以下错误.. 线程“main"中的异常 java.lang.NoClassDefFoundError: org/apache/lucene/analysis/util/ResourceLoader在 Indexer.getIndexWriter(Indexer.java:38)在 Indexer.rebu ..

发布时间：2022-01-15 12:40:50 java solr lucene Java开发

未找到“ZendSearch\Lucene\Lucene"类 ZendFramework2

我已经使用这些命令安装了 ZendSearch 和 composer: $ cd/var/www/CommunicationApp/vendor/$ git clone https://github.com/zendframework/ZendSearch.gitZendSearch$ cd ZendSearch/$ curl -s https://getcomposer.org/install ..

发布时间：2022-01-15 12:40:42 php git lucene zend-framework2 search-engine PHP

Debian - Solr 没有启动并且日志文件被删除

我刚刚从 http://www.eu.apache.org/dist/lucene/solr/5.3.1/solr-5.3.1.tgz 然后我用 tar zxvf solr-5.3.1.tgz 解压到/bin/目录，用 cd/solr-5.3.1/bin 启动二进制文件 ./solr start 根据教程和自述文件，第一次试运行不需要更多. 最多等待 30 秒才能看到 Solr 在 ..

发布时间：2022-01-15 12:40:32 java solr lucene Java开发

在没有索引的情况下使用 Lucene Analyzer - 我的方法合理吗?

我的目标是利用 Lucene 的许多标记器和过滤器来转换输入文本，但不创建任何索引. 例如，给定这个(人为的)输入字符串... " 某人的 - [texté] 在这里，foo ." ...还有像这样的 Lucene 分析器... Analyzer 分析器 = CustomAnalyzer.builder().withTokenizer("icu").addTokenFilter ..

发布时间：2022-01-15 12:40:25 java lucene Java开发

在使用 Lucene 进行搜索时，我们能否在 templateId 中分配多个模板 ID(就像我们在 relatedId 中所做的那样)?

我有五个复选框搜索全部模板 1 模板 2 模板 3 模板 4 如果用户选择 Search All，那么我们可以简单地传递索引名称并获取结果，如果用户选择模板特定复选框之一，我们同样可以通过传递模板名称来完成，但如果有的话两个模板特定的复选框(或者可能是三个)被选中，然后? 我们可以用管道分隔模板ID吗? 解决方案您可能需要更改 Advanced Databa ..

发布时间：2022-01-15 12:40:17 c# lucene sitecore C#/.NET

优化 API 以减少分段并消除 ES 删除的文档不起作用

这是我之前问题的延续大量删除的文档计数是否会影响 ES 查询性能与我的 ES 索引中已删除的文档相关. 正如答案中所指出的，我使用优化 APIES 1.X 版本，其中强制合并 API 不可用，但在阅读了弹性创始人 Say Bannon 的优化 API github 链接(之前在 ES 网站上找不到它)后，看起来它做了同样的工作. 在运行优化 API 后，我收到了索引的成功消息，但 ..

发布时间：2022-01-15 12:39:57 elasticsearch lucene segment elasticsearch-1.7.5 其他开发

如何在我的 Lucene 应用程序中使用 ASCIIFoldingFilter?

我有一个从索引中搜索的标准 Lucene 应用程序.我的索引包含很多法语术语，我想使用 ASCIIFoldingFilter. 我已经做了很多搜索，但我不知道如何使用它.构造函数接受一个 TokenStream 对象，当您向它发送一个字段时，我是否调用分析器上检索 TokenStream 的方法?那我该怎么办?有人可以指出一个使用 TokenFilter 的例子吗?谢谢. 解决方案 ..

发布时间：2022-01-15 12:39:47 java lucene Java开发

在 lucene .net 中查找字段的所有可用值

如果我有一个字段 x，它可以包含一个值 y 或 z 等，有没有一种方法可以查询，以便我可以只返回已被索引的值? 示例x 可用的可设置值 = test1, test2, test3, test4 第 1 项:字段 x = test1 第 2 项:字段 x = test2 第 3 项:字段 x = test4 第 4 项:字段 x = test1 执行所需的查询将返 ..

发布时间：2022-01-15 12:39:37 lucene lucene.net 其他开发

在 Lucene 中，为什么我的 boosted 和 unboosted 文档得到相同的分数?

在索引时，我以这种方式提升某些文档: if (myCondition){document.SetBoost(1.2f);} 但在搜索时，具有完全相同质量但一些通过和一些失败的 myCondition 文档最终都具有相同的分数. 这里是搜索代码: BooleanQuery booleanQuery = new BooleanQuery();booleanQuery.Add(new Ter ..

发布时间：2022-01-15 12:39:30 lucene lucene.net 其他开发

如何在大型内容交付 webfarm 中维护 Sitecore Lucene 索引?

我知道 Lucene 索引不能共享: Sitecore 在 Lucene 的文件系统中保留一份本地副本每个实例，不支持共享索引实例. 是否可以在 CM 和 CD 之间 xcopy Lucene 索引? 是否有其他方法或建议可以在 30 多个内容交付服务器中维护索引? 更新:我完全意识到 CD 必须启动自己的索引更新.对于超过 30 台 CD 服务器，我认为可能会有一段时间并 ..

发布时间：2022-01-15 12:39:20 sitecore sitecore6 lucene 其他开发

solr中一个方面的多个范围

如何格式化 Solr 构面查询以包含两个页面查看范围? 以下将仅返回 200 TO 250 范围，而 500 至 550 范围内不返回任何内容. 浏览量:[200 TO 250] OR [500 TO 550] 我很想获得与页面浏览量在 200 到 250 之间以及在 500 到 550 之间的人匹配的记录数. 解决方案原来我每次都需要 ..

发布时间：2022-01-15 12:39:12 solr lucene facet 其他开发

Lucene 有效载荷评分

我想弄清楚有效载荷评分在 lucene 中的工作原理.由于我不明白 PayloadFunction 适合哪里，我想我并不真正了解它是如何工作的.尝试用谷歌搜索它，但除了建议通过源代码之外找不到太多.好吧，如果有人可以在这里解释它会很好，否则它是源代码:) 解决方案一共有三个部分.首先，您应该在分析期间生成有效载荷.这可以使用 PayloadAttribute 来完成.您只需在分析期间将此 ..

发布时间：2022-01-15 12:39:05 lucene payload 其他开发

Lucene Porter Stemmer 未公开

如何在 Lucene 3.6.2 中使用 Porter Stemmber 类?这是我所拥有的: import org.apache.lucene.analysis.PorterStemmer;...PorterStemmer 词干 = 新 PorterStemmer();term = stemmer.stem(term); 有人告诉我:PorterStemmer 在 org.apache.lu ..

发布时间：2022-01-15 12:38:52 java lucene porter-stemmer Java开发

如何在 lucene 中索引 pdf、ppt、xl 文件(基于 java 或 python 或 php 中的任何一个都可以)?

我也想知道如何在索引时添加元数据，以便我可以提升一些参数解决方案 Lucene 索引文本而不是文件 - 您需要一些其他过程来从文件中提取文本并在其上运行 Lucene. ..

发布时间：2022-01-15 12:38:45 java indexing lucene Java开发

KeywordAnalyzer 和 LowerCaseFilter/LowerCaseTokenizer

我想构建自己的分析器，同时使用过滤器/标记器. 我的意思是，相同的字段是 Keyword(整个流作为单个标记)和小写如果 KeywordAnalyzer仅使用，字段的值不区分大小写.如果我使用 LowerCaseTokenizer 或LowerCaseFilter 我要结合它们与其他执行相同操作的分析器 KeywordAnalyzer(不使用字母、空格、删除停用词等分隔) 问题 ..

发布时间：2022-01-15 12:38:37 java lucene customization analyzer Java开发

正则表达式从 Elasticsearch 6.* 不工作开始

我在理解 ElasticSearch 中的正则表达式机制时遇到了麻烦.我有代表财产单位的文件: {“单元" :{“每日可用性":“UIAOUUUUUUUIAAAAAAAAAAAAAAAAAOUUUUIAAAAOUUUIAOUUUUUUUUUUUUUUUUUUUUUUUUUUIAAAAAAAAAAAAAAAAAAAAAAOUUUUUUUUUUIAAAAAOUUUUUUUUUUUUUIAAAAOUU ..

发布时间：2022-01-15 12:38:29 regex elasticsearch lucene 其他开发

如何在日期之间搜索(休眠搜索)?

我想知道如何使用 Range-Query 在 Hibernate Search 中按日期搜索，或者是否有任何过滤器我必须实现.以下是我在记录实体中的字段 /*** 分析开始的时间.*/@Temporal(TemporalType.TIMESTAMP)@Field(index = Index.UN_TOKENIZED)@DateBridge(分辨率 = 分辨率.MILLISECOND)私人日期开始 ..

发布时间：2022-01-15 12:38:24 java hibernate lucene hibernate-search Java开发

如何从 Lucene 中的文档术语向量中获取位置?

我需要遍历 Lucene 索引中的所有文档，并获取每个术语在每个文档中出现的位置.据我能够从 Lucene javadoc 中了解到，这样做的方法是执行以下操作: IndexReader ir = gainIndexReader();术语 tv = ir.getTermVector( doc, field );条款枚举条款 = tv.iterator();PostingsEnum p = nul ..

发布时间：2022-01-15 12:38:16 java lucene Java开发

lucene相关内容