lucene相关内容

如何使用 Lucene Query 找到 alfresco 空文件夹

我想使用 Lucene 查询 检索子节点列表为空的特定节点中的文件夹列表. 我创建了这个查询: +PATH:"/app:company_home/cm:contexts/cm:ctx_exploitation/cm:runs/cm:Run_322645//."+Children 为空. 但效果不佳. 执行此操作的正确 Lucene 语法是什么 解决方案 无法使用 Lucen ..
发布时间:2021-11-26 23:43:26 其他开发

选择独立的全文搜索服务器:Sphinx 还是 SOLR?

我正在寻找具有以下属性的独立全文搜索服务器: 必须作为独立服务器运行,可以为来自多个客户端的搜索请求提供服务 必须能够通过索引 SQL 查询的结果来进行“批量索引":比如“SELECT id, text_to_index FROM documents;" 必须是免费软件,并且必须在使用 MySQL 作为数据库的 Linux 上运行 必须快(排除 MySQL 的内部全文搜索) 我发 ..
发布时间:2021-11-20 21:35:41 MySQL

全文搜索引擎对比——Lucene、Sphinx、Postgresql、MySQL?

我正在构建一个 Django 站点,我正在寻找一个搜索引擎. 一些候选人: Lucene/Lucene with Compass/Solr 狮身人面像 Postgresql 内置全文搜索 MySQl 内置全文搜索 选择标准: 结果相关性和排名 搜索和索引速度 易于使用且易于与 Django 集成 资源要求 - 网站将托管在 VPS 上,因此理想情况下 ..
发布时间:2021-11-20 21:17:11 MySQL

如何在 Lucene 4 中获取 Lucene 字段的所有术语

我正在尝试将我的代码从 Lucene 3.4 更新到 4.1.我想出了除了一个之外的变化.我有需要迭代一个字段的所有术语值的代码.在 Lucene 3.1 中,有一个 IndexReader#terms() 方法提供了一个 TermEnum,我可以对其进行迭代.对于 Lucene 4.1,这似乎已经发生了变化,即使在文档中搜索了几个小时后,我也无法弄清楚如何进行.有人可以指出我正确的方向吗? ..
发布时间:2021-11-15 01:16:52 其他开发

如何使用 lucene API (a AND (b OR c)) 创建嵌套布尔查询?

我有一个包含三个字段(userId、title、description)的索引对象.我想查找特定用户的所有对象,其中标题或描述包含给定的关键字. 我有这样的事情(但这显然是错误的): WildcardQuery nameQuery = new WildcardQuery(new Term("name", filter.getSearch()));WildcardQuery descQuer ..
发布时间:2021-11-15 01:06:51 其他开发

Solr 可以加载原始 Lucene 索引吗?

我的一些同事有一个大型 Java Web 应用程序,该应用程序使用使用 Lucene Java 构建的搜索系统.我想要做的是有一个很好的基于 HTTP 的 API 来访问那些现有的搜索索引.我以前使用过 Nutch,并且非常喜欢 OpenSearch 实现使其以 RSS 形式获取结果的简单性. 我已经尝试在 solrconfig.xml 中设置 Solr 的 dataDir,希望它能愉快地获 ..
发布时间:2021-11-15 00:17:14 其他开发

在云模式下设置 Apache Solr

我必须做到以下几点: 我必须在 2 个服务器/节点上部署 Solr. 在另一台服务器上部署 Zookeeper. 上传自定义配置到 Zookeeper 创建一个包含 2 个分片和 2 个副本的自定义集合 Solr 7.4.0 & 版本动物园管理员: 3.4.12 我做了以下事情: 设置 Zookeeper: 创建了一个 Zookeeper 数据文件夹 &做了一个 ..
发布时间:2021-11-14 23:58:44 其他开发

Tika in Action 书籍示例 Lucene StandardAnalyzer 不起作用

首先,当谈到 Tika 和 Lucene 时,我完全是个菜鸟.我正在通过 Tika in Action 一书来尝试示例.在第 5 章中给出了这个例子: 包 tikatest01;导入 java.io.File;导入 org.apache.tika.Tika;导入 org.apache.lucene.document.Document;导入 org.apache.lucene.document.F ..
发布时间:2021-11-14 23:48:45 其他开发

Apache Solr - 索引 ZIP 文件

我的网络应用程序是一个电子邮件服务.它将电子邮件消息存储在 MySQL 数据库中,电子邮件附件在磁盘上. 数据库类似于: ----------------------------------------------------------------------|身份证 |发件人 |接收器|主题 |身体|attach_dir |附件 |--------------------------- ..
发布时间:2021-11-14 23:48:33 其他开发

如何使用 apache solr 索引文本文件

我想索引文本文件.经过大量搜索,我了解了 Apache tika.现在在我研究 Apache tika 的一些站点中,我了解到 Apache tika 将文本转换为 XML 格式,然后将其发送到 solr.但是在转换时它只会创建一个标签示例......现在我希望索引的文本文件是一个 tomcat 本地主机访问文件.此文件以 GB 为单位.我无法存储它和单个索引.我希望每一行都有 line-id.. ..
发布时间:2021-11-14 23:45:17 其他开发

PDFBox 在单词中添加空格

当我尝试从我的 PDF 文件中提取文本时,它似乎在几个单词之间随机插入空格. 我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar(最新版本):http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training 我已经尝试过其他几个 PDF 文件,但在几个页面上似乎都在做同样的 ..
发布时间:2021-11-14 23:44:14 其他开发

使用 Nutch 重新抓取 URL 仅用于更新的站点

我使用 Nutch 2.1 抓取了一个 URL,然后我想在页面更新后重新抓取它们.我怎样才能做到这一点?我如何知道页面已更新? 解决方案 你根本做不到.您需要重新抓取页面以控制它是否已更新.因此,根据您的需要,对页面/域进行优先级排序并在一段时间内重新抓取它们.为此,您需要一个作业调度程序,例如 Quartz. 您需要编写一个比较页面的函数.但是,Nutch 最初将页面保存为索引文件 ..
发布时间:2021-11-11 06:03:34 其他开发

Lucene OR 搜索使用布尔查询

我有一个包含多个字段的索引,其中一个是字符串字段,我在其中存储产品的类别名称...例如“电子"、“家庭"、“花园"等 new StringField("category_name", categoryName, Field.Store.YES));//categoryName 是一个值,比如“Electronics" 我正在执行布尔查询以按名称、价格和类别查找产品,但我不确定如何进行 OR 搜 ..
发布时间:2021-11-11 06:03:04 其他开发

Lucene 的 StopFilter 中使用的默认停用词列表是什么?

Lucene 有一个默认的停止过滤器 (http://lucene.apache.org/core/4_0_0/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html),有谁知道列表中的单词是什么? 解决方案 默认停用词 来自 StopAnalyzer.ENGLISH_STOP_WORDS_SET,如源文件: “a ..
发布时间:2021-11-11 05:00:47 其他开发

包 org.apache.commons.io 不存在错误

我正在使用 ant 编译器编译一个 .java 文件.我收到以下错误“包 org.apache.commons.io 不存在错误" 我下载了 apache Commons IO 二进制文件并将 .jar 文件粘贴到"C:\Program Files\Java\jdk1.7.0_51\lib\missioncontrol\plugins" 任何帮助.我需要修改我的构建 xml 文件的类路 ..
发布时间:2021-11-11 02:33:46 其他开发

在检查搜索中忽略特殊字符(标题)

使用 Umbraco v6,检查搜索(不是完整的 Lucene 查询).这是一个拉丁美洲/南美网站.我问过我的同事他们如何在搜索/URL 中输入标题(字母上的重音标记),他们都说他们没有,他们只是使用“常规"字符(A-Z,a-z). 我知道如何在传递给 Examine 时去除字符串中的特殊字符 OUT,但我需要另一种方式,如在 Examine 中从属性中删除特殊字符以匹配查询.我有许多“节点 ..
发布时间:2021-09-13 20:27:06 其他开发

客户端的html文件加密

在搜索要在那里显示 html 文件的关键字后,我使用 lucene 在客户端进行索引和搜索.那么有什么方法可以存储和访问 html 文件.实际上 html 文件正在存储图像和链接,它们应该在 java api 中作为普通 html 文件打开.我正在使用以下代码进行 lucene 索引 试试{IndexWriter indexWriter = new IndexWriter(FSDirector ..
发布时间:2021-09-02 20:27:42 其他开发

为什么 Lucene 算法不适用于 Java 中的 Exact String?

我正在研究 Java 中的 Lucene 算法.我们在 MySQL 数据库中有 10 万个停止名称.停止名称就像 纽约宾夕法尼亚车站,纽瓦克宾夕法尼亚车站,纽瓦克大街,新天意等等 当用户提供像 NEW YORK 这样的搜索输入时,我们会在结果中得到 NEW YORK PENN STATION 停止,但是当用户提供准确的 NEW YORK PENNSTATION,然后返回零结果. 我的代码 ..
发布时间:2021-08-31 18:44:46 其他开发

如何在Lucene.Net 4.8中使用HIGH_COMPRESSION

我正尝试尽可能地压缩索引大小,请问有什么帮助吗? https://lucenenet.apache.org/docs/4.8.0-beta00013/api/core/Lucene.Net.Codecs.Compressing.CompressionMode.html#Lucene_Net_Codecs_Compressing_CompressionMode_HIGH_COMPRESSION 公 ..
发布时间:2021-05-30 21:47:32 其他开发