dataimporthandler相关内容

Solr DIH -- 如何处理已删除的文档?

我正在使用 Solr 驱动的 web 应用搜索,我认为最好使用 DataImportHandler 来处理通过数据库与应用程序同步.我喜欢只检查 last_updated_date 字段的优雅.好东西.但是,我不知道如何使用这种方法处理删除文档.在我看来,我有两个选择.我可以在删除文档时从客户端向 Solr 发送显式消息,或者我可以添加“已删除"标志并将对象保留在数据库中,这样 Solr 会注意到 ..
发布时间:2022-01-15 12:31:01 其他开发

是否可以让 Solr 的 DataImportHadler 忽略带有空字符串的字段?

我正在使用 Solr 的 DataImportHandler 从数据库导入数据.如果该列没有值,则某些记录具有空字符串. 目前我的配置生成如下 Solr 文档: {"x": "值","y": "",“z":2} 但是我想忽略所有没有价值的字段,以便创建这样的文档: {"x": "值",“z":2} 有什么我可以在配置文件中为 DataImportHandler 定义的东西,它会给我我 ..
发布时间:2021-12-30 08:45:57 其他开发

如何索引存储在 solr4 中其他服务器上的 XML 文件

我已将所有 XML 文件存储在另一台服务器上,并且已在不同服务器上安装并配置了 SOLR.如何将这些 XML 文件索引到 SOLR 中.我已经检查过 nutch,但它的主要目的是抓取 html 页面并将它们编入索引.我不需要爬行.我在其他服务器上的特定路径上拥有所有这些文件.我只需要在 SOLR 中索引这些 XML 文件.我已经安装并配置了 SOLR4. 如果有人做过这样的事情,请告诉我该怎 ..
发布时间:2021-12-30 08:44:36 其他开发

用逗号分隔值的 Solr Facet 多个单词

我正在将数据从 mysql 拉入 solr.其中一个字段是使用 group_concat 函数生成的,该函数会生成一个逗号分隔的字段,其中列出了一个事件的所有波段.当时我相信这是为一个事件存储多个乐队的最佳方式.但是,我发现我无法针对所有事件处理此查询. 我已将波段字段设置为字符串并将多值设置为 true. 结果与预期一致,其中字符串分面为一个长字符串. "珍珠果酱,爱丽丝,尖叫 ..
发布时间:2021-12-30 08:40:41 数据库

Solr DataImportHandler 配置

我想在 DataImportHandler 的帮助下从 mysql 数据库中获取数据,以便我可以创建索引.现在我已经配置了我的 Solr 实例,以便它可以在 Tomcat(示例管理页面)上运行,但是如果我尝试更改 sorlconfig.xml 文件,我将收到错误消息.我正在使用 Solr 3.6 所以我的配置是: 在 solrconfig.xml 中我添加了: ${solr.data ..
发布时间:2021-12-30 08:39:06 数据库

org.apache.solr.common.SolrException:加载类 'org.apache.solr.handler.dataimport.DataImportHandler 时出错

我是 solr 的新手.我在我的服务器上安装了 apache tomcat 7.0,我在服务器上安装了 solr 3.6.1. 我的 D:\ 驱动器上有网络人员设置的 solr-home 文件夹.其中的文件夹是:bin 等、日志、多核、网络应用程序. 在多核文件夹中有:core0、core1、exampledocs、README.txt 和 solr.xml.在 webapps 文件夹 ..
发布时间:2021-12-30 08:31:03 其他开发

SOLR - 从 csv 文件导入 2000 万个文档的最佳方法

我目前手头的任务是找出在 solr 中加载数百万文档的最佳方法.数据文件是从 DB 导出的 csv 格式. 目前,我正在考虑将文件拆分为较小的文件并编写一个脚本,同时使用 curl 发布这些较小的文件. 我注意到如果您发布大量数据,大多数情况下请求会超时. 我正在研究数据导入器,这似乎是一个不错的选择 高度赞赏任何其他想法 谢谢 解决方案 除非数据库已经是您解 ..
发布时间:2021-12-30 08:25:30 其他开发

Solr - 如何从我的 DataImportHandler 接收导入失败的通知?

我们的 solr 索引根据计划刷新,并根据需要通过 DataImportHandler 完全导入任意刷新.我们遇到过几次由于各种原因导入失败的情况. 如何在使用 DataImportHandler 执行导入时收到错误通知(最好是电子邮件)? 解决方案 在尝试使用 EventListener 并取得一些成功后,我们审查了我们的选项并最终确定了一种不太万无一失的方法. 我们没有扩展 ..
发布时间:2021-12-30 08:21:48 其他开发

Solr 增量导入不起作用

完全导入和deletedPkQuery有效,我已经跟踪了数据库服务器,deltaQuery 和deletedPkQuery 都被执行了. 我多次手动执行这些查询,它们确实返回了行,但是 它不获取任何行.我做的最后一件事是在所有查询中输出 FILE_ID 作为 id.还是不行. ..
发布时间:2021-12-30 08:20:49 其他开发

Solr 4.1 DataImportHandler ClassNotFoundException

我一直在尝试按照 this 教程和尝试了之前帖子中建议的解决方案,例如 在多核 solr 中配置 DIH 并添加了数据导入 jar到类路径,但错误仍然存​​在.有什么方法可以解决这个问题? 这是整个异常堆栈跟踪: 严重:无法创建核心:collection1org.apache.solr.common.SolrException:RequestHandler 初始化失败在 org.apach ..
发布时间:2021-12-30 08:17:24 其他开发

Solr DIH -- 如何处理已删除的文件?

我正在对我的 web 应用程序进行 Solr 驱动的搜索,我认为最好使用 DataImportHandler 通过数据库处理与应用程序的同步.我喜欢只检查 last_updated_date 字段的优雅.好东西.但是,我不知道如何使用这种方法处理删除文档.在我看来,我有 2 个选择.当文档被删除时,我可以从客户端向 Solr 发送显式消息,或者我可以添加一个“已删除"标志并将对象保留在数据库中,以 ..
发布时间:2021-12-30 08:14:17 其他开发

SolrEntityProcessor 只为子实体调用一次

我使用的是 Solr 4.2,我试图将 SolrEntityProcessor 称为子实体.到目前为止,只对 Solr 进行了一次调用,并且对单个文档进行了索引,而忽略了所有其他文档.这应该是可能的,但它似乎不起作用......有什么想法吗? 代码截图: ..
发布时间:2021-12-30 08:13:20 其他开发