solr-cell相关内容
如何维护 HTML 文档的原始格式Solr 给出的结果? 我正在尝试在我公司的一个网站中提供搜索功能,该网站拥有数百万个文档,并且所有文档的格式都不相似,因此很难单独设置每个文档的格式. 我在 apache 站点使用 Solr 4.1 nightly builds,该站点内置了对 solr 的支持-细胞和蒂卡.即我不需要单独配置它们. solr-cell 或 tika 是否在任何
..
您可以将 ExtractingRequestHandler 和 Tika 与任何一个一起使用吗?压缩文件格式(zip、tar、gz 等)以提取内容以进行索引? 我正在使用 curl 向 solr 发送 archived.tar 文件.卷曲"http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_t
..
我正在尝试索引一些 PDF 文档,然后创建一个搜索用户界面. 这个问题有点关系 Solr 索引 PDF 文档并发布它们到远程服务器 1) 索引 PDF 文档 - > 我使用 tika jar 将 PDF 转换为文本文件,然后使用 curl 命令来索引它们. 2) 搜索用户界面 --> 我正在使用 Solritas 浏览功能及其内置用户界面. 目标: 当我在索引文
..
我在 Solr 中使用 ExtractingRequestHandler 来获取文档内容并为其编制索引.它适用于所有 Microsoft 文档,但对于 PDF,提取的内容为空.我也尝试过使用 curl 的 extractOnly=true,它也只返回空的正文. 我在相同的文档上独立使用了 TIKA,它提取的内容很好.不同之处在于,在独立进行时,我使用的是 Tika 附带的 BodyConte
..
我正在构建一个 Web 应用程序,用户可以在其中搜索 pdf 文档并使用 pdf.js 查看它们.我想显示搜索结果,其中包含找到搜索词的段落的一小段片段以及在右侧页面打开文档的链接. 所以我需要的是每个搜索结果的页码和一个简短的文本片段. 我正在使用 SOLR 4.1 来索引 pdf 文档.索引本身工作正常,但我不知道如何获取搜索结果的页码和段落. 我在这里找到了这个“使用 So
..
是否可以通过使用 solr 单元格的数据导入处理程序对富文档(pdf、office)...进行索引. 我使用 solr 3.2. 谢谢. 解决方案 Solr Cell,又名 ExtractingRequestHandler,在幕后使用Apache Tika,后者可以轻松集成到DataImportHandler中:
..
我正在利用 solr ExtractingRequestHandler 来提取和索引 HTML 内容.我的问题涉及它生成的提取链接部分.返回的提取内容在 HTML 源代码中不存在的位置插入了“rect". 我的 solrconfig 单元配置如下: Solr 有以下索引: {“元":["内容编码","ISO-8859-1","ignored_hbaseindexer
..
我在 Ubuntu 10.04(通过 apt-get solr-tomcat 安装)上运行 Solr 1.4,它似乎工作正常.不过,我很难找到有关如何索引文档的任何连贯信息.我是 SOLR 的新手,所以请耐心等待!我有一个文件夹 (/mnt/folder),它是一个挂载的 Windows 共享,其中包含我想要索引的 Word 和 PDF 文件,让 SOLR 索引整个文件夹的最简单方法是什么?
..
谁能给我指点教程. 我使用 Solr 的主要经验是索引 CSV 文件.但是我找不到任何简单的说明/教程来告诉我索引 pdf 需要做什么. 我见过这个:http://wiki.apache.org/solr/ExtractingRequestHandler 但这对我来说意义不大.我需要安装 Tika 吗? 我迷路了 - 请帮忙 解决方案 其中最难的部分是使用 Aper
..
我试图让 Solr 索引一个数据库,其中一列是我想要索引的 PDF 文档的文件名.我的配置如下:
..
如何在HTML文档中维护HTML文档的原始格式.Solr给出的结果? 我正试图在我的一个公司网站中提供搜索功能,该网站拥有数百万个文档,并且都没有类似的格式,因此很难单独格式化每个文档. 我正在apache网站上使用 Solr 4.1夜间构建,该站点已对solr-提供内置支持细胞和蒂卡.也就是说,我不需要分别配置它们. solr-cell或tika可以在任何地方保留这些格式吗?
..
我正在利用solr ExtractingRequestHandler提取HTML内容并为其编制索引.我的问题涉及它产生的提取的链接部分.返回的提取内容在HTML源代码中不存在的地方插入了“矩形". 我的solrconfig单元配置如下:
..
我正在尝试让Solr索引数据库,其中一列是我要索引的PDF文档的文件名.我的配置如下:
..
我已经找到了一些与此问题相关的解决方案.如我将解释的那样,相关的解决方案对我不起作用. (我正在使用Solr 4.0,并为存储在Oracle 11g数据库中的数据建立索引.) Jonck van der Kogel(从2009年开始)的相关解决方案由于Kogel的解决方案似乎走在正确的道路上,是否有办法在自定义的Transformer中使用Solr随附的Tika类?这样一来,Kogel优雅的
..
是否可以使用solr单元使用数据导入处理程序对丰富的文档(pdf,office)...建立索引. 我使用solr 3.2. 谢谢. 解决方案 Solr Cell,又名 ExtractingRequestHandler ,在后台使用 Apache Tika ,并且后者可以轻松集成到DataImportHandler中:
..
我正在Solr中使用ExtractingRequestHandler来获取文档内容并为其编制索引.它适用于所有Microsoft文档,但对于PDF,要提取的内容为空.我还尝试了curl的extractOnly = true,它也只返回空的正文. 我在相同的文档上独立使用了TIKA,并且提取的内容还不错.区别在于,当我独立进行操作时,我使用的是Tika随附的BodyContentHander,
..
您可以使用ExtractingRequestHandler和Tika以及任何 压缩文件格式(zip,tar,gz等)来提取索引内容吗? 我使用curl发送solr archived.tar文件。 curl“ http:/ /localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=t
..
我试图索引一些PDF文档,然后创建一个搜索用户界面。 这个问题与 Solr索引PDF文档和帖子他们到远程服务器 1)索引PDF文档 - >我使用tika jar将PDF转换为文本文件,然后使用curl命令为它们编制索引。 2)搜索UI - >使用 Solritas 浏览功能及其内置用户界面。 目标: 当我搜索索引文件列表中的“Lucene”时,给定查询的结果集我
..
我正在构建一个Web应用程序,用户可以搜索pdf文档并使用pdf.js查看它们。我想用一段简短的段落显示搜索结果,其中找到的搜索字词以及在右侧页面打开文档的链接。 我需要的是每个搜索结果的页码和简短的文本片段。 我使用SOLR 4.1来索引PDF文档。索引本身工作正常,但我不知道如何获得搜索结果的页码和段落。 我在这里发现了这个“使用Solr为索引PDF索引页面编号”但它并不真正
..
我对Solr的主要经验是对CSV文件编制索引。但我找不到任何简单的说明/教程来告诉我我需要做什么来索引pdf。 我已经看到了这个: http://wiki.apache.org/solr/ExtractingRequestHandler 但它对我来说毫无意义。我需要安装Tika吗? 我输了 - 请帮助 解决方案 其中最难的部分是从PDF中获取元数据,使用像 Apertur
..