使用 Solr 索引带有属性的 HTML 标签 [英] Using Solr for indexing HTML tags with attributes

查看:60
本文介绍了使用 Solr 索引带有属性的 HTML 标签的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我使用 Nutch 抓取了网站,并将抓取的数据推送到了 solr.现在我想在具有特定属性值的特定标签之间搜索内容.例如,

 要搜索的标题</title></h><div id="abc">要搜索的内容</div><p><div class="efg">要搜索的其他内容</div><p></code></pre><p>我见过这个问题(<a href="https://stackoverflow.com/questions/12338967/how-to-parse-html-with-nutch-and-index-specific-tag-to-solr">如何使用 nutch 解析 html 并将特定标签索引到 solr?</a>)但这不够清晰.</p><p>我想知道是否有任何可用的插件,或者我需要完全编写一个自定义插件.如果我必须编写一个插件,我只需要一些处理 html 标签和属性的说明.</p><div class="h2_lin"> 解决方案 </div><p>你可以实现一个 Nutch 过滤器(我喜欢 <a href="http://jericho.htmlparser.net/docs/index.html" rel="nofollow">Jericho HTML Parser</a>) 以仅提取您需要使用 DOM 操作编制索引的页面部分.您可以使用 <a href="http://jericho.htmlparser.net/docs/javadoc/net/htmlparser/jericho/TextExtractor.html" rel="nofollow">TextExtractor</a> 类来抓取干净的文本(sans HTML 标签)用于您的索引.我通常将这些数据保存在自定义字段中.</p><p>I have crawled websites using Nutch and I have pushed crawled data to solr. Now I want to search content between specific tag with specific attribute value. For example,</p><pre><code> <h><title> title to search </title></h>
 <div id="abc">
     content to search
 </div>
 <div class="efg">
     other content to search
 </div>
</code></pre><p>I have seen this question(<a href="https://stackoverflow.com/questions/12338967/how-to-parse-html-with-nutch-and-index-specific-tag-to-solr">how to parse html with nutch and index specific tag to solr?</a>) but this does not have enough clarity.</p>

<p>I want to know that whether there is any plugin available or i need to write a customized plugin altogether. If i have to write a plugin, i just need few directions for handling html tags and attributes. </p><div class="h2_lin"> 解决方案 </div><p>You can implement a Nutch filter (I like <a href="http://jericho.htmlparser.net/docs/index.html" rel="nofollow">Jericho HTML Parser</a>) to extract only the parts of the page you need to index using DOM manipulation. You can use the <a href="http://jericho.htmlparser.net/docs/javadoc/net/htmlparser/jericho/TextExtractor.html" rel="nofollow">TextExtractor</a> class to grab clean text (sans HTML tags) to be used in your index. I usually save that data in custom fields.</p>

                        <p>这篇关于使用 Solr 索引带有属性的 HTML 标签的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!</p>
                        
                    </div>
                    <div class="arc-body-main-more">
                        <span onclick="unlockarc('2321221');">查看全文</span>
                    </div>
                </div>
				<div>
                            
                        </div>
                <div class="wwads-cn wwads-horizontal" data-id="166" style="max-width:100%;border: 4px solid #666;"></div>
            </div>
        </article>
        <div id="arc-ad-2" class="mb-1">
            <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-5038752844014834"
     crossorigin="anonymous"></script>
<ins class="adsbygoogle"
     style="display:block"
     data-ad-format="autorelaxed"
     data-ad-client="ca-pub-5038752844014834"
     data-ad-slot="3921941283"></ins>
<script>
     (adsbygoogle = window.adsbygoogle || []).push({});
</script>

        </div>
        <div class="widget bgwhite radius-1 mb-1 shadow widget-rel">
            <h5>相关文章</h5>
            <ul>
                    <li>
                        <a target="_blank" title="如何使用 nutch 解析 html 并将特定标签索引到 solr?" href="/2619824.html">
                            如何使用 nutch 解析 html 并将特定标签索引到 solr?;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="如何使用nutch和索引特定标签解析html到solr?" href="/2556194.html">
                            如何使用nutch和索引特定标签解析html到solr?;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="Solr 8.6.3无法索引HTML文件" href="/2294447.html">
                            Solr 8.6.3无法索引HTML文件;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="使用 Solr 索引 PDF" href="/2556182.html">
                            使用 Solr 索引 PDF;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="涉及带有属性的 HTML 标签的 Python 网页抓取" href="/2708891.html">
                            涉及带有属性的 HTML 标签的 Python 网页抓取;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="如何在 solr 中索引带有前缀的单词?" href="/2740558.html">
                            如何在 solr 中索引带有前缀的单词?;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="如何使用Elasticsearch的Solr索引" href="/670807.html">
                            如何使用Elasticsearch的Solr索引;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="使用Solr编制索引PDF" href="/777821.html">
                            使用Solr编制索引PDF;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="Solr使用cURL删除索引" href="/589873.html">
                            Solr使用cURL删除索引;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="使用带有单选按钮的 HTML 'label' 标签" href="/2611999.html">
                            使用带有单选按钮的 HTML 'label' 标签;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="使用 solr 构建标签云" href="/2821352.html">
                            使用 solr 构建标签云;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="使用solr构建标签云" href="/985287.html">
                            使用solr构建标签云;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="Solr“实时”索引" href="/597936.html">
                            Solr“实时”索引;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="关于HTML标签的“For”属性" href="/864444.html">
                            关于HTML标签的“For”属性;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="我如何索引HTML文件到Apache Solr实现?" href="/216906.html">
                            我如何索引HTML文件到Apache Solr实现?;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="如何使用JavaScript读取HTML标签的属性?" href="/653225.html">
                            如何使用JavaScript读取HTML标签的属性?;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="使用Solr索引/搜索PDF内容" href="/1736241.html">
                            使用Solr索引/搜索PDF内容;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="使用Solr索引多种语言" href="/985765.html">
                            使用Solr索引多种语言;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="使用 Solr 索引多种语言" href="/2821360.html">
                            使用 Solr 索引多种语言;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="HTML表单标签属性" href="/1446557.html">
                            HTML表单标签属性;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="带有 Html Helper 的条件 html 属性" href="/2699658.html">
                            带有 Html Helper 的条件 html 属性;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="带有HTML标签的FPDF文本" href="/878121.html">
                            带有HTML标签的FPDF文本;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="使用带有html标签的nl2br" href="/876542.html">
                            使用带有html标签的nl2br;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="html标签中的lang属性" href="/1363093.html">
                            html标签中的lang属性;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="显示包含html标签的属性" href="/677047.html">
                            显示包含html标签的属性;
                        </a>
                    </li>
            </ul>
        </div>
        <div class="mb-1">
            <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-5038752844014834"
     crossorigin="anonymous"></script>
<ins class="adsbygoogle"
     style="display:block"
     data-ad-format="autorelaxed"
     data-ad-client="ca-pub-5038752844014834"
     data-ad-slot="3921941283"></ins>
<script>
     (adsbygoogle = window.adsbygoogle || []).push({});
</script>

        </div>
    </div>
    <div class="side">
        <div class="widget widget-side bgwhite mb-1 shadow">
            <h5>其他开发最新文章</h5>
            <ul>
                    <li>
                        <a target="_blank" title="拒绝显示一个框架,因为它将'X-Frame-Options'设置为'sameorigin'" href="/893060.html">
                            拒绝显示一个框架,因为它将'X-Frame-Options'设置为'sameorigin';
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="什么是&QUOT; AW&QUOT;在部分标志属性是什么意思?" href="/303988.html">
                            什么是&QUOT; AW&QUOT;在部分标志属性是什么意思?;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="在运行npm install命令时获取'npm WARN弃用'警告" href="/840917.html">
                            在运行npm install命令时获取'npm WARN弃用'警告;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="cmake无法找到openssl" href="/516280.html">
                            cmake无法找到openssl;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="从Spark的scala中的* .tar.gz压缩文件中读取HDF5文件" href="/850628.html">
                            从Spark的scala中的* .tar.gz压缩文件中读取HDF5文件;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="Twitter :: Error :: Forbidden  - 无法验证您的凭据" href="/630061.html">
                            Twitter :: Error :: Forbidden  - 无法验证您的凭据;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="我什么时候需要一个fb:app_id或者fb:admins?" href="/747981.html">
                            我什么时候需要一个fb:app_id或者fb:admins?;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="将.db文件导入R" href="/902960.html">
                            将.db文件导入R;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="npm通知创建一个lockfile作为package-lock.json。你应该提交这个文件" href="/744854.html">
                            npm通知创建一个lockfile作为package-lock.json。你应该提交这个文件;
                        </a>
                    </li>
                    <li>
                        <a target="_blank" title="拒绝执行内联脚本,因为它违反了以下内容安全策略指令:“script-src'self'”" href="/819167.html">
                            拒绝执行内联脚本,因为它违反了以下内容安全策略指令:“script-src'self'”;
                        </a>
                    </li>
            </ul>
        </div>
        <div class="widget widget-side bgwhite mb-1 shadow">
            <h5>
                热门教程
            </h5>
            <ul>
                <li>
                    <a target="_blank" title="Java教程" href="/OnLineTutorial/java/index.html">
                        Java教程
                    </a>
                </li>
                <li>
                    <a target="_blank" title="Apache ANT 教程" href="/OnLineTutorial/ant/index.html">
                        Apache ANT 教程
                    </a>
                </li>
                <li>
                    <a target="_blank" title="Kali Linux教程" href="/OnLineTutorial/kali_linux/index.html">
                        Kali Linux教程
                    </a>
                </li>
                <li>
                    <a target="_blank" title="JavaScript教程" href="/OnLineTutorial/javascript/index.html">
                        JavaScript教程
                    </a>
                </li>
                <li>
                    <a target="_blank" title="JavaFx教程" href="/OnLineTutorial/javafx/index.html">
                        JavaFx教程
                    </a>
                </li>
                <li>
                    <a target="_blank" title="MFC 教程" href="/OnLineTutorial/mfc/index.html">
                        MFC 教程
                    </a>
                </li>
                <li>
                    <a target="_blank" title="Apache HTTP客户端教程" href="/OnLineTutorial/apache_httpclient/index.html">
                        Apache HTTP客户端教程
                    </a>
                </li>
                <li>
                    <a target="_blank" title="Microsoft Visio 教程" href="/OnLineTutorial/microsoft_visio/index.html">
                        Microsoft Visio 教程
                    </a>
                </li>
            </ul>
        </div>
        <div class="widget widget-side bgwhite mb-1 shadow">
            <h5>
                热门工具
            </h5>
            <ul>
                
                <li>
                    <a target="_blank" title="Java 在线工具" href="/Onlinetools/details/4">
                        Java 在线工具
                    </a>
                </li>
                <li>
                    <a target="_blank" title="C(GCC) 在线工具" href="/Onlinetools/details/6">
                        C(GCC) 在线工具
                    </a>
                </li>
                <li>
                    <a target="_blank" title="PHP 在线工具" href="/Onlinetools/details/8">
                        PHP 在线工具
                    </a>
                </li>
                <li>
                    <a target="_blank" title="C# 在线工具" href="/Onlinetools/details/1">
                        C# 在线工具
                    </a>
                </li>
                <li>
                    <a target="_blank" title="Python 在线工具" href="/Onlinetools/details/5">
                        Python 在线工具
                    </a>
                </li>
                <li>
                    <a target="_blank" title="MySQL 在线工具" href="/Onlinetools/Dbdetails/33">
                        MySQL 在线工具
                    </a>
                </li>
                <li>
                    <a target="_blank" title="VB.NET 在线工具" href="/Onlinetools/details/2">
                        VB.NET 在线工具
                    </a>
                </li>
                <li>
                    <a target="_blank" title="Lua 在线工具" href="/Onlinetools/details/14">
                        Lua 在线工具
                    </a>
                </li>
                <li>
                    <a target="_blank" title="Oracle 在线工具" href="/Onlinetools/Dbdetails/35">
                        Oracle 在线工具
                    </a>
                </li>
                <li>
                    <a target="_blank" title="C++(GCC) 在线工具" href="/Onlinetools/details/7">
                        C++(GCC) 在线工具
                    </a>
                </li>
                <li>
                    <a target="_blank" title="Go 在线工具" href="/Onlinetools/details/20">
                        Go 在线工具
                    </a>
                </li>
                <li>
                    <a target="_blank" title="Fortran 在线工具" href="/Onlinetools/details/45">
                        Fortran 在线工具
                    </a>
                </li>
            </ul>
        </div>
        
    </div>
</div>
<script type="text/javascript">var eskeys = '使用,solr,索引,带有,属性,的,html,标签'; var cat = 'cc';';//other-dev</script>
    </div>
<div id="pop" onclick="pophide();">
    <div id="pop_body" onclick="event.stopPropagation();">
        <h6 class="flex flex101">
            登录
            <span onclick="pophide();">关闭</span>
        </h6>
        <div class="pd-1">
            <div class="wxtip center">
                <span>扫码关注<em>1秒</em>登录</span>
            </div>
            <div class="center">
                <img id="qr" src="https://huajiakeji.com/Content/Images/qrydx.jpg" alt="" style="width:150px;height:150px;" />
            </div>
            <div style="margin-top:10px;display:flex;justify-content: center;">
                <input type="text" placeholder="输入验证码" id="txtcode" autocomplete="off" />
                <input id="btngo" type="button" onclick="chk()" value="GO" />
            </div>
            <div class="center" style="margin: 4px; font-size: .8rem; color: #f60;">
                发送“验证码”获取
                <em style="padding: 0 .5rem;">|</em>
                <span style="color: #01a05c;">15天全站免登陆</span>
            </div>
            <div id="chkinfo" class="tip"></div>
        </div>
    </div>
</div>    <script type="text/javascript" src="https://lib.sinaapp.com/js/jquery/1.9.1/jquery-1.9.1.min.js"></script>
<script type="text/javascript" src="https://cdn.bootcss.com/jquery-cookie/1.4.1/jquery.cookie.min.js"></script>
<script type="text/javascript" src="https://img01.yuandaxia.cn/Scripts/highlight.min.js"></script>
<script type="text/javascript" src="https://img01.yuandaxia.cn/Scripts/base.js?v=0.22"></script>
<script type="text/javascript" src="https://img01.yuandaxia.cn/Scripts/tui.js?v=0.11"></script>
<footer class="footer">
    <div class="container">
		<div class="flink mb-1">
			友情链接:
            <a href="https://www.it1352.com/" target="_blank">IT屋</a>
            <a href="https://huajiakeji.com/" target="_blank">Chrome插件</a>
            <a href="https://www.cnplugins.com/" target="_blank">谷歌浏览器插件</a>
        </div>
        <section class="copyright-section">
            <a href="https://www.it1352.com" title="IT屋-程序员软件开发技术分享社区">IT屋</a>
            ©2016-2022 <a href="http://www.beian.miit.gov.cn/" target="_blank">琼ICP备2021000895号-1</a>
            <a href="/sitemap.html" target="_blank" title="站点地图">站点地图</a>
            <a href="/Home/Tags" target="_blank" title="站点标签">站点标签</a>
            <a target="_blank" alt="sitemap" href="/sitemap.xml">SiteMap</a>
            <a href="/1155981.html" title="IT屋-免责申明"><免责申明></a>
            本站内容来源互联网,如果侵犯您的权益请联系我们删除.
        </section>
        
<!--统计代码-->
<script type="text/javascript">
    var _hmt = _hmt || [];
    (function() {
      var hm = document.createElement("script");
      hm.src = "https://hm.baidu.com/hm.js?0c3a090f7b3c4ad458ac1296cb5cc779";
      var s = document.getElementsByTagName("script")[0]; 
      s.parentNode.insertBefore(hm, s);
    })();
</script>
<script type="text/javascript">
    (function () {
        var bp = document.createElement('script');
        var curProtocol = window.location.protocol.split(':')[0];
        if (curProtocol === 'https') {
            bp.src = 'https://zz.bdstatic.com/linksubmit/push.js';
        }
        else {
            bp.src = 'http://push.zhanzhang.baidu.com/push.js';
        }
        var s = document.getElementsByTagName("script")[0];
        s.parentNode.insertBefore(bp, s);
    })();
</script>
    </div>
</footer>
</body>
</html>