使用 Nokogiri(而不是 Tidy)清理 HTML [英] Cleaning HTML with Nokogiri (instead of Tidy)

查看:72
本文介绍了使用 Nokogiri(而不是 Tidy)清理 HTML的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

tidy gem 不再维护并且存在多个内存泄漏问题.

The tidy gem is no longer maintained and has multiple memory leak issues.

有些人建议使用 Nokogiri.

Some people suggested using Nokogiri.

我目前正在使用以下方法清理 HTML:

I'm currently cleaning the HTML using:

Nokogiri::HTML::DocumentFragment.parse(html).to_html

我有两个问题:

  • Nokogiri 删除了 DOCTYPE

是否有一种简单的方法可以强制清理后的 HTML 具有 htmlbody 标签?

Is there an easy way to force the cleaned HTML to have a html and body tag?

推荐答案

如果您正在处理一个完整的文档,您需要:

If you are processing a full document, you want:

Nokogiri::HTML(html).to_html

这将强制使用 htmlbody 标签,并引入或保留 DOCTYPE:

That will force html and body tags, and introduce or preserve the DOCTYPE:

puts Nokogiri::HTML('<p>Hi!</p>').to_html
#=> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"
#=>  "http://www.w3.org/TR/REC-html40/loose.dtd">
#=> <html><body><p>Hi!</p></body></html>

puts Nokogiri::HTML('<!DOCTYPE html><p>Hi!</p>').to_html
#=> <!DOCTYPE html>
#=> <html><body><p>Hi!</p></body></html>

请注意,不保证输出在语法上是有效的.例如,如果我提供一个错误的文档并声称它是 HTML4.01 严格的,Nokogiri 将输出具有该 DOCTYPE 但没有所需的 ...</标题></head></code>部分:<em class="showen"></em></p> <p class="en">Note that the output is not guaranteed to be syntactically valid. For example, if I provide a broken document that lies and claims that it is HTML4.01 strict, Nokogiri will output a document with that DOCTYPE but without the required <code><head><title>...</title></head></code> section:</p> <pre><code><code>dtd = '<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">' puts Nokogiri::HTML("#{dtd}<p>Hi!</p>").to_html #=> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" #=> "http://www.w3.org/TR/html4/strict.dtd"> #=> <html><body><p>Hi!</p></body></html> </code></code></pre> <p>这篇关于使用 Nokogiri(而不是 Tidy)清理 HTML的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!</p> </div> <div class="arc-body-main-more"> <span onclick="unlockarc('2316430');">查看全文</span> </div> </div> <div> </div> <div class="wwads-cn wwads-horizontal" data-id="166" style="max-width:100%;border: 4px solid #666;"></div> </div> </article> <div id="arc-ad-2" class="mb-1"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-5038752844014834" crossorigin="anonymous"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-5038752844014834" data-ad-slot="3921941283"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="widget bgwhite radius-1 mb-1 shadow widget-rel"> <h5>相关文章</h5> <ul> <li> <a target="_blank" title="使用TouchXML和HTML Tidy" href="/877401.html"> 使用TouchXML和HTML Tidy; </a> </li> <li> <a target="_blank" title="使用HTML Tidy来缩进HTML代码?" href="/864638.html"> 使用HTML Tidy来缩进HTML代码?; </a> </li> <li> <a target="_blank" title="HTML Tidy条形标签" href="/1803064.html"> HTML Tidy条形标签; </a> </li> <li> <a target="_blank" title="使用HTML,而不是CSHTML" href="/258028.html"> 使用HTML,而不是CSHTML; </a> </li> <li> <a target="_blank" title="记事本++ HTML Tidy" href="/862545.html"> 记事本++ HTML Tidy; </a> </li> <li> <a target="_blank" title="使用UL而不是html SELECT" href="/1142966.html"> 使用UL而不是html SELECT; </a> </li> <li> <a target="_blank" title="使用html.ActionLink而不是HTML编码" href="/285484.html"> 使用html.ActionLink而不是HTML编码; </a> </li> <li> <a target="_blank" title="如何使用 Nokogiri 解析 HTML 表格?" href="/2729689.html"> 如何使用 Nokogiri 解析 HTML 表格?; </a> </li> <li> <a target="_blank" title="使用 Nokogiri 解析大型 HTML 文件" href="/2316478.html"> 使用 Nokogiri 解析大型 HTML 文件; </a> </li> <li> <a target="_blank" title="如何使用 Nokogiri 拆分 HTML 文档?" href="/2316444.html"> 如何使用 Nokogiri 拆分 HTML 文档?; </a> </li> <li> <a target="_blank" title="如何使用Nokogiri解析HTML表格?" href="/861393.html"> 如何使用Nokogiri解析HTML表格?; </a> </li> <li> <a target="_blank" title="如何用nokogiri解析XML而不丢失HTML实体?" href="/875008.html"> 如何用nokogiri解析XML而不丢失HTML实体?; </a> </li> <li> <a target="_blank" title="HTML Tidy,不要移动这些注释!" href="/537544.html"> HTML Tidy,不要移动这些注释!; </a> </li> <li> <a target="_blank" title="Nokogiri html解析问题" href="/2316419.html"> Nokogiri html解析问题; </a> </li> <li> <a target="_blank" title="使用jQuery清理HTML代码?" href="/872952.html"> 使用jQuery清理HTML代码?; </a> </li> <li> <a target="_blank" title="html tidy,word 2003和“smart quotes”" href="/1066316.html"> html tidy,word 2003和“smart quotes”; </a> </li> <li> <a target="_blank" title="为什么对scrollTop使用"html,body"而不是"html"" href="/1481327.html"> 为什么对scrollTop使用"html,body"而不是"html"; </a> </li> <li> <a target="_blank" title="Nokogiri 以字符串形式返回值,而不是数组" href="/2316390.html"> Nokogiri 以字符串形式返回值,而不是数组; </a> </li> <li> <a target="_blank" title="JSF 2 使用 HTML 页面而不是 XHTML" href="/2772539.html"> JSF 2 使用 HTML 页面而不是 XHTML; </a> </li> <li> <a target="_blank" title="Firebase使用PHP作为索引而不是HTML" href="/2251711.html"> Firebase使用PHP作为索引而不是HTML; </a> </li> <li> <a target="_blank" title="在 Express 中使用 HTML 而不是 Jade" href="/2650712.html"> 在 Express 中使用 HTML 而不是 Jade; </a> </li> <li> <a target="_blank" title="在Express而不是Jade中使用HTML" href="/744457.html"> 在Express而不是Jade中使用HTML; </a> </li> <li> <a target="_blank" title="Nokogiri 抓取未命中 HTML" href="/2316515.html"> Nokogiri 抓取未命中 HTML; </a> </li> <li> <a target="_blank" title="Nokogiri 保持 HTML 实体不变" href="/2316415.html"> Nokogiri 保持 HTML 实体不变; </a> </li> <li> <a target="_blank" title="Nokogiri生成无效的HTML?" href="/871650.html"> Nokogiri生成无效的HTML?; </a> </li> </ul> </div> <div class="mb-1"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-5038752844014834" crossorigin="anonymous"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-5038752844014834" data-ad-slot="3921941283"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="side"> <div class="widget widget-side bgwhite mb-1 shadow"> <h5>其他开发最新文章</h5> <ul> <li> <a target="_blank" title="拒绝显示一个框架,因为它将'X-Frame-Options'设置为'sameorigin'" href="/893060.html"> 拒绝显示一个框架,因为它将'X-Frame-Options'设置为'sameorigin'; </a> </li> <li> <a target="_blank" title="什么是&QUOT; AW&QUOT;在部分标志属性是什么意思?" href="/303988.html"> 什么是&QUOT; AW&QUOT;在部分标志属性是什么意思?; </a> </li> <li> <a target="_blank" title="在运行npm install命令时获取'npm WARN弃用'警告" href="/840917.html"> 在运行npm install命令时获取'npm WARN弃用'警告; </a> </li> <li> <a target="_blank" title="cmake无法找到openssl" href="/516280.html"> cmake无法找到openssl; </a> </li> <li> <a target="_blank" title="从Spark的scala中的* .tar.gz压缩文件中读取HDF5文件" href="/850628.html"> 从Spark的scala中的* .tar.gz压缩文件中读取HDF5文件; </a> </li> <li> <a target="_blank" title="Twitter :: Error :: Forbidden - 无法验证您的凭据" href="/630061.html"> Twitter :: Error :: Forbidden - 无法验证您的凭据; </a> </li> <li> <a target="_blank" title="我什么时候需要一个fb:app_id或者fb:admins?" href="/747981.html"> 我什么时候需要一个fb:app_id或者fb:admins?; </a> </li> <li> <a target="_blank" title="将.db文件导入R" href="/902960.html"> 将.db文件导入R; </a> </li> <li> <a target="_blank" title="npm通知创建一个lockfile作为package-lock.json。你应该提交这个文件" href="/744854.html"> npm通知创建一个lockfile作为package-lock.json。你应该提交这个文件; </a> </li> <li> <a target="_blank" title="拒绝执行内联脚本,因为它违反了以下内容安全策略指令:“script-src'self'”" href="/819167.html"> 拒绝执行内联脚本,因为它违反了以下内容安全策略指令:“script-src'self'”; </a> </li> </ul> </div> <div class="widget widget-side bgwhite mb-1 shadow"> <h5> 热门教程 </h5> <ul> <li> <a target="_blank" title="Java教程" href="/OnLineTutorial/java/index.html"> Java教程 </a> </li> <li> <a target="_blank" title="Apache ANT 教程" href="/OnLineTutorial/ant/index.html"> Apache ANT 教程 </a> </li> <li> <a target="_blank" title="Kali Linux教程" href="/OnLineTutorial/kali_linux/index.html"> Kali Linux教程 </a> </li> <li> <a target="_blank" title="JavaScript教程" href="/OnLineTutorial/javascript/index.html"> JavaScript教程 </a> </li> <li> <a target="_blank" title="JavaFx教程" href="/OnLineTutorial/javafx/index.html"> JavaFx教程 </a> </li> <li> <a target="_blank" title="MFC 教程" href="/OnLineTutorial/mfc/index.html"> MFC 教程 </a> </li> <li> <a target="_blank" title="Apache HTTP客户端教程" href="/OnLineTutorial/apache_httpclient/index.html"> Apache HTTP客户端教程 </a> </li> <li> <a target="_blank" title="Microsoft Visio 教程" href="/OnLineTutorial/microsoft_visio/index.html"> Microsoft Visio 教程 </a> </li> </ul> </div> <div class="widget widget-side bgwhite mb-1 shadow"> <h5> 热门工具 </h5> <ul> <li> <a target="_blank" title="Java 在线工具" href="/Onlinetools/details/4"> Java 在线工具 </a> </li> <li> <a target="_blank" title="C(GCC) 在线工具" href="/Onlinetools/details/6"> C(GCC) 在线工具 </a> </li> <li> <a target="_blank" title="PHP 在线工具" href="/Onlinetools/details/8"> PHP 在线工具 </a> </li> <li> <a target="_blank" title="C# 在线工具" href="/Onlinetools/details/1"> C# 在线工具 </a> </li> <li> <a target="_blank" title="Python 在线工具" href="/Onlinetools/details/5"> Python 在线工具 </a> </li> <li> <a target="_blank" title="MySQL 在线工具" href="/Onlinetools/Dbdetails/33"> MySQL 在线工具 </a> </li> <li> <a target="_blank" title="VB.NET 在线工具" href="/Onlinetools/details/2"> VB.NET 在线工具 </a> </li> <li> <a target="_blank" title="Lua 在线工具" href="/Onlinetools/details/14"> Lua 在线工具 </a> </li> <li> <a target="_blank" title="Oracle 在线工具" href="/Onlinetools/Dbdetails/35"> Oracle 在线工具 </a> </li> <li> <a target="_blank" title="C++(GCC) 在线工具" href="/Onlinetools/details/7"> C++(GCC) 在线工具 </a> </li> <li> <a target="_blank" title="Go 在线工具" href="/Onlinetools/details/20"> Go 在线工具 </a> </li> <li> <a target="_blank" title="Fortran 在线工具" href="/Onlinetools/details/45"> Fortran 在线工具 </a> </li> </ul> </div> </div> </div> <script type="text/javascript">var eskeys = '使用,nokogiri,而,不是,tidy,清理,html'; var cat = 'cc';';//other-dev</script> </div> <div id="pop" onclick="pophide();"> <div id="pop_body" onclick="event.stopPropagation();"> <h6 class="flex flex101"> 登录 <span onclick="pophide();">关闭</span> </h6> <div class="pd-1"> <div class="wxtip center"> <span>扫码关注<em>1秒</em>登录</span> </div> <div class="center"> <img id="qr" src="https://huajiakeji.com/Content/Images/qrydx.jpg" alt="" style="width:150px;height:150px;" /> </div> <div style="margin-top:10px;display:flex;justify-content: center;"> <input type="text" placeholder="输入验证码" id="txtcode" autocomplete="off" /> <input id="btngo" type="button" onclick="chk()" value="GO" /> </div> <div class="center" style="margin: 4px; font-size: .8rem; color: #f60;"> 发送“验证码”获取 <em style="padding: 0 .5rem;">|</em> <span style="color: #01a05c;">15天全站免登陆</span> </div> <div id="chkinfo" class="tip"></div> </div> </div> </div> <script type="text/javascript" src="https://lib.sinaapp.com/js/jquery/1.9.1/jquery-1.9.1.min.js"></script> <script type="text/javascript" src="https://cdn.bootcss.com/jquery-cookie/1.4.1/jquery.cookie.min.js"></script> <script type="text/javascript" src="https://img01.yuandaxia.cn/Scripts/highlight.min.js"></script> <script type="text/javascript" src="https://img01.yuandaxia.cn/Scripts/base.js?v=0.22"></script> <script type="text/javascript" src="https://img01.yuandaxia.cn/Scripts/tui.js?v=0.11"></script> <footer class="footer"> <div class="container"> <div class="flink mb-1"> 友情链接: <a href="https://www.it1352.com/" target="_blank">IT屋</a> <a href="https://huajiakeji.com/" target="_blank">Chrome插件</a> <a href="https://www.cnplugins.com/" target="_blank">谷歌浏览器插件</a> </div> <section class="copyright-section"> <a href="https://www.it1352.com" title="IT屋-程序员软件开发技术分享社区">IT屋</a> ©2016-2022 <a href="http://www.beian.miit.gov.cn/" target="_blank">琼ICP备2021000895号-1</a> <a href="/sitemap.html" target="_blank" title="站点地图">站点地图</a> <a href="/Home/Tags" target="_blank" title="站点标签">站点标签</a> <a target="_blank" alt="sitemap" href="/sitemap.xml">SiteMap</a> <a href="/1155981.html" title="IT屋-免责申明"><免责申明></a> 本站内容来源互联网,如果侵犯您的权益请联系我们删除. </section> <!--统计代码--> <script type="text/javascript"> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?0c3a090f7b3c4ad458ac1296cb5cc779"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> <script type="text/javascript"> (function () { var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> </div> </footer> </body> </html>