使用 Nokogiri(而不是 Tidy)清理 HTML [英] Cleaning HTML with Nokogiri (instead of Tidy)

查看：72 发布时间：2021/6/8 18:46:04 ruby nokogiri tidy

本文介绍了使用 Nokogiri(而不是 Tidy)清理 HTML的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

tidy gem 不再维护并且存在多个内存泄漏问题.

The tidy gem is no longer maintained and has multiple memory leak issues.

有些人建议使用 Nokogiri.

Some people suggested using Nokogiri.

我目前正在使用以下方法清理 HTML:

I'm currently cleaning the HTML using:

Nokogiri::HTML::DocumentFragment.parse(html).to_html

我有两个问题:

Nokogiri 删除了 DOCTYPE

是否有一种简单的方法可以强制清理后的 HTML 具有 html 和 body 标签?

Is there an easy way to force the cleaned HTML to have a html and body tag?

推荐答案

如果您正在处理一个完整的文档，您需要:

If you are processing a full document, you want:

Nokogiri::HTML(html).to_html

这将强制使用 html 和 body 标签，并引入或保留 DOCTYPE:

That will force html and body tags, and introduce or preserve the DOCTYPE:

puts Nokogiri::HTML('<p>Hi!</p>').to_html
#=> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"
#=>  "http://www.w3.org/TR/REC-html40/loose.dtd">
#=> <html><body><p>Hi!</p></body></html>

puts Nokogiri::HTML('<!DOCTYPE html><p>Hi!</p>').to_html
#=> <!DOCTYPE html>
#=> <html><body><p>Hi!</p></body></html>

请注意，不保证输出在语法上是有效的.例如，如果我提供一个错误的文档并声称它是 HTML4.01 严格的，Nokogiri 将输出具有该 DOCTYPE 但没有所需的 ...</标题></head></code>部分:<em class="showen"></em></p> <p class="en">Note that the output is not guaranteed to be syntactically valid. For example, if I provide a broken document that lies and claims that it is HTML4.01 strict, Nokogiri will output a document with that DOCTYPE but without the required <code><head><title>...</title></head></code> section:</p> <pre><code><code>dtd = '<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">' puts Nokogiri::HTML("#{dtd}<p>Hi!</p>").to_html #=> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" #=> "http://www.w3.org/TR/html4/strict.dtd"> #=> <html><body><p>Hi!</p></body></html> </code></code></pre> <p>这篇关于使用 Nokogiri(而不是 Tidy)清理 HTML的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！</p> </div> <div class="arc-body-main-more"> <span onclick="unlockarc('2316430');">查看全文</span> </div> </div> <div> </div> <div class="wwads-cn wwads-horizontal" data-id="166" style="max-width:100%;border: 4px solid #666;"></div> </div> </article> <div id="arc-ad-2" class="mb-1"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-5038752844014834" crossorigin="anonymous"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-5038752844014834" data-ad-slot="3921941283"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="widget bgwhite radius-1 mb-1 shadow widget-rel"> <h5>相关文章</h5> <ul> <li> <a target="_blank" title="使用TouchXML和HTML Tidy" href="/877401.html"> 使用TouchXML和HTML Tidy; </a> </li> <li> <a target="_blank" title="使用HTML Tidy来缩进HTML代码？" href="/864638.html"> 使用HTML Tidy来缩进HTML代码？; </a> </li> <li> <a target="_blank" title="HTML Tidy条形标签" href="/1803064.html"> HTML Tidy条形标签; </a> </li> <li> <a target="_blank" title="使用HTML，而不是CSHTML" href="/258028.html"> 使用HTML，而不是CSHTML; </a> </li> <li> <a target="_blank" title="记事本++ HTML Tidy" href="/862545.html"> 记事本++ HTML Tidy; </a> </li> <li> <a target="_blank" title="使用UL而不是html SELECT" href="/1142966.html"> 使用UL而不是html SELECT; </a> </li> <li> <a target="_blank" title="使用html.ActionLink而不是HTML编码" href="/285484.html"> 使用html.ActionLink而不是HTML编码; </a> </li> <li> <a target="_blank" title="如何使用 Nokogiri 解析 HTML 表格?" href="/2729689.html"> 如何使用 Nokogiri 解析 HTML 表格?; </a> </li> <li> <a target="_blank" title="使用 Nokogiri 解析大型 HTML 文件" href="/2316478.html"> 使用 Nokogiri 解析大型 HTML 文件; </a> </li> <li> <a target="_blank" title="如何使用 Nokogiri 拆分 HTML 文档?" href="/2316444.html"> 如何使用 Nokogiri 拆分 HTML 文档?; </a> </li> <li> <a target="_blank" title="如何使用Nokogiri解析HTML表格？" href="/861393.html"> 如何使用Nokogiri解析HTML表格？; </a> </li> <li> <a target="_blank" title="如何用nokogiri解析XML而不丢失HTML实体？" href="/875008.html"> 如何用nokogiri解析XML而不丢失HTML实体？; </a> </li> <li> <a target="_blank" title="HTML Tidy，不要移动这些注释！" href="/537544.html"> HTML Tidy，不要移动这些注释！; </a> </li> <li> <a target="_blank" title="Nokogiri html解析问题" href="/2316419.html"> Nokogiri html解析问题; </a> </li> <li> <a target="_blank" title="使用jQuery清理HTML代码？" href="/872952.html"> 使用jQuery清理HTML代码？; </a> </li> <li> <a target="_blank" title="html tidy，word 2003和“smart quotes”" href="/1066316.html"> html tidy，word 2003和“smart quotes”; </a> </li> <li> <a target="_blank" title="为什么对scrollTop使用"html，body"而不是"html"" href="/1481327.html"> 为什么对scrollTop使用"html，body"而不是"html"; </a> </li> <li> <a target="_blank" title="Nokogiri 以字符串形式返回值，而不是数组" href="/2316390.html"> Nokogiri 以字符串形式返回值，而不是数组; </a> </li> <li> <a target="_blank" title="JSF 2 使用 HTML 页面而不是 XHTML" href="/2772539.html"> JSF 2 使用 HTML 页面而不是 XHTML; </a> </li> <li> <a target="_blank" title="Firebase使用PHP作为索引而不是HTML" href="/2251711.html"> Firebase使用PHP作为索引而不是HTML; </a> </li> <li> <a target="_blank" title="在 Express 中使用 HTML 而不是 Jade" href="/2650712.html"> 在 Express 中使用 HTML 而不是 Jade; </a> </li> <li> <a target="_blank" title="在Express而不是Jade中使用HTML" href="/744457.html"> 在Express而不是Jade中使用HTML; </a> </li> <li> <a target="_blank" title="Nokogiri 抓取未命中 HTML" href="/2316515.html"> Nokogiri 抓取未命中 HTML; </a> </li> <li> <a target="_blank" title="Nokogiri 保持 HTML 实体不变" href="/2316415.html"> Nokogiri 保持 HTML 实体不变; </a> </li> <li> <a target="_blank" title="Nokogiri生成无效的HTML？" href="/871650.html"> Nokogiri生成无效的HTML？; </a> </li> </ul> </div> <div class="mb-1"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-5038752844014834" crossorigin="anonymous"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-5038752844014834" data-ad-slot="3921941283"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="side"> <div class="widget widget-side bgwhite mb-1 shadow"> <h5>其他开发最新文章</h5> <ul> <li> <a target="_blank" title="拒绝显示一个框架，因为它将'X-Frame-Options'设置为'sameorigin'" href="/893060.html"> 拒绝显示一个框架，因为它将'X-Frame-Options'设置为'sameorigin'; </a> </li> <li> <a target="_blank" title="什么是＆QUOT; AW＆QUOT;在部分标志属性是什么意思？" href="/303988.html"> 什么是＆QUOT; AW＆QUOT;在部分标志属性是什么意思？; </a> </li> <li> <a target="_blank" title="在运行npm install命令时获取'npm WARN弃用'警告" href="/840917.html"> 在运行npm install命令时获取'npm WARN弃用'警告; </a> </li> <li> <a target="_blank" title="cmake无法找到openssl" href="/516280.html"> cmake无法找到openssl; </a> </li> <li> <a target="_blank" title="从Spark的scala中的* .tar.gz压缩文件中读取HDF5文件" href="/850628.html"> 从Spark的scala中的* .tar.gz压缩文件中读取HDF5文件; </a> </li> <li> <a target="_blank" title="Twitter :: Error :: Forbidden - 无法验证您的凭据" href="/630061.html"> Twitter :: Error :: Forbidden - 无法验证您的凭据; </a> </li> <li> <a target="_blank" title="我什么时候需要一个fb：app_id或者fb：admins？" href="/747981.html"> 我什么时候需要一个fb：app_id或者fb：admins？; </a> </li> <li> <a target="_blank" title="将.db文件导入R" href="/902960.html"> 将.db文件导入R; </a> </li> <li> <a target="_blank" title="npm通知创建一个lockfile作为package-lock.json。你应该提交这个文件" href="/744854.html"> npm通知创建一个lockfile作为package-lock.json。你应该提交这个文件; </a> </li> <li> <a target="_blank" title="拒绝执行内联脚本，因为它违反了以下内容安全策略指令：“script-src'self'”" href="/819167.html"> 拒绝执行内联脚本，因为它违反了以下内容安全策略指令：“script-src'self'”; </a> </li> </ul> </div> <div class="widget widget-side bgwhite mb-1 shadow"> <h5> 热门教程 </h5> <ul> <li> <a target="_blank" title="Java教程" href="/OnLineTutorial/java/index.html"> Java教程 </a> </li> <li> <a target="_blank" title="Apache ANT 教程" href="/OnLineTutorial/ant/index.html"> Apache ANT 教程 </a> </li> <li> <a target="_blank" title="Kali Linux教程" href="/OnLineTutorial/kali_linux/index.html"> Kali Linux教程 </a> </li> <li> <a target="_blank" title="JavaScript教程" href="/OnLineTutorial/javascript/index.html"> JavaScript教程 </a> </li> <li> <a target="_blank" title="JavaFx教程" href="/OnLineTutorial/javafx/index.html"> JavaFx教程 </a> </li> <li> <a target="_blank" title="MFC 教程" href="/OnLineTutorial/mfc/index.html"> MFC 教程 </a> </li> <li> <a target="_blank" title="Apache HTTP客户端教程" href="/OnLineTutorial/apache_httpclient/index.html"> Apache HTTP客户端教程 </a> </li> <li> <a target="_blank" title="Microsoft Visio 教程" href="/OnLineTutorial/microsoft_visio/index.html"> Microsoft Visio 教程 </a> </li> </ul> </div> <div class="widget widget-side bgwhite mb-1 shadow"> <h5> 热门工具 </h5> <ul> <li> <a target="_blank" title="Java 在线工具" href="/Onlinetools/details/4"> Java 在线工具 </a> </li> <li> <a target="_blank" title="C(GCC) 在线工具" href="/Onlinetools/details/6"> C(GCC) 在线工具 </a> </li> <li> <a target="_blank" title="PHP 在线工具" href="/Onlinetools/details/8"> PHP 在线工具 </a> </li> <li> <a target="_blank" title="C# 在线工具" href="/Onlinetools/details/1"> C# 在线工具 </a> </li> <li> <a target="_blank" title="Python 在线工具" href="/Onlinetools/details/5"> Python 在线工具 </a> </li> <li> <a target="_blank" title="MySQL 在线工具" href="/Onlinetools/Dbdetails/33"> MySQL 在线工具 </a> </li> <li> <a target="_blank" title="VB.NET 在线工具" href="/Onlinetools/details/2"> VB.NET 在线工具 </a> </li> <li> <a target="_blank" title="Lua 在线工具" href="/Onlinetools/details/14"> Lua 在线工具 </a> </li> <li> <a target="_blank" title="Oracle 在线工具" href="/Onlinetools/Dbdetails/35"> Oracle 在线工具 </a> </li> <li> <a target="_blank" title="C++(GCC) 在线工具" href="/Onlinetools/details/7"> C++(GCC) 在线工具 </a> </li> <li> <a target="_blank" title="Go 在线工具" href="/Onlinetools/details/20"> Go 在线工具 </a> </li> <li> <a target="_blank" title="Fortran 在线工具" href="/Onlinetools/details/45"> Fortran 在线工具 </a> </li> </ul> </div> </div> </div> <script type="text/javascript">var eskeys = '使用,nokogiri,而,不是,tidy,清理,html'; var cat = 'cc';';//other-dev</script> </div> <div id="pop" onclick="pophide();"> <div id="pop_body" onclick="event.stopPropagation();"> <h6 class="flex flex101"> 登录 <span onclick="pophide();">关闭</span> </h6> <div class="pd-1"> <div class="wxtip center"> <span>扫码关注<em>1秒</em>登录</span> </div> <div class="center"> <img id="qr" src="https://huajiakeji.com/Content/Images/qrydx.jpg" alt="" style="width:150px;height:150px;" /> </div> <div style="margin-top:10px;display:flex;justify-content: center;"> <input type="text" placeholder="输入验证码" id="txtcode" autocomplete="off" /> <input id="btngo" type="button" onclick="chk()" value="GO" /> </div> <div class="center" style="margin: 4px; font-size: .8rem; color: #f60;"> 发送“验证码”获取 <em style="padding: 0 .5rem;">|</em> <span style="color: #01a05c;">15天全站免登陆</span> </div> <div id="chkinfo" class="tip"></div> </div> </div> </div> <script type="text/javascript" src="https://lib.sinaapp.com/js/jquery/1.9.1/jquery-1.9.1.min.js"></script> <script type="text/javascript" src="https://cdn.bootcss.com/jquery-cookie/1.4.1/jquery.cookie.min.js"></script> <script type="text/javascript" src="https://img01.yuandaxia.cn/Scripts/highlight.min.js"></script> <script type="text/javascript" src="https://img01.yuandaxia.cn/Scripts/base.js?v=0.22"></script> <script type="text/javascript" src="https://img01.yuandaxia.cn/Scripts/tui.js?v=0.11"></script> <footer class="footer"> <div class="container"> <div class="flink mb-1"> 友情链接： <a href="https://www.it1352.com/" target="_blank">IT屋</a> <a href="https://huajiakeji.com/" target="_blank">Chrome插件</a> <a href="https://www.cnplugins.com/" target="_blank">谷歌浏览器插件</a> </div> <section class="copyright-section"> <a href="https://www.it1352.com" title="IT屋-程序员软件开发技术分享社区">IT屋</a> ©2016-2022 <a href="http://www.beian.miit.gov.cn/" target="_blank">琼ICP备2021000895号-1</a> <a href="/sitemap.html" target="_blank" title="站点地图">站点地图</a> <a href="/Home/Tags" target="_blank" title="站点标签">站点标签</a> <a target="_blank" alt="sitemap" href="/sitemap.xml">SiteMap</a> <a href="/1155981.html" title="IT屋-免责申明"><免责申明></a> 本站内容来源互联网,如果侵犯您的权益请联系我们删除. </section>  <script type="text/javascript"> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?0c3a090f7b3c4ad458ac1296cb5cc779"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> <script type="text/javascript"> (function () { var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> </div> </footer> </body> </html>