从网站请求完全 javascript 渲染的 html 源代码并找到所有 iframe 标签 [英] Request fully javascript rendered html source from a website and find all iframe tags

查看：18 发布时间：2021/12/17 13:43:26 python selenium iframe web-scraping beautifulsoup

本文介绍了从网站请求完全 javascript 渲染的 html 源代码并找到所有 iframe 标签的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我目前正在尝试使用 selenium 和 BeautifulSoup 从网站检索所有 iframe 标签.问题是我没有得到所有的 iframe，因为网页中有 BS4 没有搜索的内部 html 文档，我不相信 javascript 正在 HTML 中执行，所以可能有一些 HTML 元素不是得到渲染.是否有网页抓取工具可以让我请求一个 url，检索完全由 js 呈现的 HTML 文件，然后搜索 DOM 并获取所有与 iframe 匹配的标签，即使在内部 HTML 代码中也是如此.

I am currently trying to use selenium and BeautifulSoup to retrieve all iframe tags from a website. The problem is I am not getting all the iframes because there are inner html documents within the webpage that BS4 is not searching through and I don't believe the javascript is being executed within the HTML so there may be some HTML elements that aren't getting rendered. Is there a web scraping tool that would allow me to request a url, retrieve the fully js rendered HTML file then search through the DOM and get all tags matching iframe, even in the inner HTML code.

基本上我可以在 chrome 检查器工具中看到我想要的所有标签，但它们没有显示在从 BS4 中的 find_all('iframe') 函数检索的列表中.

Basically I am able to see all the tags I want within the chrome inspector tool but they are not showing up in the list retrieved from find_all('iframe') function in BS4.

这是我的代码:

from bs4 import BeautifulSoup

import requests

from selenium import webdriver

browser = webdriver.Chrome('C:/Users/G/chromedriver.exe')

browser.get("https://reddit.com")

HTML = browser.page_source

innerHTML = browser.execute_script("return document.body.innerHTML")

page = BeautifulSoup(innerHTML, 'html.parser')

for iframe in page.find_all('iframe'):
    print(iframe)

browser.close()

推荐答案

您可以通过Selenium</code>标签> 使用以下代码块:<em class="showen"></em></p> <p class="en">You can get all the <code><iframe></code> tags exclusively through <strong><code>Selenium</code></strong> with the following code block :</p> <pre><code><code>from selenium import webdriver browser = webdriver.Firefox(executable_path=r'C:UtilityBrowserDriversgeckodriver.exe') browser.get("https://reddit.com") frames_tag = browser.find_elements_by_tag_name("iframe") frames_xpath = browser.find_elements_by_xpath("//iframe") frames_css = browser.find_elements_by_css_selector("iframe") print("Frames detected through iframe tag are %s" %frames_tag) print("Frames detected through xpath are %s" %frames_xpath) print("Frames detected through css are %s" %frames_css) browser.quit() </code></code></pre> <p class="cn">我的控制台上的输出是:<em class="showen"></em></p> <p class="en">The output on my console is :</p> <pre><code><code>Frames detected through iframe tag are [<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="ead39d06-0e39-4b40-9425-a86a1fe88d4f")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="1ce10f29-a620-4ce6-90e1-9da563046c70")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="ba8493e4-8246-47a0-9ed4-3f51b8c0f133")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="19c0f134-c243-47bd-96d1-6b06ff66a011")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="95d78fa6-fb4f-4b7c-89c5-9b85965f0e4c")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="e6d2d931-1f35-432f-8825-052e244fe798")>] Frames detected through xpath are [<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="ead39d06-0e39-4b40-9425-a86a1fe88d4f")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="1ce10f29-a620-4ce6-90e1-9da563046c70")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="ba8493e4-8246-47a0-9ed4-3f51b8c0f133")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="19c0f134-c243-47bd-96d1-6b06ff66a011")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="95d78fa6-fb4f-4b7c-89c5-9b85965f0e4c")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="e6d2d931-1f35-432f-8825-052e244fe798")>] Frames detected through css are [<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="ead39d06-0e39-4b40-9425-a86a1fe88d4f")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="1ce10f29-a620-4ce6-90e1-9da563046c70")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="ba8493e4-8246-47a0-9ed4-3f51b8c0f133")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="19c0f134-c243-47bd-96d1-6b06ff66a011")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="95d78fa6-fb4f-4b7c-89c5-9b85965f0e4c")>, <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="98594106-54a6-4941-a6ab-cd9d92e9afa2", element="e6d2d931-1f35-432f-8825-052e244fe798")>] </code></code></pre> <p>这篇关于从网站请求完全 javascript 渲染的 html 源代码并找到所有 iframe 标签的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！</p> </div> <div class="arc-body-main-more"> <span onclick="unlockarc('2680150');">查看全文</span> </div> </div> <div> </div> <div class="wwads-cn wwads-horizontal" data-id="166" style="max-width:100%;border: 4px solid #666;"></div> </div> </article> <div id="arc-ad-2" class="mb-1"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-5038752844014834" crossorigin="anonymous"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-5038752844014834" data-ad-slot="3921941283"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="widget bgwhite radius-1 mb-1 shadow widget-rel"> <h5>相关文章</h5> <ul> <li> <a target="_blank" title="从网站请求完全用JavaScript呈现的html源，并找到所有iframe广告代码" href="/1968121.html"> 从网站请求完全用JavaScript呈现的html源，并找到所有iframe广告代码; </a> </li> <li> <a target="_blank" title="使用javascript而不是iframe源代码？" href="/892447.html"> 使用javascript而不是iframe源代码？; </a> </li> <li> <a target="_blank" title="HTML代码作为IFRAME源代码而不是URL" href="/860908.html"> HTML代码作为IFRAME源代码而不是URL; </a> </li> <li> <a target="_blank" title="DOMDocument从HTML源代码中删除脚本标签" href="/1833257.html"> DOMDocument从HTML源代码中删除脚本标签; </a> </li> <li> <a target="_blank" title="从网站获取 html 源代码，然后从 html 文件中获取元素" href="/2480614.html"> 从网站获取 html 源代码，然后从 html 文件中获取元素; </a> </li> <li> <a target="_blank" title="在HTML源代码中隐藏iframe网址" href="/892574.html"> 在HTML源代码中隐藏iframe网址; </a> </li> <li> <a target="_blank" title="如何使用javascript或jquery从iframe获取完整的源代码?" href="/1902571.html"> 如何使用javascript或jquery从iframe获取完整的源代码?; </a> </li> <li> <a target="_blank" title="如何在HTML网站中显示HTML源代码？" href="/580246.html"> 如何在HTML网站中显示HTML源代码？; </a> </li> <li> <a target="_blank" title="在JavaScript中从HTML源代码提取JSON" href="/875962.html"> 在JavaScript中从HTML源代码提取JSON; </a> </li> <li> <a target="_blank" title="通过JavaScript获取页面的HTML源代码并覆盖它" href="/653183.html"> 通过JavaScript获取页面的HTML源代码并覆盖它; </a> </li> <li> <a target="_blank" title="获取iFrame的源代码" href="/1055712.html"> 获取iFrame的源代码; </a> </li> <li> <a target="_blank" title="获取iframe的源代码" href="/892606.html"> 获取iframe的源代码; </a> </li> <li> <a target="_blank" title="源代码网站？" href="/1049529.html"> 源代码网站？; </a> </li> <li> <a target="_blank" title="如何评论HTML源代码中的HTML标签属性？" href="/864070.html"> 如何评论HTML源代码中的HTML标签属性？; </a> </li> <li> <a target="_blank" title="从html源代码中删除所有换行符" href="/861043.html"> 从html源代码中删除所有换行符; </a> </li> <li> <a target="_blank" title="如何使用PhantomJS获取网站的HTML源代码" href="/1016085.html"> 如何使用PhantomJS获取网站的HTML源代码; </a> </li> <li> <a target="_blank" title="拒绝执行JavaScript脚本。在请求中找到的脚本的源代码" href="/1004197.html"> 拒绝执行JavaScript脚本。在请求中找到的脚本的源代码; </a> </li> <li> <a target="_blank" title="通过javascript通过ajax请求获取页面的完整html源代码" href="/2769630.html"> 通过javascript通过ajax请求获取页面的完整html源代码; </a> </li> <li> <a target="_blank" title="从另一个iframe更改iframe源代码" href="/892776.html"> 从另一个iframe更改iframe源代码; </a> </li> <li> <a target="_blank" title="从IFRAME的fancybox上找到的网站元素" href="/285083.html"> 从IFRAME的fancybox上找到的网站元素; </a> </li> <li> <a target="_blank" title="如何从ngModel渲染HTML标签？" href="/603690.html"> 如何从ngModel渲染HTML标签？; </a> </li> <li> <a target="_blank" title="请求源代码" href="/1408994.html"> 请求源代码; </a> </li> <li> <a target="_blank" title="JavaScript 操作后获取 HTML 源代码" href="/2463501.html"> JavaScript 操作后获取 HTML 源代码; </a> </li> <li> <a target="_blank" title="我如何才能使用cmd找到网站的源代码？" href="/880322.html"> 我如何才能使用cmd找到网站的源代码？; </a> </li> <li> <a target="_blank" title="将文本从javascript注入到html“查看源代码"中；" href="/1874419.html"> 将文本从javascript注入到html“查看源代码"中；; </a> </li> </ul> </div> <div class="mb-1"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-5038752844014834" crossorigin="anonymous"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-5038752844014834" data-ad-slot="3921941283"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="side"> <div class="widget widget-side bgwhite mb-1 shadow"> <h5>Python最新文章</h5> <ul> <li> <a target="_blank" title="类型错误：只有长度为1的阵列可以尝试拟合指数的数据转换到Python标量" href="/235728.html"> 类型错误：只有长度为1的阵列可以尝试拟合指数的数据转换到Python标量; </a> </li> <li> <a target="_blank" title="bs4.FeatureNotFound：找不到一棵树建设者您所要求的功能：LXML。你需要安装一个解析器库？" href="/330648.html"> bs4.FeatureNotFound：找不到一棵树建设者您所要求的功能：LXML。你需要安装一个解析器库？; </a> </li> <li> <a target="_blank" title="系列的真值是不明确的。使用a.empty，a.bool（），a.item（），a.any（）或a.all（）" href="/604206.html"> 系列的真值是不明确的。使用a.empty，a.bool（），a.item（），a.any（）或a.all（）; </a> </li> <li> <a target="_blank" title="（unicode错误）'unicodeescape'编解码器无法解码位置2-3中的字节：truncated \UXXXXXXXX escape" href="/585928.html"> （unicode错误）'unicodeescape'编解码器无法解码位置2-3中的字节：truncated \UXXXXXXXX escape; </a> </li> <li> <a target="_blank" title="将pandas dataframe中的列从int转换为string" href="/906682.html"> 将pandas dataframe中的列从int转换为string; </a> </li> <li> <a target="_blank" title="Python：由实例对象调用方法：“missing 1 required positional argument：'self'”" href="/512813.html"> Python：由实例对象调用方法：“missing 1 required positional argument：'self'”; </a> </li> <li> <a target="_blank" title="Sparksql过滤与多个条件（与where子句中选择）" href="/220716.html"> Sparksql过滤与多个条件（与where子句中选择）; </a> </li> <li> <a target="_blank" title="JSONDe codeError：期待值：1行1列（CHAR 0）" href="/222506.html"> JSONDe codeError：期待值：1行1列（CHAR 0）; </a> </li> <li> <a target="_blank" title="Cmake不能找到Python库" href="/516449.html"> Cmake不能找到Python库; </a> </li> <li> <a target="_blank" title="Python - 将Dataframe中的所有项目转换为字符串" href="/605332.html"> Python - 将Dataframe中的所有项目转换为字符串; </a> </li> </ul> </div> <div class="widget widget-side bgwhite mb-1 shadow"> <h5> 热门教程 </h5> <ul> <li> <a target="_blank" title="Java教程" href="/OnLineTutorial/java/index.html"> Java教程 </a> </li> <li> <a target="_blank" title="Apache ANT 教程" href="/OnLineTutorial/ant/index.html"> Apache ANT 教程 </a> </li> <li> <a target="_blank" title="Kali Linux教程" href="/OnLineTutorial/kali_linux/index.html"> Kali Linux教程 </a> </li> <li> <a target="_blank" title="JavaScript教程" href="/OnLineTutorial/javascript/index.html"> JavaScript教程 </a> </li> <li> <a target="_blank" title="JavaFx教程" href="/OnLineTutorial/javafx/index.html"> JavaFx教程 </a> </li> <li> <a target="_blank" title="MFC 教程" href="/OnLineTutorial/mfc/index.html"> MFC 教程 </a> </li> <li> <a target="_blank" title="Apache HTTP客户端教程" href="/OnLineTutorial/apache_httpclient/index.html"> Apache HTTP客户端教程 </a> </li> <li> <a target="_blank" title="Microsoft Visio 教程" href="/OnLineTutorial/microsoft_visio/index.html"> Microsoft Visio 教程 </a> </li> </ul> </div> <div class="widget widget-side bgwhite mb-1 shadow"> <h5> 热门工具 </h5> <ul> <li> <a target="_blank" title="Java 在线工具" href="/Onlinetools/details/4"> Java 在线工具 </a> </li> <li> <a target="_blank" title="C(GCC) 在线工具" href="/Onlinetools/details/6"> C(GCC) 在线工具 </a> </li> <li> <a target="_blank" title="PHP 在线工具" href="/Onlinetools/details/8"> PHP 在线工具 </a> </li> <li> <a target="_blank" title="C# 在线工具" href="/Onlinetools/details/1"> C# 在线工具 </a> </li> <li> <a target="_blank" title="Python 在线工具" href="/Onlinetools/details/5"> Python 在线工具 </a> </li> <li> <a target="_blank" title="MySQL 在线工具" href="/Onlinetools/Dbdetails/33"> MySQL 在线工具 </a> </li> <li> <a target="_blank" title="VB.NET 在线工具" href="/Onlinetools/details/2"> VB.NET 在线工具 </a> </li> <li> <a target="_blank" title="Lua 在线工具" href="/Onlinetools/details/14"> Lua 在线工具 </a> </li> <li> <a target="_blank" title="Oracle 在线工具" href="/Onlinetools/Dbdetails/35"> Oracle 在线工具 </a> </li> <li> <a target="_blank" title="C++(GCC) 在线工具" href="/Onlinetools/details/7"> C++(GCC) 在线工具 </a> </li> <li> <a target="_blank" title="Go 在线工具" href="/Onlinetools/details/20"> Go 在线工具 </a> </li> <li> <a target="_blank" title="Fortran 在线工具" href="/Onlinetools/details/45"> Fortran 在线工具 </a> </li> </ul> </div> </div> </div> <script type="text/javascript">var eskeys = '从,网站,请求,完全,javascript,渲染,的,html,源代码,并,找到,所有,iframe,标签'; var cat = 'cc';';//python</script> </div> <div id="pop" onclick="pophide();"> <div id="pop_body" onclick="event.stopPropagation();"> <h6 class="flex flex101"> 登录 <span onclick="pophide();">关闭</span> </h6> <div class="pd-1"> <div class="wxtip center"> <span>扫码关注<em>1秒</em>登录</span> </div> <div class="center"> <img id="qr" src="https://huajiakeji.com/Content/Images/qrydx.jpg" alt="" style="width:150px;height:150px;" /> </div> <div style="margin-top:10px;display:flex;justify-content: center;"> <input type="text" placeholder="输入验证码" id="txtcode" autocomplete="off" /> <input id="btngo" type="button" onclick="chk()" value="GO" /> </div> <div class="center" style="margin: 4px; font-size: .8rem; color: #f60;"> 发送“验证码”获取 <em style="padding: 0 .5rem;">|</em> <span style="color: #01a05c;">15天全站免登陆</span> </div> <div id="chkinfo" class="tip"></div> </div> </div> </div> <script type="text/javascript" src="https://lib.sinaapp.com/js/jquery/1.9.1/jquery-1.9.1.min.js"></script> <script type="text/javascript" src="https://cdn.bootcss.com/jquery-cookie/1.4.1/jquery.cookie.min.js"></script> <script type="text/javascript" src="https://img01.yuandaxia.cn/Scripts/highlight.min.js"></script> <script type="text/javascript" src="https://img01.yuandaxia.cn/Scripts/base.js?v=0.22"></script> <script type="text/javascript" src="https://img01.yuandaxia.cn/Scripts/tui.js?v=0.11"></script> <footer class="footer"> <div class="container"> <div class="flink mb-1"> 友情链接： <a href="https://www.it1352.com/" target="_blank">IT屋</a> <a href="https://huajiakeji.com/" target="_blank">Chrome插件</a> <a href="https://www.cnplugins.com/" target="_blank">谷歌浏览器插件</a> </div> <section class="copyright-section"> <a href="https://www.it1352.com" title="IT屋-程序员软件开发技术分享社区">IT屋</a> ©2016-2022 <a href="http://www.beian.miit.gov.cn/" target="_blank">琼ICP备2021000895号-1</a> <a href="/sitemap.html" target="_blank" title="站点地图">站点地图</a> <a href="/Home/Tags" target="_blank" title="站点标签">站点标签</a> <a target="_blank" alt="sitemap" href="/sitemap.xml">SiteMap</a> <a href="/1155981.html" title="IT屋-免责申明"><免责申明></a> 本站内容来源互联网,如果侵犯您的权益请联系我们删除. </section>  <script type="text/javascript"> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?0c3a090f7b3c4ad458ac1296cb5cc779"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> <script type="text/javascript"> (function () { var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> </div> </footer> </body> </html>