网页爬虫 - Python+Selenium+PhantomJs爬虫,如何取得新打开页面的源码?

查看:139
本文介绍了网页爬虫 - Python+Selenium+PhantomJs爬虫,如何取得新打开页面的源码?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

我在做一个python爬虫,使用了selenium库和phantomjs浏览器。我在一个网页中触发了一个click事件打开了一个新的网页,然后我用browser.page_source得到的却是原来那个网页非新打开网页的源码,请问我该如何取得新打开页面的源码呢?

解决方案

Phantomjs对js事件支持的不太好,如果必须用click事件,你可以用chrome或者firefox,然后selenium有个隐藏浏览器界面的模块,这样就是完全模拟浏览器操作了,连user-agent都不需要伪装。还有,phantomjs爬虫,再header中会显示是phantomjs引擎的,对你的爬虫隐藏的不是太好,需要伪装

这篇关于网页爬虫 - Python+Selenium+PhantomJs爬虫,如何取得新打开页面的源码?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆