python爬虫相关内容

html - 网页源码与网页内容显示不一致,怎么办?

问 题 我想要抓取人人贷中散标投资的数据,在查看网页源码时却发现,不论第几页的源码中的散标投资数据都是第一页的数据,但是网页显示每一页的数据是不一样的。 请问如何查看不同页面真正的网页源码数据,恳请大神相助! 解决方案 Chrome -> F12 -> Network -> XHR ..
发布时间:2017-09-06 12:14:46 前端开发

python爬虫 - python 登陆豆瓣?

问 题 登陆豆瓣,发现要填写验证码,原来是想把验证码每次保存到本地手动填写,但是发现验证码的路劲一直在自动变化?如第一次是:https://www.douban.com/misc/captcha?id=t... 第二次变化为:https://www.douban.com/misc/captcha?id=q...,请问这种情况怎么办啊 解决方案 所以说,你想自己去请求验证码的图片 ..
发布时间:2017-09-06 11:58:30 Python

正则表达式 - python 的re正则编写问题,如果获得含有中文的目标字符串

问 题 描述:我有一个字符串a,我想获得目标字符串为[锡山区,南长区 ,惠山区,崇安区 ,北塘区 ,滨湖区 ,宜兴市 ,江阴市 ],我想使用正则的分组实现,但是却出错了?请问问题在哪里,感谢大家。 这是我的正则,我是刚学习的,出错了。 re.sub((^[dc='].>$)(.)($),r2,a) 原始字符串为: ..
发布时间:2017-09-06 10:44:08 Python

python - beautifulsoup 解析后的内容的编码问题

问 题 写了个爬取手机信息的爬虫,用beautifulsoup解析。查了下资料,发现beautifulsoup最后输出是以unicode编码,把爬取的图片名放入一变量后,该变量不能作为新建文件的文件名。 网站地址 http://product.pconline.com.cn/mobile/ 部分代码 import requests from bs4 import Beautif ..
发布时间:2017-09-06 10:41:58 Python

网页爬虫 - 淘宝python爬虫

问 题 在爬天猫数据的时候出现Redirect Limits的报错,猜测是302一直跳转的问题? 然后试着模拟了cookie,发现有三个值是必须要有的 cookie2=; t=; _tb_token_= 但是苦于这三个值不知道如何获取,所以部署到线上就出错了,有高手知道如何解决吗?谢谢 解决方案 先拉一下天描的主页把cookie存下来,再去访问具体的页面 ..
发布时间:2017-09-06 10:36:47 Python

javascript - 博客中的阅读量是如何设计的?

问 题 在博客园中,一篇博客的底部,通常有该篇博客的阅读量的统计。当浏览器端没发起一个请求的时候,它通过相应的逻辑判断,如果符合要求,则给阅读量加一。所以,有了如下代码: package test; import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLConne ..
发布时间:2017-09-06 10:32:49 Java开发

python3.x - 爬虫如何用cookies绕过验证码?

想用python爬虫实现登陆B站,但B站有验证码,我又不知道怎么把图片下下来,因为你在输入时要点那个框才能显示图片,而每张图片刷新一次又随机。所以我就想人工登陆一次,找到cookies,下次登陆带上cookies就绕过验证码登陆了。 用Fidller查看了下,表面上是这个URL:https://passport.bilibili.com/login, 但post的实际是这个URL:http ..
发布时间:2017-09-06 10:05:47 其他开发

python - 微博爬虫抓取出现的连接问题?

使用cookie模拟登录微博后想抓取多页微博内容,只是抓取到第二页就出现错误,以前都没出现过,使用的是Request库来模拟登录和获取内容。 代码如下: 循环抓取在这里: 出现错误的代码如下: 我google过,有人说是因为requests发送http request占用太多connection资源,具体说明在 Python使用requests時遇到Failed to est ..
发布时间:2017-09-06 10:05:28 Python

python爬虫 - 爬虫:网站怎么知道是否有登陆

问 题 在提交表单之前,cookies有个session-id。 登陆完之后,cookies有个auth。 这个auth就用在后面获取一个token值,而该token值用在请求一个MAINFRAME.aspx上,而我想爬的这个B网页它就只带这session-id,Referer是A网页,而A网页Referer是这个MAINFRAME.aspx文件。我现在只能爬到A网页,而想爬的B网页提示 ..
发布时间:2017-09-06 09:52:25 其他开发

python - 如何为爬虫构建代理池

问 题 为了避免爬虫被封 IP ,网上搜索教程说需要建立代理池。但是付费代理都好贵。。。不过好在网上已经有不少免费提供代理的网站了。因此,我打算写个爬虫去获取这些免费 IP ~ 策略步骤 用种子关键词例如“代理 IP ”在各个搜索引擎上搜索,获取候选 URL 爬取候选 URL ,将代理地址储存下来 验证代理地址,将可用的代理地址放入代理池 难点 如何去验证 ..
发布时间:2017-09-06 09:04:39 Python