python爬虫相关内容
问 题 有多条这样类似的数据 { "_id" : ObjectId("56d06f01c3666e08d0f0c844"), "http://tieba.baidu.com/p/4345287300" : "【关于更新】作者原话", "http://tieba.baidu.com/p/4328978430" : "服务。", "http://tieba.baidu.com/p
..
在linux上运行pyspider pip 相关的包后 到程序文件夹运行程序 ./run.py 出现错误如图: 问题一:AttributeError:'module' object has no attribute ThreadBaseScheduler 问题二:Unknow option '--ssl-protocol=any' 求大神指点 程序运行在树莓派上,py
..
问 题 我想要抓取人人贷中散标投资的数据,在查看网页源码时却发现,不论第几页的源码中的散标投资数据都是第一页的数据,但是网页显示每一页的数据是不一样的。 请问如何查看不同页面真正的网页源码数据,恳请大神相助! 解决方案 Chrome -> F12 -> Network -> XHR
..
问 题 IDE默认用得是utf-8编码的 而爬取的网页是gb2312的 然后就出错了 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte html = response.decode('utf-8') # 我是把网页的内容decode成utf-8之后再
..
问 题 登陆豆瓣,发现要填写验证码,原来是想把验证码每次保存到本地手动填写,但是发现验证码的路劲一直在自动变化?如第一次是:https://www.douban.com/misc/captcha?id=t... 第二次变化为:https://www.douban.com/misc/captcha?id=q...,请问这种情况怎么办啊 解决方案 所以说,你想自己去请求验证码的图片
..
#-*- coding:utf-8 -*- import requests as req from time import time def return_url(roomid): roomid = str(roomid) ts = str(int(time()*1000)) url = "http://www.panda.tv/api_room?roomid={0}&
..
问 题 描述:我有一个字符串a,我想获得目标字符串为[锡山区,南长区 ,惠山区,崇安区 ,北塘区 ,滨湖区 ,宜兴市 ,江阴市 ],我想使用正则的分组实现,但是却出错了?请问问题在哪里,感谢大家。 这是我的正则,我是刚学习的,出错了。 re.sub((^[dc='].>$)(.)($),r2,a) 原始字符串为:
..
问 题 写了个爬取手机信息的爬虫,用beautifulsoup解析。查了下资料,发现beautifulsoup最后输出是以unicode编码,把爬取的图片名放入一变量后,该变量不能作为新建文件的文件名。 网站地址 http://product.pconline.com.cn/mobile/ 部分代码 import requests from bs4 import Beautif
..
问 题 在爬天猫数据的时候出现Redirect Limits的报错,猜测是302一直跳转的问题? 然后试着模拟了cookie,发现有三个值是必须要有的 cookie2=; t=; _tb_token_= 但是苦于这三个值不知道如何获取,所以部署到线上就出错了,有高手知道如何解决吗?谢谢 解决方案 先拉一下天描的主页把cookie存下来,再去访问具体的页面
..
问 题 在博客园中,一篇博客的底部,通常有该篇博客的阅读量的统计。当浏览器端没发起一个请求的时候,它通过相应的逻辑判断,如果符合要求,则给阅读量加一。所以,有了如下代码: package test; import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLConne
..
问 题 import sys import time import requests import json reload(sys) sys.setdefaultencoding('utf-8') time=int(time.time()) session=requests.session() user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) Ap
..
想用python爬虫实现登陆B站,但B站有验证码,我又不知道怎么把图片下下来,因为你在输入时要点那个框才能显示图片,而每张图片刷新一次又随机。所以我就想人工登陆一次,找到cookies,下次登陆带上cookies就绕过验证码登陆了。 用Fidller查看了下,表面上是这个URL:https://passport.bilibili.com/login, 但post的实际是这个URL:http
..
使用cookie模拟登录微博后想抓取多页微博内容,只是抓取到第二页就出现错误,以前都没出现过,使用的是Request库来模拟登录和获取内容。 代码如下: 循环抓取在这里: 出现错误的代码如下: 我google过,有人说是因为requests发送http request占用太多connection资源,具体说明在 Python使用requests時遇到Failed to est
..
想用requests模拟登陆学校的教务处网站,然后做一些自动抢课的程序,但是登陆问题都难以解决啊_(:зゝ∠)_,明明已经把Data和Header差不多都写好了 代码如下 # __author__ = '' # -*- coding: utf-8 -*- import requests from time import sleep with requests.session() as
..
问 题 比如说一个用户名和密码再加上验证码是没有问题的。 逻辑是这样的: def start_requests(self): yield request(indexUrl, headers, callback=self.downloadPic) def downloadPic(self, response): 获取cookies,带上cookies来下载图片
..
问 题 在提交表单之前,cookies有个session-id。 登陆完之后,cookies有个auth。 这个auth就用在后面获取一个token值,而该token值用在请求一个MAINFRAME.aspx上,而我想爬的这个B网页它就只带这session-id,Referer是A网页,而A网页Referer是这个MAINFRAME.aspx文件。我现在只能爬到A网页,而想爬的B网页提示
..
我访问的网页明明是bytes代码 In [50]: type(html) Out[50]: bytes 按照网上的方法,应该是这样转换的 str(html,"utf-8") 测试失败! 提示 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
..
1.我写了个爬虫去爬取页面,成功的拿到了所有图片的网络地址 2.下载保存到本地后,我去打开图片,发现一只在转圈无法打开 ]2]
..
最近在学习python编程,在用beautifulsoup解析网页的时候,想用在程序中用解析出来的url继续访问,却被提示错误。百思不得其解,请各位大神帮助
..
问 题 为了避免爬虫被封 IP ,网上搜索教程说需要建立代理池。但是付费代理都好贵。。。不过好在网上已经有不少免费提供代理的网站了。因此,我打算写个爬虫去获取这些免费 IP ~ 策略步骤 用种子关键词例如“代理 IP ”在各个搜索引擎上搜索,获取候选 URL 爬取候选 URL ,将代理地址储存下来 验证代理地址,将可用的代理地址放入代理池 难点 如何去验证
..