python爬虫 - IT屋-程序员软件开发技术分享社区

python爬虫 - mongodb 存入了pymongo传入的多个数据之后怎么提取有用的数据

问题有多条这样类似的数据 { "_id" : ObjectId("56d06f01c3666e08d0f0c844"), "http://tieba.baidu.com/p/4345287300" : "【关于更新】作者原话", "http://tieba.baidu.com/p/4328978430" : "服务。", "http://tieba.baidu.com/p ..

发布时间：2017-09-06 12:21:31 dict sort mongodb pymongo python爬虫其他开发

python2.7 - pyspider遇到unknow option '--ssl-protocol=any'问题

在linux上运行pyspider pip 相关的包后到程序文件夹运行程序 ./run.py 出现错误如图：问题一：AttributeError:'module' object has no attribute ThreadBaseScheduler 问题二：Unknow option '--ssl-protocol=any' 求大神指点程序运行在树莓派上，py ..

发布时间：2017-09-06 12:21:07 python爬虫 python2.7 pyspider 其他开发

html - 网页源码与网页内容显示不一致，怎么办？

问题我想要抓取人人贷中散标投资的数据，在查看网页源码时却发现，不论第几页的源码中的散标投资数据都是第一页的数据，但是网页显示每一页的数据是不一样的。请问如何查看不同页面真正的网页源码数据，恳请大神相助！解决方案 Chrome -> F12 -> Network -> XHR ..

发布时间：2017-09-06 12:14:46 python爬虫 html 前端开发

python爬虫 - python爬取得网页的charset是gb2312

问题 IDE默认用得是utf-8编码的而爬取的网页是gb2312的然后就出错了 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte html = response.decode('utf-8') # 我是把网页的内容decode成utf-8之后再 ..

发布时间：2017-09-06 12:00:06 unicode python爬虫 python3.5 其他开发

python爬虫 - python 登陆豆瓣？

问题登陆豆瓣，发现要填写验证码，原来是想把验证码每次保存到本地手动填写，但是发现验证码的路劲一直在自动变化？如第一次是：https://www.douban.com/misc/captcha?id=t... 第二次变化为：https://www.douban.com/misc/captcha?id=q...，请问这种情况怎么办啊解决方案所以说，你想自己去请求验证码的图片 ..

发布时间：2017-09-06 11:58:30 python爬虫 python Python

python爬虫 - Python requests 编码乱码

#-*- coding:utf-8 -*- import requests as req from time import time def return_url(roomid): roomid = str(roomid) ts = str(int(time()*1000)) url = "http://www.panda.tv/api_room?roomid={0}& ..

发布时间：2017-09-06 11:36:17 python爬虫 python3.5 python编码其他开发

正则表达式 - python 的re正则编写问题，如果获得含有中文的目标字符串

问题描述：我有一个字符串a，我想获得目标字符串为[锡山区，南长区，惠山区，崇安区，北塘区，滨湖区，宜兴市，江阴市 ]，我想使用正则的分组实现，但是却出错了？请问问题在哪里，感谢大家。这是我的正则，我是刚学习的，出错了。 re.sub((^[dc='].>$)(.)($),r2,a) 原始字符串为： ..

发布时间：2017-09-06 10:44:08 beautifulsoup python 正则表达式 python爬虫 Python

python - beautifulsoup 解析后的内容的编码问题

问题写了个爬取手机信息的爬虫，用beautifulsoup解析。查了下资料，发现beautifulsoup最后输出是以unicode编码，把爬取的图片名放入一变量后，该变量不能作为新建文件的文件名。网站地址 http://product.pconline.com.cn/mobile/ 部分代码 import requests from bs4 import Beautif ..

发布时间：2017-09-06 10:41:58 python python爬虫 Python

网页爬虫 - 淘宝python爬虫

问题在爬天猫数据的时候出现Redirect Limits的报错，猜测是302一直跳转的问题？然后试着模拟了cookie，发现有三个值是必须要有的 cookie2=; t=; _tb_token_= 但是苦于这三个值不知道如何获取，所以部署到线上就出错了，有高手知道如何解决吗？谢谢解决方案先拉一下天描的主页把cookie存下来，再去访问具体的页面 ..

发布时间：2017-09-06 10:36:47 网页爬虫 python爬虫 python Python

javascript - 博客中的阅读量是如何设计的？

问题在博客园中，一篇博客的底部，通常有该篇博客的阅读量的统计。当浏览器端没发起一个请求的时候，它通过相应的逻辑判断，如果符合要求，则给阅读量加一。所以，有了如下代码： package test; import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.HttpURLConne ..

发布时间：2017-09-06 10:32:49 python python爬虫 javascript c++ java Java开发

网页爬虫 - python 爬虫问题，请问为什么我爬不下这个的数据？求解，网站都能打开。

问题 import sys import time import requests import json reload(sys) sys.setdefaultencoding('utf-8') time=int(time.time()) session=requests.session() user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) Ap ..

发布时间：2017-09-06 10:31:10 python爬虫网页爬虫 python Python

python3.x - 爬虫如何用cookies绕过验证码？

想用python爬虫实现登陆B站，但B站有验证码，我又不知道怎么把图片下下来，因为你在输入时要点那个框才能显示图片，而每张图片刷新一次又随机。所以我就想人工登陆一次，找到cookies，下次登陆带上cookies就绕过验证码登陆了。用Fidller查看了下，表面上是这个URL:https://passport.bilibili.com/login，但post的实际是这个URL：http ..

发布时间：2017-09-06 10:05:47 cookies python3.x python爬虫其他开发

python - 微博爬虫抓取出现的连接问题？

使用cookie模拟登录微博后想抓取多页微博内容，只是抓取到第二页就出现错误，以前都没出现过，使用的是Request库来模拟登录和获取内容。代码如下：循环抓取在这里：出现错误的代码如下：我google过，有人说是因为requests发送http request占用太多connection资源,具体说明在 Python使用requests時遇到Failed to est ..

发布时间：2017-09-06 10:05:28 python2.7 python python3.x python爬虫 Python

基于requests库python爬虫:date header都提交了但是无法登陆

想用requests模拟登陆学校的教务处网站,然后做一些自动抢课的程序,但是登陆问题都难以解决啊_(:зゝ∠)_,明明已经把Data和Header差不多都写好了代码如下 # __author__ = '' # -*- coding: utf-8 -*- import requests from time import sleep with requests.session() as ..

发布时间：2017-09-06 10:03:35 python爬虫 python Python

python爬虫 - 爬虫r如何重复提交表单数据

问题比如说一个用户名和密码再加上验证码是没有问题的。逻辑是这样的： def start_requests(self): yield request(indexUrl, headers, callback=self.downloadPic) def downloadPic(self, response): 获取cookies,带上cookies来下载图片 ..

发布时间：2017-09-06 09:55:30 python爬虫 scrapy 其他开发

python爬虫 - 爬虫：网站怎么知道是否有登陆

问题在提交表单之前，cookies有个session-id。登陆完之后，cookies有个auth。这个auth就用在后面获取一个token值，而该token值用在请求一个MAINFRAME.aspx上，而我想爬的这个B网页它就只带这session-id，Referer是A网页，而A网页Referer是这个MAINFRAME.aspx文件。我现在只能爬到A网页，而想爬的B网页提示 ..

发布时间：2017-09-06 09:52:25 python爬虫 scrapy 其他开发

python3.x - Python3 bytes转str失败?要如何解决?

我访问的网页明明是bytes代码 In [50]: type(html) Out[50]: bytes 按照网上的方法,应该是这样转换的 str(html,"utf-8") 测试失败! 提示 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte ..

发布时间：2017-09-06 09:38:39 python python爬虫 python3.x Python

python - 小白提问：爬虫抓取并保存的图片无法打开

1.我写了个爬虫去爬取页面，成功的拿到了所有图片的网络地址 2.下载保存到本地后，我去打开图片，发现一只在转圈无法打开 ]2] ..

发布时间：2017-09-06 09:22:55 爬虫图片网页爬虫 python爬虫 python Python

python - 用beautifulsoup解析网页提取的url，怎么在程序中打开？

最近在学习python编程，在用beautifulsoup解析网页的时候，想用在程序中用解析出来的url继续访问，却被提示错误。百思不得其解，请各位大神帮助 ..

发布时间：2017-09-06 09:10:15 网页爬虫 url beautifulsoup python爬虫 python Python

python - 如何为爬虫构建代理池

问题为了避免爬虫被封 IP ，网上搜索教程说需要建立代理池。但是付费代理都好贵。。。不过好在网上已经有不少免费提供代理的网站了。因此，我打算写个爬虫去获取这些免费 IP ～策略步骤用种子关键词例如“代理 IP ”在各个搜索引擎上搜索，获取候选 URL 爬取候选 URL ，将代理地址储存下来验证代理地址，将可用的代理地址放入代理池难点如何去验证 ..

发布时间：2017-09-06 09:04:39 代理 python爬虫 python Python

python爬虫相关内容