scrapy相关内容

python - 关于scrapy爬虫AJAX页面

问题: 爬取信息页面为:知乎话题广场 当点击加载的时候,用Chrome 开发者工具,可以看到Network中,实际请求的链接为: FormData为: urlencode: 然后我的代码为: ... data = response.css('.zh-general-list::attr(data-init)').extract() ..
发布时间:2017-09-06 10:55:36 Python

网页爬虫 - python 爬虫:验证码一直错误

问 题 我用这样的程序去爬类似的有验证码的网站,都能取到正确的数据。只有这个网站,很奇怪啊!一直验证码错误,我只能用代理IP去爬,程序运行两三次,就会IP封了。求解,之前一直以为是取验证码图片时,验证码刷新了,所以不对。所以我直接取的验证码,然后再去页面get数据。其他网站用这个方法都能行,只有这个一直错误! !!!!!!补充:我在fiddler里面看到的过程是,首先手动输入验证码点击 ..
发布时间:2017-09-06 10:33:19 Python

python - scrapy的异常处理一般怎么做?

问 题 发现在运行过程中有少量的请求有异常,或者请求响应了404 500之类的,又或者代码本身运行抛异常, 怎么记录这些异常呢。 解决方案 我目前的做法是用下载中间件去捕捉失败的请求,仅供大家参考 class CustomFaillogMiddleware(object): @classmethod def from_crawler(cls, crawle ..
发布时间:2017-09-06 10:28:49 Python

网页爬虫 - python爬虫案例

问 题 请问大家能不能给我一点提点,我想要知道有没有 简单 一点的 爬虫 案例可以让我摸索学习 目前已知的爬虫工具有: Beautiful Soup Scrapy cola pyspider PyQuery grab 这个问题已被关闭,原因:无法获得确切结果的问题 解决方案 你如果真的沒有概念,以下有一些資訊給你參考,不過重點還是你 ..
发布时间:2017-09-06 10:27:26 Python

python - scrapy如何使用同一个session来访问几个url

问 题 需要提交的表单里面有个验证码,我需要先把验证码下下来再转换成文本放上去,然后 post 到一个 URL 里。这里面应该要用同一个 session 才可以完成。 requests 里面用 session 就很方便,想请问下在 scrapy 里怎么使用同一个 session? 这样用meta不行。 def start_requests(self): cookie_jar ..
发布时间:2017-09-06 09:57:10 Python

scrapy - python __import__很慢的问题

问 题 print int(time.time()) name = "scrapy.extensions.memusage" __import__(name) print int(time.time()) 执行本段代码耗时30秒,请教可能是什么原因呢? 感谢大神的回答,原因确实是依赖导致的。 我的具体原因是: hostname, aliases, ipaddrs = getho ..
发布时间:2017-09-06 09:57:00 Python

python爬虫 - 爬虫:网站怎么知道是否有登陆

问 题 在提交表单之前,cookies有个session-id。 登陆完之后,cookies有个auth。 这个auth就用在后面获取一个token值,而该token值用在请求一个MAINFRAME.aspx上,而我想爬的这个B网页它就只带这session-id,Referer是A网页,而A网页Referer是这个MAINFRAME.aspx文件。我现在只能爬到A网页,而想爬的B网页提示 ..
发布时间:2017-09-06 09:52:25 其他开发

scrapy - sh中同时执行是不是多线程?

问 题 .sh文件中,有三个命令,并且用&连接,scrapy crawl t1&scrapy crawl t2&scrapy crawl t3,代表同时执行这三个命令。 请问,这相当于多线程吗? 解决方案 相当于多进程…… 你可以pstree看一下进程树 ..
发布时间:2017-09-06 09:07:37 其他开发

python - scrapy 采集数据的时候直接入主库,还是先入临时库呢?

问 题 我的网站是用来展示一些信息的 我打算去采集一些网站的数据,使用 scrapy 不过我有一些担心,就是担心 如果对方发现我采集,他对他的数据进行一些变动:比如内容超长,改变编码,改变什么 然后,我的采集程序傻傻的继续采集,然后入库的时候造成严重的结果,比如结果太多,导致数据库用光,或者会不会被 sql 注入把数据库删没了 我不知道我的担心是不是多余的 所以 ..
发布时间:2017-09-06 09:05:25 Python

python - twisted adbapi中参数tx的意思

问 题 最近在做爬虫相关的工作,在数据库使用from twisted.enterprise import adbapi 导入adbapi的包,我在网上查找相关实例,我发现 好多里面都有个参数tx, 但是这个tx前后又没有说明,不懂这个tx在这里代表什么意思 实例一:在下面update_feed_seen_ids有个tx参数 def update_feed_seen_ids(se ..
发布时间:2017-09-06 07:38:49 数据库

python - Scrapy 1.1.2 怎么用?

问 题 Scrapy 1.1.2 在 python3.4.4 安装成功。 并用了 Scrapy bench 作测试: C:\Documents and Settings\Administrator>scrapy bench 2016-09-02 18:06:42 [scrapy] INFO: Scrapy 1.1.2 started (bot: scrapybot) 2016-09- ..
发布时间:2017-09-06 07:28:35 Python

javascript - 本地引用外部服务器的json,responseText转回为json时,老是出错。。。。求救!!!!

自己写的爬虫,定时爬写入json 这是我的开放的json http://188.166.216.191/kanfan... 在Chorme不会显示乱码,但在其他浏览器上会乱码 我引用回来,用eval('('+responseText+')')将responseText转回为json 结果老是报错 我刚开始以为是因为我的爬虫一直在写入东西,所以这个json文档最后有可能 没有 ..
发布时间:2017-09-06 07:23:13 前端开发

python - scrapy 怎么设置爬100次换代理

问 题 scrapy中间件已经写过了,可以每次请求换一次代理,但是跑起来很慢,一天也就十几万的样子 代理是api那种,想减少代理的请求次数。 所以想到,多少次换一次代理这种。 解决方案 可以scrapy中间件里边,start_request里边设定一个计数器,每100次就去换代理。 ..
发布时间:2017-09-06 07:11:53 Python

python - 请问在scrapy中不同的item如何指定pipeline处理?

问 题 scrapy 版本:1.1.2 python 版本:3.5 在同一个项目下我定义了两个item,假设分别为Aitem,Bitem,现在的问题是:这两天item需要分别放在不同的数据库里(mongodb),请问这种情况应该如何处理? ps:是同一个爬虫生成的两个item。 解决方案 可以直接用if进行判断 if isinstance(item, Aite ..
发布时间:2017-09-06 07:09:38 Python

python - 请问scrapy中如何设置request的重试次数

问 题 scrapy版本:1.1.2 python 版本:3.5 在使用scrapy抓取数据的时候使用了代理IP,难免会遇到代理IP失效的情况。 因为对数据完整性要求较高,请问如何设置只要没有成功的返回response则把任务重新放进Request队列中去继续爬取? 解决方案 可以使用scrapy自带的scrapy.downloadermiddlewares.ret ..
发布时间:2017-09-06 07:08:12 Python

网页爬虫 - scrapy 只能用计算机一个核心,怎么让四核计算机同时用?

问 题 发现scrapy的cpu利用率一般都是25%左右,加上python线程机制,考虑scrapy只使用了25%的cpu 现在想,如何提高scrapy效率,充分发挥一台电脑的资源,让整台电脑的四个核心都来执行scrapy 翻了资料发现可能两种方法(未必对): (1)通过multiprocessing这个东西。但是不知道具体怎么实现 (2)把队列分割,在本台计算机重新启动一个 ..
发布时间:2017-09-06 06:58:10 其他开发

python - 在CenOS 7 中安装scrapy报错

在虚拟机中安装的CenOS 7,然后安装python3.5.1,然后安装scrapy,提示: 貌似这样就算是安装成功了,但是如果继续输入scrapy,会提示找不到命令。 然后我尝试导入的时候也报错了,如下: 看起来好像是twisted的问题,我又尝试导入twisted,但是并没有任何报错 多方搜索都没有找到解决方案,麻烦各位了。 ..
发布时间:2017-09-06 06:55:41 Python