scrapy相关内容

python - scrapy 如何爬取网页里面的thunder链接?

目标url: http://www.xiaopian.com/html/... 这个是chrome里显示的源代码 这个是scrapy shell url后用response.css().extract()显示东西 我想知道为何二者不一致?scrapy爬取到的信息并没有对应的thunder链接,而是明面上的ftp链接 ..
发布时间:2017-09-06 06:37:12 Python

python爬虫 - 某个url的重要参数都在“#”后面,网络请求的时候“#”后面的参数会被忽略,这种情况该怎么处理?

问 题 某个url的重要参数都在“#”后面,网络请求的时候“#”后面的参数会被忽略,这种情况该怎么处理? 求助.... 解决方案 "#"后面的本身就是规定了应该被忽略,对服务器端是没有用的,参考阮一峰大神的文章 http://www.ruanyifeng.com/blo... 如果你是做单页应用,可以使用HTML5格式 ..
发布时间:2017-09-06 06:25:15 其他开发

python - 关于 scrapy 的 pipeline 和 items 问题

问 题 能不能实现这种: aItem的数据由aPipeline处理 bItem的数据由bPipeline处理 解决方案 目的是不是这样呢, 比如你items.py有如下几个item 然后在pipelines.py中的process_item函数里可以如下操作 这样就可以把不同的数据分开处理了, ..
发布时间:2017-09-06 05:50:24 Python

python - scrapy ajax的问题

我正在爬一个asp.net的网页,其中有一个以post方法提交表单的ajax,我通过模拟post表单发现,响应的内容和用浏览器的响应文本不一样 这是通过模拟post得到的文本 0|hiddenField|__EVENTTARGET||0|hiddenField|__EVENTARGUMENT||0|hiddenField|__LASTFOCUS||1204|hiddenField|__VI ..
发布时间:2017-09-06 05:35:47 Python

python - scrapy 抓不到起始网页内容

问 题 初学使用scrapy,按照教程建了很小一个例子,还没有到用pipeline之类的地步,只想看看能不能爬东西下来。代码如下: spider.py: from scrapy.spider import Spider class newsSpider(Spider): name = "News" allowed_domains = ["people.com. ..
发布时间:2017-09-06 04:57:29 Python

scrapy - Python 的回调问题

问 题 代码如下: def parse(self, response): for node in response.xpath('//*').extract(): handlenode(node) for url in response.xpath('//a/@href').extract(): ..
发布时间:2017-09-06 04:07:02 Python

python - scrapy 回调函数使用?

问 题 请问一下 , class myspider(scrapy.Spider): name = 'novel' allowed_domains = ['23wx.com'] bash_url = 'http://www.23wx.com/class/' bashurl = '.html' def start_requests(self): for i in range ..
发布时间:2017-09-06 03:53:27 Python

python - 关于scrapy的使用

问 题 用scrapy爬了一下小说网站,spider中的函数单个执行能正确输出,但是调用命令scrapy crawl novel -o novel.csv时却不能抓取任何数据,希望指点一下。以下是文件链接: http://pan.baidu.com/s/1skOfLJR mydict文件是对spider中的单个函数测试输出,显示都能正确输出。 解决方案 仔细看看一看, 默 ..
发布时间:2017-09-06 03:48:02 Python

python - scrapy 如何高效的避免采集到重复数据?

问 题 目前有一只爬虫,爬取的文章数量不是很大,但是以后会慢慢累加上去. 不过现在要做的一个是,在爬取的时候,需要先判断这个url有没有存在数据库,如果存在就不插入了. 我目前想到的思路是,每次采集的时候,都做一下判断: ( 查询一下就数据库 ) 但是这样感觉很低效.而且如果数据库里面有上百万的数据,每次都做一次判断那岂不是很慢!!? 有高效的方式吗? 解决方案 ..
发布时间:2017-09-06 03:03:33 Python

网页爬虫 - Python小白用Scrapy爬虫返回的是空元素,请问各位大神哪里出了问题?

用scrapy爬了图书馆书籍的书名和评论,用Chrome的检查拔下来的Xpath,但是运行爬虫返回的是空元素,请问各位哪里出了问题,谢谢大家。 截图: 附上我的Scrapy源码,请大家多指教,谢谢! from scrapy import Spider from scrapy.selector import Selector from CommentCrawl.items import ..
发布时间:2017-09-06 02:28:17 Python

python - 如何在scrapy中带cookie访问?

问 题 简单的通过scrapy访问雪球都报错,我知道要先访问一次雪球,需要cookie信息才能真正打开连接。scrapy据说可以不用在意cookie,会自动获取cookie。我按照这个连接在middleware里已经启用cookie,http://stackoverflow.com/ques...,但为什么还是会返回404错误?搜索了几天都没找到答案。郁闷啊,求帮忙给个简单代码如何访问,谢谢 ..
发布时间:2017-09-06 02:00:58 Python

python - scrapy 再次请求的问题

问 题 如:item['url']=response.xpath('a/@href')分析出一个链接, 然后想从这个链接里的网页再获取一些元素,放入item['other']。 应该怎么写,谢谢。 解决方案 def parse_page1(self, response): for url in urls: item = MyItem() i ..
发布时间:2017-09-06 01:19:41 Python