scrapy相关内容
目标url: http://www.xiaopian.com/html/... 这个是chrome里显示的源代码 这个是scrapy shell url后用response.css().extract()显示东西 我想知道为何二者不一致?scrapy爬取到的信息并没有对应的thunder链接,而是明面上的ftp链接
..
问 题 我采集网页的时候,查看对方的图片链接是这样的: http://proxy.weixinla.com/http://mmbiz.qpic.cn/mmbiz/dVy7rPLbeRwMVBzbEMUiajT3TTT4EAjXibaImVS7CVnFicra0FwqYTHPZByr4aZl7awvicLyYqIh9XXsbwCZ9scFYA/640? 在浏览器可以正常访问,但是不能下
..
在使用Scrapy爬汽车之家网站的车型数据时,进入车型详情页面(比如http://www.autohome.com.cn/692/),一直就爬取不到详细车型列表数据(在
..
问 题 某个url的重要参数都在“#”后面,网络请求的时候“#”后面的参数会被忽略,这种情况该怎么处理? 求助.... 解决方案 "#"后面的本身就是规定了应该被忽略,对服务器端是没有用的,参考阮一峰大神的文章 http://www.ruanyifeng.com/blo... 如果你是做单页应用,可以使用HTML5格式
..
问 题 能不能实现这种: aItem的数据由aPipeline处理 bItem的数据由bPipeline处理 解决方案 目的是不是这样呢, 比如你items.py有如下几个item 然后在pipelines.py中的process_item函数里可以如下操作 这样就可以把不同的数据分开处理了,
..
我正在爬一个asp.net的网页,其中有一个以post方法提交表单的ajax,我通过模拟post表单发现,响应的内容和用浏览器的响应文本不一样 这是通过模拟post得到的文本 0|hiddenField|__EVENTTARGET||0|hiddenField|__EVENTARGUMENT||0|hiddenField|__LASTFOCUS||1204|hiddenField|__VI
..
1.使用python操作mysql,希望使用当前时间建立表名.但是格式化表名报错. 2.代码如下图: def __init__(self): time1 = datetime.datetime.now().strftime('%Y-%m-%d') self._tabname = 'sound_' + time1 self.conn =
..
问 题 初学使用scrapy,按照教程建了很小一个例子,还没有到用pipeline之类的地步,只想看看能不能爬东西下来。代码如下: spider.py: from scrapy.spider import Spider class newsSpider(Spider): name = "News" allowed_domains = ["people.com.
..
问 题 代码如下: def parse(self, response): for node in response.xpath('//*').extract(): handlenode(node) for url in response.xpath('//a/@href').extract():
..
&
..
水果:苹果 &n
..
问 题 请问一下 , class myspider(scrapy.Spider): name = 'novel' allowed_domains = ['23wx.com'] bash_url = 'http://www.23wx.com/class/' bashurl = '.html' def start_requests(self): for i in range
..
问 题 用scrapy爬了一下小说网站,spider中的函数单个执行能正确输出,但是调用命令scrapy crawl novel -o novel.csv时却不能抓取任何数据,希望指点一下。以下是文件链接: http://pan.baidu.com/s/1skOfLJR mydict文件是对spider中的单个函数测试输出,显示都能正确输出。 解决方案 仔细看看一看, 默
..
为什么会无法进入parse_item函数呢,自己讲web.com的url全部换成了csdn之后就可以了,甚至用的还是weibo的cookie,自己怀疑是不是因为微博重定向的原因,代码如下: import scrapy import re from scrapy.selector import Selector from scrapy.http import Request from tut
..
问 题 目前有一只爬虫,爬取的文章数量不是很大,但是以后会慢慢累加上去. 不过现在要做的一个是,在爬取的时候,需要先判断这个url有没有存在数据库,如果存在就不插入了. 我目前想到的思路是,每次采集的时候,都做一下判断: ( 查询一下就数据库 ) 但是这样感觉很低效.而且如果数据库里面有上百万的数据,每次都做一次判断那岂不是很慢!!? 有高效的方式吗? 解决方案
..
用scrapy爬了图书馆书籍的书名和评论,用Chrome的检查拔下来的Xpath,但是运行爬虫返回的是空元素,请问各位哪里出了问题,谢谢大家。 截图: 附上我的Scrapy源码,请大家多指教,谢谢! from scrapy import Spider from scrapy.selector import Selector from CommentCrawl.items import
..
问 题 简单的通过scrapy访问雪球都报错,我知道要先访问一次雪球,需要cookie信息才能真正打开连接。scrapy据说可以不用在意cookie,会自动获取cookie。我按照这个连接在middleware里已经启用cookie,http://stackoverflow.com/ques...,但为什么还是会返回404错误?搜索了几天都没找到答案。郁闷啊,求帮忙给个简单代码如何访问,谢谢
..
问 题 写了个最简单的爬虫也跑不了,在 timeoutDelay = sum(Time)这里出现 'float' is not iterable 解决方案 题主,这是twisted导致的问题,你需要下载上一个版本的twisted,不能用最新版。
..
问 题 如:item['url']=response.xpath('a/@href')分析出一个链接, 然后想从这个链接里的网页再获取一些元素,放入item['other']。 应该怎么写,谢谢。 解决方案 def parse_page1(self, response): for url in urls: item = MyItem() i
..
问 题 xpath解析语句是这样的: item['title'] = response.xpath('//span[@class="title"]/text()').extract_first() item['content'] = response.xpath('//div[@class="content"]').extract_first() 解析结果是这样的: { 'ti
..