scrapy 第76页 - IT屋-程序员软件开发技术分享社区

python - scrapy 如何爬取网页里面的thunder链接？

目标url： http://www.xiaopian.com/html/... 这个是chrome里显示的源代码这个是scrapy shell url后用response.css().extract()显示东西我想知道为何二者不一致？scrapy爬取到的信息并没有对应的thunder链接，而是明面上的ftp链接 ..

发布时间：2017-09-06 06:37:12 scrapy python Python

python - 爬虫如何爬取这样格式的图片链接?

问题我采集网页的时候,查看对方的图片链接是这样的: http://proxy.weixinla.com/http://mmbiz.qpic.cn/mmbiz/dVy7rPLbeRwMVBzbEMUiajT3TTT4EAjXibaImVS7CVnFicra0FwqYTHPZByr4aZl7awvicLyYqIh9XXsbwCZ9scFYA/640? 在浏览器可以正常访问,但是不能下 ..

发布时间：2017-09-06 06:35:02 网页爬虫 scrapy 爬虫图片 python Python

网页爬虫 - 用Scrapy爬取网页元素返回空，但元素实际存在的

在使用Scrapy爬汽车之家网站的车型数据时，进入车型详情页面（比如http://www.autohome.com.cn/692/），一直就爬取不到详细车型列表数据（在 ..

发布时间：2017-09-06 06:33:54 网页爬虫 scrapy 其他开发

python爬虫 - 某个url的重要参数都在“#”后面，网络请求的时候“#”后面的参数会被忽略，这种情况该怎么处理？

问题某个url的重要参数都在“#”后面，网络请求的时候“#”后面的参数会被忽略，这种情况该怎么处理？求助.... 解决方案 "#"后面的本身就是规定了应该被忽略,对服务器端是没有用的,参考阮一峰大神的文章 http://www.ruanyifeng.com/blo... 如果你是做单页应用,可以使用HTML5格式 ..

发布时间：2017-09-06 06:25:15 python爬虫 scrapy 其他开发

python - 关于 scrapy 的 pipeline 和 items 问题

问题能不能实现这种： aItem的数据由aPipeline处理 bItem的数据由bPipeline处理解决方案目的是不是这样呢，比如你items.py有如下几个item 然后在pipelines.py中的process_item函数里可以如下操作这样就可以把不同的数据分开处理了， ..

发布时间：2017-09-06 05:50:24 scrapy python爬虫 python Python

python - scrapy ajax的问题

我正在爬一个asp.net的网页，其中有一个以post方法提交表单的ajax，我通过模拟post表单发现，响应的内容和用浏览器的响应文本不一样这是通过模拟post得到的文本 0|hiddenField|__EVENTTARGET||0|hiddenField|__EVENTARGUMENT||0|hiddenField|__LASTFOCUS||1204|hiddenField|__VI ..

发布时间：2017-09-06 05:35:47 python scrapy Python

scrapy - python 操作mysql,按照当前时间建立表,无法创建表..

1.使用python操作mysql,希望使用当前时间建立表名.但是格式化表名报错. 2.代码如下图: def __init__(self): time1 = datetime.datetime.now().strftime('%Y-%m-%d') self._tabname = 'sound_' + time1 self.conn = ..

发布时间：2017-09-06 05:34:42 python mysql scrapy 数据库

python - scrapy 抓不到起始网页内容

问题初学使用scrapy，按照教程建了很小一个例子，还没有到用pipeline之类的地步，只想看看能不能爬东西下来。代码如下： spider.py： from scrapy.spider import Spider class newsSpider(Spider): name = "News" allowed_domains = ["people.com. ..

发布时间：2017-09-06 04:57:29 python scrapy Python

scrapy - Python 的回调问题

问题代码如下： def parse(self, response): for node in response.xpath('//*').extract(): handlenode(node) for url in response.xpath('//a/@href').extract(): ..

发布时间：2017-09-06 04:07:02 scrapy python Python

python - Scrapy正则表达式怎么去掉空格和换行符？

& ..

发布时间：2017-09-06 03:57:52 scrapy python Python

python - Scrapy的这个demo正则表达式该怎么写？

水果：苹果 &n ..

发布时间：2017-09-06 03:53:29 scrapy python Python

python - scrapy 回调函数使用？

问题请问一下， class myspider(scrapy.Spider): name = 'novel' allowed_domains = ['23wx.com'] bash_url = 'http://www.23wx.com/class/' bashurl = '.html' def start_requests(self): for i in range ..

发布时间：2017-09-06 03:53:27 scrapy python Python

python - 关于scrapy的使用

问题用scrapy爬了一下小说网站，spider中的函数单个执行能正确输出，但是调用命令scrapy crawl novel -o novel.csv时却不能抓取任何数据，希望指点一下。以下是文件链接： http://pan.baidu.com/s/1skOfLJR mydict文件是对spider中的单个函数测试输出，显示都能正确输出。解决方案仔细看看一看，默 ..

发布时间：2017-09-06 03:48:02 python scrapy Python

python - 使用scrapy爬取新浪微博，无法进入回调的parse_item函数，怎么回事呢？

为什么会无法进入parse_item函数呢，自己讲web.com的url全部换成了csdn之后就可以了，甚至用的还是weibo的cookie，自己怀疑是不是因为微博重定向的原因，代码如下： import scrapy import re from scrapy.selector import Selector from scrapy.http import Request from tut ..

发布时间：2017-09-06 03:29:23 scrapy python Python

python - scrapy 如何高效的避免采集到重复数据?

问题目前有一只爬虫,爬取的文章数量不是很大,但是以后会慢慢累加上去. 不过现在要做的一个是,在爬取的时候,需要先判断这个url有没有存在数据库,如果存在就不插入了. 我目前想到的思路是,每次采集的时候,都做一下判断: ( 查询一下就数据库 ) 但是这样感觉很低效.而且如果数据库里面有上百万的数据,每次都做一次判断那岂不是很慢!!? 有高效的方式吗? 解决方案 ..

发布时间：2017-09-06 03:03:33 爬虫图片网页爬虫 mongodb scrapy python Python

网页爬虫 - Python小白用Scrapy爬虫返回的是空元素，请问各位大神哪里出了问题？

用scrapy爬了图书馆书籍的书名和评论，用Chrome的检查拔下来的Xpath，但是运行爬虫返回的是空元素，请问各位哪里出了问题，谢谢大家。截图：附上我的Scrapy源码，请大家多指教，谢谢！ from scrapy import Spider from scrapy.selector import Selector from CommentCrawl.items import ..

发布时间：2017-09-06 02:28:17 网页爬虫 scrapy python Python

python - 如何在scrapy中带cookie访问？

问题简单的通过scrapy访问雪球都报错，我知道要先访问一次雪球，需要cookie信息才能真正打开连接。scrapy据说可以不用在意cookie，会自动获取cookie。我按照这个连接在middleware里已经启用cookie，http://stackoverflow.com/ques...，但为什么还是会返回404错误？搜索了几天都没找到答案。郁闷啊，求帮忙给个简单代码如何访问，谢谢 ..

发布时间：2017-09-06 02:00:58 cookie python scrapy Python

anaconda3 4.3 python 3.6 没法跑scrapy？

问题写了个最简单的爬虫也跑不了,在 timeoutDelay = sum(Time)这里出现 'float' is not iterable 解决方案题主，这是twisted导致的问题，你需要下载上一个版本的twisted，不能用最新版。 ..

发布时间：2017-09-06 01:41:27 scrapy anaconda python Python

python - scrapy 再次请求的问题

问题如：item['url']=response.xpath('a/@href')分析出一个链接，然后想从这个链接里的网页再获取一些元素，放入item['other']。应该怎么写，谢谢。解决方案 def parse_page1(self, response): for url in urls: item = MyItem() i ..

发布时间：2017-09-06 01:19:41 scrapy python Python

使用scrapy时xpath解析的两个语法问题

问题 xpath解析语句是这样的： item['title'] = response.xpath('//span[@class="title"]/text()').extract_first() item['content'] = response.xpath('//div[@class="content"]').extract_first() 解析结果是这样的： { 'ti ..

发布时间：2017-09-06 01:02:01 scrapy xpath 其他开发

scrapy相关内容