scrapy相关内容

登录 Scrapy

我在登录scrapy时遇到问题,而且我能找到的大部分内容都已过时. 我已经在 settings.py 文件和文档中设置了 LOG_FILE="log.txt",这应该可以工作: Scrapy 在每个 Spider 实例中提供了一个记录器,可以像这样访问和使用: 导入scrapy类 MySpider(scrapy.Spider):名称 = '我的蜘蛛'start_urls = ['ht ..
发布时间:2022-01-04 20:52:47 Python

当脚本在根目录之外时获取scrapy项目设置

我制作了一个 Scrapy 蜘蛛,它可以从位于项目根目录中的脚本成功运行.由于我需要从同一个脚本的不同项目运行多个蜘蛛程序(这将是一个 django 应用程序,根据用户的请求调用脚本),我将脚本从其中一个项目的根目录移动到父目录.出于某种原因,脚本不再能够获取项目的自定义设置,以便将抓取的结果通过管道传输到数据库表中.这是我用来从脚本运行蜘蛛的 scrapy 文档中的代码: def spider ..
发布时间:2022-01-04 20:52:36 Python

写入 csv 文件

我想在scrapy中写入csv文件 用于 rsslinks 中的 rss:item = AppleItem()item['reference_link'] = response.urlbase_url = get_base_url(响应)item['rss_link'] = urljoin_rfc(base_url,rss)#it​​em['rss_link'] = rssitems.appe ..
发布时间:2022-01-04 20:52:27 Python

爬虫蜘蛛中的多重继承

是否可以创建一个从两个基本蜘蛛(即 SitemapSpider 和 CrawlSpider)继承功能的蜘蛛? 我一直在尝试从各个站点抓取数据,并意识到并非所有站点都列出了网站上的每个页面,因此需要使用 CrawlSpider.但是 CrawlSpider 浏览了很多垃圾页面,有点矫枉过正. 我想做的是这样的: 启动作为 SitemapSpider 子类的我的 Spider 并传递 ..
发布时间:2022-01-04 20:52:17 Python

Spiderscrapy中的读取设置

我写了一个小蜘蛛.以下是我的代码 class ElectronicsSpider(scrapy.Spider):名称 = "电子"allowed_domains = ["www.olx.com"]start_urls = ['http://www.olx.com/']定义解析(自我,响应):经过 我的问题是,我想使用设置读取名称、allowed_domains 和 start_urls.我怎样 ..
发布时间:2022-01-04 20:52:01 Python

在scrapy蜘蛛中访问会话cookie

我正在尝试访问蜘蛛中的会话 cookie.我首先使用蜘蛛登录到社交网络: def parse(self, response):返回 [FormRequest.from_response(response,表单名称='登录_表单',formdata={'email': '...', 'pass':'...'},回调=self.after_login)] 在 after_login 中,我想访问 ..
发布时间:2022-01-04 20:50:52 其他开发

Scrapy css 选择器:获取所有内部标签的文本

我有一个标签,我想让里面的所有文本都可用.我正在这样做: response.css('mytag::text') 但它只是获取当前标签的文本,我也想从所有内部标签中获取文本. 我知道我可以这样做: response.xpath('//mytag//text()') 但我想用 css 选择器来做.我怎样才能做到这一点? 解决方案 response.css('mytag *::t ..
发布时间:2022-01-04 20:50:35 前端开发

Python Scrapy - 从 mysql 填充 start_urls

我正在尝试使用 spider.py 从 MYSQL 表中使用 SELECT 填充 start_url.当我运行“scrapy runpider spider.py"时,我没有得到任何输出,只是它没有错误地完成了. 我已经在 python 脚本中测试了 SELECT 查询,并且 start_url 填充了 MYSQL 表中的条目. spider.py from scrapy.spide ..
发布时间:2022-01-04 20:50:23 数据库

如何在 Heroku 云上部署 Scrapy 蜘蛛

我在scrapy & 中开发了很少的蜘蛛我想在 Heroku 云上测试这些.有人知道如何在 Heroku 云上部署 Scrapy 蜘蛛吗? 解决方案 是的,在 Heroku 上部署和运行 Scrapy spider 相当简单. 以下是使用真实 Scrapy 项目的步骤: 克隆项目(注意它必须有一个 requirements.txt 文件,Heroku 才能将其识别为 Pytho ..
发布时间:2022-01-04 20:50:13 Python

如何构建一个基于Scrapy的网络爬虫永远运行?

我想搭建一个基于Scrapy的网络爬虫,抓取几个新闻门户网站的新闻图片.我希望这个爬虫是: 永远运行 意味着它会定期重新访问一些门户页面以获取更新. 安排优先级. 为不同类型的 URL 分配不同的优先级. 多线程获取 我已经阅读了 Scrapy 文档,但没有找到与我列出的内容相关的内容(也许我不够小心).这里有人知道怎么做吗?或者只是给出一些关于它的想法/例子. ..
发布时间:2022-01-04 20:49:26 Python

CrawlerRunner 不使用钩针抓取页面

我正在尝试使用 CrawlerRunner() 从脚本启动 Scrapy 以在 AWS Lambda 中启动. 我在 Stackoverflow 中观看了带有钩针库的解决方案,但它对我不起作用. 链接:StackOverflow 1 StackOverflow 2 这是代码: 导入scrapy从 scrapy.crawler 导入 CrawlerRunner从 scrapy.u ..
发布时间:2022-01-04 20:49:10 Python

是否可以从 Scrapy 蜘蛛运行另一个蜘蛛?

现在我有 2 个蜘蛛,我想做的是 Spider 1 转到 url1 并且如果 url2 出现,则使用 url22/代码>.也使用管道保存url1的内容. Spider 2 去 url2 做一些事情. 由于两种蜘蛛的复杂性,我想将它们分开. 我使用 scrapy crawl 的尝试: def 解析(自我,响应):p = multiprocessing.Process(目标=se ..
发布时间:2022-01-04 20:48:27 Python

蟒蛇&Scrapy:Scrapy 版本的问题

我正在使用 Ubuntu 14.04 x64,我已经按照 Scrapy 文档使用 pip 安装软件包: pip install scrapy 然后我按照示例项目的初始化,尝试执行示例蜘蛛: scrapy 爬取示例 我收到此错误: 2015-02-23 10:23:42+0100 [scrapy] INFO:Scrapy 0.14.4 开始(机器人:示例)2015-02-23 10:23: ..
发布时间:2022-01-04 20:47:39 Python

顺序运行多个蜘蛛

类 Myspider1#做一点事....类 Myspider2#做一点事... 以上是我的spider.py文件的架构.我试图先运行 Myspider1,然后根据某些条件多次运行 Myspider2.我怎么能这样做???有小费吗? configure_logging()跑步者 = CrawlerRunner()定义抓取():yield runner.crawl(Myspider1,arg... ..
发布时间:2022-01-04 20:46:56 Python

Scrapy 抓取下一页

我有这个用于scrapy框架的代码: # -*- 编码:utf-8 -*-导入scrapy从scrapy.contrib.spiders 导入规则从scrapy.linkextractors 导入LinkExtractor从 lxml 导入 html类 Scrapy1Spider(scrapy.Spider):名称 = "scrapy1"allowed_domains = ["sfbay.cra ..
发布时间:2022-01-04 20:46:47 Python