scrapy相关内容
我在登录scrapy时遇到问题,而且我能找到的大部分内容都已过时. 我已经在 settings.py 文件和文档中设置了 LOG_FILE="log.txt",这应该可以工作: Scrapy 在每个 Spider 实例中提供了一个记录器,可以像这样访问和使用: 导入scrapy类 MySpider(scrapy.Spider):名称 = '我的蜘蛛'start_urls = ['ht
..
我制作了一个 Scrapy 蜘蛛,它可以从位于项目根目录中的脚本成功运行.由于我需要从同一个脚本的不同项目运行多个蜘蛛程序(这将是一个 django 应用程序,根据用户的请求调用脚本),我将脚本从其中一个项目的根目录移动到父目录.出于某种原因,脚本不再能够获取项目的自定义设置,以便将抓取的结果通过管道传输到数据库表中.这是我用来从脚本运行蜘蛛的 scrapy 文档中的代码: def spider
..
我想在scrapy中写入csv文件 用于 rsslinks 中的 rss:item = AppleItem()item['reference_link'] = response.urlbase_url = get_base_url(响应)item['rss_link'] = urljoin_rfc(base_url,rss)#item['rss_link'] = rssitems.appe
..
是否可以创建一个从两个基本蜘蛛(即 SitemapSpider 和 CrawlSpider)继承功能的蜘蛛? 我一直在尝试从各个站点抓取数据,并意识到并非所有站点都列出了网站上的每个页面,因此需要使用 CrawlSpider.但是 CrawlSpider 浏览了很多垃圾页面,有点矫枉过正. 我想做的是这样的: 启动作为 SitemapSpider 子类的我的 Spider 并传递
..
我写了一个小蜘蛛.以下是我的代码 class ElectronicsSpider(scrapy.Spider):名称 = "电子"allowed_domains = ["www.olx.com"]start_urls = ['http://www.olx.com/']定义解析(自我,响应):经过 我的问题是,我想使用设置读取名称、allowed_domains 和 start_urls.我怎样
..
我正在通过 Scrapy 使用 ASP.NET 编程爬过一些目录. 要抓取的页面编码如下: javascript:__doPostBack('ctl00$MainContent$List','Page$X') 其中 X 是 1 到 180 之间的整数. MainContent 参数始终相同.我不知道如何爬进这些.我很想在 SLE 规则中添加一些简单的内容,例如 allow=('P
..
我一直在尝试使用 Scrapy(xpath) 从 Kbb 的 HTML 中的脚本标记中提取数据.但我的主要问题是识别正确的 div 和 script 标签.我是使用 xpath 的新手,希望得到任何帮助! HTML (http://www.kbb.com/nissan/altima/2014/25-s-sedan-4d/?vehicleid=392396&intent=buy-used&mi
..
我想为我在蜘蛛的 start_urls 中设置的每个 url 创建单独的输出文件,或者想以某种方式拆分输出文件以明智的 url 开始. 以下是我的蜘蛛的start_urls start_urls = ['http://www.dmoz.org/Arts/', 'http://www.dmoz.org/Business/', 'http://www.dmoz.org/电脑/'] 我想创建单
..
我正在尝试访问蜘蛛中的会话 cookie.我首先使用蜘蛛登录到社交网络: def parse(self, response):返回 [FormRequest.from_response(response,表单名称='登录_表单',formdata={'email': '...', 'pass':'...'},回调=self.after_login)] 在 after_login 中,我想访问
..
我有一个标签,我想让里面的所有文本都可用.我正在这样做: response.css('mytag::text') 但它只是获取当前标签的文本,我也想从所有内部标签中获取文本. 我知道我可以这样做: response.xpath('//mytag//text()') 但我想用 css 选择器来做.我怎样才能做到这一点? 解决方案 response.css('mytag *::t
..
我正在尝试使用 spider.py 从 MYSQL 表中使用 SELECT 填充 start_url.当我运行“scrapy runpider spider.py"时,我没有得到任何输出,只是它没有错误地完成了. 我已经在 python 脚本中测试了 SELECT 查询,并且 start_url 填充了 MYSQL 表中的条目. spider.py from scrapy.spide
..
我在scrapy & 中开发了很少的蜘蛛我想在 Heroku 云上测试这些.有人知道如何在 Heroku 云上部署 Scrapy 蜘蛛吗? 解决方案 是的,在 Heroku 上部署和运行 Scrapy spider 相当简单. 以下是使用真实 Scrapy 项目的步骤: 克隆项目(注意它必须有一个 requirements.txt 文件,Heroku 才能将其识别为 Pytho
..
我想搭建一个基于Scrapy的网络爬虫,抓取几个新闻门户网站的新闻图片.我希望这个爬虫是: 永远运行 意味着它会定期重新访问一些门户页面以获取更新. 安排优先级. 为不同类型的 URL 分配不同的优先级. 多线程获取 我已经阅读了 Scrapy 文档,但没有找到与我列出的内容相关的内容(也许我不够小心).这里有人知道怎么做吗?或者只是给出一些关于它的想法/例子.
..
我正在尝试使用 CrawlerRunner() 从脚本启动 Scrapy 以在 AWS Lambda 中启动. 我在 Stackoverflow 中观看了带有钩针库的解决方案,但它对我不起作用. 链接:StackOverflow 1 StackOverflow 2 这是代码: 导入scrapy从 scrapy.crawler 导入 CrawlerRunner从 scrapy.u
..
现在我有 2 个蜘蛛,我想做的是 Spider 1 转到 url1 并且如果 url2 出现,则使用 url22/代码>.也使用管道保存url1的内容. Spider 2 去 url2 做一些事情. 由于两种蜘蛛的复杂性,我想将它们分开. 我使用 scrapy crawl 的尝试: def 解析(自我,响应):p = multiprocessing.Process(目标=se
..
尝试调整这个问题的答案 到我的问题,但没有成功. 以下是一些 html 代码示例:
联系方式
奥克兰
更多信息北岸医院实际地址124 Shakespeare Rd, Takapuna, Auckland 0620
..
我正在使用 Ubuntu 14.04 x64,我已经按照 Scrapy 文档使用 pip 安装软件包: pip install scrapy 然后我按照示例项目的初始化,尝试执行示例蜘蛛: scrapy 爬取示例 我收到此错误: 2015-02-23 10:23:42+0100 [scrapy] INFO:Scrapy 0.14.4 开始(机器人:示例)2015-02-23 10:23:
..
类 Myspider1#做一点事....类 Myspider2#做一点事... 以上是我的spider.py文件的架构.我试图先运行 Myspider1,然后根据某些条件多次运行 Myspider2.我怎么能这样做???有小费吗? configure_logging()跑步者 = CrawlerRunner()定义抓取():yield runner.crawl(Myspider1,arg...
..
我有这个用于scrapy框架的代码: # -*- 编码:utf-8 -*-导入scrapy从scrapy.contrib.spiders 导入规则从scrapy.linkextractors 导入LinkExtractor从 lxml 导入 html类 Scrapy1Spider(scrapy.Spider):名称 = "scrapy1"allowed_domains = ["sfbay.cra
..
我想按照这个链接设置scrapy集群scrapy-cluster,在我运行这个命令之前一切正常: pip install -r requirements.txt requirements.txt 看起来像: cffi==1.2.1特性==14.3.0ConcurrentLogHandler>=0.9.1密码学==0.9.1... 我猜上面的命令是在requirements.txt中安装pa
..