scrapy相关内容
我是新来的python和scrapy。将restrict_xpaths设置设置为“// table [@ class =”lista“]”后,我收到了以下回溯。奇怪的是,通过使用其他xpath规则,抓取工具正常工作。 追溯(最近的最后一次呼叫): 文件“/System/Library/Frameworks/Python.framework/Versions /2.7/Extras/lib/p
..
pipeline.py代码 class Examplepipeline(object): def __init __(self): dispatcher.connect(self.spider_opened,signal = signals.spider_opened) dispatcher.connect(self.spider_closed,signal = signals.
..
我一直在关注本教程( http:// blog.florian-hopf.de/2014/07/scrapy-and-elasticsearch.html ),并使用这个scrapy弹性搜索管道( https://github.com/knockrentals/scrapy-elasticsearch ),并且能够将数据从scrapy提取到JSON文件,并且在localhost上启动并运行弹性搜索
..
我已经使用我的Scrapy项目成功地安装了Eclipse。 我通过设置一个新的运行/调试配置来实现: 其主要模块链接到Scrapy / usr / local / bin / scrapy(我发现使用cmdline.py但在我的电脑上失败的建议(OSX Lion& 定义在我的情况下发送“crawl ny”的参数,就像我使用Scrapy命令行 设置正确的工作目录($ {workspa
..
我已经设置了 LOG_FILE =在 settings.py 文件中的“log.txt”和文档中,这应该可以工作: Scrapy在每个Spider实例中提供一个记录器,可以像这样访问和使用: name ='myspider' start_urls = [pre $ class MySpider(scrapy.Spider) 'http://scrapinghub.com']
..
这个问题在这里是一个解决问题的扩展,即。爬行链接,同时用scrapy进行身份验证。 使用Scrapy进行身份验证抓取LinkedIn @Gates 虽然我保持脚本的基础相同,只添加了我自己的session_key和session_password - 并且在将start url更改为我的用例之后,如下所示。 class LinkedPySpider(InitSpider): nam
..
以下是我看到的错误: 错误:下载:DNS查找失败:找不到地址'domain.com'[Errno 8] nodename或servname提供,或不知道。 当我收到这样的错误时,如何通知我,以便我可以自己处理, 解决方案 使用 errback 回调: 请求(url,callback = your_callba
..
我无法在Scrapy教程(http://doc.scrapy.org/en/latest/intro/tutorial.html)中成功运行第一个命令。下面粘贴的代码复制是结果(错误在结尾)。 安装了Python 2.7 ,并按照安装说明进行刮擦(http://doc.scrapy)。组织/ EN /最新/前奏/的Install.html)。我在Windows 7(64位)上运行 Pytho
..
未处理的错误 追溯(最近呼叫最后): 文件“/usr/lib/python2.7/site-packages/twisted/internet/base.py”,第428行,在fireEvent DeferredList(beforeResults).addCallback (self._continueFiring) 文件“/usr/lib/python2.7/site-packages/t
..
class Creative(models.Model): name = models.CharField(max_length = 200) picture = models.CharField(max_length = 200,null = True) class Project(models.Model): title = models.CharField(max_length
..
我有一个爬行器,看起来像这样: def parse: ...... ........ 收益(请求(url = nextUrl,callback = self.parse2)) def parse2: ... .... ........ 收益(请求(url = nextUrl,callback = self.parse3)) def parse3: ......
..
我正在尝试从django抓取一个蜘蛛(scrapy),现在的问题是,只有当我们在顶级目录(具有scrapy.cfg的目录)时,才能爬行蜘蛛。那么如何才能实现? ... / polls / managements / commands / mycommand.py from django.core.management.base import baseCommand from s
..
我正在尝试安装scrapy,它会出现以下错误: 下载/解压缩加密> = 0.2.1(从pyOpenSSL-> Scrapy) 运行setup.py egg_info进行包加密 在pkg-config搜索路径中找不到包libffi。 也许您应该将包含`libffi.pc' 的目录添加到PKG_CONFIG_PATH环境变量 没有包'libffi'找到 在pkg-config搜索中找不到包li
..
我要废除工作网站。我想在刮板上做一些测试。 因此,如果我键入这个 scrapy shell http://www.seek.com.au 然后如果我键入 从scrapy.contrib.linkextractors.sgml导入SgmlLinkExtractor 然后它工作正常 但是如果我这样做 scrapy shell http://www.seek
..
我希望能够在Django内运行 Scraging Web爬行框架。 Scrapy本身只提供一个命令行工具 scrapy 来执行其命令,即该工具没有被有意地写入外部程序调用。 用户 Mikhail Korobov 提出了一个
..
这是一个相当冗长的帖子,但经过广泛的研究,我找不到解决方案。我在OSX 10.8上有一个混合的Django 1.4.1 / Scrapy 0.14.4项目,我使用Django项目的 manage.py 命令控制Scrapy,如
..
我正在使用Scrapy,特别是Scrapy的 CrawlSpider 类来抓取包含某些关键字的网络链接。我有一个很长的 start_urls 列表,它从连接到Django项目的SQLite数据库中获取其条目。我想保存这个数据库中的被卷入的Web链接。 我有两个Django模型,一个是开始的URL,例如 http:// example.com ,另一个用于剪贴的网页链接,例如 http://e
..
我一直在使用Scrapy,但遇到一个问题。 DjangoItem 有一个保存方法以使用Django ORM来保存项目。这是伟大的,除了如果我多次运行刮刀,新的项目将在数据库中创建,即使我可能只想更新以前的值。 之后看看文档和源代码,我没有看到任何更新现有项目的方法。 我知道我可以打电话给ORM来查看是否有项目存在并更新它,但这意味着每个单个对象调用数据库,然后再次保存该项。
..
我有一个Django网站,当用户请求时发生刮擦,我的代码在一个新的过程中启动了Scrapy蜘蛛独立脚本。自然而然,这并不适用于用户的增加。 这样的一个例子: class StandAloneSpider(Spider): #a常规蜘蛛 settings.overrides ['LOG_ENABLED'] = True #更多设置可以更改.. crawler = Cr
..
是否可以访问Scrapy管道中的django模型,以便将我的刮削数据直接保存到我的模型中? 我看过这个 ,但我真的不知道如何设置? 解决方案 如果有其他人有同样的问题,我如何解决它。 我将其添加到我的 scrapy settings.py文件中: pre $ def setup_django_env(path): import imp,os from django.c
..