scrapy相关内容

设置restrict_xpaths设置后的UnicodeEncodeError

我是新来的python和scrapy。将restrict_xpaths设置设置为“// table [@ class =”lista“]”后,我收到了以下回溯。奇怪的是,通过使用其他xpath规则,抓取工具正常工作。 追溯(最近的最后一次呼叫): 文件“/System/Library/Frameworks/Python.framework/Versions /2.7/Extras/lib/p ..
发布时间:2017-08-16 23:12:21 Python

刮擦后发送电子邮件

pipeline.py代码 class Examplepipeline(object): def __init __(self): dispatcher.connect(self.spider_opened,signal = signals.spider_opened) dispatcher.connect(self.spider_closed,signal = signals. ..
发布时间:2017-08-08 22:12:37 Python

将刮刮的数据放入弹性搜索中时出现TypeError

我一直在关注本教程( http:// blog.florian-hopf.de/2014/07/scrapy-and-elasticsearch.html ),并使用这个scrapy弹性搜索管道( https://github.com/knockrentals/scrapy-elasticsearch ),并且能够将数据从scrapy提取到JSON文件,并且在localhost上启动并运行弹性搜索 ..
发布时间:2017-08-07 01:15:33 Python

Scrapy + Eclipse PyDev:如何设置调试器?

我已经使用我的Scrapy项目成功地安装了Eclipse。 我通过设置一个新的运行/调试配置来实现: 其主要模块链接到Scrapy / usr / local / bin / scrapy(我发现使用cmdline.py但在我的电脑上失败的建议(OSX Lion& 定义在我的情况下发送“crawl ny”的参数,就像我使用Scrapy命令行 设置正确的工作目录($ {workspa ..
发布时间:2017-07-29 00:33:48 Java开发

登录Scrapy

我已经设置了 LOG_FILE =在 settings.py 文件中的“log.txt”和文档中,这应该可以工作: Scrapy在每个Spider实例中提供一个记录器,可以像这样访问和使用: name ='myspider' start_urls = [pre $ class MySpider(scrapy.Spider) 'http://scrapinghub.com'] ..
发布时间:2017-06-15 22:07:26 Python

DNS查找失败:找不到'your.proxy.com':[Errno -5]没有与主机名关联的地址

这个问题在这里是一个解决问题的扩展,即。爬行链接,同时用scrapy进行身份验证。 使用Scrapy进行身份验证抓取LinkedIn @Gates 虽然我保持脚本的基础相同,只添加了我自己的session_key和session_password - 并且在将start url更改为我的用例之后,如下所示。 class LinkedPySpider(InitSpider): nam ..
发布时间:2017-06-09 21:40:11 Python

如何刮取处理dns查找失败

以下是我看到的错误: 错误:下载:DNS查找失败:找不到地址'domain.com'[Errno 8] nodename或servname提供,或不知道。 当我收到这样的错误时,如何通知我,以便我可以自己处理, 解决方案 使用 errback 回调: 请求(url,callback = your_callba ..
发布时间:2017-06-09 21:20:28 Python

获取错误:DLL加载失败:操作系统无法运行%1 - Python 2.7;刮板模块导入密码学

我无法在Scrapy教程(http://doc.scrapy.org/en/latest/intro/tutorial.html)中成功运行第一个命令。下面粘贴的代码复制是结果(错误在结尾)。 安装了Python 2.7 ,并按照安装说明进行刮擦(http://doc.scrapy)。组织/ EN /最新/前奏/的Install.html)。我在Windows 7(64位)上运行 Pytho ..
发布时间:2017-06-08 19:52:57 .NET组件控件

如何忽略Scrapy中的已抓取网址

我有一个爬行器,看起来像这样: def parse: ...... ........ 收益(请求(url = nextUrl,callback = self.parse2)) def parse2: ... .... ........ 收益(请求(url = nextUrl,callback = self.parse3)) def parse3: ...... ..
发布时间:2017-05-31 00:03:40 Python

使用刮擦命令“爬行”从django

我正在尝试从django抓取一个蜘蛛(scrapy),现在的问题是,只有当我们在顶级目录(具有scrapy.cfg的目录)时,才能爬行蜘蛛。那么如何才能实现? ... / polls / managements / commands / mycommand.py from django.core.management.base import baseCommand from s ..
发布时间:2017-05-29 20:58:40 Python

安装刮板时出错

我正在尝试安装scrapy,它会出现以下错误: 下载/解压缩加密> = 0.2.1(从pyOpenSSL-> Scrapy) 运行setup.py egg_info进行包加密 在pkg-config搜索路径中找不到包libffi。 也许您应该将包含`libffi.pc' 的目录添加到PKG_CONFIG_PATH环境变量 没有包'libffi'找到 在pkg-config搜索中找不到包li ..
发布时间:2017-05-29 08:47:21 Python

我如何使用scrapy shell与url上的参数

我要废除工作网站。我想在刮板上做一些测试。 因此,如果我键入这个 scrapy shell http://www.seek.com.au 然后如果我键入 从scrapy.contrib.linkextractors.sgml导入SgmlLinkExtractor 然后它工作正常 但是如果我这样做 scrapy shell http://www.seek ..
发布时间:2017-05-29 06:34:12 Python

如何访问Scrapy CrawlSpider中的特定start_url?

我正在使用Scrapy,特别是Scrapy的 CrawlSpider 类来抓取包含某些关键字的网络链接。我有一个很长的 start_urls 列表,它从连接到Django项目的SQLite数据库中获取其条目。我想保存这个数据库中的被卷入的Web链接。 我有两个Django模型,一个是开始的URL,例如 http:// example.com ,另一个用于剪贴的网页链接,例如 http://e ..
发布时间:2017-05-28 10:32:06 Python

如何在Scrapy中更新DjangoItem

我一直在使用Scrapy,但遇到一个问题。 DjangoItem 有一个保存方法以使用Django ORM来保存项目。这是伟大的,除了如果我多次运行刮刀,新的项目将在数据库中创建,即使我可能只想更新以前的值。 之后看看文档和源代码,我没有看到任何更新现有项目的方法。 我知道我可以打电话给ORM来查看是否有项目存在并更新它,但这意味着每个单个对象调用数据库,然后再次保存该项。 ..
发布时间:2017-05-28 02:09:20 Python

在芹菜任务中运行Scrapy蜘蛛

我有一个Django网站,当用户请求时发生刮擦,我的代码在一个新的过程中启动了Scrapy蜘蛛独立脚本。自然而然,这并不适用于用户的增加。 这样的一个例子: class StandAloneSpider(Spider): #a常规蜘蛛 settings.overrides ['LOG_ENABLED'] = True #更多设置可以更改.. crawler = Cr ..
发布时间:2017-05-27 23:37:25 Python

在Scrapy中访问django模型

是否可以访问Scrapy管道中的django模型,以便将我的刮削数据直接保存到我的模型中? 我看过这个 ,但我真的不知道如何设置? 解决方案 如果有其他人有同样的问题,我如何解决它。 我将其添加到我的 scrapy settings.py文件中: pre $ def setup_django_env(path): import imp,os from django.c ..
发布时间:2017-05-27 22:06:12 Python