scrapy 第78页 - IT屋-程序员软件开发技术分享社区

设置restrict_xpaths设置后的UnicodeEncodeError

我是新来的python和scrapy。将restrict_xpaths设置设置为“// table [@ class =”lista“]”后，我收到了以下回溯。奇怪的是，通过使用其他xpath规则，抓取工具正常工作。追溯（最近的最后一次呼叫）：文件“/System/Library/Frameworks/Python.framework/Versions /2.7/Extras/lib/p ..

发布时间：2017-08-16 23:12:21 python encoding scrapy Python

刮擦后发送电子邮件

pipeline.py代码 class Examplepipeline（object）： def __init __（self）： dispatcher.connect（self.spider_opened，signal = signals.spider_opened） dispatcher.connect（self.spider_closed，signal = signals. ..

发布时间：2017-08-08 22:12:37 python email scrapy Python

我一直在关注本教程（ http：// blog.florian-hopf.de/2014/07/scrapy-and-elasticsearch.html ），并使用这个scrapy弹性搜索管道（ https://github.com/knockrentals/scrapy-elasticsearch ），并且能够将数据从scrapy提取到JSON文件，并且在localhost上启动并运行弹性搜索 ..

发布时间：2017-08-07 01:15:33 python elasticsearch scrapy Python

Scrapy + Eclipse PyDev：如何设置调试器？

我已经使用我的Scrapy项目成功地安装了Eclipse。我通过设置一个新的运行/调试配置来实现：其主要模块链接到Scrapy / usr / local / bin / scrapy（我发现使用cmdline.py但在我的电脑上失败的建议（OSX Lion& 定义在我的情况下发送“crawl ny”的参数，就像我使用Scrapy命令行设置正确的工作目录（$ {workspa ..

发布时间：2017-07-29 00:33:48 eclipse pydev scrapy Java开发

登录Scrapy

我已经设置了 LOG_FILE =在 settings.py 文件中的“log.txt”和文档中，这应该可以工作： Scrapy在每个Spider实例中提供一个记录器，可以像这样访问和使用： name ='myspider' start_urls = [pre $ class MySpider（scrapy.Spider） 'http://scrapinghub.com'] ..

发布时间：2017-06-15 22:07:26 python logging documentation scrapy Python

DNS查找失败：找不到'your.proxy.com'：[Errno -5]没有与主机名关联的地址

这个问题在这里是一个解决问题的扩展，即。爬行链接，同时用scrapy进行身份验证。使用Scrapy进行身份验证抓取LinkedIn @Gates 虽然我保持脚本的基础相同，只添加了我自己的session_key和session_password - 并且在将start url更改为我的用例之后，如下所示。 class LinkedPySpider（InitSpider）： nam ..

发布时间：2017-06-09 21:40:11 python dns scrapy linkedin web-crawler Python

如何刮取处理dns查找失败

以下是我看到的错误：错误：下载：DNS查找失败：找不到地址'domain.com'[Errno 8] nodename或servname提供，或不知道。当我收到这样的错误时，如何通知我，以便我可以自己处理，解决方案使用 errback 回调：请求（url，callback = your_callba ..

发布时间：2017-06-09 21:20:28 python dns scrapy screen-scraping Python

获取错误：DLL加载失败：操作系统无法运行％1 - Python 2.7;刮板模块导入密码学

我无法在Scrapy教程（http://doc.scrapy.org/en/latest/intro/tutorial.html）中成功运行第一个命令。下面粘贴的代码复制是结果（错误在结尾）。安装了Python 2.7 ，并按照安装说明进行刮擦（http：//doc.scrapy）。组织/ EN /最新/前奏/的Install.html）。我在Windows 7（64位）上运行 Pytho ..

发布时间：2017-06-08 19:52:57 python-2.7 dll module scrapy .NET组件控件

为什么我在Scrapy中获得KeyError？

未处理的错误追溯（最近呼叫最后）：文件“/usr/lib/python2.7/site-packages/twisted/internet/base.py”，第428行，在fireEvent DeferredList（beforeResults）.addCallback （self._continueFiring）文件“/usr/lib/python2.7/site-packages/t ..

发布时间：2017-05-31 01:47:54 python django scrapy celery twisted Python

外来冲浪的钥匙

class Creative（models.Model）： name = models.CharField（max_length = 200） picture = models.CharField（max_length = 200，null = True） class Project（models.Model）： title = models.CharField（max_length ..

发布时间：2017-05-31 00:23:31 django django-models web-scraping scrapy scrape 其他开发

如何忽略Scrapy中的已抓取网址

我有一个爬行器，看起来像这样： def parse： ...... ........ 收益（请求（url = nextUrl，callback = self.parse2）） def parse2： ... .... ........ 收益（请求（url = nextUrl，callback = self.parse3）） def parse3： ...... ..

发布时间：2017-05-31 00:03:40 python django web-crawler scrapy Python

使用刮擦命令“爬行”从django

我正在尝试从django抓取一个蜘蛛（scrapy），现在的问题是，只有当我们在顶级目录（具有scrapy.cfg的目录）时，才能爬行蜘蛛。那么如何才能实现？ ... / polls / managements / commands / mycommand.py from django.core.management.base import baseCommand from s ..

发布时间：2017-05-29 20:58:40 python django scrapy Python

安装刮板时出错

我正在尝试安装scrapy，它会出现以下错误：下载/解压缩加密> = 0.2.1（从pyOpenSSL-> Scrapy）运行setup.py egg_info进行包加密在pkg-config搜索路径中找不到包libffi。也许您应该将包含`libffi.pc' 的目录添加到PKG_CONFIG_PATH环境变量没有包'libffi'找到在pkg-config搜索中找不到包li ..

发布时间：2017-05-29 08:47:21 python django scrapy Python

我如何使用scrapy shell与url上的参数

我要废除工作网站。我想在刮板上做一些测试。因此，如果我键入这个 scrapy shell http://www.seek.com.au 然后如果我键入从scrapy.contrib.linkextractors.sgml导入SgmlLinkExtractor 然后它工作正常但是如果我这样做 scrapy shell http://www.seek ..

发布时间：2017-05-29 06:34:12 python django scrapy Python

Django定制管理命令运行Scrapy：如何包括Scrapy的选项？

我希望能够在Django内运行 Scraging Web爬行框架。 Scrapy本身只提供一个命令行工具 scrapy 来执行其命令，即该工具没有被有意地写入外部程序调用。用户 Mikhail Korobov 提出了一个 ..

发布时间：2017-05-29 05:56:53 python django scrapy Python

无法导入Scrapy的设置模块或其scrapy.cfg

这是一个相当冗长的帖子，但经过广泛的研究，我找不到解决方案。我在OSX 10.8上有一个混合的Django 1.4.1 / Scrapy 0.14.4项目，我使用Django项目的 manage.py 命令控制Scrapy，如 ..

发布时间：2017-05-28 21:09:04 python django environment-variables scrapy Python

如何访问Scrapy CrawlSpider中的特定start_url？

我正在使用Scrapy，特别是Scrapy的 CrawlSpider 类来抓取包含某些关键字的网络链接。我有一个很长的 start_urls 列表，它从连接到Django项目的SQLite数据库中获取其条目。我想保存这个数据库中的被卷入的Web链接。我有两个Django模型，一个是开始的URL，例如 http：// example.com ，另一个用于剪贴的网页链接，例如 http://e ..

发布时间：2017-05-28 10:32:06 python django scrapy Python

如何在Scrapy中更新DjangoItem

我一直在使用Scrapy，但遇到一个问题。 DjangoItem 有一个保存方法以使用Django ORM来保存项目。这是伟大的，除了如果我多次运行刮刀，新的项目将在数据库中创建，即使我可能只想更新以前的值。之后看看文档和源代码，我没有看到任何更新现有项目的方法。我知道我可以打电话给ORM来查看是否有项目存在并更新它，但这意味着每个单个对象调用数据库，然后再次保存该项。 ..

发布时间：2017-05-28 02:09:20 python django scrapy Python

在芹菜任务中运行Scrapy蜘蛛

我有一个Django网站，当用户请求时发生刮擦，我的代码在一个新的过程中启动了Scrapy蜘蛛独立脚本。自然而然，这并不适用于用户的增加。这样的一个例子： class StandAloneSpider（Spider）： #a常规蜘蛛 settings.overrides ['LOG_ENABLED'] = True ＃更多设置可以更改.. crawler = Cr ..

发布时间：2017-05-27 23:37:25 python django scrapy celery Python

在Scrapy中访问django模型

是否可以访问Scrapy管道中的django模型，以便将我的刮削数据直接保存到我的模型中？我看过这个，但我真的不知道如何设置？解决方案如果有其他人有同样的问题，我如何解决它。我将其添加到我的 scrapy settings.py文件中： pre $ def setup_django_env（path）： import imp，os from django.c ..

发布时间：2017-05-27 22:06:12 python django scrapy Python

scrapy相关内容