scrapy 第80页 - IT屋-程序员软件开发技术分享社区

如何使用BaseItemExporter中的fields_to_export属性来订购Scrapy CSV数据？

我已经从命令行使用了一个简单的 Scrapy 蜘蛛将数据导出为CSV格式，但数据的顺序似乎是随机的。如何在我的输出中订购CSV字段？我使用以下命令行获取CSV数据： scrapy crawl somwehere -o items.csv -t csv 根据这 Scrapy文档，我应该能够使用 fields_to_export c> 类的 $ 属性来控制订单。 ..

发布时间：2017-02-24 15:58:29 python csv scrapy Python

python scrapy获取href使用css选择器

我想获得href值。我尝试过： Link = Link1.css（'span [class = title] a :: text'）。extract（）[0] 但我只是得到内的文本。如何获取href中的链接请解决方案您正在寻找的是： Link = Link1.css（'span [class = title] a :: ..

发布时间：2017-02-06 10:48:34 python css python-2.7 scrapy 前端开发

在OS X上的virtualenv中安装scrapy的加密时发生错误

我在OS X 10.11上的virtualenv中安装了pip。当安装加密时，它说： code>构建'_openssl'扩展 cc -fno-strict-aliasing -fno-common -dynamic -arch i386 -arch x86_64 -g -Os -pipe -fno-common -fno-strict-aliasing - fwrapv -DEN ..

发布时间：2017-01-16 12:10:07 python osx cryptography scrapy cc Python

如何自动运行抓取工具？

我使用django和scrapy框架来完成一个项目。在我的项目中，有两个爬虫。现在，我希望这些抓取工具每天自动运行一次或两次。那么我该如何实现呢？如何实现？使用cron工作的简单想法是我在寻找什么？所以我正在寻找一些好的和容易的参考从开始。解决方案我认为cronjob将是最简单的方法。只需将以下内容添加到您的' / etc / crontab '（或使用 crontab -e ..

发布时间：2017-01-13 21:03:41 python django cron scrapy Python

在Cron工作的Scrapy爬行物

我想从cron工作执行我的scrapy crawler。我创建bash文件getdata.sh其中scrapy项目位于它的蜘蛛＃！/ bin / bash cd / myfolder / crawlers / scrapy crawl my_spider_name 我的crontab看起来像这样，我想每5分钟执行一次 * / 5 * * * sh ..

发布时间：2017-01-13 20:30:37 ubuntu cron scrapy crontab cron-task Linux/Unix

在scrapy的设置稠粘的曲奇饼

我抓取的网站有javascript，它设置一个cookie并检查它在后端，以确保js已启用。从html代码提取cookie很简单，但是后来设置它似乎是scrapy中的问题。所以我的代码是： from scrapy.contrib.spiders.init import InitSpider class TestSpider InitSpider）： ... rules =（R ..

发布时间：2017-01-06 18:07:49 python cookies scrapy Python

如何绕过cloudflare bot / ddos保护在Scrapy？

我偶尔会刮电子商务网页，以取得产品价格资讯。我有一段时间没有使用使用 Scrapy 构建的刮刀，而且昨天正试图使用它 - 我遇到了一个机器人保护的问题。它使用CloudFlare的DDOS保护，它基本上是使用JavaScript评估过滤掉禁用JS的浏览器（因此筛选器）。一旦评估该函数，就会生成带有计算数字的响应。作为回报，服务发送回附加到每个请求的两个认证cookie允许正常地抓取 ..

发布时间：2017-01-06 15:04:57 javascript python cookies scrapy 前端开发

如何通过Scrapy登录cookie到Selenium？

我需要Selenium的javascript工作。首先我使用Scrapy FormRequest 登录，然后我需要打开 response.url 与Selenium。问题是Selenium没有cookie，所以打开登录有人知道如何将cookies从scrapy传递给selenium？解决方案由于您尚未提供任何您到目前为止撰写的程式码，因此我只会转介您。为 ..

发布时间：2017-01-06 14:31:36 cookies selenium scrapy 跨浏览器开发

访问会话cookie在scrapy蜘蛛

我尝试访问蜘蛛中的会话cookie。我首先登录到使用蜘蛛的社交网络： def parse（self，response）： return [FormRequest.from_response（response， formname ='login_form'， formdata = {'email'：'...'，'pass'：'...'}， callback = self.afte ..

发布时间：2017-01-06 13:10:46 session cookies session-cookies scrapy 跨浏览器开发

Scrapy - 如何管理Cookie /会话

我对Cookie如何使用Scrapy以及如何管理这些Cookie感到困惑。这基本上是一个简化的版本尝试执行： > > 当您进行搜索时，网站会记住您搜索的内容，因此当您执行某些操作（例如转到结果的下一页）时，它会知道正在处理的搜索。 p> 我的脚本：我的蜘蛛有一个起始网址searchpage_url parse（）请求搜索页，搜索表单响应将传递到 searc ..

发布时间：2017-01-06 10:07:53 python session cookies session-cookies scrapy Python

Scrapy爬网程序不能从Python脚本同时运行

我只是想知道为什么会发生这种情况。这是我的Python脚本运行所有：来自scrapy import cmdline file = open cityNames.txt'，'r'） cityNames = file.read（）。splitlines（）城市中的城市名称： url =“http：//” city +“.website.com” output = city ..

发布时间：2016-12-20 17:36:14 python command-line scrapy Python

scrapy FormRequest True / Flase on /'off'复选框

在类似的帖子中，有人询问有关将表单值从[ on]不打开，这只是设置一个“True”和“False”值（使用Mechanize）。如何在scrapy FormRequest.from_response 中实现？ EDIT 例如，使用mechanize获取表单信息，这是网页表单的默认值。默认情况下，会检查表单上的所有内容： ..

发布时间：2016-11-21 15:22:38 forms checkbox scrapy 其他开发

Python，scrapy：bad utf8字符在文件中从带有字符集iso-8859-1的html页面

我想使用Scrapy在python 2.7中删除带有字符集 iso-8859-1 的网页。我在网页上感兴趣的文本是：tempête Scrapy将响应作为带字符的UTF8 unicode返回正确编码： >>> response u'temp\xc3 \xaate' 现在，我想写在文件中的单词tempête，因此我执行以下操作： >>>> import cod ..

发布时间：2016-11-19 17:05:34 python python-2.7 utf-8 character-encoding scrapy Python

为什么我的数据插入在我的Cassandra数据库有时稳定，有时慢？

这是我的查询，如果Cassandra数据库中存在或不存在当前数据ID： row = session.execute（“SELECT * FROM articles where id =％s”，[id]）在Kafka中解析的消息，然后确定此消息是否存在于Cassandra数据库中，如果它不存在，那么它应该执行插入操作，如果它存在，则不应该插入数据。 p> mess ..

发布时间：2016-11-13 16:24:46 python cassandra scrapy apache-kafka Python

遵循超链接和“过滤的异地请求”

我知道有几个相关的线程，他们已经帮助了我很多，但我仍然不能得到所有的方式。我在运行代码不会导致错误，但我没有在我的 csv 文件。我有以下 Scrapy 蜘蛛，从一个网页开始，然后跟随一个超链接，并刮掉链接的页面：来自scrapy.http import请求来自scrapy.spider import BaseSpider 来自scrapy.selector import HtmlXP ..

发布时间：2016-11-10 10:18:30 python callback web-scraping scrapy Python

Scrapy：按照链接获取附加项目数据？

我没有一个具体的代码问题我只是不知道如何处理以下问题与Scrapy框架后勤：数据的结构我想擦除通常是每个项目的表行。最后，我要将标题，到期日期和详细信息。标题和到期日期可立即在页面上显示... strong>自己不在表中 - 而是指向包含详细信息的页面的链接（如果这在表格中没有意义）： | -------------------------------------- ..

发布时间：2016-11-10 09:38:22 hyperlink callback scrapy 其他开发

从网页抓取并重新格式化为日历文件

我正在尝试抓取此网站： http://stats.swehockey.se/ScheduleAndResults / Schedule / 3940 我已经得到了（感谢alecxe）检索日期和团队。来自scrapy.item import Item，Field 来自scrapy.spider import BaseSpider 来自scrapy.selector import H ..

发布时间：2016-11-09 15:45:58 python xpath calendar web-scraping scrapy Python

在Mac OS X上安装libxml2的问题

我想在我的Mac（OS 10.6.4）安装了libxml2。实际上，我想只要运行在Python，这要求我安装扭曲，Zope的，现在的libxml2一个Scrapy脚本。我已经下载了最新版本（2.7.7，从xmlsoft.org），并试图按照这些指示 ..

发布时间：2016-08-23 11:31:50 python c osx libxml2 scrapy Python

从Python这样的动态Web数据库的数据刮痧

我是新来的Python和我目前正在设法弄清楚如何从这个网站抽取数据：的https://www.entsoe.eu/db-query/consumption/mhlv-a-specific-country-for-a-specific-month 我不知道如果我使用Scrapy，BeautifulSoup或硒。需要对特定的国家数据（DE说 - 德国）每个月和日内2012-2014 。任 ..

发布时间：2016-08-05 19:23:19 python selenium web-scraping beautifulsoup scrapy Python

网页图片刮痧 - 处理CSS和透明度

我在找一个库或工具时，我可能会建立一个Web图像刮刀。基本上只抓取DOM和具有特殊性能的拍摄。以下属性是特别重要的：刮刀必须能够抓取CSS后，DOM和JavaScript已经被应用为crutial信息可通过这些元素被添加到页面。有些图像包含一个透明层，因而被设计成特定的颜色或纹理背景前面进行观看。对于这样的形象，我想采取截图，但裁剪的只是图像被刮掉，使图像及其相关背景拍摄的。 ..

发布时间：2016-08-05 19:19:15 web-scraping web-crawler beautifulsoup scrapy 其他开发语言

scrapy相关内容