scrapy相关内容

如何使用BaseItemExporter中的fields_to_export属性来订购Scrapy CSV数据?

我已经从命令行使用了一个简单的 Scrapy 蜘蛛将数据导出为CSV格式,但数据的顺序似乎是随机的。如何在我的输出中订购CSV字段? 我使用以下命令行获取CSV数据: scrapy crawl somwehere -o items.csv -t csv 根据这 Scrapy文档,我应该能够使用 fields_to_export c> 类的 $ 属性来控制订单。 ..
发布时间:2017-02-24 15:58:29 Python

如何自动运行抓取工具?

我使用django和scrapy框架来完成一个项目。在我的项目中,有两个爬虫。现在,我希望这些抓取工具每天自动运行一次或两次。那么我该如何实现呢?如何实现?使用cron工作的简单想法是我在寻找什么?所以我正在寻找一些好的和容易的参考从开始。 解决方案 我认为cronjob将是最简单的方法。 只需将以下内容添加到您的' / etc / crontab '(或使用 crontab -e ..
发布时间:2017-01-13 21:03:41 Python

在Cron工作的Scrapy爬行物

我想从cron工作执行我的scrapy crawler。 我创建bash文件getdata.sh其中scrapy项目位于它的蜘蛛 #!/ bin / bash cd / myfolder / crawlers / scrapy crawl my_spider_name 我的crontab看起来像这样,我想每5分钟执行一次 * / 5 * * * sh ..
发布时间:2017-01-13 20:30:37 Linux/Unix

在scrapy的设置稠粘的曲奇饼

我抓取的网站有javascript,它设置一个cookie并检查它在后端,以确保js已启用。从html代码提取cookie很简单,但是后来设置它似乎是scrapy中的问题。所以我的代码是: from scrapy.contrib.spiders.init import InitSpider class TestSpider InitSpider): ... rules =(R ..
发布时间:2017-01-06 18:07:49 Python

如何绕过cloudflare bot / ddos​​保护在Scrapy?

我偶尔会刮电子商务网页,以取得产品价格资讯。我有一段时间没有使用使用 Scrapy 构建的刮刀,而且昨天正试图使用​​它 - 我遇到了一个机器人保护的问题。 它使用CloudFlare的DDOS保护,它基本上是使用JavaScript评估过滤掉禁用JS的浏览器(因此筛选器)。一旦评估该函数,就会生成带有计算数字的响应。作为回报,服务发送回附加到​​每个请求的两个认证cookie允许正常地抓取 ..
发布时间:2017-01-06 15:04:57 前端开发

如何通过Scrapy登录cookie到Selenium?

我需要Selenium的javascript工作。 首先我使用Scrapy FormRequest 登录,然后我需要打开 response.url 与Selenium。 问题是Selenium没有cookie,所以打开登录 有人知道如何将cookies从scrapy传递给selenium? 解决方案 由于您尚未提供任何您到目前为止撰写的程式码,因此我只会转介您。 为 ..
发布时间:2017-01-06 14:31:36 跨浏览器开发

Scrapy - 如何管理Cookie /会话

我对Cookie如何使用Scrapy以及如何管理这些Cookie感到困惑。 这基本上是一个简化的版本尝试执行: > > 当您进行搜索时,网站会记住您搜索的内容,因此当您执行某些操作(例如转到结果的下一页)时,它会知道正在处理的搜索。 p> 我的脚本: 我的蜘蛛有一个起始网址searchpage_url parse()请求搜索页,搜索表单响应将传递到 searc ..
发布时间:2017-01-06 10:07:53 Python

Scrapy爬网程序不能从Python脚本同时运行

我只是想知道为什么会发生这种情况。这是我的Python脚本运行所有: 来自scrapy import cmdline file = open cityNames.txt','r') cityNames = file.read()。splitlines() 城市中的城市名称: url =“http://” city +“.website.com” output = city ..
发布时间:2016-12-20 17:36:14 Python

scrapy FormRequest True / Flase on /'off'复选框

在类似的帖子中,有人询问有关将表单值从[ on]不打开,这只是设置一个“True”和“False”值(使用Mechanize)。 如何在scrapy FormRequest.from_response 中实现? EDIT 例如,使用mechanize获取表单信息, 这是网页表单的默认值。 默认情况下,会检查表单上的所有内容: ..
发布时间:2016-11-21 15:22:38 其他开发

Python,scrapy:bad utf8字符在文件中从带有字符集iso-8859-1的html页面

我想使用Scrapy在python 2.7中删除带有字符集 iso-8859-1 的网页。我在网页上感兴趣的文本是:tempête Scrapy将响应作为带字符的UTF8 unicode返回正确编码: >>> response u'temp\xc3 \xaate' 现在,我想写在文件中的单词tempête,因此我执行以下操作: >>>> import cod ..
发布时间:2016-11-19 17:05:34 Python

为什么我的数据插入在我的Cassandra数据库有时稳定,有时慢?

这是我的查询,如果Cassandra数据库中存在或不存在当前数据ID: row = session.execute(“SELECT * FROM articles where id =%s”,[id]) 在Kafka中解析的消息,然后确定此消息是否存在于Cassandra数据库中,如果它不存在,那么它应该执行插入操作,如果它存在,则不应该插入数据。 p> mess ..
发布时间:2016-11-13 16:24:46 Python

遵循超链接和“过滤的异地请求”

我知道有几个相关的线程,他们已经帮助了我很多,但我仍然不能得到所有的方式。我在运行代码不会导致错误,但我没有在我的 csv 文件。我有以下 Scrapy 蜘蛛,从一个网页开始,然后跟随一个超链接,并刮掉链接的页面: 来自scrapy.http import请求 来自scrapy.spider import BaseSpider 来自scrapy.selector import HtmlXP ..
发布时间:2016-11-10 10:18:30 Python

Scrapy:按照链接获取附加项目数据?

我没有一个具体的代码问题我只是不知道如何处理以下问题与Scrapy框架后勤: 数据的结构我想擦除通常是每个项目的表行。 最后,我要将标题,到期日期和详细信息。 标题和到期日期可立即在页面上显示... strong>自己不在表中 - 而是指向包含详细信息的页面的链接(如果这在表格中没有意义): | -------------------------------------- ..
发布时间:2016-11-10 09:38:22 其他开发

在Mac OS X上安装libxml2的问题

我想在我的Mac(OS 10.6.4)安装了libxml2。实际上,我想只要运行在Python,这要求我安装扭曲,Zope的,现在的libxml2一个Scrapy脚本。我已经下载了最新版本(2.7.7,从xmlsoft.org),并试图按照这些指示 ..
发布时间:2016-08-23 11:31:50 Python

网页图片刮痧 - 处理CSS和透明度

我在找一个库或工具时,我可能会建立一个Web图像刮刀。基本上只抓取DOM和具有特殊性能的拍摄。以下属性是特别重要的: 刮刀必须能够抓取CSS后,DOM和JavaScript已经被应用为crutial信息可通过这些元素被添加到页面。 有些图像包含一个透明层,因而被设计成特定的颜色或纹理背景前面进行观看。对于这样的形象,我想采取截图,但裁剪的只是图像被刮掉,使图像及其相关背景拍摄的。 ..
发布时间:2016-08-05 19:19:15 其他开发语言