跳过带有扩展名 pdf 的网页,从 Anemone 中爬行压缩 [英] Skipping web-pages with extension pdf, zip from crawling in Anemone

查看:53
本文介绍了跳过带有扩展名 pdf 的网页,从 Anemone 中爬行压缩的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在使用 anemone gem(Ruby-1.8.7 和 Rails 3.1.1)开发爬虫.我应该如何从抓取/下载中跳过带有 pdf、doc、zip 等扩展名的网页.

I am developing crawler using anemone gem (Ruby- 1.8.7 and Rails 3.1.1). How should I skip web-pages with extensions pdf, doc, zip, etc. from crawling/downloading.

推荐答案

ext = %w(flv swf png jpg gif asx zip rar tar 7z gz jar js css dtd xsd ico raw mp3 mp4 wav wmv ape aac ac3 wma aiff mpg mpeg avi mov ogg mkv mka asx asf mp2 m1v m3u f4v pdf doc xls ppt pps bin exe rss xml)

Anemone.crawl(url) do |anemone|

    anemone.skip_links_like /\.#{ext.join('|')}$/

    ...

end

这篇关于跳过带有扩展名 pdf 的网页,从 Anemone 中爬行压缩的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆