pdf文件中的抓取抓取数据 [英] Scrapy crawl data inside pdf file

查看:701
本文介绍了pdf文件中的抓取抓取数据的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想知道如何使用scrapy抓取pdf文件中的数据.我应该使用哪个模块,哪个是最佳和有效的方式?您能给我一些示例教程吗

I would like to know how to crawl data inside a pdf file using scrapy. Which module should I use and which is the best and effective way?? Could you please give me some sample tutorials on this

谢谢!

推荐答案

我建议您使用Scrapy获取PDF并使用 PyPDF2 即可获取PDF内的内容.

I suggest you get the PDF with Scrapy and use PyPDF2 to get the content inside the PDF.

有关完整但有些古老(使用pyPDF)的示例,请查看

For a complete but somewhat old (using pyPDF) example take a look at this site.

这篇关于pdf文件中的抓取抓取数据的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆