pdf文件中的抓取抓取数据 [英] Scrapy crawl data inside pdf file
本文介绍了pdf文件中的抓取抓取数据的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我想知道如何使用scrapy抓取pdf文件中的数据.我应该使用哪个模块,哪个是最佳和有效的方式?您能给我一些示例教程吗
I would like to know how to crawl data inside a pdf file using scrapy. Which module should I use and which is the best and effective way?? Could you please give me some sample tutorials on this
谢谢!
推荐答案
我建议您使用Scrapy获取PDF并使用 PyPDF2 即可获取PDF内的内容.
I suggest you get the PDF with Scrapy and use PyPDF2 to get the content inside the PDF.
For a complete but somewhat old (using pyPDF) example take a look at this site.
这篇关于pdf文件中的抓取抓取数据的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文