web-scraping相关内容

加速网络爬虫

我正在使用 scrapy 使用非常简单的网页抓取工具抓取 23770 个网页.我对scrapy甚至python都很陌生,但设法编写了一个蜘蛛来完成这项工作.然而,它真的很慢(爬取 23770 个页面需要大约 28 小时). 我查看了 scrapy 网页、邮件列表和 stackoverflow,但我似乎找不到编写初学者可以理解的快速爬虫的通用建议.也许我的问题不是蜘蛛本身,而是我运行它的方式. ..
发布时间:2022-01-04 21:07:15 Python

使用 Angular JS 标签(例如 ng-view)从网络中获取文本

我正在尝试从网站获取所有可见文本,我正在使用 python-scrapy 来完成这项工作.然而,我观察到的scrapy 只适用于HTML 标签,如div、body、head 等,而不适用于角js 标签如ng-view,如果ng-view 标签中有任何元素,当我右键单击时页面并查看源代码,然后标签内的内容不会出现,它显示为 ,那么我如何使用 python 来抓取 ..
发布时间:2022-01-04 21:05:01 Python

运行使用带有硒的scrapy创建的解析器时遇到问题

我已经用 Python scrapy 和 selenium 编写了一个抓取工具来从网站上抓取一些titles.在我的刮板中定义的 css 选择器 是完美的.我希望我的刮板继续点击下一页并解析每个页面中嵌入的信息.它在第一页上做得很好,但是当涉及到硒部分的作用时,刮板会一遍又一遍地点击同一个链接. 由于这是我第一次使用 selenium 和scrapy,我不知道要继续成功.任何修复都将受到高度 ..
发布时间:2022-01-04 21:04:02 Python

带有动态验证码的 Scrapy

我正在尝试破解网站表单中的 captcha,但此验证码是动态的,它没有 URL 而是具有类似这样的内容 src="captcha?accion=image" 这里最好的选择是什么?我读过类似使用中间件之类的东西.我也知道它可以用 Selenium 或 Splash 或其他浏览器驱动程序(截图)来完成,但我想用 Scrapy 来完成,当然如果可能的话. 解决方案 这里有一个完整的解决方案 ..
发布时间:2022-01-04 21:03:25 Python

在 500 个请求后添加延迟

我有一个起始 2000 个网址的列表,我正在使用: DOWNLOAD_DELAY = 0.25 为了控制请求的速度,但我也想在 n 个请求后添加更大的延迟.例如,我希望每个请求延迟 0.25 秒,每 500 个请求延迟 100 秒. 编辑: 示例代码: 导入操作系统从 os.path 导入加入导入scrapy导入时间date = time.strftime("%d/%m/%Y") ..
发布时间:2022-01-04 21:01:37 Python

如何以正确的格式将抓取的数据导出到 csv 文件?

我根据@paultrmbrth 的此建议对我的代码进行了改进.我需要的是从类似于 this 的页面中抓取数据 和 这个 我想要csv 输出如下图所示. 但是我的代码的 csv 输出有点乱,像这样: 我有两个问题,无论如何,csv输出可以像第一张图片一样吗?我的第二个问题是,我也希望电影标题也被废弃,请给我一个提示或提供给我一个代码,我可以用它来抓取电影标题和内容. 更新 这个问 ..
发布时间:2022-01-04 21:01:20 Python

在scrapy中提取类名

我正在尝试从 trustpilot.com 中删除评级. 是否可以使用scrapy提取类名?我正在尝试抓取由五个单独图像组成的评级,但这些图像位于一个带有评级名称的类中,例如,如果评级为 2 则开始: ... 如果是 3 星,则: ... 那么有没有办法我可以刮掉类 count-2 或 count-3 假设选择器像 .css('.star-rating')? 解决方案 您 ..
发布时间:2022-01-04 20:58:16 Python

无法在scrapy中导入项目

我有一个非常基本的蜘蛛,按照入门指南中的说明进行操作,但由于某种原因,尝试将我的项目导入我的蜘蛛会返回错误.蜘蛛和物品代码如下所示: from scrapy.spider import BaseSpiderfrom scrapy.selector import HtmlXPathSelector从 myProject.items 导入项目类 MyProject(BaseSpider):名称 = ..
发布时间:2022-01-04 20:55:48 Python

scrapy 使用 CrawlerProcess.crawl() 从脚本中将 custom_settings 传递给蜘蛛

我正在尝试通过脚本以编程方式调用蜘蛛.我无法使用 CrawlerProcess 通过构造函数覆盖设置.让我用默认的爬虫来说明这一点,它用于从官方 scrapy 站点抓取引号(官方scrapy引用示例蜘蛛). class QuotesSpider(蜘蛛):名称 = "引用"def __init__(self, somestring, *args, **kwargs):super(QuotesSpi ..

Scrapy python csv 输出在每行之间有空行

我在生成的 csv 输出文件中每行scrapy 输出之间出现不需要的空行. 我已从 python2 迁移到 python 3,并且使用 Windows 10.因此,我正在为 python3 调整我的 scrapy 项目. 我目前(目前唯一的)问题是,当我将 scrapy 输出写入 CSV 文件时,每行之间有一个空行.这已在此处的几篇文章中突出显示(与 Windows 相关),但我无法找 ..
发布时间:2022-01-04 20:54:00 Python

如何使用无限滚动抓取网站?

我想抓取这个网站.我写了一个蜘蛛,但它只抓取首页,即前 52 项. 我试过这个代码: from scrapy.spider import BaseSpiderfrom scrapy.selector import HtmlXPathSelector从scrapy.http导入请求a=[]从 aqaq.items 导入 aqaqItem导入操作系统导入 urlparse进口AST类aqaqs ..
发布时间:2022-01-04 20:53:23 前端开发

当脚本在根目录之外时获取scrapy项目设置

我制作了一个 Scrapy 蜘蛛,它可以从位于项目根目录中的脚本成功运行.由于我需要从同一个脚本的不同项目运行多个蜘蛛程序(这将是一个 django 应用程序,根据用户的请求调用脚本),我将脚本从其中一个项目的根目录移动到父目录.出于某种原因,脚本不再能够获取项目的自定义设置,以便将抓取的结果通过管道传输到数据库表中.这是我用来从脚本运行蜘蛛的 scrapy 文档中的代码: def spider ..
发布时间:2022-01-04 20:52:36 Python

跟随超链接和“过滤的异地请求"

我知道那里有几个相关的线程,它们对我帮助很大,但我仍然无法一路走下去.我现在运行代码不会导致错误,但我的 csv 文件中没有任何内容.我有以下 Scrapy 蜘蛛,它从一个网页开始,然后跟随一个超链接,并抓取链接的页面: from scrapy.http 导入请求从scrapy.spider 导入BaseSpiderfrom scrapy.selector import HtmlXPathSel ..
发布时间:2022-01-03 08:32:57 Python

使用请求登录有问题的站点

我正在尝试使用请求模块在 python 中创建一个脚本来登录这个网站 我正在使用我的凭据,但我找不到任何方法来这样做,因为我看不到随请求一起发送所需的参数(在 chrome 开发工具中). 用户名:SIMMTH.iqbal_123密码:SShift_123 登录表单看起来像这个. 这是我最初的尝试(我真的在那个页面中找不到任何东西开始): 导入请求从 bs4 导入 Beautif ..
发布时间:2021-12-31 20:24:52 Python