web-scraping 第5页 - IT屋-程序员软件开发技术分享社区

加速网络爬虫

我正在使用 scrapy 使用非常简单的网页抓取工具抓取 23770 个网页.我对scrapy甚至python都很陌生，但设法编写了一个蜘蛛来完成这项工作.然而，它真的很慢(爬取 23770 个页面需要大约 28 小时). 我查看了 scrapy 网页、邮件列表和 stackoverflow，但我似乎找不到编写初学者可以理解的快速爬虫的通用建议.也许我的问题不是蜘蛛本身，而是我运行它的方式. ..

发布时间：2022-01-04 21:07:15 python performance web-scraping scrapy scrapy-spider Python

使用 Angular JS 标签(例如 ng-view)从网络中获取文本

我正在尝试从网站获取所有可见文本，我正在使用 python-scrapy 来完成这项工作.然而，我观察到的scrapy 只适用于HTML 标签，如div、body、head 等，而不适用于角js 标签如ng-view，如果ng-view 标签中有任何元素，当我右键单击时页面并查看源代码，然后标签内的内容不会出现，它显示为，那么我如何使用 python 来抓取 ..

发布时间：2022-01-04 21:05:01 python angularjs web-scraping scrapy screen-scraping Python

运行使用带有硒的scrapy创建的解析器时遇到问题

我已经用 Python scrapy 和 selenium 编写了一个抓取工具来从网站上抓取一些titles.在我的刮板中定义的 css 选择器是完美的.我希望我的刮板继续点击下一页并解析每个页面中嵌入的信息.它在第一页上做得很好，但是当涉及到硒部分的作用时，刮板会一遍又一遍地点击同一个链接. 由于这是我第一次使用 selenium 和scrapy，我不知道要继续成功.任何修复都将受到高度 ..

发布时间：2022-01-04 21:04:02 python python-3.x selenium web-scraping scrapy Python

带有动态验证码的 Scrapy

我正在尝试破解网站表单中的 captcha，但此验证码是动态的，它没有 URL 而是具有类似这样的内容 src="captcha?accion=image" 这里最好的选择是什么?我读过类似使用中间件之类的东西.我也知道它可以用 Selenium 或 Splash 或其他浏览器驱动程序(截图)来完成，但我想用 Scrapy 来完成，当然如果可能的话. 解决方案这里有一个完整的解决方案 ..

发布时间：2022-01-04 21:03:25 python selenium web-scraping scrapy captcha Python

使用 Scrapy 和 Splash 抓取 JS 渲染页面的问题

我正在尝试抓取此页面，其中包括以下内容html根据chrome 橙色配对这是我的蜘蛛: 导入scrapy从scrapy_splash 导入SplashRequest类 MySpider(scrapy.Spider):名称 = "飞溅"allowed_domains = ["phillips.com"]start_urls = ["https://www.phillips.com ..

发布时间：2022-01-04 21:01:56 javascript python-3.x web-scraping scrapy splash-screen 前端开发

在 500 个请求后添加延迟

我有一个起始 2000 个网址的列表，我正在使用: DOWNLOAD_DELAY = 0.25 为了控制请求的速度，但我也想在 n 个请求后添加更大的延迟.例如，我希望每个请求延迟 0.25 秒，每 500 个请求延迟 100 秒. 编辑: 示例代码: 导入操作系统从 os.path 导入加入导入scrapy导入时间date = time.strftime("%d/%m/%Y") ..

发布时间：2022-01-04 21:01:37 python web-scraping scrapy Python

如何以正确的格式将抓取的数据导出到 csv 文件?

我根据@paultrmbrth 的此建议对我的代码进行了改进.我需要的是从类似于 this 的页面中抓取数据和这个我想要csv 输出如下图所示. 但是我的代码的 csv 输出有点乱，像这样: 我有两个问题，无论如何，csv输出可以像第一张图片一样吗?我的第二个问题是，我也希望电影标题也被废弃，请给我一个提示或提供给我一个代码，我可以用它来抓取电影标题和内容. 更新这个问 ..

发布时间：2022-01-04 21:01:20 python csv web-scraping scrapy Python

在scrapy中提取类名

我正在尝试从 trustpilot.com 中删除评级. 是否可以使用scrapy提取类名?我正在尝试抓取由五个单独图像组成的评级，但这些图像位于一个带有评级名称的类中，例如，如果评级为 2 则开始: ... 如果是 3 星，则: ... 那么有没有办法我可以刮掉类 count-2 或 count-3 假设选择器像 .css('.star-rating')? 解决方案您 ..

发布时间：2022-01-04 20:58:16 python web-scraping css-selectors scrapy Python

为什么 Scrapy 返回一个 Iframe?

我想通过 Python-Scrapy 抓取这个网站> 我试试这个 class Parik(scrapy.Spider):名称 = "ooshop"allowed_domains = ["http://www.ooshop.com/courses-en-ligne/Home.aspx"]def __init__(self, idcrawl=None, proxy=None, *args, **k ..

发布时间：2022-01-04 20:57:30 python iframe web-scraping scrapy web-crawler Python

无法在scrapy中导入项目

我有一个非常基本的蜘蛛，按照入门指南中的说明进行操作，但由于某种原因，尝试将我的项目导入我的蜘蛛会返回错误.蜘蛛和物品代码如下所示: from scrapy.spider import BaseSpiderfrom scrapy.selector import HtmlXPathSelector从 myProject.items 导入项目类 MyProject(BaseSpider):名称 = ..

发布时间：2022-01-04 20:55:48 python module web-scraping scrapy Python

scrapy 使用 CrawlerProcess.crawl() 从脚本中将 custom_settings 传递给蜘蛛

我正在尝试通过脚本以编程方式调用蜘蛛.我无法使用 CrawlerProcess 通过构造函数覆盖设置.让我用默认的爬虫来说明这一点，它用于从官方 scrapy 站点抓取引号(官方scrapy引用示例蜘蛛). class QuotesSpider(蜘蛛):名称 = "引用"def __init__(self, somestring, *args, **kwargs):super(QuotesSpi ..

发布时间：2022-01-04 20:55:17 python-3.x web-scraping scrapy scrapy-spider scrapinghub 其他开发

Scrapy python csv 输出在每行之间有空行

我在生成的 csv 输出文件中每行scrapy 输出之间出现不需要的空行. 我已从 python2 迁移到 python 3，并且使用 Windows 10.因此，我正在为 python3 调整我的 scrapy 项目. 我目前(目前唯一的)问题是，当我将 scrapy 输出写入 CSV 文件时，每行之间有一个空行.这已在此处的几篇文章中突出显示(与 Windows 相关)，但我无法找 ..

发布时间：2022-01-04 20:54:00 python csv web-scraping scrapy Python

如何使用无限滚动抓取网站?

我想抓取这个网站.我写了一个蜘蛛，但它只抓取首页，即前 52 项. 我试过这个代码: from scrapy.spider import BaseSpiderfrom scrapy.selector import HtmlXPathSelector从scrapy.http导入请求a=[]从 aqaq.items 导入 aqaqItem导入操作系统导入 urlparse进口AST类aqaqs ..

发布时间：2022-01-04 20:53:23 javascript python-2.7 web-scraping scrapy 前端开发

当脚本在根目录之外时获取scrapy项目设置

我制作了一个 Scrapy 蜘蛛，它可以从位于项目根目录中的脚本成功运行.由于我需要从同一个脚本的不同项目运行多个蜘蛛程序(这将是一个 django 应用程序，根据用户的请求调用脚本)，我将脚本从其中一个项目的根目录移动到父目录.出于某种原因，脚本不再能够获取项目的自定义设置，以便将抓取的结果通过管道传输到数据库表中.这是我用来从脚本运行蜘蛛的 scrapy 文档中的代码: def spider ..

发布时间：2022-01-04 20:52:36 python django web-scraping scrapy Python

使用 PostBack 数据抓取页面 javascript Python Scrapy

我正在通过 Scrapy 使用 ASP.NET 编程爬过一些目录. 要抓取的页面编码如下: javascript:__doPostBack('ctl00$MainContent$List','Page$X') 其中 X 是 1 到 180 之间的整数. MainContent 参数始终相同.我不知道如何爬进这些.我很想在 SLE 规则中添加一些简单的内容，例如 allow=('P ..

发布时间：2022-01-04 20:51:36 javascript python asp.net web-scraping scrapy C#/.NET

从 <script> 获取数据使用 Scrapy 在 HTML 中标记

我一直在尝试使用 Scrapy(xpath) 从 Kbb 的 HTML 中的脚本标记中提取数据.但我的主要问题是识别正确的 div 和 script 标签.我是使用 xpath 的新手，希望得到任何帮助！ HTML (http://www.kbb.com/nissan/altima/2014/25-s-sedan-4d/?vehicleid=392396&intent=buy-used&mi ..

发布时间：2022-01-04 20:51:26 javascript python python-2.7 web-scraping scrapy 前端开发

在scrapy的蜘蛛的start_urls列表中给出的每个url的单独输出文件

我想为我在蜘蛛的 start_urls 中设置的每个 url 创建单独的输出文件，或者想以某种方式拆分输出文件以明智的 url 开始. 以下是我的蜘蛛的start_urls start_urls = ['http://www.dmoz.org/Arts/', 'http://www.dmoz.org/Business/', 'http://www.dmoz.org/电脑/'] 我想创建单 ..

发布时间：2022-01-04 20:51:01 python web-scraping scrapy scrapy-spider Python

跟随超链接和“过滤的异地请求"

我知道那里有几个相关的线程，它们对我帮助很大，但我仍然无法一路走下去.我现在运行代码不会导致错误，但我的 csv 文件中没有任何内容.我有以下 Scrapy 蜘蛛，它从一个网页开始，然后跟随一个超链接，并抓取链接的页面: from scrapy.http 导入请求从scrapy.spider 导入BaseSpiderfrom scrapy.selector import HtmlXPathSel ..

发布时间：2022-01-03 08:32:57 python callback web-scraping scrapy Python

如何提取<span>使用 Beautiful Soup 标记内容?

我正在尝试从谷歌翻译网站中提取 span 标签内容.内容是 id="result_box" 的翻译结果.尝试打印内容时，它返回 None 值. 请在此处查看图片导入请求从 bs4 导入 BeautifulSoupr = requests.get("https://translate.google.co.in/?rlz=1C1CHZL_enIN729IN729&um=1&ie=UTF-8& ..

发布时间：2021-12-31 20:29:41 python python-3.x web-scraping beautifulsoup python-requests Python

使用请求登录有问题的站点

我正在尝试使用请求模块在 python 中创建一个脚本来登录这个网站我正在使用我的凭据，但我找不到任何方法来这样做，因为我看不到随请求一起发送所需的参数(在 chrome 开发工具中). 用户名:SIMMTH.iqbal_123密码:SShift_123 登录表单看起来像这个. 这是我最初的尝试(我真的在那个页面中找不到任何东西开始): 导入请求从 bs4 导入 Beautif ..

发布时间：2021-12-31 20:24:52 python python-3.x web-scraping beautifulsoup python-requests Python

web-scraping相关内容