scrapy-spider相关内容

使用scrapy时如何绕过'cookiewall'?

我是Scrapy的新用户。在遵循了从网站提取数据的教程之后,我试图在论坛上完成一些类似的工作。 我要提取的是论坛页面上的所有帖子(从头开始)。但是,这个特定的论坛有一个“ cookie墙”。因此,当我想从 ..
发布时间:2020-10-09 04:18:30 Python

曲奇中使用cookie的正确工作形式是什么

我是新手,我正在使用Cookie的网络中使用scrapy,这对我来说是个问题,因为我可以在没有Cookie的情况下获取数据,而在包含Cookie的情况下获取数据是困难的我。 我有此代码结构 class mySpider(BaseSpider): name ='data' allowed_domains = [] start_urls = [“ http:// ....”] ..
发布时间:2020-10-09 04:16:01 Python

向Scrapy Spider传递URL列表以通过.txt文件进行爬网

我是Python的新手,也是Scrapy的新手。 我已经设置了一个蜘蛛来抓取并提取所需的所有信息。但是,我需要将URL的.txt文件传递给start_urls变量。 例如: class LinkChecker(BaseSpider): 名称='linkchecker' start_urls = []#这里,我希望列表开始从文本文件a中爬取URL列表通过命令行传递。 ..

如何使用sucuri保护来抓取网站

根据 Scrapy Documetions ,我想从多个网站抓取和抓取数据,我的代码可以正常使用正常的网站,但是当我要使用 Sucuri 爬网网站时,我没有任何数据,似乎sucuri防火墙阻止了我访问网站标记。 目标网站是 http://www.dwarozh.net/ 和 这是我的蜘蛛摘要 来自scrapy import蜘蛛 来自scrapy.selector import选择器 ..
发布时间:2020-10-03 00:34:37 Python

Scrapy产生一个Request,在回调中解析,但使用原始函数中的信息

因此,我试图对一些网页进行粗鲁的测试,我的想法是向满足条件的URL发出请求,计算页面上某些项目的数量,然后在原始条件内返回True / False取决于... 以下是一些代码来显示我的意思: def filter_categories: 如果条件: test = yield Request(url = link,callback = self.test_page,dont_filt ..
发布时间:2020-09-29 00:24:26 Python

如何使用Scrapy递归爬网子页面

因此,基本上,我试图爬网具有一组类别的页面,抓取每个类别的名称,跟随与每个类别关联的子链接到具有一组子类别的页面,抓取它们的名称,然后跟随每个子类别到其关联页面并检索文本数据.最后,我想输出一个格式如下的json文件: 类别1名称 子类别1名称 该子类别页面上的数据 子类别n名称 此页面上的数据 类别名称 子类别1名称 n子类别页面中的数据 等 最终我希望能 ..
发布时间:2020-09-20 07:22:35 Python

测试Scrapy Spider仍然有效-查找页面更改

如何针对在线数据测试抓痒的蜘蛛. 我现在从此帖子中得知,可以针对 offline 数据. 我的目标是检查我的Spider是否仍从页面中提取正确的数据,或者页面是否已更改.我通过XPath提取数据,有时页面会接收并更新,而我的抓取工具不再起作用.我希望测试尽可能接近我的代码,例如.使用Spider和scrapy设置,然后直接插入parse方法. 解决方案 参考您提供的链接,您可以 ..
发布时间:2020-09-14 22:39:44 其他开发

Scrapy和Selenium:仅废弃两页

我想抓取一个网站,页面超过10个 每个页面有10个链接,蜘蛛程序将获取链接def parse(): 并通过链接爬网我想要的其他数据def parse_detail(): 请指导我如何编写仅爬网两页而不是所有页面THX的爬网 这是我的代码,它只能抓取一页并且比蜘蛛网关闭 def __init__(self): self.driver = webdriver.Firefox() ..
发布时间:2020-07-28 02:28:39 Python

提交使用Scrapy动态呈现的表单?

我正在尝试使用Scrapy提交动态生成的用户登录表单,然后解析与成功登录相对应的页面上的HTML. 我想知道如何使用Scrapy或Scrapy和Selenium的组合来做到这一点. Selenium使得可以在DOM上找到该元素,但我想知道是否有可能在获取完整的HTML之后将控制权“交还给" Scrapy,以便允许它执行表单提交并保存必要的cookie. ,会话数据等以抓取页面. 基本上 ..
发布时间:2020-07-27 23:20:31 Python

无法摆脱csv输出中的空白行

我用python scrapy写了一个很小的脚本来解析黄页网站上显示在多个页面上的姓名,街道和电话号码.当我运行脚本时,我发现它运行顺利.但是,我遇到的唯一问题是在csv输出中抓取数据的方式.它始终是两行之间的行(行)间隙.我的意思是:数据每隔一行打印一次.看到下面的图片,您将了解我的意思.如果不是为了抓紧时间,我本可以使用[newline =''].但是,不幸的是,我在这里完全束手无策.如何摆脱 ..
发布时间:2020-07-11 20:52:54 其他开发

使用scrapy从值列表中抓取网站

我有一个NPI列表,我想从npidb.org中抓取提供程序的名称 NPI值存储在一个csv文件中. 我可以通过将URL粘贴到代码中来手动完成此操作.但是,如果我有每个要提供者名称的NPI列表,则无法弄清楚该怎么做. 这是我当前的代码: import scrapy from scrapy.spider import BaseSpider class MySpider(Base ..
发布时间:2020-07-06 06:51:17 Python

如何在scrapy item导出中每次启用覆盖文件?

我正在抓取一个返回urls列表的网站. 示例-scrapy crawl xyz_spider -o urls.csv 现在可以正常工作了,我想制作一个新的urls.csv而不是将data追加到文件中.我可以通过任何参数使它启用吗? 解决方案 不幸的是,目前抓不住不能做到这一点. 不过,在github上有一个建议的增强功能: https://github.com/scrapy/scr ..
发布时间:2020-07-06 06:50:01 Python

Scrapy:如何在Spider中使用项目以及如何将项目发送到管道?

我是scrapy的新手,我的任务很简单: 对于给定的电子商务网站: 抓取所有网站页面 查找产品页面 如果URL指向产品页面 创建项目 处理该项目以将其存储在数据库中 我创建了蜘蛛,但是产品只是打印在一个简单的文件中. 我的问题是关于项目结构的:如何在Spider中使用项目以及如何将项目发送到管道? 我找不到使用项目和管道的项目的简单示例. ..
发布时间:2020-07-06 06:49:54 Python