scrapy-spider相关内容
如您所见,以下json具有关注者的数量以及评论的数量,但是我如何才能访问每个评论中的数据以及关注者的ID,这样我就可以抓取它们了? { "logging_page_id": "profilePage_20327023", "user": { "biography": null, "blocked_by_viewer": false,
..
我正在使用此URL https://www.walmart.ca/en/clothing-shoes-accessories/men/mens-tops/N-2566+11 我尝试使用url并在外壳中打开它,但是出现430错误,因此我在标头中添加了一些设置,例如: scrapy shell -s COOKIES_ENABLED = 1 -s USER_AGENT ='Mozilla /
..
我是Scrapy的新用户。在遵循了从网站提取数据的教程之后,我试图在论坛上完成一些类似的工作。 我要提取的是论坛页面上的所有帖子(从头开始)。但是,这个特定的论坛有一个“ cookie墙”。因此,当我想从
..
我是新手,我正在使用Cookie的网络中使用scrapy,这对我来说是个问题,因为我可以在没有Cookie的情况下获取数据,而在包含Cookie的情况下获取数据是困难的我。 我有此代码结构 class mySpider(BaseSpider): name ='data' allowed_domains = [] start_urls = [“ http:// ....”]
..
我是Python的新手,也是Scrapy的新手。 我已经设置了一个蜘蛛来抓取并提取所需的所有信息。但是,我需要将URL的.txt文件传递给start_urls变量。 例如: class LinkChecker(BaseSpider): 名称='linkchecker' start_urls = []#这里,我希望列表开始从文本文件a中爬取URL列表通过命令行传递。
..
根据 Scrapy Documetions ,我想从多个网站抓取和抓取数据,我的代码可以正常使用正常的网站,但是当我要使用 Sucuri 爬网网站时,我没有任何数据,似乎sucuri防火墙阻止了我访问网站标记。 目标网站是 http://www.dwarozh.net/ 和 这是我的蜘蛛摘要 来自scrapy import蜘蛛 来自scrapy.selector import选择器
..
因此,我试图对一些网页进行粗鲁的测试,我的想法是向满足条件的URL发出请求,计算页面上某些项目的数量,然后在原始条件内返回True / False取决于... 以下是一些代码来显示我的意思: def filter_categories: 如果条件: test = yield Request(url = link,callback = self.test_page,dont_filt
..
因此,基本上,我试图爬网具有一组类别的页面,抓取每个类别的名称,跟随与每个类别关联的子链接到具有一组子类别的页面,抓取它们的名称,然后跟随每个子类别到其关联页面并检索文本数据.最后,我想输出一个格式如下的json文件: 类别1名称 子类别1名称 该子类别页面上的数据 子类别n名称 此页面上的数据 类别名称 子类别1名称 n子类别页面中的数据 等 最终我希望能
..
如何针对在线数据测试抓痒的蜘蛛. 我现在从此帖子中得知,可以针对 offline 数据. 我的目标是检查我的Spider是否仍从页面中提取正确的数据,或者页面是否已更改.我通过XPath提取数据,有时页面会接收并更新,而我的抓取工具不再起作用.我希望测试尽可能接近我的代码,例如.使用Spider和scrapy设置,然后直接插入parse方法. 解决方案 参考您提供的链接,您可以
..
我有一个抓痒的pipelines.py,我想获取给定的参数.在我的spider.py中,它可以完美运行: class MySpider( CrawlSpider ): def __init__(self, host='', domain_id='', *args, **kwargs): super(MySpider, self).__init__(*args, **
..
我有以下HTML: SKU: 483151
我可以使用: 选择它们 SKU_SELECTOR = '.aaa .bbb .last ::text' sku = response.css(SKU_SELECTOR).extract_first().strip() 如何只获取数字而忽略跨度. 解决
..
我想抓取一个网站,页面超过10个 每个页面有10个链接,蜘蛛程序将获取链接def parse(): 并通过链接爬网我想要的其他数据def parse_detail(): 请指导我如何编写仅爬网两页而不是所有页面THX的爬网 这是我的代码,它只能抓取一页并且比蜘蛛网关闭 def __init__(self): self.driver = webdriver.Firefox()
..
我正在尝试使用Scrapy提交动态生成的用户登录表单,然后解析与成功登录相对应的页面上的HTML. 我想知道如何使用Scrapy或Scrapy和Selenium的组合来做到这一点. Selenium使得可以在DOM上找到该元素,但我想知道是否有可能在获取完整的HTML之后将控制权“交还给" Scrapy,以便允许它执行表单提交并保存必要的cookie. ,会话数据等以抓取页面. 基本上
..
我在使用Scrapy的输出中出现报价问题.我正在尝试抓取包含逗号的数据,这导致在某些列中出现双引号,如下所示: TEST,TEST,TEST,ON,TEST,TEST,"$2,449,000, 4,735 Sq Ft, 6 Bed, 5.1 Bath, Listed 03/01/2016" TEST,TEST,TEST,ON,TEST,TEST,"$2,895,000, 4,975 Sq F
..
我用python scrapy写了一个很小的脚本来解析黄页网站上显示在多个页面上的姓名,街道和电话号码.当我运行脚本时,我发现它运行顺利.但是,我遇到的唯一问题是在csv输出中抓取数据的方式.它始终是两行之间的行(行)间隙.我的意思是:数据每隔一行打印一次.看到下面的图片,您将了解我的意思.如果不是为了抓紧时间,我本可以使用[newline =''].但是,不幸的是,我在这里完全束手无策.如何摆脱
..
我有一个NPI列表,我想从npidb.org中抓取提供程序的名称 NPI值存储在一个csv文件中. 我可以通过将URL粘贴到代码中来手动完成此操作.但是,如果我有每个要提供者名称的NPI列表,则无法弄清楚该怎么做. 这是我当前的代码: import scrapy from scrapy.spider import BaseSpider class MySpider(Base
..
我正在抓取一个返回urls列表的网站. 示例-scrapy crawl xyz_spider -o urls.csv 现在可以正常工作了,我想制作一个新的urls.csv而不是将data追加到文件中.我可以通过任何参数使它启用吗? 解决方案 不幸的是,目前抓不住不能做到这一点. 不过,在github上有一个建议的增强功能: https://github.com/scrapy/scr
..
我对Scrapy还是陌生的,想尝试以下方法: 从网页中提取一些值,将其存储在变量中,然后在我的主脚本中使用它. 因此,我遵循了他们的教程并出于我的目的更改了代码: import scrapy from scrapy.crawler import CrawlerProcess class QuotesSpider(scrapy.Spider): name = "quotes"
..
我是scrapy的新手,我的任务很简单: 对于给定的电子商务网站: 抓取所有网站页面 查找产品页面 如果URL指向产品页面 创建项目 处理该项目以将其存储在数据库中 我创建了蜘蛛,但是产品只是打印在一个简单的文件中. 我的问题是关于项目结构的:如何在Spider中使用项目以及如何将项目发送到管道? 我找不到使用项目和管道的项目的简单示例.
..
对于我的 scrapy 项目,我目前正在使用[(True, {'checksum': '2b00042f7481c7b056c4b410d28f33cf', 'path': 'full/0a79c461a4062ac383dc4fade7bc09f1384a3910.jpg', 'url': 'http://www.example.com/files/product1.pdf'}), (False
..