scrapy-shell相关内容

如何使用带有 url 和基本身份验证凭据的 scrapy shell?

我想使用 scrapy shell 并测试需要基本身份验证凭据的 url 的响应数据.我试图检查scrapy shell文档,但在那里找不到它. 我尝试使用 scrapy shell 'http://user:pwd@abc.com' 但它没有用.有谁知道我如何实现它? 解决方案 如果你只想使用 shell,你可以这样做: $ scrapy shell 在外壳内: >>从 w3 ..

Scrapy shell 返回无响应

我在使用scrapy 抓取网站时遇到了一点问题.我跟着scrapy的教程学习了如何抓取一个网站,我有兴趣在网站上测试它'https://www.leboncoin.fr' 但蜘蛛不工作.所以,我试过: scrapy shell 'https://www.leboncoin.fr' 但是,我没有网站的回复. $ scrapy shell 'https://www.leboncoin.fr'20 ..
发布时间:2021-11-30 15:38:33 Python

python转换url中的中文字符

我有一个像 这样的网址 href="../job/jobarea.asp?C_jobtype=经营管理主管&peoplenumber=151", 这显示在检查元素中.但是在新标签页中打开时显示为 ../job/jobarea.asp?C_jobtype=%B8g%C0%E7%BA%DE%B2z%A5D%BA%DE&peoplenumber=151 我如何知道浏览器使用哪种类型 ..
发布时间:2021-07-17 18:31:42 Python

如何在scrapy中使用python请求?

我正在尝试使用 requests 来获取页面,然后将响应对象传递给解析器,但我遇到了一个问题: def start_requests(self):产量 self.parse(requests.get(url))定义解析(自我,响应):#经过 builtins.AttributeError: 'generator' 对象没有属性 'dont_filter' 解决方案 您首先需要下载页面的 ..
发布时间:2021-07-16 22:06:06 其他开发

为scrapy shell 请求设置标头

我知道您可以scrapy shell -s USER_AGENT='custom user agent' 'http://www.example.com' 来更改 USER_AGENT,但是你如何添加请求头? 解决方案 目前没有直接在 cli 上添加标题的方法,但您可以执行以下操作: $ scrapy shell......>>>从scrapy导入请求>>>req = Request(' ..
发布时间:2021-07-16 21:58:33 其他开发

为什么我的scrapy 没有使用start_urls 列表中的所有url?

我的 start_urls 列表中有将近 300 个 url,但是scrapy 只草绘了大约 200 个 url.但并非所有这些列出的网址.我不知道为什么?我该如何处理.我必须从网站上潦草地写下更多项目. 另一个我不明白的问题是:scrapy 完成后如何查看日志错误?从终端或我必须编写代码才能查看日志错误.我认为默认情况下启用日志. 感谢您的回答. 更新: 输出如下.我不知 ..
发布时间:2021-06-26 20:27:53 其他开发

崎shell的外壳返回无响应

我在抓取网站时遇到一些小问题.我按照scrapy教程学习了如何抓取网站,并且有兴趣在网站上进行测试' https://www .leboncoin.fr ",但蜘蛛无法正常工作.因此,我尝试了: scrapy shell 'https://www.leboncoin.fr' 但是,我没有该网站的回复. $ scrapy shell 'https://www.leboncoin.fr ..
发布时间:2020-09-13 20:13:40 Python