scrapy-shell - IT屋-程序员软件开发技术分享社区

如何使用带有 url 和基本身份验证凭据的 scrapy shell?

我想使用 scrapy shell 并测试需要基本身份验证凭据的 url 的响应数据.我试图检查scrapy shell文档，但在那里找不到它. 我尝试使用 scrapy shell 'http://user:pwd@abc.com' 但它没有用.有谁知道我如何实现它? 解决方案如果你只想使用 shell，你可以这样做: $ scrapy shell 在外壳内: >>从 w3 ..

发布时间：2022-01-04 20:57:53 python-2.7 scrapy web-crawler basic-authentication scrapy-shell 其他开发

Scrapy shell 返回无响应

我在使用scrapy 抓取网站时遇到了一点问题.我跟着scrapy的教程学习了如何抓取一个网站，我有兴趣在网站上测试它'https://www.leboncoin.fr' 但蜘蛛不工作.所以，我试过: scrapy shell 'https://www.leboncoin.fr' 但是，我没有网站的回复. $ scrapy shell 'https://www.leboncoin.fr'20 ..

发布时间：2021-11-30 15:38:33 python python-3.x attributeerror scrapy-shell Python

python转换url中的中文字符

我有一个像这样的网址 href="../job/jobarea.asp?C_jobtype=经营管理主管&peoplenumber=151", 这显示在检查元素中.但是在新标签页中打开时显示为 ../job/jobarea.asp?C_jobtype=%B8g%C0%E7%BA%DE%B2z%A5D%BA%DE&peoplenumber=151 我如何知道浏览器使用哪种类型 ..

发布时间：2021-07-17 18:31:42 python scrapy scrapy-shell Python

VIEWSTATE、EVENTVALIDATION、__EVENTTARGET 和scrapy & 的问题溅

我如何使用scrapy/splash处理__VIEWSTATE、__EVENTVALIDATION、__EVENTTARGET? 我试过 return FormRequest.from_response(response,[...]'__VIEWSTATE': response.css('input#__VIEWSTATE::attr(value)').extract_first(), ..

发布时间：2021-07-16 22:19:13 python web-scraping scrapy scrapy-splash scrapy-shell Python

为什么使用scrapy shell打印结果会出现这种不一致的行为?

加载scrapy shell scrapy shell "http://www.worldfootball.net/all_matches/eng-premier-league-2015-2016/" 尝试选择器: response.xpath('(//table[@class="standard_tabelle"])[1]/tr[not(th)]') 注意:它会打印结果. 但现在将 ..

发布时间：2021-07-16 22:11:35 python python-2.7 scrapy scrapy-spider scrapy-shell Python

如何在scrapy中使用python请求?

我正在尝试使用 requests 来获取页面，然后将响应对象传递给解析器，但我遇到了一个问题: def start_requests(self):产量 self.parse(requests.get(url))定义解析(自我，响应):#经过 builtins.AttributeError: 'generator' 对象没有属性 'dont_filter' 解决方案您首先需要下载页面的 ..

发布时间：2021-07-16 22:06:06 scrapy scrapy-shell 其他开发

Scrapy FormRequest ，尝试发送带有货币更改表单数据的发布请求(FormRequest)

我一直在尝试抓取以下网站但是随着货币从左上角设置表单更改为“SAR"，我尝试发送这样的scrapy请求: r = Request(url='https://www.mouda.com/en/', cookies=[{'name': 'currency','值': 'SAR','域': '.www.mouda.com','path': '/'}, {'name':'country','value' ..

发布时间：2021-07-16 22:01:52 python web-scraping scrapy scrapy-spider scrapy-shell Python

为scrapy shell 请求设置标头

我知道您可以scrapy shell -s USER_AGENT='custom user agent' 'http://www.example.com' 来更改 USER_AGENT，但是你如何添加请求头? 解决方案目前没有直接在 cli 上添加标题的方法，但您可以执行以下操作: $ scrapy shell......>>>从scrapy导入请求>>>req = Request(' ..

发布时间：2021-07-16 21:58:33 scrapy scrapy-shell 其他开发

Scrapy Shell:twisted.internet.error.ConnectionLost 尽管设置了 USER_AGENT

当我尝试抓取某个网站(同时使用蜘蛛和外壳)时，出现以下错误: twisted.web._newclient.ResponseNeverReceived: [] 我发现当没有设置用户代理时会发生这种情况.但是手动设置后， ..

发布时间：2021-07-16 21:53:09 web-scraping scrapy scrapy-spider scrapy-shell 其他开发

Scrapy Shell 和 Scrapy Splash

我们一直在使用 scrapy-splash 中间件来传递通过在 docker 容器内运行的 Splash javascript 引擎抓取的 HTML 源代码. 如果我们想在spider中使用Splash，我们配置几个需要的项目设置并产生一个 Request 指定特定的 meta 参数: yield Request(url, self.parse_result, meta={'飞溅':{'参 ..

发布时间：2021-07-16 21:45:23 web-scraping scrapy scrapy-splash scrapy-shell splash-js-render 其他开发

为什么我的scrapy 没有使用start_urls 列表中的所有url?

我的 start_urls 列表中有将近 300 个 url，但是scrapy 只草绘了大约 200 个 url.但并非所有这些列出的网址.我不知道为什么?我该如何处理.我必须从网站上潦草地写下更多项目. 另一个我不明白的问题是:scrapy 完成后如何查看日志错误?从终端或我必须编写代码才能查看日志错误.我认为默认情况下启用日志. 感谢您的回答. 更新: 输出如下.我不知 ..

发布时间：2021-06-26 20:27:53 python-2.7 scrapy scrapy-spider scrapy-shell 其他开发

我应该怎么做才能启用Cookies并对该网址使用scrapy？

我正在使用此URL https://www.walmart.ca/en/clothing-shoes-accessories/men/mens-tops/N-2566+11 我尝试使用url并在外壳中打开它，但是出现430错误，因此我在标头中添加了一些设置，例如： scrapy shell -s COOKIES_ENABLED = 1 -s USER_AGENT ='Mozilla / ..

发布时间：2020-10-09 04:21:46 cookies scrapy scrapy-spider scrapy-shell 其他开发

崎shell的外壳返回无响应

我在抓取网站时遇到一些小问题.我按照scrapy教程学习了如何抓取网站，并且有兴趣在网站上进行测试' https://www .leboncoin.fr "，但蜘蛛无法正常工作.因此，我尝试了: scrapy shell 'https://www.leboncoin.fr' 但是，我没有该网站的回复. $ scrapy shell 'https://www.leboncoin.fr ..

发布时间：2020-09-13 20:13:40 python python-3.x attributeerror scrapy-shell Python

为什么我会在scrapy中收到此错误-python3.7无效语法

我有一段时间安装scrapy.我已经在Mac上安装了它，但是在运行教程时遇到此错误: Virtualenvs/scrapy_env/lib/python3.7/site-packages/twisted/conch/manhole.py", line 154 def write(self, data, async=False): ..

发布时间：2020-08-12 01:30:05 python python-3.x macos scrapy-shell Python

scrapy-shell相关内容