scrapy相关内容

Xpath 返回 null

我需要刮这个页面的价格:https://www.asos.com/monki/monki-lisa-cropped-vest-top-with-ruched-side-in-black/prd/23590636?colourwayid=60495910&cid=2623 但是它总是返回null: 我的代码: 'price' :response.xpath('//*[contain ..
发布时间:2021-09-24 19:07:35 Python

如何在 Scrapy Selenium 中使用带头的 chrome 驱动程序

我正在使用带有scrapySelenium的Scrapy,但是scrapy selenium从无头浏览器开始,但出于某种目的,我需要从头开始,以便我可以继续查看我的scrapy在浏览器中的作用如何关闭在设置中传递的无头参数的scrapy 这是我在设置中复制的内容,如您所见,它是无头的,但无论如何都希望看到使用 Scrapy Selenium 打开的浏览器从shutil进口 SELENI ..
发布时间:2021-09-24 18:58:36 Python

抓取数据但网址未更改

我想用python从这个网页抓取数据: https://www.discountoptiondata.com/freedata/ 保持到期日期和交易品种的相同值,但迭代开始日期的所有值.问题是所有组合的 URL 都保持不变,因此我无法获得要抓取的 URL 列表. 有人对我如何做到这一点有想法吗? 解决方案 您尝试解析的网站是动态的,这意味着当您在浏览器中下载它时,它会运行 ..
发布时间:2021-09-22 20:32:32 其他开发

未定义解析回调 - Simple Webscraper (Scrapy) 仍未运行

我在谷歌上搜索了半天,仍然无法继续.也许你有一些见解? 我尝试不是从终端而是从脚本启动我的抓取工具.这在没有规则的情况下运行良好,只需产生正常的解析函数即可. 一旦我使用规则并将“callback="parse"" 更改为“callback="parse_item"",就没有任何效果了. 我尝试根据解析函数中的产生请求创建一个爬虫.结果是:我只抓取了一个 URL,而不是域. ..
发布时间:2021-09-22 20:30:30 Python

无法运行 Scrapy 程序

我一直在通过以下链接学习如何使用 Scrapy: http://doc.scrapy.org/en/master/intro/教程.html 当我尝试运行在 Crawling(scrapy crawl dmoz) 部分中编写的代码时,出现以下错误: AttributeError: 'module' 对象没有属性 'Spider' 但是,我将“Spider"更改为“spide ..
发布时间:2021-09-22 20:29:39 Python

使用 Selenium 抓取 iframe

我想抓取网站中的广告,但其中很多都是动态的,而且是 DOM 对象.例如在这个片段 我可以通过 Selenium 获取 iframe 标签,但我不能再进一步了.我认为这是因为 XPATH.在这种情况下,iframe 内 的 XPATH 是 /html,与主页 相同. 这是使用的代码行: element = WebDriverWait(self.driver,20).until(EC.p ..
发布时间:2021-09-22 20:29:11 其他开发

如何使用scrapy合约?

Scrapy Contracts 问题 我开始研究scrapy框架.也实现了一些蜘蛛提取,但我无法为蜘蛛编写单元测试用例,因为合同scrapy 提供的包文档没有正确的程序来编写测试用例.请帮我解决这个问题. 解决方案 是的,Spiders Contracts 远非清晰和详细. 我不是编写蜘蛛合约的专家(实际上在编写网络抓取教程时只写过一次它们)a> 在 newcoder.io) ..
发布时间:2021-09-14 18:54:25 Python

如何使用scrapy提取电子邮件地址?

我正在尝试提取 TripAdvisor 上每家餐厅的电子邮件地址. 我试过了,但一直返回 [ ]: response.xpath('//*[@class="restaurants-detail-overview-cards-LocationOverviewCard__detailLink--iyzJI restaurant-detail-overview-cards-LocationOve ..
发布时间:2021-07-17 18:37:37 Python

抓取页面时如何删除\r\n?

我通过抓取页面创建了一个函数并运行,但输出给出了 \r\n.我使用 strip 函数删除 \r\n 但它不起作用.为什么以及如何删除 \r\n?这是链接:https://ibb.co/VtVV2fb 导入scrapyfrom .. items import FetchingItem类 SiteFetching(scrapy.Spider):名称 = '网站'start_urls = ['http ..
发布时间:2021-07-17 18:37:34 Python

运行后如何在命令提示符中删除\r\n?

每当我运行代码时.它给了我带有空格的 \r\n .我使用了条带功能,但没有用.如何解决这个问题?这是链接:https://ibb.co/VtVV2fb\ 导入scrapyfrom .. items import FetchingItem类 SiteFetching(scrapy.Spider):名称 = '网站'start_urls = ['https://www.rev.com/freelan ..
发布时间:2021-07-17 18:37:31 Python

使用scrapy框架抓取css值

有没有办法在使用 python scrapy 框架或使用 php 抓取时抓取 css 值.任何帮助都会得到认可 解决方案 是的,请查看 选择器 基本上你有两种方法 response.xpath() 用于 xpath 和 response.css() 用于 css 选择器.例如,要获取标题的文本,您可以执行以下任一操作: response.xpath('//title/text()').e ..
发布时间:2021-07-17 18:37:28 Python

无法获得正确的 Xpath

我正在尝试使用通用 xpath 从购物小部件中提取所有产品链接和图像链接. 这是网站:http://www.stopitrightnow.com/ 这是我拥有的 xpath: xpath('.//*[@class="shopthepost-widget"]/a/@href').extract() 我原以为这会拉出所有链接,但它什么也没做. 以下是widget源码的开头供参考. ..
发布时间:2021-07-17 18:37:25 其他开发