scrapy 第10页 - IT屋-程序员软件开发技术分享社区

Xpath 返回 null

我需要刮这个页面的价格:https://www.asos.com/monki/monki-lisa-cropped-vest-top-with-ruched-side-in-black/prd/23590636?colourwayid=60495910&cid=2623 但是它总是返回null: 我的代码: 'price' :response.xpath('//*[contain ..

发布时间：2021-09-24 19:07:35 python selenium web-scraping xpath scrapy Python

如何在 Scrapy Selenium 中使用带头的 chrome 驱动程序

我正在使用带有scrapySelenium的Scrapy，但是scrapy selenium从无头浏览器开始，但出于某种目的，我需要从头开始，以便我可以继续查看我的scrapy在浏览器中的作用如何关闭在设置中传递的无头参数的scrapy 这是我在设置中复制的内容，如您所见，它是无头的，但无论如何都希望看到使用 Scrapy Selenium 打开的浏览器从shutil进口 SELENI ..

发布时间：2021-09-24 18:58:36 python selenium selenium-webdriver web-scraping scrapy Python

在 scrapy.Request 中添加 dont_filter=True 参数如何使我的解析方法起作用?

这是一个简单的爬虫导入scrapy类 ExampleSpider(scrapy.Spider):名称 = "dmoz"allowed_domains = ["https://www.dmoz.org"]start_urls = ('https://www.dmoz.org/')定义解析(自我，响应):产生scrapy.Request(self.start_urls[0],callback=se ..

发布时间：2021-09-24 18:48:29 web-scraping scrapy scrapy-spider 其他开发

抓取数据但网址未更改

我想用python从这个网页抓取数据: https://www.discountoptiondata.com/freedata/ 保持到期日期和交易品种的相同值，但迭代开始日期的所有值.问题是所有组合的 URL 都保持不变，因此我无法获得要抓取的 URL 列表. 有人对我如何做到这一点有想法吗? 解决方案您尝试解析的网站是动态的，这意味着当您在浏览器中下载它时，它会运行 ..

发布时间：2021-09-22 20:32:32 python-3.x web-scraping scrapy web-crawler 其他开发

未定义解析回调 - Simple Webscraper (Scrapy) 仍未运行

我在谷歌上搜索了半天，仍然无法继续.也许你有一些见解? 我尝试不是从终端而是从脚本启动我的抓取工具.这在没有规则的情况下运行良好，只需产生正常的解析函数即可. 一旦我使用规则并将“callback="parse"" 更改为“callback="parse_item""，就没有任何效果了. 我尝试根据解析函数中的产生请求创建一个爬虫.结果是:我只抓取了一个 URL，而不是域. ..

发布时间：2021-09-22 20:30:30 python scrapy web-crawler Python

如何从亚马逊产品页面中提取 asin

我有以下网页产品页面我正在尝试从中获取 ASIN(在本例中为 ASIN=B014MHZ90M)，但我不知道如何从页面获取它. 我使用的是 Python 3.4、Scrapy 和以下代码: hxs = 选择器(响应)product_name = "".join(hxs.xpath('//span[contains(@class,"a-text-ellipsis")]/a/text()'). ..

发布时间：2021-09-22 20:29:56 python python-3.x web-crawler scrapy amazon Python

无法运行 Scrapy 程序

我一直在通过以下链接学习如何使用 Scrapy: http://doc.scrapy.org/en/master/intro/教程.html 当我尝试运行在 Crawling(scrapy crawl dmoz) 部分中编写的代码时，出现以下错误: AttributeError: 'module' 对象没有属性 'Spider' 但是，我将“Spider"更改为“spide ..

发布时间：2021-09-22 20:29:39 python module web-crawler scrapy Python

使用 Selenium 抓取 iframe

我想抓取网站中的广告，但其中很多都是动态的，而且是 DOM 对象.例如在这个片段我可以通过 Selenium 获取 iframe 标签，但我不能再进一步了.我认为这是因为 XPATH.在这种情况下，iframe 内的 XPATH 是 /html，与主页相同. 这是使用的代码行: element = WebDriverWait(self.driver,20).until(EC.p ..

发布时间：2021-09-22 20:29:11 selenium web-scraping scrapy web-crawler scrapy-spider 其他开发

如何使用scrapy合约?

Scrapy Contracts 问题我开始研究scrapy框架.也实现了一些蜘蛛提取，但我无法为蜘蛛编写单元测试用例，因为合同scrapy 提供的包文档没有正确的程序来编写测试用例.请帮我解决这个问题. 解决方案是的，Spiders Contracts 远非清晰和详细. 我不是编写蜘蛛合约的专家(实际上在编写网络抓取教程时只写过一次它们)a> 在 newcoder.io) ..

发布时间：2021-09-14 18:54:25 python unit-testing python-2.7 web-scraping scrapy Python

Scrapy 只抓取每个页面的第一个结果

我目前正在尝试运行以下代码，但它只会抓取每个页面的第一个结果.知道可能是什么问题吗? from scrapy.contrib.spiders import CrawlSpider, Rule从 scrapy.contrib.linkextractors.sgml 导入 SgmlLinkExtractorfrom scrapy.selector import HtmlXPathSelector从 ..

发布时间：2021-07-17 18:44:04 python web-scraping screen-scraping scrapy Python

通过结合使用scrapy在python中从图像中获取文本的基本网址?

我试过这个代码: src1 = "https://hms.harvard.edu/" src = response.css('div.person-line > div >img::attr("src")').extract_first() src = 站点/默认/文件/hms-faculty-emails/BX0UVXkP.jpg 导入 urlparse urlpa ..

发布时间：2021-07-17 18:37:42 python scrapy Python

python scrapy没有抓取抓取列表中的所有网址

我正在尝试从此页面上列出的页面中抓取信息.https://pardo.ch/pardo/program/archive/2017/目录-films.html xpath 选择器: film_page_urls_startpage = sel.xpath('//article[@class="strip-list_link_all strip-list strip--color row ro ..

发布时间：2021-07-17 18:37:40 python selenium xpath web-scraping scrapy Python

如何使用scrapy提取电子邮件地址?

我正在尝试提取 TripAdvisor 上每家餐厅的电子邮件地址. 我试过了，但一直返回 [ ]: response.xpath('//*[@class="restaurants-detail-overview-cards-LocationOverviewCard__detailLink--iyzJI restaurant-detail-overview-cards-LocationOve ..

发布时间：2021-07-17 18:37:37 python web-scraping scrapy Python

抓取页面时如何删除\r\n?

我通过抓取页面创建了一个函数并运行，但输出给出了 \r\n.我使用 strip 函数删除 \r\n 但它不起作用.为什么以及如何删除 \r\n?这是链接:https://ibb.co/VtVV2fb 导入scrapyfrom .. items import FetchingItem类 SiteFetching(scrapy.Spider):名称 = '网站'start_urls = ['http ..

发布时间：2021-07-17 18:37:34 python scrapy Python

运行后如何在命令提示符中删除\r\n?

每当我运行代码时.它给了我带有空格的 \r\n .我使用了条带功能，但没有用.如何解决这个问题?这是链接:https://ibb.co/VtVV2fb\ 导入scrapyfrom .. items import FetchingItem类 SiteFetching(scrapy.Spider):名称 = '网站'start_urls = ['https://www.rev.com/freelan ..

发布时间：2021-07-17 18:37:31 python scrapy Python

使用scrapy框架抓取css值

有没有办法在使用 python scrapy 框架或使用 php 抓取时抓取 css 值.任何帮助都会得到认可解决方案是的，请查看选择器基本上你有两种方法 response.xpath() 用于 xpath 和 response.css() 用于 css 选择器.例如，要获取标题的文本，您可以执行以下任一操作: response.xpath('//title/text()').e ..

发布时间：2021-07-17 18:37:28 python scrapy Python

无法获得正确的 Xpath

我正在尝试使用通用 xpath 从购物小部件中提取所有产品链接和图像链接. 这是网站:http://www.stopitrightnow.com/ 这是我拥有的 xpath: xpath('.//*[@class="shopthepost-widget"]/a/@href').extract() 我原以为这会拉出所有链接，但它什么也没做. 以下是widget源码的开头供参考. ..

发布时间：2021-07-17 18:37:25 xml xpath web-crawler scrapy scrapy-spider 其他开发

为什么这个条件应该执行为真时执行为假?

我的蜘蛛 basic.py 文件中有此代码: if l.add_xpath('price', '//*[@id="price"]/text()',MapCompose(lambda i: i.replace(',', ''), float),re = '[,.0-9]'):l.add_value('可用', 1)别的:l.add_value('价格', 0)l.add_value('可用', 0 ..

发布时间：2021-07-17 18:37:22 python scrapy Python

如何使用 Scrapy 使用带有省略号的下一步按钮抓取数据

我需要不断获取下一个按钮上的数据但源中没有提供 href 链接，也有省略号.有什么想法吗?这是我的代码 def start_requests(self):网址 = ((self.parse_2, 'https://www.forever21.com/us/shop/catalog/category/f21/sale'),)对于 cb，url 中的 url:产量scrapy.Request(网址 ..

发布时间：2021-07-17 18:37:20 python web-scraping scrapy Python

无法使用scrapy框架307重定向错误抓取myntra API数据

以下是蜘蛛代码: 导入scrapy类 MyntraSpider(scrapy.Spider):自定义设置 = {'HTTPCACHE_ENABLED':错误，'dont_redirect':对，#'handle_httpstatus_list':[302,307]，#'CRAWLERA_ENABLED':错误，'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1; ..

发布时间：2021-07-17 18:37:17 python scrapy scrapy-spider scrapinghub http-status-code-307 Python

scrapy相关内容