scrapy相关内容
我需要刮这个页面的价格:https://www.asos.com/monki/monki-lisa-cropped-vest-top-with-ruched-side-in-black/prd/23590636?colourwayid=60495910&cid=2623 但是它总是返回null: 我的代码: 'price' :response.xpath('//*[contain
..
我正在使用带有scrapySelenium的Scrapy,但是scrapy selenium从无头浏览器开始,但出于某种目的,我需要从头开始,以便我可以继续查看我的scrapy在浏览器中的作用如何关闭在设置中传递的无头参数的scrapy 这是我在设置中复制的内容,如您所见,它是无头的,但无论如何都希望看到使用 Scrapy Selenium 打开的浏览器从shutil进口 SELENI
..
这是一个简单的爬虫 导入scrapy类 ExampleSpider(scrapy.Spider):名称 = "dmoz"allowed_domains = ["https://www.dmoz.org"]start_urls = ('https://www.dmoz.org/')定义解析(自我,响应):产生scrapy.Request(self.start_urls[0],callback=se
..
我想用python从这个网页抓取数据: https://www.discountoptiondata.com/freedata/ 保持到期日期和交易品种的相同值,但迭代开始日期的所有值.问题是所有组合的 URL 都保持不变,因此我无法获得要抓取的 URL 列表. 有人对我如何做到这一点有想法吗? 解决方案 您尝试解析的网站是动态的,这意味着当您在浏览器中下载它时,它会运行
..
我在谷歌上搜索了半天,仍然无法继续.也许你有一些见解? 我尝试不是从终端而是从脚本启动我的抓取工具.这在没有规则的情况下运行良好,只需产生正常的解析函数即可. 一旦我使用规则并将“callback="parse"" 更改为“callback="parse_item"",就没有任何效果了. 我尝试根据解析函数中的产生请求创建一个爬虫.结果是:我只抓取了一个 URL,而不是域.
..
我有以下网页 产品页面我正在尝试从中获取 ASIN(在本例中为 ASIN=B014MHZ90M),但我不知道如何从页面获取它. 我使用的是 Python 3.4、Scrapy 和以下代码: hxs = 选择器(响应)product_name = "".join(hxs.xpath('//span[contains(@class,"a-text-ellipsis")]/a/text()').
..
我一直在通过以下链接学习如何使用 Scrapy: http://doc.scrapy.org/en/master/intro/教程.html 当我尝试运行在 Crawling(scrapy crawl dmoz) 部分中编写的代码时,出现以下错误: AttributeError: 'module' 对象没有属性 'Spider' 但是,我将“Spider"更改为“spide
..
我想抓取网站中的广告,但其中很多都是动态的,而且是 DOM 对象.例如在这个片段 我可以通过 Selenium 获取 iframe 标签,但我不能再进一步了.我认为这是因为 XPATH.在这种情况下,iframe 内 的 XPATH 是 /html,与主页 相同. 这是使用的代码行: element = WebDriverWait(self.driver,20).until(EC.p
..
Scrapy Contracts 问题 我开始研究scrapy框架.也实现了一些蜘蛛提取,但我无法为蜘蛛编写单元测试用例,因为合同scrapy 提供的包文档没有正确的程序来编写测试用例.请帮我解决这个问题. 解决方案 是的,Spiders Contracts 远非清晰和详细. 我不是编写蜘蛛合约的专家(实际上在编写网络抓取教程时只写过一次它们)a> 在 newcoder.io)
..
我目前正在尝试运行以下代码,但它只会抓取每个页面的第一个结果.知道可能是什么问题吗? from scrapy.contrib.spiders import CrawlSpider, Rule从 scrapy.contrib.linkextractors.sgml 导入 SgmlLinkExtractorfrom scrapy.selector import HtmlXPathSelector从
..
我试过这个代码: src1 = "https://hms.harvard.edu/" src = response.css('div.person-line > div >img::attr("src")').extract_first()
src = 站点/默认/文件/hms-faculty-emails/BX0UVXkP.jpg
导入 urlparse
urlpa
..
我正在尝试从此页面上列出的页面中抓取信息.https://pardo.ch/pardo/program/archive/2017/目录-films.html xpath 选择器: film_page_urls_startpage = sel.xpath('//article[@class="strip-list_link_all strip-list strip--color row ro
..
我正在尝试提取 TripAdvisor 上每家餐厅的电子邮件地址. 我试过了,但一直返回 [ ]: response.xpath('//*[@class="restaurants-detail-overview-cards-LocationOverviewCard__detailLink--iyzJI restaurant-detail-overview-cards-LocationOve
..
我通过抓取页面创建了一个函数并运行,但输出给出了 \r\n.我使用 strip 函数删除 \r\n 但它不起作用.为什么以及如何删除 \r\n?这是链接:https://ibb.co/VtVV2fb 导入scrapyfrom .. items import FetchingItem类 SiteFetching(scrapy.Spider):名称 = '网站'start_urls = ['http
..
每当我运行代码时.它给了我带有空格的 \r\n .我使用了条带功能,但没有用.如何解决这个问题?这是链接:https://ibb.co/VtVV2fb\ 导入scrapyfrom .. items import FetchingItem类 SiteFetching(scrapy.Spider):名称 = '网站'start_urls = ['https://www.rev.com/freelan
..
有没有办法在使用 python scrapy 框架或使用 php 抓取时抓取 css 值.任何帮助都会得到认可 解决方案 是的,请查看 选择器 基本上你有两种方法 response.xpath() 用于 xpath 和 response.css() 用于 css 选择器.例如,要获取标题的文本,您可以执行以下任一操作: response.xpath('//title/text()').e
..
我正在尝试使用通用 xpath 从购物小部件中提取所有产品链接和图像链接. 这是网站:http://www.stopitrightnow.com/ 这是我拥有的 xpath: xpath('.//*[@class="shopthepost-widget"]/a/@href').extract() 我原以为这会拉出所有链接,但它什么也没做. 以下是widget源码的开头供参考.
..
我的蜘蛛 basic.py 文件中有此代码: if l.add_xpath('price', '//*[@id="price"]/text()',MapCompose(lambda i: i.replace(',', ''), float),re = '[,.0-9]'):l.add_value('可用', 1)别的:l.add_value('价格', 0)l.add_value('可用', 0
..
我需要不断获取下一个按钮上的数据 但源中没有提供 href 链接,也有省略号.有什么想法吗?这是我的代码 def start_requests(self):网址 = ((self.parse_2, 'https://www.forever21.com/us/shop/catalog/category/f21/sale'),)对于 cb,url 中的 url:产量scrapy.Request(网址
..
以下是蜘蛛代码: 导入scrapy类 MyntraSpider(scrapy.Spider):自定义设置 = {'HTTPCACHE_ENABLED':错误,'dont_redirect':对,#'handle_httpstatus_list':[302,307],#'CRAWLERA_ENABLED':错误,'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1;
..