scrapy相关内容

可以使用scrapy从使用AJAX的网站抓取动态内容吗?

我最近一直在学习 Python,并且正在着手构建一个网络爬虫.一点也不花哨;其唯一目的是从博彩网站获取数据并将这些数据放入 Excel. 大多数问题都是可以解决的,我遇到了一些小麻烦.但是,我在一个问题上遇到了巨大的障碍.如果站点加载马匹表并列出当前投注价格,则此信息不在任何源文件中.线索是这些数据有时是实时的,这些数字显然是从某个远程服务器更新的.我电脑上的 HTML 只是有一个漏洞,他们 ..
发布时间:2021-11-26 22:27:00 前端开发

使用多个解析创建 Scrapy 项目数组

我正在使用 Scrapy 抓取列表.我的脚本首先使用 parse_node 解析列表 URL,然后使用 parse_listing 解析每个列表,对于每个列表,它使用 parse_agent.我想创建一个数组,该数组通过列表和列表的代理进行scrapy 解析,并为每个新列表进行重置. 这是我的解析脚本: def parse_node(self,response,node):产量请求('列 ..
发布时间:2021-11-18 04:19:57 其他开发

将参数传递给回调函数

def 解析(自我,响应):对于 response.xpath('//tbody/tr') 中的 sel:item = HeroItem()item['hclass'] = response.request.url.split("/")[8].split('-')[-1]item['server'] = response.request.url.split('/')[2].split('.')[0 ..
发布时间:2021-11-17 05:35:03 其他开发

在 __init__ 上使用 scrapy 管道中的参数

我有一个scrapy pipelines.py,我想获取给定的参数.在我的 spider.py 中它完美运行: class MySpider( CrawlSpider ):def __init__(self, host='', domain_id='', *args, **kwargs):super(MySpider, self).__init__(*args, **kwargs)打印用户 ID ..
发布时间:2021-11-17 05:24:55 其他开发

使用 ArcGIS 安装的 Python 2.7 安装 pip

我正在尝试在 Windows 8.1 上为 Python 2.7 安装 Scrapy,我知道我首先需要安装 pip.由于我通过ArcGIS 10.2安装了Python,所以我认为需要在C:\Python27\ArcGIS10.2\lib\site-packages下安装pip.在该目录中安装 pip 后,我会收到错误代码: >>>导入点回溯(最近一次调用最后一次):文件“",第 1 ..
发布时间:2021-11-17 01:36:48 其他开发

获取 AttributeError 错误“str"对象没有属性“get"

我在处理 JSON 响应时遇到错误: 错误:AttributeError: 'str' 对象没有属性 'get' 可能是什么问题? 对于其余值,我也收到以下错误: ***类型错误:'builtin_function_or_method' 对象不可下标 '电话':值['_source']['primaryPhone'],KeyError: 'primaryPhone'*** ..
发布时间:2021-11-15 03:13:29 其他开发

获取 AttributeError 错误“str"对象没有属性“get"

我在处理 JSON 响应时遇到错误: 错误:AttributeError: 'str' 对象没有属性 'get' 可能是什么问题? 对于其余值,我也收到以下错误: ***类型错误:'builtin_function_or_method' 对象不可下标 '电话':值['_source']['primaryPhone'],KeyError: 'primaryPhone'*** ..
发布时间:2021-11-15 03:11:03 其他开发

为什么我的 Cassandra 数据库中的数据插入有时稳定有时缓慢?

这是我的查询,如果当前数据 ID 在 Cassandra 数据库中存在或不存在: row = session.execute("SELECT * FROM 文章 where id = %s", [id]) 在Kafka中解析消息,然后判断这条消息在Cassandra数据库中是否存在,如果不存在,则执行插入操作,如果存在,则不应该插入数据中. > messages = consumer.ge ..
发布时间:2021-11-12 03:22:54 其他开发

Xpath 返回 null

我需要刮这个页面的价格:https://www.asos.com/monki/monki-lisa-cropped-vest-top-with-ruched-side-in-black/prd/23590636?colourwayid=60495910&cid=2623 但是它总是返回null: 我的代码: 'price' :response.xpath('//*[contain ..
发布时间:2021-09-24 19:07:35 其他开发

如何在 Scrapy Selenium 中使用带头的 chrome 驱动程序

我正在使用带有scrapySelenium的Scrapy,但是scrapy selenium从无头浏览器开始,但出于某种目的,我需要从头开始,以便我可以继续查看我的scrapy在浏览器中的作用如何关闭在设置中传递的无头参数的scrapy 这是我在设置中复制的内容,如您所见,它是无头的,但无论如何都希望看到使用 Scrapy Selenium 打开的浏览器从shutil进口 SELENI ..
发布时间:2021-09-24 18:58:36 其他开发

使用scrapy + splash返回html

我正在尝试解决scrapy和splash.作为练习,我尝试在以下 javascript 重磅网站上点击按钮:http://thestlbrowns.com/ 然后返回新渲染页面的html. 我的代码如下所示: 导入scrapy导入json从scrapy导入请求类 MySpider(scrapy.Spider):name = '蜘蛛侠'域 = ['网络']start_urls = ['htt ..
发布时间:2021-09-24 18:55:04 其他开发

抓取数据但网址未更改

我想用python从这个网页抓取数据: https://www.discountoptiondata.com/freedata/ 保持到期日期和交易品种的相同值,但迭代开始日期的所有值.问题是所有组合的 URL 都保持不变,因此我无法获得要抓取的 URL 列表. 有人对我如何做到这一点有想法吗? 解决方案 您尝试解析的网站是动态的,这意味着当您在浏览器中下载它时,它会运行 ..
发布时间:2021-09-22 20:32:32 其他开发

未定义解析回调 - Simple Webscraper (Scrapy) 仍未运行

我在谷歌上搜索了半天,仍然无法继续.也许你有一些见解? 我尝试不是从终端而是从脚本启动我的抓取工具.这在没有规则的情况下运行良好,只需产生正常的解析函数即可. 一旦我使用规则并将“callback="parse"" 更改为“callback="parse_item"",就没有任何效果了. 我尝试根据解析函数中的产生请求创建一个爬虫.结果是:我只抓取了一个 URL,而不是域. ..
发布时间:2021-09-22 20:30:30 其他开发

如何从亚马逊产品页面中提取 asin

我有以下网页 产品页面我正在尝试从中获取 ASIN(在本例中为 ASIN=B014MHZ90M),但我不知道如何从页面获取它. 我使用的是 Python 3.4、Scrapy 和以下代码: hxs = 选择器(响应)product_name = "".join(hxs.xpath('//span[contains(@class,"a-text-ellipsis")]/a/text()'). ..
发布时间:2021-09-22 20:29:56 其他开发

无法运行 Scrapy 程序

我一直在通过以下链接学习如何使用 Scrapy: http://doc.scrapy.org/en/master/intro/教程.html 当我尝试运行在 Crawling(scrapy crawl dmoz) 部分中编写的代码时,出现以下错误: AttributeError: 'module' 对象没有属性 'Spider' 但是,我将“Spider"更改为“spide ..
发布时间:2021-09-22 20:29:39 其他开发

使用 Selenium 抓取 iframe

我想抓取网站中的广告,但其中很多都是动态的,而且是 DOM 对象.例如在这个片段 我可以通过 Selenium 获取 iframe 标签,但我不能再进一步了.我认为这是因为 XPATH.在这种情况下,iframe 内 的 XPATH 是 /html,与主页 相同. 这是使用的代码行: element = WebDriverWait(self.driver,20).until(EC.p ..
发布时间:2021-09-22 20:29:11 其他开发

如何使用scrapy合约?

Scrapy Contracts 问题 我开始研究scrapy框架.也实现了一些蜘蛛提取,但我无法为蜘蛛编写单元测试用例,因为合同scrapy 提供的包文档没有正确的程序来编写测试用例.请帮我解决这个问题. 解决方案 是的,Spiders Contracts 远非清晰和详细. 我不是编写蜘蛛合约的专家(实际上在编写网络抓取教程时只写过一次它们)a> 在 newcoder.io) ..
发布时间:2021-09-14 18:54:25 其他开发

Scrapy 只抓取每个页面的第一个结果

我目前正在尝试运行以下代码,但它只会抓取每个页面的第一个结果.知道可能是什么问题吗? from scrapy.contrib.spiders import CrawlSpider, Rule从 scrapy.contrib.linkextractors.sgml 导入 SgmlLinkExtractorfrom scrapy.selector import HtmlXPathSelector从 ..
发布时间:2021-07-17 18:44:04 其他开发