scrapy 第12页 - IT屋-程序员软件开发技术分享社区

crawlSpider 似乎不遵守规则

这是我的代码.实际上我按照“使用 Scrapy 递归抓取网页"，看来我在某处包含了一个错误. 有人可以帮我找到吗?这让我发疯了，我只想要所有结果页面的所有结果.相反，它给了我第 1 页的结果. 这是我的代码: 导入scrapyfrom scrapy.selector import Selector从scrapy.spider导入CrawlSpider，规则从scrapy.http.r ..

发布时间：2021-07-17 18:36:01 python-2.7 web-scraping web-crawler scrapy scrapy-spider 其他开发

多个蜘蛛/Scrapy/管道的导出CSV丢失数据

我根据这里的一些示例实现了一个管道.我正在尝试在单个 CSV 文件中导出多个蜘蛛(由单个文件而不是在命令行中启动)的所有信息. 但是，显示在 shell 中的一些数据(大约 10%)似乎没有记录到 CSV 中.这是因为蜘蛛在同一时间写作吗? 如何将其修复到我的脚本中以在单个 CSV 中收集所有数据?我正在使用 CrawlerProcess 来启动蜘蛛. 来自scrapy导入信号从 s ..

发布时间：2021-07-17 18:35:58 python scrapy Python

当 xpath 在 Chrome 控制台中工作时，Scrapy shell 无法抓取信息

我正在开展一个项目，以收集大学教授的联系信息.(所以它不是恶意的.)教授页面是动态的.我通过 Chrome 网络找到了请求.但是，scrapy xpath 在浏览器上运行时在scrapy shell 中不起作用.我什至尝试添加标题.scrapy shell 结果 Chrome 控制台结果导入scrapy从 university.items 导入 UniversitiesItem类 Uni ..

发布时间：2021-07-17 18:35:55 xpath scrapy web-crawler 其他开发

Ubuntu 服务器上的 Scrapy Splash:有一个意外的关键字参数“编码"

我使用的 Scrapy Splash 在我的本地机器上运行良好，但是当我在我的 Ubuntu 服务器上使用它时它返回这个错误.这是为什么?是不是内存不足造成的? 文件“/usr/local/lib64/python2.7/site-packages/twisted/internet/defer.py"，第 1299 行，在 _inlineCallbacks结果 = g.send(result) ..

发布时间：2021-07-17 18:35:52 python web-scraping scrapy scrapy-splash splash-js-render Python

抓取:嵌套的 url 数据抓取

我有一个网站名称 https://www.grohe.com/in在该页面中，我想获得一种浴室水龙头 https://www.grohe.com/in/25796/bathroom/bathroom-faucets/grandera/在该页面中有多个产品/相关产品.我想获取每个产品的 url 并删除数据.为此，我是这样写的... 我的 items.py 文件看起来像 from scrapy ..

发布时间：2021-07-17 18:35:49 python scrapy scrapy-spider Python

Scrapy 只返回第一个结果

我正在尝试从 gelbeseiten.de(德国的黄页)中抓取数据 # -*- 编码:utf-8 -*-导入scrapy从 scrapy.spider 导入 CrawlSpider从scrapy.http导入请求from scrapy.selector import Selector从scrapy.http 导入HtmlResponse类 GelbeseitenSpider(scrapy.Spi ..

发布时间：2021-07-17 18:35:46 python scrapy Python

Scrapy 从 div 中提取文本

我正在使用 Scrapy 构建一个简单的抓取工具，但在提取数据的某些部分时遇到问题.该网站包含大约 20 个以下代码块: 星期五.2 月 10 日 0:00 AM ..

发布时间：2021-07-17 18:35:44 xpath scrapy 其他开发

分页级别2-scrapy python

我不得不制作一个刮刀，但我不明白为什么它不起作用...... 网站有这样的分页: 1 2 3 4 5 ..

发布时间：2021-07-17 18:35:41 python xpath scrapy Python

使用 Scrapy LinkExtractor() 定位特定的域扩展

我想使用 Scrapy 的 LinkExtractor() 只关注 .th 域中的链接我看到有一个 deny_extensions(list) 参数，但没有 allow_extensions() 参数. 鉴于此，我如何限制链接以允许 .th 中的域? 解决方案 deny_extensions 是过滤掉以.gz, .exe结尾的URL> 等等. 您可能正在寻找 allow ..

发布时间：2021-07-17 18:35:38 web-scraping scrapy 其他开发

在scrapy中排队后请求消失

Scrapy 似乎没有处理所有请求就完成了.我知道这一点是因为我在请求排队之前和之后都进行了日志记录，我可以清楚地看到这一点. 我同时登录了解析和错误回调方法，但没有一个被调用来处理那些丢失的请求. 如何调试这些请求发生了什么? 解决方案重新排队请求时需要添加dont_filter=True.尽管该请求可能与其他请求不匹配，但 Scrapy 会记住它已经发出的请求，如果您重新 ..

发布时间：2021-07-17 18:35:35 scrapy python-3.5 scrapy-spider 其他开发

Scrapy - 如何将 html 字符串加载到 open_in_browser 函数中

我正在处理一些返回 HTML 字符串 (my_html) 的代码.我想使用 https 在浏览器中查看它的外观://doc.scrapy.org/en/latest/topics/debug.html#open-in-browser.为此，我尝试创建一个主体设置为“my_html"的响应对象.我尝试了很多东西，包括: new_response = TextResponse(body=my_htm ..

发布时间：2021-07-17 18:35:32 python scrapy Python

使用scrapy抓取并抓取一个完整的站点

导入scrapy从scrapy导入请求#scrapy 爬取jobs9 -o jobs9.csv -t csv类 JobsSpider(scrapy.Spider):name = "jobs9";allowed_domains = [“vapedonia.com"]start_urls = [“https://www.vapedonia.com/7-principiantes-kit-s-de-in ..

发布时间：2021-07-17 18:35:29 python web-scraping scrapy web-crawler Python

Scrapy NotImplementedError

我试图在从各个页面抓取数据之前获取一些链接，但我收到了 NotImplementedError - 回溯如下: 回溯(最近一次调用最后一次):_runCallbacks 中的文件“/usr/lib/python2.7/dist-packages/twisted/internet/defer.py"，第 588 行current.result = callback(current.result, ..

发布时间：2021-07-17 18:35:26 python web-scraping scrapy Python

Scrapy找不到表格css

最近刚开始使用 Scrapy，到目前为止我一直很幸运，直到出现这个问题.我似乎无法在这里“找到"积分榜； http://www.baseball-reference.com/leagues/MLB/2016-standings.shtml#all_expanded_standings_overall 它的 id = '#expanded_standings_overall' 但我在我的 ..

发布时间：2021-07-17 18:35:21 css scrapy 前端开发

Python - 如何将来自scrapy.request的响应从yield添加到数组中

我正在尝试从 wiki 主权国家列表中收集不同主权国家的人口，并将它们添加到每个响应的数组中.在下面的代码中，allList 应该有一个包含 ['nation'] 中的国家名称和 ['人口统计'] 中的人口的字典列表.非常感谢. # -*- 编码:utf-8 -*-导入scrapy导入日志导入 csv导入打印类爬虫蜘蛛(scrapy.Spider):名称 = 'test2Crawler'allo ..

发布时间：2021-07-17 18:35:18 python scrapy Python

Scrapy 的 request_fingerprint 方法返回 None 可以吗?

我想覆盖 Scrapy 的默认 RFPDupefilter 类如下: from scrapy.dupefilters import RFPDupeFilter类 URLDupefilter(RFPDupeFilter):def request_fingerprint(自我，请求):如果不是 request.url.endswith('.xml'):返回请求.url 理由是我希望通过使用抓取的 ..

发布时间：2021-07-17 18:35:15 python scrapy Python

使scrapy按顺序跟随链接

我写了一个脚本，在第一阶段使用 Scrapy 查找链接，然后跟踪链接并在第二阶段从页面中提取一些内容.Scrapy 做它但它以无序的方式跟随链接，即我希望输出如下: link1 |data_extracted_from_link1_destination_page链接2 |data_extracted_from_link2_destination_page链接3 |data_extracted_ ..

发布时间：2021-07-17 18:35:12 python web-scraping scrapy Python

窗口 pip install scrapy 错误“运行 build_ext 错误:[错误 5]"；

我怎样才能避免这个错误? 运行 build_ext错误:[错误5]---------------------------命令 "C:\Python27\python.exe -u -c "import setuptools, tokenize;__file__='c:\\users\\admini~1\\appdata\\local\\temp\\pip-build-zc67ii\\Twist ..

发布时间：2021-07-17 18:35:09 scrapy 其他开发

Scrapy:与二级网站交互时的程序组织

我正在使用 Scrapy 1.1 并且我有一个项目，我有一个蜘蛛“1"抓取站点 A(在那里我获取了 90% 的信息来填充我的项目).但是，根据站点 A 抓取的结果，我可能需要从站点 B 抓取其他信息.就开发程序而言，在蜘蛛“1"中抓取站点 B 是否更有意义，或者是否可以进行交互来自管道对象内的站点 B.我更喜欢后者，认为它可以解耦 2 个站点的抓取，但我不确定这是否可能或处理此用例的最佳方法.另一 ..

发布时间：2021-07-17 18:35:07 python scrapy Python

scrapy:“加载更多结果"页

我正在尝试编写下面的抓取脚本来从下面的网站上抓取项目.我能够抓取第一页的项目，但还有更多关于 2000 页的内容我想全部抓取.有一个选项“加载更多结果"，我也尝试抓取加载更多结果的页面，但无法做到这一点.请帮帮我. from scrapy.shell import open_in_browser导入scrapy从scrapy导入选择器导入数学导入json类 MyItems(scrapy.Item ..

发布时间：2021-07-17 18:35:04 python-3.x web-scraping scrapy 其他开发

scrapy相关内容