scrapy相关内容
这是我的代码.实际上我按照“使用 Scrapy 递归抓取网页",看来我在某处包含了一个错误. 有人可以帮我找到吗?这让我发疯了,我只想要所有结果页面的所有结果.相反,它给了我第 1 页的结果. 这是我的代码: 导入scrapyfrom scrapy.selector import Selector从scrapy.spider导入CrawlSpider,规则从scrapy.http.r
..
我根据这里的一些示例实现了一个管道.我正在尝试在单个 CSV 文件中导出多个蜘蛛(由单个文件而不是在命令行中启动)的所有信息. 但是,显示在 shell 中的一些数据(大约 10%)似乎没有记录到 CSV 中.这是因为蜘蛛在同一时间写作吗? 如何将其修复到我的脚本中以在单个 CSV 中收集所有数据?我正在使用 CrawlerProcess 来启动蜘蛛. 来自scrapy导入信号从 s
..
我正在开展一个项目,以收集大学教授的联系信息.(所以它不是恶意的.)教授页面是动态的.我通过 Chrome 网络找到了请求.但是,scrapy xpath 在浏览器上运行时在scrapy shell 中不起作用.我什至尝试添加标题.scrapy shell 结果 Chrome 控制台结果 导入scrapy从 university.items 导入 UniversitiesItem类 Uni
..
我使用的 Scrapy Splash 在我的本地机器上运行良好,但是当我在我的 Ubuntu 服务器上使用它时它返回这个错误.这是为什么?是不是内存不足造成的? 文件“/usr/local/lib64/python2.7/site-packages/twisted/internet/defer.py",第 1299 行,在 _inlineCallbacks结果 = g.send(result)
..
我有一个网站名称 https://www.grohe.com/in在该页面中,我想获得一种浴室水龙头 https://www.grohe.com/in/25796/bathroom/bathroom-faucets/grandera/在该页面中有多个产品/相关产品.我想获取每个产品的 url 并删除数据.为此,我是这样写的... 我的 items.py 文件看起来像 from scrapy
..
我正在尝试从 gelbeseiten.de(德国的黄页)中抓取数据 # -*- 编码:utf-8 -*-导入scrapy从 scrapy.spider 导入 CrawlSpider从scrapy.http导入请求from scrapy.selector import Selector从scrapy.http 导入HtmlResponse类 GelbeseitenSpider(scrapy.Spi
..
我正在使用 Scrapy 构建一个简单的抓取工具,但在提取数据的某些部分时遇到问题.该网站包含大约 20 个以下代码块:
星期五.2 月 10 日
0:00 AM
..
我不得不制作一个刮刀,但我不明白为什么它不起作用...... 网站有这样的分页:
1
2
3
4
5
..
我想使用 Scrapy 的 LinkExtractor() 只关注 .th 域中的链接 我看到有一个 deny_extensions(list) 参数,但没有 allow_extensions() 参数. 鉴于此,我如何限制链接以允许 .th 中的域? 解决方案 deny_extensions 是过滤掉以.gz, .exe结尾的URL> 等等. 您可能正在寻找 allow
..
Scrapy 似乎没有处理所有请求就完成了.我知道这一点是因为我在请求排队之前和之后都进行了日志记录,我可以清楚地看到这一点. 我同时登录了解析和错误回调方法,但没有一个被调用来处理那些丢失的请求. 如何调试这些请求发生了什么? 解决方案 重新排队请求时需要添加dont_filter=True.尽管该请求可能与其他请求不匹配,但 Scrapy 会记住它已经发出的请求,如果您重新
..
我正在处理一些返回 HTML 字符串 (my_html) 的代码.我想使用 https 在浏览器中查看它的外观://doc.scrapy.org/en/latest/topics/debug.html#open-in-browser.为此,我尝试创建一个主体设置为“my_html"的响应对象.我尝试了很多东西,包括: new_response = TextResponse(body=my_htm
..
导入scrapy从scrapy导入请求#scrapy 爬取jobs9 -o jobs9.csv -t csv类 JobsSpider(scrapy.Spider):name = "jobs9";allowed_domains = [“vapedonia.com"]start_urls = [“https://www.vapedonia.com/7-principiantes-kit-s-de-in
..
我试图在从各个页面抓取数据之前获取一些链接,但我收到了 NotImplementedError - 回溯如下: 回溯(最近一次调用最后一次):_runCallbacks 中的文件“/usr/lib/python2.7/dist-packages/twisted/internet/defer.py",第 588 行current.result = callback(current.result,
..
最近刚开始使用 Scrapy,到目前为止我一直很幸运,直到出现这个问题.我似乎无法在这里“找到"积分榜; http://www.baseball-reference.com/leagues/MLB/2016-standings.shtml#all_expanded_standings_overall 它的 id = '#expanded_standings_overall' 但我在我的
..
我正在尝试从 wiki 主权国家列表中收集不同主权国家的人口,并将它们添加到每个响应的数组中.在下面的代码中,allList 应该有一个包含 ['nation'] 中的国家名称和 ['人口统计'] 中的人口的字典列表.非常感谢. # -*- 编码:utf-8 -*-导入scrapy导入日志导入 csv导入打印类爬虫蜘蛛(scrapy.Spider):名称 = 'test2Crawler'allo
..
我想覆盖 Scrapy 的默认 RFPDupefilter 类如下: from scrapy.dupefilters import RFPDupeFilter类 URLDupefilter(RFPDupeFilter):def request_fingerprint(自我,请求):如果不是 request.url.endswith('.xml'):返回请求.url 理由是我希望通过使用抓取的
..
我写了一个脚本,在第一阶段使用 Scrapy 查找链接,然后跟踪链接并在第二阶段从页面中提取一些内容.Scrapy 做它但它以无序的方式跟随链接,即我希望输出如下: link1 |data_extracted_from_link1_destination_page链接2 |data_extracted_from_link2_destination_page链接3 |data_extracted_
..
我怎样才能避免这个错误? 运行 build_ext错误:[错误5]---------------------------命令 "C:\Python27\python.exe -u -c "import setuptools, tokenize;__file__='c:\\users\\admini~1\\appdata\\local\\temp\\pip-build-zc67ii\\Twist
..
我正在使用 Scrapy 1.1 并且我有一个项目,我有一个蜘蛛“1"抓取站点 A(在那里我获取了 90% 的信息来填充我的项目).但是,根据站点 A 抓取的结果,我可能需要从站点 B 抓取其他信息.就开发程序而言,在蜘蛛“1"中抓取站点 B 是否更有意义,或者是否可以进行交互来自管道对象内的站点 B.我更喜欢后者,认为它可以解耦 2 个站点的抓取,但我不确定这是否可能或处理此用例的最佳方法.另一
..
我正在尝试编写下面的抓取脚本来从下面的网站上抓取项目.我能够抓取第一页的项目,但还有更多关于 2000 页的内容我想全部抓取.有一个选项“加载更多结果",我也尝试抓取加载更多结果的页面,但无法做到这一点.请帮帮我. from scrapy.shell import open_in_browser导入scrapy从scrapy导入选择器导入数学导入json类 MyItems(scrapy.Item
..