scrapy相关内容

在scrapy中使用loginform

scrapy 框架(https://github.com/scrapy/scrapy)为在登录需要身份验证的网站时使用,https://github.com/scrapy/loginform. 我已经查看了这两个程序的文档,但是我似乎无法弄清楚如何在运行之前让 scrapy 调用 loginform.仅使用 loginform 即可正常登录. 谢谢 解决方案 loginform 只是一 ..
发布时间:2022-01-04 20:46:04 Python

在scrapy中修改CSV导出

我似乎遗漏了一些非常简单的东西.我想要做的就是使用 ; 作为CSV 导出器中的分隔符,而不是 ,. 我知道 CSV 导出器将 kwargs 传递给 csv writer,但我似乎无法弄清楚如何传递这个分隔符. 我这样称呼我的蜘蛛: scrapy 爬取蜘蛛名 --set FEED_URI=output.csv --set FEED_FORMAT=csv 解决方案 在 contrib ..
发布时间:2022-01-04 20:45:44 Python

clang:错误:未知参数:'-mno-fused-madd' [-Wunused-command-line-argument-hard-error-in-future]

我在尝试在 Mavericks 操作系统中安装 Scrapy 时遇到以下错误. 我安装了命令行工具和 X11 我真的不知道发生了什么,我在浏览 Web 时也没有发现同样的错误.我认为这可能与 Xcode 5.1 的一些变化有关 感谢您的回答! 这是命令输出的一部分: $pip 安装scrapy ....下载/解包密码学>=0.2.1(来自pyOpenSSL->scrapy ..
发布时间:2022-01-04 20:45:21 Python

从scrapy导出csv文件(不是通过命令行)

我成功地尝试从命令行将我的项目导出到 csv 文件中,例如: scrapy crawl spiderName -o filename.csv 我的问题是:在代码中执行相同操作的最简单解决方案是什么?我需要这个,因为我从另一个文件中提取文件名.结束场景应该是,我称之为 scrapy crawl spiderName 并将项目写入 filename.csv 解决方案 为什么不使用项目管 ..
发布时间:2022-01-04 20:45:11 Python

如何处理scrapy项目中的各种异常,在errback和回调中?

我目前正在从事一个刮板项目,这对于确保每个请求都得到正确处理非常重要,即记录错误或保存成功的结果.我已经实现了基本的爬虫,现在我可以成功处理 99% 的请求,但是我可能会得到像验证码、50x、30x 这样的错误,甚至结果中没有足够的字段(然后我会尝试另一个网站找到缺失的字段). 起初,我认为在解析回调中引发异常并在 errback 中处理它们更“合乎逻辑",这可以使代码更具可读性.但我只是试 ..
发布时间:2022-01-04 20:44:57 Python

如何在 Scrapy 中更新 DjangoItem

我一直在使用 Scrapy,但遇到了一些问题. DjangoItem 有一个 save 方法来使用 Django ORM 持久化项目.这很棒,但如果我多次运行刮刀,即使我可能只想更新以前的值,也会在数据库中创建新项目. 查看文档和源代码后,我看不到任何更新现有项目的方法. 我知道我可以调用 ORM 来查看某个项目是否存在并更新它,但这意味着调用数据库以获取每个单个对象,然后再次调 ..
发布时间:2022-01-04 20:44:40 Python

遇到第一个异常时如何使scrapy crawl中断并退出?

出于开发目的,我想在第一个异常(在蜘蛛或管道中)发生时立即停止所有爬虫爬行活动. 有什么建议吗? 解决方案 从 0.11 开始,有 CLOSESPIDER_ERRORCOUNT: 一个整数,指定在关闭蜘蛛之前接收的最大错误数.如果蜘蛛产生的错误数超过该数量,它将以 closespider_errorcount 为由关闭.如果为零(或未设置),蜘蛛将不会因错误次数而关闭. ..
发布时间:2022-01-04 20:44:22 Python

我应该创建管道来使用scrapy保存文件吗?

我需要保存一个文件 (.pdf),但我不确定如何保存.我需要保存 .pdf 并将它们存储在一个目录中,就像它们存储在我正在删除它们的站点上一样. 据我所知,我需要制作一个管道,但据我所知,管道保存的“项目"和“项目"只是字符串/数字等基本数据.保存文件是正确使用管道,还是应该将文件保存在蜘蛛中? 解决方案 是和否[1].如果您获取 pdf 文件,它将存储在内存中,但如果 pdf 文件 ..
发布时间:2022-01-04 20:43:47 Python

使用cookies进行scrapy身份验证登录

我是scrapy的新手并决定尝试一下,因为在线评论很好.我正在尝试使用scrapy登录网站.我通过使用 selenium 收集所需的 cookie 并将它们添加到 mechanize 中,成功地使用 selenium 和 mechanize 的组合登录.现在我正在尝试用scrapy和selenium做类似的事情,但似乎无法得到任何工作.我什至无法判断是否有任何工作.谁能帮帮我吗.以下是我开始的内容 ..
发布时间:2022-01-04 20:43:36 Python

Scrapy 管道 spider_opened 和 spider_closed 未被调用

我在使用爬虫管道时遇到了一些问题.我的信息正在从网站上被抓取,并且 process_item 方法被正确调用.然而,spider_opened 和 spider_closed 方法没有被调用. class MyPipeline(object):def __init__(self):log.msg("初始化管道")self.conn = 无self.cur = 无def Spider_opened ..
发布时间:2022-01-04 20:42:43 Python

Python selenium 屏幕截图无法获取整个页面

我正在尝试创建一个通用的网络爬虫,它将访问一个网站并截取屏幕截图.我正在使用 Python、Selnium 和 PhantomJS.问题是屏幕截图没有捕获页面上的所有图像.例如,如果我去你管,它不会捕捉主页图像下方的图像.(我没有足够高的代表来发布屏幕截图)我认为这可能与动态内容有关,但我尝试了隐式等待和 set_page_load_timeout 方法等等待功能.因为这是一个通用的爬虫,我等不及 ..
发布时间:2022-01-04 20:42:22 Python

Scrapy FormRequest 发送 JSON

我正在尝试创建一个可以发送 content-type:application/json 的 FormRequest. 这是我的尝试: yield FormRequest("abc.someurl.com", formdata=json.dumps({"referenceId":123,"referenceType":456}), headers={'content-type':'appli ..
发布时间:2022-01-04 20:41:49 Python

Python Scrapy:如何让 CSVItemExporter 以特定顺序写入列

在 Scrapy 中,我在 items.py 中按特定顺序指定了我的项目,&我的蜘蛛以相同的顺序再次拥有这些物品.然而,当我运行蜘蛛 &将结果保存为 csv,items.py 或蜘蛛中的列顺序不会得到维护.如何让 CSV 以特定顺序显示列.示例代码将不胜感激. 谢谢. 解决方案 这与Modifiying有关在scrapy中导出CSV 问题是exporter是在没有任何关键字参数 ..
发布时间:2022-01-04 20:41:36 其他开发

Scrapy 和响应状态代码:如何检查它?

我正在使用 scrapy 抓取我的站点地图,以检查 404、302 和 200 页.但我似乎无法获得响应代码.到目前为止,这是我的代码: from scrapy.contrib.spider import SitemapSpider类 TothegoSitemapHomesSpider(SitemapSpider):name ='tothego_homes_spider'## robe che ..
发布时间:2022-01-04 20:41:17 Python

如何强制scrapy抓取重复的url?

我正在学习 Scrapy 一个网络爬虫框架. 默认情况下,它不会抓取重复的 url 或scrapy 已经抓取的 url. 如何让Scrapy抓取重复的url或者已经抓取过的url? 我试图在互联网上找到,但找不到相关帮助. 我从 Scrapy - Spider 抓取重复的 url 但这个问题与我正在寻找的相反 解决方案 您可能正在寻找 Request() 上的 dont_f ..
发布时间:2022-01-04 20:41:07 Python