web-scraping相关内容
我正在使用 scrapy 使用非常简单的网页抓取工具抓取 23770 个网页.我对scrapy甚至python都很陌生,但设法编写了一个蜘蛛来完成这项工作.然而,它真的很慢(爬取 23770 个页面需要大约 28 小时). 我查看了 scrapy 网页、邮件列表和 stackoverflow,但我似乎找不到编写初学者可以理解的快速爬虫的通用建议.也许我的问题不是蜘蛛本身,而是我运行它的方式.
..
我正在尝试从网站获取所有可见文本,我正在使用 python-scrapy 来完成这项工作.然而,我观察到的scrapy 只适用于HTML 标签,如div、body、head 等,而不适用于角js 标签如ng-view,如果ng-view 标签中有任何元素,当我右键单击时页面并查看源代码,然后标签内的内容不会出现,它显示为 ,那么我如何使用 python 来抓取
..
我已经用 Python scrapy 和 selenium 编写了一个抓取工具来从网站上抓取一些titles.在我的刮板中定义的 css 选择器 是完美的.我希望我的刮板继续点击下一页并解析每个页面中嵌入的信息.它在第一页上做得很好,但是当涉及到硒部分的作用时,刮板会一遍又一遍地点击同一个链接. 由于这是我第一次使用 selenium 和scrapy,我不知道要继续成功.任何修复都将受到高度
..
我正在尝试破解网站表单中的 captcha,但此验证码是动态的,它没有 URL 而是具有类似这样的内容 src="captcha?accion=image" 这里最好的选择是什么?我读过类似使用中间件之类的东西.我也知道它可以用 Selenium 或 Splash 或其他浏览器驱动程序(截图)来完成,但我想用 Scrapy 来完成,当然如果可能的话. 解决方案 这里有一个完整的解决方案
..
我正在尝试抓取 此页面,其中包括以下内容html根据chrome 橙色配对
这是我的蜘蛛: 导入scrapy从scrapy_splash 导入SplashRequest类 MySpider(scrapy.Spider):名称 = "飞溅"allowed_domains = ["phillips.com"]start_urls = ["https://www.phillips.com
..
我有一个起始 2000 个网址的列表,我正在使用: DOWNLOAD_DELAY = 0.25 为了控制请求的速度,但我也想在 n 个请求后添加更大的延迟.例如,我希望每个请求延迟 0.25 秒,每 500 个请求延迟 100 秒. 编辑: 示例代码: 导入操作系统从 os.path 导入加入导入scrapy导入时间date = time.strftime("%d/%m/%Y")
..
我根据@paultrmbrth 的此建议对我的代码进行了改进.我需要的是从类似于 this 的页面中抓取数据 和 这个 我想要csv 输出如下图所示. 但是我的代码的 csv 输出有点乱,像这样: 我有两个问题,无论如何,csv输出可以像第一张图片一样吗?我的第二个问题是,我也希望电影标题也被废弃,请给我一个提示或提供给我一个代码,我可以用它来抓取电影标题和内容. 更新 这个问
..
我正在尝试从 trustpilot.com 中删除评级. 是否可以使用scrapy提取类名?我正在尝试抓取由五个单独图像组成的评级,但这些图像位于一个带有评级名称的类中,例如,如果评级为 2 则开始: ... 如果是 3 星,则: ... 那么有没有办法我可以刮掉类 count-2 或 count-3 假设选择器像 .css('.star-rating')? 解决方案 您
..
我想通过 Python-Scrapy 抓取这个网站> 我试试这个 class Parik(scrapy.Spider):名称 = "ooshop"allowed_domains = ["http://www.ooshop.com/courses-en-ligne/Home.aspx"]def __init__(self, idcrawl=None, proxy=None, *args, **k
..
我有一个非常基本的蜘蛛,按照入门指南中的说明进行操作,但由于某种原因,尝试将我的项目导入我的蜘蛛会返回错误.蜘蛛和物品代码如下所示: from scrapy.spider import BaseSpiderfrom scrapy.selector import HtmlXPathSelector从 myProject.items 导入项目类 MyProject(BaseSpider):名称 =
..
我正在尝试通过脚本以编程方式调用蜘蛛.我无法使用 CrawlerProcess 通过构造函数覆盖设置.让我用默认的爬虫来说明这一点,它用于从官方 scrapy 站点抓取引号(官方scrapy引用示例蜘蛛). class QuotesSpider(蜘蛛):名称 = "引用"def __init__(self, somestring, *args, **kwargs):super(QuotesSpi
..
我在生成的 csv 输出文件中每行scrapy 输出之间出现不需要的空行. 我已从 python2 迁移到 python 3,并且使用 Windows 10.因此,我正在为 python3 调整我的 scrapy 项目. 我目前(目前唯一的)问题是,当我将 scrapy 输出写入 CSV 文件时,每行之间有一个空行.这已在此处的几篇文章中突出显示(与 Windows 相关),但我无法找
..
我想抓取这个网站.我写了一个蜘蛛,但它只抓取首页,即前 52 项. 我试过这个代码: from scrapy.spider import BaseSpiderfrom scrapy.selector import HtmlXPathSelector从scrapy.http导入请求a=[]从 aqaq.items 导入 aqaqItem导入操作系统导入 urlparse进口AST类aqaqs
..
我制作了一个 Scrapy 蜘蛛,它可以从位于项目根目录中的脚本成功运行.由于我需要从同一个脚本的不同项目运行多个蜘蛛程序(这将是一个 django 应用程序,根据用户的请求调用脚本),我将脚本从其中一个项目的根目录移动到父目录.出于某种原因,脚本不再能够获取项目的自定义设置,以便将抓取的结果通过管道传输到数据库表中.这是我用来从脚本运行蜘蛛的 scrapy 文档中的代码: def spider
..
我正在通过 Scrapy 使用 ASP.NET 编程爬过一些目录. 要抓取的页面编码如下: javascript:__doPostBack('ctl00$MainContent$List','Page$X') 其中 X 是 1 到 180 之间的整数. MainContent 参数始终相同.我不知道如何爬进这些.我很想在 SLE 规则中添加一些简单的内容,例如 allow=('P
..
我一直在尝试使用 Scrapy(xpath) 从 Kbb 的 HTML 中的脚本标记中提取数据.但我的主要问题是识别正确的 div 和 script 标签.我是使用 xpath 的新手,希望得到任何帮助! HTML (http://www.kbb.com/nissan/altima/2014/25-s-sedan-4d/?vehicleid=392396&intent=buy-used&mi
..
我想为我在蜘蛛的 start_urls 中设置的每个 url 创建单独的输出文件,或者想以某种方式拆分输出文件以明智的 url 开始. 以下是我的蜘蛛的start_urls start_urls = ['http://www.dmoz.org/Arts/', 'http://www.dmoz.org/Business/', 'http://www.dmoz.org/电脑/'] 我想创建单
..
我知道那里有几个相关的线程,它们对我帮助很大,但我仍然无法一路走下去.我现在运行代码不会导致错误,但我的 csv 文件中没有任何内容.我有以下 Scrapy 蜘蛛,它从一个网页开始,然后跟随一个超链接,并抓取链接的页面: from scrapy.http 导入请求从scrapy.spider 导入BaseSpiderfrom scrapy.selector import HtmlXPathSel
..
我正在尝试从谷歌翻译网站中提取 span 标签内容.内容是 id="result_box" 的翻译结果.尝试打印内容时,它返回 None 值. 请在此处查看图片 导入请求从 bs4 导入 BeautifulSoupr = requests.get("https://translate.google.co.in/?rlz=1C1CHZL_enIN729IN729&um=1&ie=UTF-8&
..
我正在尝试使用请求模块在 python 中创建一个脚本来登录这个网站 我正在使用我的凭据,但我找不到任何方法来这样做,因为我看不到随请求一起发送所需的参数(在 chrome 开发工具中). 用户名:SIMMTH.iqbal_123密码:SShift_123 登录表单看起来像这个. 这是我最初的尝试(我真的在那个页面中找不到任何东西开始): 导入请求从 bs4 导入 Beautif
..