scraper相关内容

Facebook 抓取工具不加载动态元标签

我正在使用下面的函数 (GWT) 动态创建 HTML 元标记.在 DOM 上拥有这个需要 1 秒钟.除了 Facebook 之外,它运行良好.当我从我的网络分享链接时,抓取工具会获取 HTML 中的元标记:none.我该如何解决这个问题? /*** 包括 HTML 属性:标题、描述和关键字(元标记)*/私有无效 createHTMLheader(MyClass 东西){字符串标题=thing.g ..
发布时间:2021-12-17 14:10:28 前端开发

XPath:: 获得以下兄弟姐妹

我有以下 HTML 结构:我正在尝试构建一个强大的方法来提取第二个颜色摘要元素,因为 DOM 中会有很多这样的标签. 颜色摘要 AgArAQICGQMVBBwTIRQHIwg0GUMURA​​ZTBWQJcwV0AoEDAQ 颜色摘要 2,43 ..
发布时间:2021-12-17 13:25:46 前端开发

如何从需要 cookie 登录的网站中抓取 PHP 中的网站内容?

我的问题是它不仅需要基本的 cookie,还需要会话 cookie 和随机生成的 ID.我认为这意味着我需要使用带有 cookie jar 的网络浏览器模拟器? 我曾尝试使用 Snoopy、Goutte 和其他几个网络浏览器模拟器,但到目前为止我还没有找到有关如何接收 cookie 的教程.我有点绝望了! 谁能举个例子告诉我如何在 Snoopy 或 Goutte 中接受 cookie? ..
发布时间:2021-12-17 13:21:43 PHP

如何抓取需要先用 Python 登录的网站

首先,我认为值得一提的是,我知道有很多类似的问题,但没有一个对我有用...... 我是 Python、html 和网络爬虫的新手.我正在尝试从需要先登录的网站上抓取用户信息.在我的测试中,我使用从 github 抓取我的电子邮件设置作为示例.主页是'https://github.com/login',目标页面是'https://github.com/settings/emails' 这 ..
发布时间:2021-11-30 17:53:10 Python

履带式与刮板式

有人能在范围和功能方面区分爬虫和抓取工具吗. 解决方案 爬虫获取网页——即,给定一个起始地址(或一组起始地址)和一些条件(例如,要访问多少链接,要忽略的文件类型)它会从起点下载链接到的任何内容. 抓取工具获取已下载的页面,或者更一般意义上的已格式化以供显示的数据,并(尝试)从这些页面中提取数据,以便(例如)将其存储在数据库中并根据需要进行操作. 根据您使用结果的方式,抓取可能会 ..
发布时间:2021-09-05 20:39:45 其他开发

Scrapy InIt self.initialized() -- 未初始化

我正在尝试使用 Scrapy 在 init 中登录网站,然后在确认登录后我想通过 start_urls 初始化并启动标准爬网.我不确定出了什么问题,但我很清楚登录,并且每件事都得到确认,但 parse_item 永远不会启动.任何帮助将不胜感激. 我可以做到“================成功登录==================" 但是 我无法到达“============ ..
发布时间:2021-07-16 22:10:51 Python

仅 Scrapy 正文文本

?(假设它嵌套在 中).使用 //body 选择器可能更简单: x.select("//body").extract() # 提取正文 您可以在此处找到有关 Scrapy 提供的选择器的更多信息. ..
发布时间:2021-07-16 21:44:02 Python

无限滚动抓取网站

我写了很多刮板,但我不太确定如何处理无限滚动.如今,大多数网站等 Facebook、Pinterest 都有无限滚动条. 解决方案 您可以使用 selenium 废弃无限滚动的网站,例如 twitter 或 facebook. 第 1 步:使用 pip 安装 Selenium pip install selenium 第 2 步:使用下面的代码自动无限滚动并提取源代码 from ..
发布时间:2021-06-25 20:13:43 Python

FF Xpather 到 Nokogiri——我可以复制和粘贴吗?

我手动执行此操作,然后卡住了,我无法弄清楚为什么它不起作用.我下载了 xpather,它给了我:/html/body/center/table/tbody/tr[3]/td/table 作为我想要的项目的路径.我已经手动确认这是正确的,但是当我将其粘贴到我的代码中时,它所做的只是返回 nil 这是我的代码: a = parentdoc.at_xpath("//html/body/cente ..
发布时间:2021-06-08 18:51:11 其他开发

延迟http请求的for循环

我刚开始使用JS和Node.js.我正在尝试使用Node.js和一些模块(例如 request 和 cheerio )构建一个简单的刮板作为第一个项目.我想在数组中包含的每个域的每个http请求之间添加5秒的延迟.你能解释一下怎么做吗? 这是我的代码: var request = require('request');var arr = ["http://allrecipes.com/" ..
发布时间:2021-05-30 21:13:51 其他开发

Facebook抓取工具使用了错误的DNS数据>我的网站没有被刮掉

我最近将我的一个站点(gez​​ondbenjij.nl)移到了一个新的托管帐户.这样就产生了一个新的IP地址. 不幸的是,自从此举以来,Facebook抓取程序无法在新IP地址上找到我的网站.它仍然使用旧的IP.所有DNS设置都是正确的,并且每个浏览器/客户端/工具都在178.22.57.204(gezondbenjijj.nl)上找到正确的站点.除了Facebook .. Faceboo ..
发布时间:2020-11-03 04:36:11 其他开发

超过390KB的文件抓取失败

Facebook的URL Scarper是否有大小限制?我们在网站上有几本书。具有HMTL文件大小小于一定大小(〜390KB)的文件会被刮擦并正确读取,但较大的4个文件不会被读取。这些较大的项目会得到200的响应代码,并且会打开规范的URL。 所有这些页面都是使用相同的模板构建的,唯一的区别是其中内容的大小每本书以及每本书与网站上其他页面的链接数。 单击规范URL 在Firefox中 ..
发布时间:2020-10-19 06:40:21 其他开发