scraper相关内容
我正在开发一个 Node.js 应用程序,我在其上使用 Selenium Webdriver 进行抓取.但是,当我在 Heroku 上部署时,Selenium 不起作用.如何让 Selenium 在 Heroku 上工作? 解决方案 下面是使用 selenium-webdriver npm 包和 Chrome 浏览器的 javaScript 示例代码. const webdriver =
..
我正在使用下面的函数 (GWT) 动态创建 HTML 元标记.在 DOM 上拥有这个需要 1 秒钟.除了 Facebook 之外,它运行良好.当我从我的网络分享链接时,抓取工具会获取 HTML 中的元标记:none.我该如何解决这个问题? /*** 包括 HTML 属性:标题、描述和关键字(元标记)*/私有无效 createHTMLheader(MyClass 东西){字符串标题=thing.g
..
我有以下 HTML 结构:我正在尝试构建一个强大的方法来提取第二个颜色摘要元素,因为 DOM 中会有很多这样的标签. 颜色摘要 AgArAQICGQMVBBwTIRQHIwg0GUMURAZTBWQJcwV0AoEDAQ
颜色摘要 2,43
..
我要提取: 来自 image 标签的 src 和 之后的文本div 类数据中的锚标记文本 我成功地提取了 img src,但无法从锚标记中提取文本.
..
我的问题是它不仅需要基本的 cookie,还需要会话 cookie 和随机生成的 ID.我认为这意味着我需要使用带有 cookie jar 的网络浏览器模拟器? 我曾尝试使用 Snoopy、Goutte 和其他几个网络浏览器模拟器,但到目前为止我还没有找到有关如何接收 cookie 的教程.我有点绝望了! 谁能举个例子告诉我如何在 Snoopy 或 Goutte 中接受 cookie?
..
首先,我认为值得一提的是,我知道有很多类似的问题,但没有一个对我有用...... 我是 Python、html 和网络爬虫的新手.我正在尝试从需要先登录的网站上抓取用户信息.在我的测试中,我使用从 github 抓取我的电子邮件设置作为示例.主页是'https://github.com/login',目标页面是'https://github.com/settings/emails' 这
..
有人能在范围和功能方面区分爬虫和抓取工具吗. 解决方案 爬虫获取网页——即,给定一个起始地址(或一组起始地址)和一些条件(例如,要访问多少链接,要忽略的文件类型)它会从起点下载链接到的任何内容. 抓取工具获取已下载的页面,或者更一般意义上的已格式化以供显示的数据,并(尝试)从这些页面中提取数据,以便(例如)将其存储在数据库中并根据需要进行操作. 根据您使用结果的方式,抓取可能会
..
我正在尝试使用 Scrapy 在 init 中登录网站,然后在确认登录后我想通过 start_urls 初始化并启动标准爬网.我不确定出了什么问题,但我很清楚登录,并且每件事都得到确认,但 parse_item 永远不会启动.任何帮助将不胜感激. 我可以做到“================成功登录==================" 但是 我无法到达“============
..
?(假设它嵌套在 中).使用 //body 选择器可能更简单: x.select("//body").extract() # 提取正文 您可以在此处找到有关 Scrapy 提供的选择器的更多信息.
..
我目前正在尝试从我使用 rvest 的 url 列表中抓取纬度/经度数据.每个 URL 都有一个带有特定位置的嵌入式谷歌地图,但 URL 本身不显示 API 所采用的路径. 查看页面源代码时,我看到我要找的部分在这里:
..
我写了很多刮板,但我不太确定如何处理无限滚动.如今,大多数网站等 Facebook、Pinterest 都有无限滚动条. 解决方案 您可以使用 selenium 废弃无限滚动的网站,例如 twitter 或 facebook. 第 1 步:使用 pip 安装 Selenium pip install selenium 第 2 步:使用下面的代码自动无限滚动并提取源代码 from
..
我手动执行此操作,然后卡住了,我无法弄清楚为什么它不起作用.我下载了 xpather,它给了我:/html/body/center/table/tbody/tr[3]/td/table 作为我想要的项目的路径.我已经手动确认这是正确的,但是当我将其粘贴到我的代码中时,它所做的只是返回 nil 这是我的代码: a = parentdoc.at_xpath("//html/body/cente
..
我刚开始使用JS和Node.js.我正在尝试使用Node.js和一些模块(例如 request 和 cheerio )构建一个简单的刮板作为第一个项目.我想在数组中包含的每个域的每个http请求之间添加5秒的延迟.你能解释一下怎么做吗? 这是我的代码: var request = require('request');var arr = ["http://allrecipes.com/"
..
Element I want to find
..
我正在尝试在两个HTML注释之间选择一些内容,但是在正确处理它时遇到了一些麻烦(如" 我的HTML: ........
some text
Some more elements
..
我正在开发Node.js应用程序,并在其上使用Selenium Webdriver进行抓取.但是,当我在Heroku上部署时,Selenium无法正常工作.如何让Selenium在Heroku上工作? 解决方案 下面是使用selenium-webdriver npm包和chrome浏览器的javaScript示例代码. const webdriver = require('selen
..
我最近将我的一个站点(gezondbenjij.nl)移到了一个新的托管帐户.这样就产生了一个新的IP地址. 不幸的是,自从此举以来,Facebook抓取程序无法在新IP地址上找到我的网站.它仍然使用旧的IP.所有DNS设置都是正确的,并且每个浏览器/客户端/工具都在178.22.57.204(gezondbenjijj.nl)上找到正确的站点.除了Facebook .. Faceboo
..
Facebook的URL Scarper是否有大小限制?我们在网站上有几本书。具有HMTL文件大小小于一定大小(〜390KB)的文件会被刮擦并正确读取,但较大的4个文件不会被读取。这些较大的项目会得到200的响应代码,并且会打开规范的URL。 所有这些页面都是使用相同的模板构建的,唯一的区别是其中内容的大小每本书以及每本书与网站上其他页面的链接数。 单击规范URL 在Firefox中
..
我正在尝试"defrontpagify" MS FrontPage生成的网站的html,并且我正在编写BeautifulSoup脚本来做到这一点. 但是,我被困在试图从包含它们的文档中的每个标签中剥离特定属性(或列表属性)的部分.代码段: REMOVE_ATTRIBUTES = ['lang','language','onmouseover','onmouseout','script'
..
我要提取: 来自image标记和 的src后面的文本 div类数据内的定位标签的文本 我成功地提取了img src,但是在从定位标记中提取文本时遇到了麻烦.
..