web-scraping相关内容

在两个单独的页面上抓取需要登录用户名和密码的站点

我正在尝试从我的公司 Intranet 中抓取信息,以便我可以通过仪表板在我们的办公室墙板上显示信息.我正在尝试使用以下提供的信息:此站点.除了菜鸟之外,我遇到的问题是,为了访问我想要抓取的信息,我需要登录到我们的 Intranet,在一个页面上提供我的用户名,然后提交到另一个,以便我可以提供我的密码.登录后,我可以链接和抓取我的数据. 这是我的登录用户名页面的一些源代码: 这是我的 ..
发布时间:2022-01-18 22:27:34 其他开发

如何处理硒中的延迟加载图像?

在标记为重复之前,请考虑我已经浏览了许多相关的堆栈溢出帖子,以及网站和文章.我还没有找到解决办法. 这个问题是对这个问题的跟进Selenium尽管字符串看似相同,但 Webdriver 没有找到 XPATH.通过更新代码以更优雅的方式工作,我确定问题实际上并非来自 xpath 方法: 用于提要中的项目:img_div = item.find_element_by_class_name('l ..
发布时间:2022-01-16 09:18:27 其他开发

如何在 webtable 中打开多个 href 以抓取 selenium

我正在尝试使用 python 和 selenium 抓取这个网站.但是我需要的所有信息都没有在主页上,那么我该如何点击“申请号"栏中的链接到该页面并抓取信息然后返回原始页面? 我试过了: def getData():数据 = []select = Select(driver.find_elements_by_xpath('//*[@id="node-41"]/div/div/div/div ..
发布时间:2022-01-16 08:53:30 Python

通过 webdriver 点击 javascript 弹出窗口

我在 Python 中使用 Selenium webdriver 抓取网页 我正在处理的网页有一个表格.我可以填写表格,然后点击提交按钮. 它会生成一个弹出窗口(Javascript Alert).我不确定,如何通过 webdriver 点击弹出窗口. 知道怎么做吗? 谢谢 解决方案 Python Webdriver 脚本: 从 selenium 导入 webdr ..
发布时间:2022-01-16 08:48:33 Python

使用 VBA 对屏蔽 URL 进行 Web 抓取

我想从一个网站 https://dps.psx.com.pk/抓取一些股票数据 在 Excel 中使用 VBA,但问题是这个网站的 URL 没有改变. 当我点击图片#1 中突出显示的市场摘要时图片#1 这将返回整个市场摘要,我只需要使用 VBA 在 Excel 中抓取数据,如图 2 中突出显示的那样.图片#2 我尝试使用 fiddler 检查网络,如图#3 所示图片#3 并 ..
发布时间:2022-01-15 22:11:33 其他开发

VBA HTML Scraping - 来自复杂表的“.innertext"

全部, 我创建了以下模块来从以下地址中提取单个值(伦敦房价变化 100 万%): https://www.hometrack.com/uk/insight/uk-cities-house-price-index/ 具体值嵌套在以下代码中: 下面的 VBA 代码是我的抓取尝试.我,也许是错误的,觉得我非常接近捕获价值——但代码不起作用. 有人知道我哪里出错了吗?它不显示 ..
发布时间:2022-01-15 21:38:24 其他开发

Google Chrome 扩展中的网页抓取(JavaScript + Chrome API)

使用 JavaScript 和任何其他可用技术执行 从 Google Chrome 扩展程序中对当前未打开的标签页进行网页抓取 的最佳选项是什么?也接受其他 JavaScript 库. 重要的是掩盖抓取行为,使其表现得像正常的网络请求.没有 AJAX 或 XMLHttpRequest 的迹象,例如 X-Requested-With: XMLHttpRequest 或 Origin. 必 ..

如何使用 VBA 在 IE11 中自动保存另存为对话框?

我正在尝试下载一些有关碳排放的数据.我可以通过 URL 预加载具有相关设置的页面.它加载正常,我可以通过其 ID 单击确定按钮,然后在底部看到 IE11 - 打开/保存/取消对话框.我已经使用 FindWindows (#32770) 尝试了所有建议,还尝试了非常不可靠的 Send Keys.有人可以建议操作此对话框的代码,或者检查网页上的 HTML 以查看是否可以直接下载? 将 htm 调暗为 ..
发布时间:2022-01-15 21:20:33 其他开发

加载资源失败:服务器通过 Selenium 使用 ChromeDriver Chrome 响应状态为 429(请求过多)和 404(未找到)

我正在尝试在 python 中使用 selenium 构建一个刮板.Selenium webdriver 打开窗口并尝试加载页面但突然停止加载.我可以在本地 chrome 浏览器中访问相同的链接. 这是我从 webdriver 获得的错误日志: {'level': 'SEVERE', 'message': 'https://shop.coles.com.au/a/a-nsw-metro-r ..

将 Jest 与 Puppeteer 一起使用:评估失败:ReferenceError: cov_4kq3tptqc is not defined

我正在尝试使用 Puppeteer 获取页面的描述,我有一个高阶函数,为该函数提供页面对象: export const checkDescription = async page =>{const metaDescription = 等待页面.$eval('元[名称=“描述"]',描述=>description.getAttribute("内容"));返回元描述;}; 该功能按预期工作.然后, ..

与 PhantomJS 等效的 Java 是什么?

我想知道是否有任何与 PhantomJS 等效的 Java 库.我想要实现的是能够模拟表单登录和从网页提交操作,也可以进行页面抓取.我知道 jsoup 会进行页面抓取,但不会进行页面自动化. 提前致谢! 干杯,亚历克斯 解决方案 有一个用于 Java 的 PhantomJS 驱动程序叫做 GhostDriver.也许这符合您的要求? ..
发布时间:2022-01-14 17:16:10 Java开发

我缺少哪些标题来抓取 NBA 统计数据?

几天前,我在 Power BI 中创建了一个 Web 查询,允许我从 NBA 球员统计数据 不使用任何标题.截至今天,我注意到该查询不再有效;我收到以下错误消息: DataSource.Error: 底层连接已关闭.接收时发生意外错误.详情:https://stats.nba.com/stats/leaguedashplayerstats?College=&Conference=&Country ..
发布时间:2022-01-10 16:37:30 前端开发

在 firebase 云函数中运行 puppeteer 代码

我正在开发一个个人项目,这是一个用户可以输入地址和地址的应用程序.信用卡信息,然后单击按钮为我经常访问的一所大学购买停车许可证. 我想将我的前端托管在 firebase 的云存储中,并且我想创建一个云函数,其中 puppeteer 代码可以使用我保存到 firebase 实时数据库的信息运行. firebase 云函数是否可以运行购买停车证的 puppeteer 代码? 由于 p ..

如何从 Google Cloud Function(Cheerio,Node.js)发出多个 http 请求

我的问题: 我正在使用 Cheerio、Node.js 和 Google Cloud Functions 构建一个网络抓取工具. 问题是我需要发出多个请求,然后在调用 response.send() 之前将每个请求中的数据写入 Firestore 数据库,从而终止函数. 我的代码需要两个循环:第一个循环是来自我的数据库的 url,每个循环都发出单独的请求.第二个循环是 Cheer ..

在请求中传递标头的影响?

我想知道在 requests.get 中传递标头有什么不同,即 requests.get(url, headers) 和 requests 之间的区别.get(url). 我有这两段代码: from lxml import html从 lxml 导入 etree进口请求进口重新url = "http://www.amazon.in/SanDisk-micro-USB-connector-O ..
发布时间:2022-01-05 15:50:22 其他开发

如何修复 Node/Cheerio 中的“$(...).click is not a function"

我正在用 node.js 编写一个应用程序,它将导航到一个网站,点击网站上的一个按钮,然后从网站中提取某些数据.除了单击按钮方面外,一切都进行得很顺利.我似乎无法模拟按钮点击.我对此非常陌生,所以我很感激你们的任何建议!遗憾的是,我已经在互联网上寻找解决此问题的方法,但一直找不到. 我在使用“request"和“cheerio"的 .js 文件中使用了 .click() 和 .bind('c ..
发布时间:2022-01-05 15:49:38 前端开发