web-scraping相关内容
我正在尝试从我的公司 Intranet 中抓取信息,以便我可以通过仪表板在我们的办公室墙板上显示信息.我正在尝试使用以下提供的信息:此站点.除了菜鸟之外,我遇到的问题是,为了访问我想要抓取的信息,我需要登录到我们的 Intranet,在一个页面上提供我的用户名,然后提交到另一个,以便我可以提供我的密码.登录后,我可以链接和抓取我的数据. 这是我的登录用户名页面的一些源代码: 这是我的
..
在标记为重复之前,请考虑我已经浏览了许多相关的堆栈溢出帖子,以及网站和文章.我还没有找到解决办法. 这个问题是对这个问题的跟进Selenium尽管字符串看似相同,但 Webdriver 没有找到 XPATH.通过更新代码以更优雅的方式工作,我确定问题实际上并非来自 xpath 方法: 用于提要中的项目:img_div = item.find_element_by_class_name('l
..
我正在尝试使用 python 和 selenium 抓取这个网站.但是我需要的所有信息都没有在主页上,那么我该如何点击“申请号"栏中的链接到该页面并抓取信息然后返回原始页面? 我试过了: def getData():数据 = []select = Select(driver.find_elements_by_xpath('//*[@id="node-41"]/div/div/div/div
..
我在 Python 中使用 Selenium webdriver 抓取网页 我正在处理的网页有一个表格.我可以填写表格,然后点击提交按钮. 它会生成一个弹出窗口(Javascript Alert).我不确定,如何通过 webdriver 点击弹出窗口. 知道怎么做吗? 谢谢 解决方案 Python Webdriver 脚本: 从 selenium 导入 webdr
..
我想从一个网站 https://dps.psx.com.pk/抓取一些股票数据 在 Excel 中使用 VBA,但问题是这个网站的 URL 没有改变. 当我点击图片#1 中突出显示的市场摘要时图片#1 这将返回整个市场摘要,我只需要使用 VBA 在 Excel 中抓取数据,如图 2 中突出显示的那样.图片#2 我尝试使用 fiddler 检查网络,如图#3 所示图片#3 并
..
全部, 我创建了以下模块来从以下地址中提取单个值(伦敦房价变化 100 万%): https://www.hometrack.com/uk/insight/uk-cities-house-price-index/ 具体值嵌套在以下代码中: 下面的 VBA 代码是我的抓取尝试.我,也许是错误的,觉得我非常接近捕获价值——但代码不起作用. 有人知道我哪里出错了吗?它不显示
..
使用 JavaScript 和任何其他可用技术执行 从 Google Chrome 扩展程序中对当前未打开的标签页进行网页抓取 的最佳选项是什么?也接受其他 JavaScript 库. 重要的是掩盖抓取行为,使其表现得像正常的网络请求.没有 AJAX 或 XMLHttpRequest 的迹象,例如 X-Requested-With: XMLHttpRequest 或 Origin. 必
..
在我使用 Scrapy 为我的问题构建一个完整的解决方案之前,我发布了一个我想要做的简单版本: 导入请求url = 'http://www.whoscored.com/stageplayerstatfeed/?field=1&isAscending=false&orderBy=Rating&playerId=-1&stageId=9155&teamId=32"'params = {'d': da
..
我正在尝试下载一些有关碳排放的数据.我可以通过 URL 预加载具有相关设置的页面.它加载正常,我可以通过其 ID 单击确定按钮,然后在底部看到 IE11 - 打开/保存/取消对话框.我已经使用 FindWindows (#32770) 尝试了所有建议,还尝试了非常不可靠的 Send Keys.有人可以建议操作此对话框的代码,或者检查网页上的 HTML 以查看是否可以直接下载? 将 htm 调暗为
..
这是我打开 Chrome 的代码: from selenium import webdriverdriver=webdriver.Chrome('C:\\Users\\Imran\\AppData\\Local\\Programs\\Python\\Python36\\selenium\\chromedriver.exe') 运行程序时出错: Traceback(最近一次调用最后):文件“C
..
我正在尝试在 python 中使用 selenium 构建一个刮板.Selenium webdriver 打开窗口并尝试加载页面但突然停止加载.我可以在本地 chrome 浏览器中访问相同的链接. 这是我从 webdriver 获得的错误日志: {'level': 'SEVERE', 'message': 'https://shop.coles.com.au/a/a-nsw-metro-r
..
我正在尝试使用 Puppeteer 获取页面的描述,我有一个高阶函数,为该函数提供页面对象: export const checkDescription = async page =>{const metaDescription = 等待页面.$eval('元[名称=“描述"]',描述=>description.getAttribute("内容"));返回元描述;}; 该功能按预期工作.然后,
..
我想知道是否有任何与 PhantomJS 等效的 Java 库.我想要实现的是能够模拟表单登录和从网页提交操作,也可以进行页面抓取.我知道 jsoup 会进行页面抓取,但不会进行页面自动化. 提前致谢! 干杯,亚历克斯 解决方案 有一个用于 Java 的 PhantomJS 驱动程序叫做 GhostDriver.也许这符合您的要求?
..
几天前,我在 Power BI 中创建了一个 Web 查询,允许我从 NBA 球员统计数据 不使用任何标题.截至今天,我注意到该查询不再有效;我收到以下错误消息: DataSource.Error: 底层连接已关闭.接收时发生意外错误.详情:https://stats.nba.com/stats/leaguedashplayerstats?College=&Conference=&Country
..
我想让 scrapy 抓取下一个链接如下所示的页面: 下一个 scrapy 是否能够解释其中的 javascript 代码? 通过 livehttpheaders 扩展,我发现单击 Next 会生成一个 POST,其中包含一个非常大的“垃圾",如下所示: encoded_session_h
..
我正在开发一个个人项目,这是一个用户可以输入地址和地址的应用程序.信用卡信息,然后单击按钮为我经常访问的一所大学购买停车许可证. 我想将我的前端托管在 firebase 的云存储中,并且我想创建一个云函数,其中 puppeteer 代码可以使用我保存到 firebase 实时数据库的信息运行. firebase 云函数是否可以运行购买停车证的 puppeteer 代码? 由于 p
..
我的问题: 我正在使用 Cheerio、Node.js 和 Google Cloud Functions 构建一个网络抓取工具. 问题是我需要发出多个请求,然后在调用 response.send() 之前将每个请求中的数据写入 Firestore 数据库,从而终止函数. 我的代码需要两个循环:第一个循环是来自我的数据库的 url,每个循环都发出单独的请求.第二个循环是 Cheer
..
我想知道在 requests.get 中传递标头有什么不同,即 requests.get(url, headers) 和 requests 之间的区别.get(url). 我有这两段代码: from lxml import html从 lxml 导入 etree进口请求进口重新url = "http://www.amazon.in/SanDisk-micro-USB-connector-O
..
我正在用 node.js 编写一个应用程序,它将导航到一个网站,点击网站上的一个按钮,然后从网站中提取某些数据.除了单击按钮方面外,一切都进行得很顺利.我似乎无法模拟按钮点击.我对此非常陌生,所以我很感激你们的任何建议!遗憾的是,我已经在互联网上寻找解决此问题的方法,但一直找不到. 我在使用“request"和“cheerio"的 .js 文件中使用了 .click() 和 .bind('c
..
我尝试通过 Scrapy 抓取 Amazon.但我有这个错误 调试:重试 (失败 1 次):503 服务不可
..