python-requests-html相关内容

无法从网页获取所有链接

我正在做一个网页抓取项目.我正在抓取的网站的 URL 是 https://www.beliani.de/sofas/ledersofa/ 我正在抓取此页面上列出的所有产品链接.我尝试使用 Requests-HTML 和 Selenium 获取链接.但是我分别得到了 57 个和 24 个链接.虽然页面上列出了 150 多种产品.下面是我正在使用的代码块. 使用硒: from selen ..
发布时间:2021-09-24 19:04:13 Python

抓取 ASPX 表单并避免使用 Selenium

我之前问过(请参阅此处)如何从 ASPX 表单中抓取结果.表单在新选项卡中呈现输出(通过使用 JS 中的 window.open 函数).在我之前的帖子中,我没有提出正确的 POST 请求,我解决了这个问题. 以下代码使用正确的请求标头成功从表单中检索到 HTML 代码,它与我在 Chrome 检查器中看到的 POST 响应完全相同.但是(...)我无法检索数据.用户做出选择后,会打开一个新 ..

尝试使用 requests-html (Python 3.6) 抓取 JS 网页时出现问题

上周我试图从 Epic Games Store 网页(https://www.epicgames.com/store/en-US/),我第一次尝试使用 Requests 模块,但很快我意识到我需要一个支持 javascript webs 的模块.这就是我现在正在尝试的,但是有一个问题......当我使用“检查元素"时在页面上,一切都很好,但是当我执行此操作时: from requests_htm ..

如何在滚动时从使用 javascript 加载元素的网页中抓取?

我的朋友问我是否可以编写一个网页抓取脚本来从特定网站收集 pokemon 的数据. 我编写了以下代码来呈现 javascript 并获取一个特定的类来从网站收集数据 (https://www.smogon.com/dex/ss/pokemon/). 问题是,当您向下滚动页面时,页面会加载更多条目.有什么办法可以从这里刮掉吗?我是网络抓取的新手,所以我不完全确定这一切是如何工作的. f ..
发布时间:2021-09-24 18:46:16 前端开发

Web似乎是通过Python在Javascript中嵌入的区块链数据抓取方法,这是否是正确的方法?

我引用的是此网址: https://tracker.icon.foundation/block/29562412 如果您向下滚动到“交易",则显示2个具有单独链接的交易,这基本上就是我要尝试的交易.如果我尝试一个简单的pd.read_csv(url)命令,它显然会忽略我要查找的数据,因此我认为它可能是基于JavaScript的,而是尝试了以下代码: 来自request_html的 导入H ..
发布时间:2021-04-15 20:20:21 前端开发