web-scraping相关内容

lxml/requests 可以选择下拉选项然后解析生成的ajax吗?

我有一个要测试的网站,虽然我可以在下拉列表中获得选项列表,但我不确定如何选择它?没有提交按钮,所以如果我选择它,那么它会在下面加载一个 ajax 表. 我只是不确定 lxml/requests 是否可以做到这一点,或者如何做到这一点?如果有人可以确认或知道可以执行此操作的功能,我将不胜感激? 编辑:我的网站是内部网站,无法访问,但这里有一个示例网站:https://www.tsx.co ..
发布时间:2021-12-31 20:16:43 Python

如何使用 Puppeteer 单击网站上的按钮,而没有分配任何类、id、...?

所以我想点击网站上的一个按钮.该按钮没有 id、class、...所以我应该找到一种方法来单击上面带有名称的按钮.在这个例子中,我应该点击名称“Supreme®/TheNorth Face® 皮革单肩包" 这是我在 Node.js 中的代码 const puppeteer = require('puppeteer');让刮=异步()=>{const browser = await pupp ..
发布时间:2021-12-29 13:30:47 前端开发

如何使用VBA获取谷歌搜索的第一个搜索结果链接?

在我的日常任务中,我目前必须搜索大量产品并收集有关这些产品的信息.所以我的想法是在 google 上搜索产品,并通过从产品标题部分提取数据来从第一个搜索结果中获取信息,并且几乎对许多产品进行循环. 到目前为止,这是我的代码: Sub SkuAutomation()变暗为对象'导航到谷歌Set ie = CreateObject("InternetExplorer.application") ..
发布时间:2021-12-29 13:27:53 其他开发

从机场网站抓取航班数据表失败

我一直在尝试从新德里国际机场的网站上抓取国内航班的到达和离开数据.我几乎尝试了所有方法,但无法提取数据.当我运行代码时,它什么都不返回.我在另一个机场网站上尝试了类似的代码,但它有效.这是我写的代码. res = requests.get("https://m.newdelhiairport.in/live-flight-information-all.aspx?FLMode=A&FLType= ..
发布时间:2021-12-23 20:56:04 Python

在使用 Python 和 Beautiful Soup 4 抓取 Twitter 的同时专注于特定结果?

这是我帖子的后续使用Python 在 Twitter 中抓取嵌套的 Div 和 Span?. 我没有使用 Twitter API,因为它不查看推文很久以前的标签.完整的代码和输出在示例之后如下. 我想从每条推文中抓取特定数据.name 和 handle 正在检索我正在寻找的内容,但我无法缩小其余元素的范围. 举个例子: link = soup('a', {'class': ' ..
发布时间:2021-12-23 20:54:22 Python

Beautiful Soup 不等到页面完全加载

因此,使用下面的代码,我想打开一个公寓网站 URL 并抓取网页.唯一的问题是 Beautiful Soup 不会等到整个网页都被呈现.公寓不会在 html 中呈现,直到它们加载到页面上,这需要几秒钟.我该如何解决这个问题? from urllib.request import urlopen as uReq从 bs4 导入 BeautifulSoup 作为汤my_url = 'https://x ..
发布时间:2021-12-23 20:51:28 前端开发

熊猫 read_html - 没有找到表格

我正在尝试查看是否可以从 WU.com 读取数据表,但由于找不到表而出现类型错误.(这里也是第一次进行网络抓取)还有另一个人有一个非常相似的 stackoverflow 问题 here 使用 WU 数据表,但解决方案对我来说有点复杂. 将pandas导入为pddf_list = pd.read_html('https://www.wunderground.com/history/daily/us ..
发布时间:2021-12-23 20:51:21 Python

在 BeautifulSoup 中处理印度语言

我正在尝试抓取 NDTV 网站的新闻标题.这个是我用作 HTML 源的页面.我正在使用 BeautifulSoup (bs4) 来处理 HTML 代码,并且一切正常,除了当我在链接到的页面中遇到印地语标题时我的代码会中断. 到目前为止我的代码是: 导入 urllib2从 bs4 导入 BeautifulSouphtmlUrl = "http://archives.ndtv.com/arti ..
发布时间:2021-12-23 20:49:56 Python

在会话中发出后续 POST 请求不起作用 - 网络抓取

这就是我想要做的:去这里,然后点击“搜索".获取数据,然后点击“下一步",并继续点击下一步,直到你用完页面.一切都到点击“下一步"工作.这是我的代码.r.content 的格式在我打印它的两次完全不同,表明即使我想要非常相似的行为,GET 和 POST 请求之间也发生了一些不同的事情.为什么会发生这种情况? 我觉得奇怪的是,即使在似乎返回错误内容的 POST 请求之后,我仍然可以解析我需要的 ..
发布时间:2021-12-23 20:49:12 Python

使用 BeautifulSoup 获取特定标签后的值

我很难让 BeautifulSoup 为我抓取一些数据.从此代码示例中访问日期(实际数字,2008 年)的最佳方式是什么?这是我第一次使用 Beautifulsoup,我已经想出了如何从页面上刮掉 url,但我不能完全缩小范围以只选择单词 Date,然后只返回后面的任何数字日期(在 dd括号).我问的可能吗? 日期2008年 解决方案 找到 dt 标签 ..
发布时间:2021-12-23 20:48:54 Python