web-scraping相关内容

Excel VBA - 网页抓取 - HTML 表格单元格的内部文本

我正在尝试构建一个宏,以根据货件编号从网络上抓取货物货件的状态.我正在使用 XML-HTTP 方法,但我是 VBA 网页抓取的新手.我试图通过使用 GetValuebyID,Tag, Class 来获取值,但没有成功. 突出显示的行是我需要从中提取值的行.[需要提取 10 个交付值中的 10 个][1] 这是我对代码的了解程度. Sub FlightStat()Dim XMLReq ..
发布时间:2021-12-17 14:14:59 其他开发

如何在 Qulatrics 中循环数百张图像 - 实现代码所需的帮助

我想使用 Qualtrics 来获得 700 多张图像的评分(即,参与者必须指出他们发现它们的负面或正面的程度).每个图像的问题将完全相同,但似乎没有简单的方法来创建问题一次,然后循环遍历我希望参与者评分的所有图像.显然,我真的不想写同样的问题 700 次. 我在 Stack Overflow 上找到了一个相关的答案,似乎提出了一个很好的解决方案 - 在这里:使用照片或图形以及循环和合并在 ..
发布时间:2021-12-17 14:14:35 Python

Casperjs 抓取动态内容

我正在尝试抓取此页面 使用 Casperjs.我的代码的主要功能工作正常,但内容是动态加载的,我不知道如何触发. 这就是我现在正在做的: casper.waitFor(function() {this.scrollToBottom();var count = this.evaluate(function() {var match = document.querySelectorAll('. ..
发布时间:2021-12-17 14:14:22 前端开发

哪个执行速度更快,无头浏览器或 Curl?

我每天需要打开大约 100,000 个 URL,以便图像和 html 缓存到 Cloudflare 中,因为内容变化相当频繁. 我怀疑 Curl 的执行速度可能比无头浏览器(通过 puppeteer 无头浏览器) 有没有人有这方面的经验或者有更好的方法吗? 解决方案 首先,我相信 libcurl 的 curl_multi api 比无头浏览器快得多.即使在 PHP 下运行(这是 ..
发布时间:2021-12-17 14:13:29 其他开发

无法让我的解析器向下滚动

我在 vba 中编写了一个脚本来解析网页中的一些信息.问题是在从该网页抓取任何信息之前,我需要让我的抓取器向下滚动几次.这是我被困的地方.我需要滚动的部分是左侧窗口.任何帮助将不胜感激. 网站链接 这是我的尝试: Sub Make_Scroll()Dim HTML As HTMLDocument, post As ObjectDim Scroll 作为对象,URL$URL = "re ..
发布时间:2021-12-17 14:13:18 其他开发

使用 VBA 进行网页抓取(当 HTML <> DOM 时)

我在抓取这个特定网页的数据时遇到了一个可怕的时间...基本上,当我在浏览器中加载 URL 并手动按 F12 时,我可以在“DOM 资源管理器"中看到我需要的信息,但是当我以编程方式尝试时做同样的事情(见下文),HTMLDoc 不包含我在“DOM 资源管理器"中看到的相同信息...... 公共子 testCode()将 IE 调暗为 SHDocVw.InternetExplorer将 HTMLDo ..
发布时间:2021-12-17 14:13:07 其他开发

使用 r rvest 进行网页抓取数据表

我正在尝试从以下网站抓取一张表格: http://www.basketball-reference.com/leagues/NBA_2016.html?lid=header_seasons#all_misc_stats 该表格的标题是“杂项统计",问题是该网页上有多个表格,我不知道我是否识别出正确的表格.我尝试了以下代码,但它创建的只是一个空白数据框: 库(rvest)广告 ..
发布时间:2021-12-17 14:12:24 其他开发

使用 BS4 抓取雅虎财经统计数据

我是 Python 编程的新手,但我发现了一些不同的代码片段并将它们编译到下面的代码中.Python 脚本从汇总数组中返回所有正确的 HTML 值,但没有从统计数组中返回值,因为这些值没有得到匹配. 我不知道如何提取雅虎财经统计面板上的值.它被称为 url2 和 key_stats_on_stat. 我希望你愿意帮助我. import os, sys导入 csv从 bs4 导入 Be ..
发布时间:2021-12-17 14:12:17 Python

如何从网页中提取动态ajax内容

我的要求是从网页中提取所需的内容.该页面有一个部分正在使用 ajax 进行填充.当我在页面源中查看时,它没有显示使用 ajax 加载的内容.部分内容将根据选中的复选框而变化.如果我们选中“印度"复选框,则该部分将显示印度的所有详细信息.页面源将只显示默认内容,而不是使用 ajax 显示的内容.选中复选框后我检查了页面源,它​​仍然只显示默认值.如何获取该部分内容, 解决方案 在 C# 中可 ..
发布时间:2021-12-17 14:12:07 C#/.NET

自动表单字段输入和网页结果检查的程序

我正在尝试用 C#(可能使用 WinForms)创建一个程序,该程序将在特定 网站 并验证许可证编号是否为当前有效的许可证. 我不确定从哪里开始,因为我什至无法在网站的源代码中找到表单字段 ID,也不确定该网站使用了哪些技术. 此外,此程序的目的是输入许可证编号列表并返回每个许可证的名称和验证状态.数据源是网站. 任何有关如何解决此问题的信息将不胜感激,我是一名中级 C# 开发人 ..
发布时间:2021-12-17 14:11:59 C#/.NET

python - 使用 BeautifulSoup 抓取 ajax 网站

我正在尝试抓取使用 ajax 调用加载下一页的电子商务网站. 我能够抓取第 1 页上的数据,但当我将第 1 页滚动到底部时,第 2 页会通过 ajax 调用自动加载. 我的代码: from bs4 import BeautifulSoup 作为汤从 urllib.request 导入 urlopen 作为 ureqmy_url='http://www.shopclues.com/mo ..
发布时间:2021-12-17 14:10:48 前端开发

如何在不同的选项卡/窗口中打开选择标签(下拉菜单)的选项?

我正在尝试使用 Python 和 Selenium 抓取此网站,它需要您从下拉框中选择一个日期,然后单击搜索以查看规划应用程序. 网址:https://services.wiltshire.gov.uk/PlanningGIS/LLPG/WeeklyList. 我有代码可以选择下拉框的第一个索引并按搜索.我如何为下拉框中的所有日期选项打开多个窗口,或者一个一个地浏览它们以便我可以抓取它 ..

Facebook 抓取工具不加载动态元标签

我正在使用下面的函数 (GWT) 动态创建 HTML 元标记.在 DOM 上拥有这个需要 1 秒钟.除了 Facebook 之外,它运行良好.当我从我的网络分享链接时,抓取工具会获取 HTML 中的元标记:none.我该如何解决这个问题? /*** 包括 HTML 属性:标题、描述和关键字(元标记)*/私有无效 createHTMLheader(MyClass 东西){字符串标题=thing.g ..
发布时间:2021-12-17 14:10:28 前端开发