web-scraping 第9页 - IT屋-程序员软件开发技术分享社区

Excel VBA 激活 web 中的选择项并上网获取数据

我对擅长 VBA 非常有兴趣.我尝试使用互联网上的所有潜在解决方案来激活 web 中的 selectitem 并获取数据表，但没有奏效.我的 Excel VBA 代码和 Javascript 如下. Sub GetQuarterFinancials()Dim ie As Object, URL As StringURL = "https://www.marketwatch.com/investi ..

发布时间：2021-12-17 14:15:08 html excel vba web-scraping onchange 前端开发

Excel VBA - 网页抓取 - HTML 表格单元格的内部文本

我正在尝试构建一个宏，以根据货件编号从网络上抓取货物货件的状态.我正在使用 XML-HTTP 方法，但我是 VBA 网页抓取的新手.我试图通过使用 GetValuebyID,Tag, Class 来获取值，但没有成功. 突出显示的行是我需要从中提取值的行.[需要提取 10 个交付值中的 10 个][1] 这是我对代码的了解程度. Sub FlightStat()Dim XMLReq ..

发布时间：2021-12-17 14:14:59 excel vba web-scraping 其他开发

如何在 Qulatrics 中循环数百张图像 - 实现代码所需的帮助

我想使用 Qualtrics 来获得 700 多张图像的评分(即，参与者必须指出他们发现它们的负面或正面的程度).每个图像的问题将完全相同，但似乎没有简单的方法来创建问题一次，然后循环遍历我希望参与者评分的所有图像.显然，我真的不想写同样的问题 700 次. 我在 Stack Overflow 上找到了一个相关的答案，似乎提出了一个很好的解决方案 - 在这里:使用照片或图形以及循环和合并在 ..

发布时间：2021-12-17 14:14:35 python loops powershell web-scraping qualtrics Python

Casperjs 抓取动态内容

我正在尝试抓取此页面使用 Casperjs.我的代码的主要功能工作正常，但内容是动态加载的，我不知道如何触发. 这就是我现在正在做的: casper.waitFor(function() {this.scrollToBottom();var count = this.evaluate(function() {var match = document.querySelectorAll('. ..

发布时间：2021-12-17 14:14:22 javascript web-scraping casperjs dynamic-content 前端开发

使用 Python、BeautifulSoup 进行动态数据网页抓取

我正在尝试从 HTML 中提取许多页面的数据(数字).每个页面的数据都不同.当我尝试使用 soup.select('span[class="pull-right"]') 它应该给我号码，但只有标签出现.我相信这是因为网页中使用了 Javascript.180,476 是我想要用于许多页面的此特定 HTML 中的数据位置: 浏 ..

发布时间：2021-12-17 14:14:03 javascript python html web-scraping beautifulsoup 前端开发

标签显示在 chrome 中，但不是源代码

; 自动. ..

发布时间：2021-12-17 14:13:47 html google-chrome web-scraping 前端开发

python请求&Beautifulsoup 机器人检测

我正在尝试使用 requests & 抓取页面的所有 HTML 元素.美汤.我正在使用 ASIN(亚马逊标准识别码)来获取页面的产品详细信息.我的代码如下: from urllib.request import urlopen进口请求从 bs4 导入 BeautifulSoupurl = "http://www.amazon.com/dp/" + 'B004CNH98C'响应 = urlopen ..

发布时间：2021-12-17 14:13:36 python html web-scraping beautifulsoup python-requests 前端开发

哪个执行速度更快，无头浏览器或 Curl?

我每天需要打开大约 100,000 个 URL，以便图像和 html 缓存到 Cloudflare 中，因为内容变化相当频繁. 我怀疑 Curl 的执行速度可能比无头浏览器(通过 puppeteer 无头浏览器) 有没有人有这方面的经验或者有更好的方法吗? 解决方案首先，我相信 libcurl 的 curl_multi api 比无头浏览器快得多.即使在 PHP 下运行(这是 ..

发布时间：2021-12-17 14:13:29 node.js curl web-scraping puppeteer 其他开发

无法让我的解析器向下滚动

我在 vba 中编写了一个脚本来解析网页中的一些信息.问题是在从该网页抓取任何信息之前，我需要让我的抓取器向下滚动几次.这是我被困的地方.我需要滚动的部分是左侧窗口.任何帮助将不胜感激. 网站链接这是我的尝试: Sub Make_Scroll()Dim HTML As HTMLDocument, post As ObjectDim Scroll 作为对象，URL$URL = "re ..

发布时间：2021-12-17 14:13:18 vba excel scroll web-scraping internet-explorer-11 其他开发

使用 VBA 进行网页抓取(当 HTML <> DOM 时)

我在抓取这个特定网页的数据时遇到了一个可怕的时间...基本上，当我在浏览器中加载 URL 并手动按 F12 时，我可以在“DOM 资源管理器"中看到我需要的信息，但是当我以编程方式尝试时做同样的事情(见下文)，HTMLDoc 不包含我在“DOM 资源管理器"中看到的相同信息...... 公共子 testCode()将 IE 调暗为 SHDocVw.InternetExplorer将 HTMLDo ..

发布时间：2021-12-17 14:13:07 json vba excel web-scraping xmlhttprequest 其他开发

使用 r rvest 进行网页抓取数据表

我正在尝试从以下网站抓取一张表格: http://www.basketball-reference.com/leagues/NBA_2016.html?lid=header_seasons#all_misc_stats 该表格的标题是“杂项统计"，问题是该网页上有多个表格，我不知道我是否识别出正确的表格.我尝试了以下代码，但它创建的只是一个空白数据框: 库(rvest)广告 ..

发布时间：2021-12-17 14:12:24 r dataframe web-scraping rvest 其他开发

使用 BS4 抓取雅虎财经统计数据

我是 Python 编程的新手，但我发现了一些不同的代码片段并将它们编译到下面的代码中.Python 脚本从汇总数组中返回所有正确的 HTML 值，但没有从统计数组中返回值，因为这些值没有得到匹配. 我不知道如何提取雅虎财经统计面板上的值.它被称为 url2 和 key_stats_on_stat. 我希望你愿意帮助我. import os, sys导入 csv从 bs4 导入 Be ..

发布时间：2021-12-17 14:12:17 python selenium web-scraping beautifulsoup yahoo-finance Python

如何从网页中提取动态ajax内容

我的要求是从网页中提取所需的内容.该页面有一个部分正在使用 ajax 进行填充.当我在页面源中查看时，它没有显示使用 ajax 加载的内容.部分内容将根据选中的复选框而变化.如果我们选中“印度"复选框，则该部分将显示印度的所有详细信息.页面源将只显示默认内容，而不是使用 ajax 显示的内容.选中复选框后我检查了页面源，它仍然只显示默认值.如何获取该部分内容，解决方案在 C# 中可 ..

发布时间：2021-12-17 14:12:07 c# parsing c#-4.0 html-parsing web-scraping C#/.NET

自动表单字段输入和网页结果检查的程序

我正在尝试用 C#(可能使用 WinForms)创建一个程序，该程序将在特定网站并验证许可证编号是否为当前有效的许可证. 我不确定从哪里开始，因为我什至无法在网站的源代码中找到表单字段 ID，也不确定该网站使用了哪些技术. 此外，此程序的目的是输入许可证编号列表并返回每个许可证的名称和验证状态.数据源是网站. 任何有关如何解决此问题的信息将不胜感激，我是一名中级 C# 开发人 ..

发布时间：2021-12-17 14:11:59 c# .net winforms web-scraping webbrowser-control C#/.NET

如何使用美丽的汤从脚本标签中提取json?

我想使用美丽的汤从脚本标签中提取 reviewCount.尝试了不同的方法，但没有成功. {"languages":[{"isoCode":"all","displayName":"Toutes les langues","reviewCount":"573"},{"isoCode":"fr","displayName":"français","reviewCount":"567"},{"i ..

发布时间：2021-12-17 14:11:48 python html json web-scraping beautifulsoup 前端开发

使用 BeautifulSoup 抓取 IMDb 页面

我是 WebScraping/Python 和 BeautifulSoup 的新手，很难让我的代码正常工作. 我想抓取网址:http://m.imdb.com/feature/bornondate" 得到: 名人姓名名人形象职业最佳作品该页面上的十位名人.我不确定我做错了什么. 这是我的代码: 导入 urllib2从 bs4 导入 BeautifulSoup ..

发布时间：2021-12-17 14:11:32 python html web-scraping beautifulsoup html-parsing 前端开发

使用 Rselenium 单击跨域 iframe 元素

我使用的是 R 版本 3.3.2.使用 Rselenium 包，我试图从这个网站上抓取一些数据:http://www.dziv.hr/en/e-services/on-line-database-search/patents/ 我正在使用 Rselenium，我的代码如下所示: selServ 这不起作用: webel 然后我想使用 switchToFrame() 函数切换到 i ..

发布时间：2021-12-17 14:11:23 r iframe web-scraping cross-domain rselenium 其他开发

python - 使用 BeautifulSoup 抓取 ajax 网站

我正在尝试抓取使用 ajax 调用加载下一页的电子商务网站. 我能够抓取第 1 页上的数据，但当我将第 1 页滚动到底部时，第 2 页会通过 ajax 调用自动加载. 我的代码: from bs4 import BeautifulSoup 作为汤从 urllib.request 导入 urlopen 作为 ureqmy_url='http://www.shopclues.com/mo ..

发布时间：2021-12-17 14:10:48 python ajax web-scraping beautifulsoup 前端开发

如何在不同的选项卡/窗口中打开选择标签(下拉菜单)的选项?

我正在尝试使用 Python 和 Selenium 抓取此网站，它需要您从下拉框中选择一个日期，然后单击搜索以查看规划应用程序. 网址:https://services.wiltshire.gov.uk/PlanningGIS/LLPG/WeeklyList. 我有代码可以选择下拉框的第一个索引并按搜索.我如何为下拉框中的所有日期选项打开多个窗口，或者一个一个地浏览它们以便我可以抓取它 ..

发布时间：2021-12-17 14:10:36 python selenium selenium-webdriver drop-down-menu web-scraping Python

Facebook 抓取工具不加载动态元标签

我正在使用下面的函数 (GWT) 动态创建 HTML 元标记.在 DOM 上拥有这个需要 1 秒钟.除了 Facebook 之外，它运行良好.当我从我的网络分享链接时，抓取工具会获取 HTML 中的元标记:none.我该如何解决这个问题? /*** 包括 HTML 属性:标题、描述和关键字(元标记)*/私有无效 createHTMLheader(MyClass 东西){字符串标题=thing.g ..

发布时间：2021-12-17 14:10:28 html facebook web-scraping meta-tags scraper 前端开发

web-scraping相关内容