web-scraping相关内容

数据表的 Excel VBA 网页抓取

我正在尝试从名册资源中获取数据,这是一个网页示例 (https://www.rosterresource.com/mlb-arizona-diamondbacks).至少,我想获得“预计的“首选"首发阵容,并将该数据导入到我的电子表格中.然后,我会为 Roster Resource 中的每个 MLB 球队执行此操作,以创建包含每个团队和每个团队的预计阵容的表格. 我尝试了“getElemen ..
发布时间:2021-12-17 14:10:20 前端开发

为什么 bs4 返回标签,然后返回一个空列表到这个 find_all() 方法?

查看 美国人口普查 QFD 我试图抓住按县划分的种族百分比.我正在构建的循环超出了我的问题范围,这涉及此代码: url = 'http://quickfacts.census.gov/qfd/states/48/48507.html'#德克萨斯州的最后一个县;出于某种原因,qfd # 的县只有奇数页面 = urllib2.urlopen(url)汤 = BeautifulSoup(页面)c_bl ..
发布时间:2021-12-17 14:10:08 前端开发

Excel VBA/JSON 来抓取 UPS 跟踪交付

感谢@QHarr 的帮助和代码,我从 Fedex、DHL 和 Startrack 获得了跟踪信息.我一直在尝试使用他的代码和 UPS 跟踪 Web 服务开发人员指南和跟踪 JSON 开发人员指南让 UPS 在 Excel 中也能正常工作.JSON 转换器代码来自这里 https://github.com/VBA-tools/VBA-JSON/blob/master/JsonConverter.ba ..
发布时间:2021-12-17 14:09:57 其他开发

Excel VBA web 源代码 - 如何将多个字段提取到一张表

各位下午好.在 QHarr 非常解决的上一个查询的后续操作中,我想针对源代码中的多个字段运行已解决的查询,而不仅仅是一个. 我使用的 URL 是:https://finance.yahoo.com/quote/AAPL/?p=AAPL 和采用 'Previous Close' 价格的 VBA 代码是: 选项显式子上一个关闭()Dim html As HTMLDocument, htt ..
发布时间:2021-12-17 14:09:40 其他开发

易趣产品刮刀

我对 VBA 非常有限, 代码在一个模块中,代码也有一个子进程,如果我把代码贴错了,请见谅 A) 打开 IE B) 子进程获取数据. 代码在 ebay.com 上运行良好,但不适用于 ebay.co.uk - 不知道为什么,它还将 url 转换为超链接 它只处理第一页,我需要它浏览 X 个页面 - 有一个代码但无法使其工作,所以已将其删除. 搜索查询可以在Ebay打 ..
发布时间:2021-12-17 14:09:33 其他开发

亚马逊销售数据(使用 Excel VBA)

我正在尝试通过 Excel VBA 获取我搜索的每个关键字的结果编号(在 HTML 代码中).通过 className、id 和 data-asin 缩小标准,但事实证明最后一个很棘手,因为 VBA 尚不支持该参考库. 这段代码的结构是为了做什么: 访问 amazon.com 并转到搜索栏. 循环从 C 列开始.从 SearchTerm1 列中提取一个搜索词并进行搜索. 加 ..

BeautifulSoup - 只返回第一桌

我最近一直在使用 BeautifulSoup.我正在尝试从 https://www.pro 获取数据-football-reference.com/teams/mia/2000_roster.htm 网站.具体来说,我想要的是玩家姓名和“gs"(游戏开始). 但是,在执行此操作时,它仅返回第一个('Starters')表数据.我实际上对那个顶级表根本不感兴趣,我想要名为“名册"的第二个表. ..
发布时间:2021-12-17 14:09:08 Python

抓取的 HTML 与源代码有何不同?

我正在从网站上抓取餐馆列表(经许可),但遇到了问题.来自网站的 html python 抓取与源代码​​中的 html 不同.他们网站上不到一半的餐厅是在 python 的 html 中找到的.这是我的代码的样子: 导入请求从 bs4 导入 BeautifulSoup从临时文件导入临时文件进口xlwturl = 'https://www.example.com'r = requests.get( ..
发布时间:2021-12-17 14:08:42 前端开发

延迟后的屏幕抓取网页

我正在尝试使用 C# 抓取网页,但是在页面加载后,它会执行一些 JavaScript,将更多元素加载到我需要抓取的 DOM 中.一个标准的爬虫程序只是在加载时抓取页面的 html,而不是通过 JavaScript 获取 DOM 更改.我如何放入某种功能以等待一两秒钟然后获取源代码? 这是我当前的代码: private string ScrapeWebpage(string url, Dat ..
发布时间:2021-12-17 14:08:17 C#/.NET

无法使用 htmlagilitypack 从 https URL 下载 HTML 数据

我有一个“小"问题 htmlagilitypack(HAP).当我尝试从网站获取数据时出现此错误: 类型为“System.ArgumentException"的未处理异常发生在mscorlib.dll 附加信息:“gzip"不是受支持的编码名称.有关定义自定义编码的信息,请参阅文档用于 Encoding.RegisterProvider 方法. 我正在使用这段代码从网站获取数据: ..
发布时间:2021-12-17 14:07:28 C#/.NET

CSV 导出 - 使用 scrapy crawl -o output.csv 对列进行排序

有没有办法使用 -o 参数指定 CSV 输出中列的顺序? 它似乎遵循随机顺序,不遵循 items.py 文件中的顺序,或者当项目字段在刮取中填充时. 谢谢! 解决方案 有一个相关的field_to_export 属性 在 CsvItemExporter,但是,据我所知,无法从命令行设置它.你需要通过管道来做,见: 如何使用 BaseItemExporter 中的 fiel ..
发布时间:2021-12-17 14:07:21 Python

使用 Apps Script 抓取 javascript 渲染的网页

我正在努力将脚本放在一起来处理通过 Apps 脚本抓取 javascript 呈现的网页.在如何使用Javascript抓取Javascript呈现的网站?在这里找到了这个,但我不知道如何把它放在一起.比如负载木偶.任何帮助将不胜感激. 解决方案 您可以尝试抓取初始 HTML,因为实际上抓取呈现的 HTML 非常困难,您必须使用无头浏览器. > 有这个库:https://github. ..
发布时间:2021-12-17 14:06:57 前端开发

将 HTML 文档的 javascript 部分中的字段提取到表格中?地理坐标

我有一个 HTML 文档,其中包含一段 JavaScript 中的地理信息.这是这个网页的源代码:https://energy.ehawaii.gov/epd/public/energy-projects-map.html 这可以看作是一张地图,也可以看作是一个列表. 我想要实现的是在 Excel 中拥有该列表,但有一个“纬度"字段和一个“经度"字段.Google 地图标记在 Java ..
发布时间:2021-12-17 14:06:42 前端开发

如何使用 Google-apps-script 从延迟加载的网页中抓取数据(通过 API)?

我正在尝试使用 Google-apps-script 创建一个自动化流程,以从这样的页面中抓取价格数据: https://www.barchart.com/stocks/报价/$AVVN/价格历史/历史 具有挑战性的部分是,网页上的数据是“延迟加载"的,因此我在其他网页上使用的“传统"转义方法在这里不起作用. 我已经考虑了解决这个问题的其他方法 - 但是: 条形图不提供数据 ..
发布时间:2021-12-17 14:06:31 其他开发

使用 jsoup 和 selenium 进行网页抓取

我想用selenium和jsoup从这个动态网站中提取一些信息.要获取我想要提取的信息,我必须单击“Details öffnen"按钮.第一张图显示点击按钮前的网站,第二张图显示点击按钮后的网站.红色标记的信息是我要提取的信息. 我首先尝试仅使用 Jsoup 提取信息,但有人告诉我 Jsoup 无法处理动态内容,因此我现在尝试使用 selenium 和 Jsoup 提取信息,就像您在源代码中 ..
发布时间:2021-12-17 14:06:16 Java开发

网页抓取导致 403 禁止错误

我正在尝试使用 BeautifulSoup 从 SeekingAlpha 中抓取每家公司的收入.但是,该站点似乎正在检测到正在使用网络抓取工具?我收到“HTTP 错误 403:禁止" 我试图抓取的页面是:https://seekingalpha.com/symbol/AMAT/收益 有谁知道可以做些什么来绕过这个? 解决方案 我能够通过使用代理访问站点内容,从这里找到: ..
发布时间:2021-12-17 14:06:07 Python