web-scraping相关内容

Excel VBA“对象'IWebBrowser2'的方法'文档'失败"

我正在尝试在 Excel 中自动提交表单以进行工作,但在基础知识方面有问题.我不断收到错误消息: “对象'IWebBrowser2'的方法'文档'失败" 按原样使用代码,如果我在等待检查中包含 Or 部分,我会收到错误 “自动化错误调用的对象已与其客户端断开连接." 我不知道在这里做什么,我到处寻找解决方案.此代码旨在最终做更多的事情,但它在第一次尝试 getElement ..
发布时间:2021-12-03 16:58:08 其他开发

使用python抓取ajax页面

我已经看过这个关于抓取ajax的问题​​,但那里没有提到python.我考虑过使用 scrapy,我相信他们有关于该主题的一些文档,但正如您所看到的,该网站已关闭.所以我不知道该怎么办.我想做以下事情: 我只有一个 url,example.com,您可以通过单击提交从一个页面转到另一个页面,该 url 不会更改,因为他们使用 ajax 来显示内容.我想抓取每个页面的内容,怎么做? 假设 ..
发布时间:2021-12-03 12:29:32 前端开发

如何使用 casperjs 从 XHR 响应中捕获和处理数据?

网页上的数据是动态显示的,看起来检查html中的每一个变化并提取数据是一项非常艰巨的任务,还需要我使用非常不可靠的XPath.所以我希望能够从 XHR 数据包中提取数据. 我希望能够从 XHR 数据包中提取信息,并生成要发送到服务器的“XHR"数据包.提取信息部分对我来说更重要,因为通过使用 casperjs 自动触发 html 元素可以轻松处理信息的发送. 我附上了我的意思的截图. ..
发布时间:2021-12-03 12:16:29 前端开发

你如何抓取 AJAX 页面?

请告知如何抓取 AJAX 页面. 解决方案 概述: 所有屏幕抓取首先需要手动检查您要从中提取资源的页面.在处理 AJAX 时,您通常只需要分析更多的内容,而不仅仅是简单的 HTML. 在处理 AJAX 时,这仅意味着您想要的值不在您请求的初始 HTML 文档中,而是会执行 javascript,它会向服务器询问您想要的额外信息. 因此,您通常可以简单地分析 javascr ..
发布时间:2021-12-03 12:04:33 前端开发

如何从网页(带有“div类")导入表格到excel?

我正在尝试将参展商和国家/地区列表导入到 Excel 网页 但我没听懂. 有人可以帮我吗? 我已经尝试了本论坛中列出的方法,但不起作用. 子测试()Dim objIE 作为对象将 hmtl 调暗为 HTMLDocumentDim 元素作为 IHTMLElementCollection设置 objIE = 新 Internet ExplorerobjIE.Visible = Trueo ..
发布时间:2021-12-02 22:32:43 其他开发

使用vba从网站抓取数据

我试图从网站上抓取数据:http://uk.investing.com/利率债券/金融期货通过 vba,如实时价格,即德国 5 年波布尔,美国 30 年 T 债券,我尝试过 excel 网络查询,但它只会抓取整个网站,但我想只刮费率,有没有办法做到这一点? 解决方案 有几种方法可以做到这一点.这是我写的一个答案,希望在浏览关键字“从网站上抓取数据"时可以找到 Internet Explor ..
发布时间:2021-12-02 22:04:44 前端开发

在python 3中使用requests.get获取数据之前等待页面加载

我有一个页面,我需要获取与 BS4 一起使用的源,但是页面中间需要 1 秒(可能更少)来加载内容,并且 requests.get 在该部分之前捕获页面的源加载,我如何才能在获取数据之前等待一秒钟? r = requests.get(URL + self.search, headers=USER_AGENT, timeout=5 )汤 = BeautifulSoup(r.content, 'htm ..
发布时间:2021-12-02 17:25:50 其他开发

抓取谷歌财经(BeautifulSoup)

我正在尝试抓取 Google 财经,并根据 Chrome 中的网页检查器获取“相关股票"表,该表的 ID 为“cc-table",类为“gf-table".(示例链接:https://www.google.com/finance?q=tsla) 但是当我运行 .find("table") 或 .findAll("table") 时,这个表没有出现.我可以在 Python 的 HTML 内容中 ..
发布时间:2021-12-02 16:57:10 Python

使用 XML 包将 html 表抓取到 R 数据框

如何使用 XML 包抓取 html 表格? 以巴西足球队上的这个维基百科页面为例.我想在 R 中阅读它并获得“巴西与国际足联认可球队进行的所有比赛的列表"表作为数据框架.我该怎么做? 解决方案 ...或更短的尝试: 库(XML)图书馆(RCurl)图书馆(rlist)theurl ..
发布时间:2021-12-01 13:24:56 前端开发

HTML 抓取的选项?

我正在考虑尝试 Beautiful Soup,这是一个用于 HTML 抓取的 Python 包.我应该查看其他任何 HTML 抓取包吗?Python 不是必需的,我实际上也有兴趣了解其他语言. 到目前为止的故事: 蟒蛇 美汤 lxml HTQL Scrapy 机械化 红宝石 Nokogiri Hpricot 机械化 scrAPI scRUBYt! womba ..
发布时间:2021-12-01 13:13:30 前端开发

如何按类查找元素

我在使用 Beautifulsoup 解析具有“class"属性的 HTML 元素时遇到问题.代码看起来像这样 soup = BeautifulSoup(sdata)mydivs = 汤.findAll('div')对于 mydivs 中的 div:if (div["class"] == "stylelistrow"):打印div 我在脚本完成“之后"的同一行收到错误消息. 文件“./bea ..
发布时间:2021-12-01 13:12:58 Python

使用 python 和 BeautifulSoup 从网页中检索链接

如何使用Python检索网页链接并复制链接的url地址? 解决方案 以下是使用 BeautifulSoup 中的 SoupStrainer 类的简短片段: 导入httplib2从 bs4 导入 BeautifulSoup,SoupStrainerhttp = httplib2.Http()状态,响应 = http.request('http://www.nytimes.com')对于 B ..
发布时间:2021-12-01 00:06:59 Python

WebDriverWait 未按预期工作

我正在使用 selenium 来抓取一些数据. 我点击的页面上有一个按钮说“custom_cols".此按钮为我打开一个窗口,我可以在其中选择我的列. 这个新窗口有时需要一些时间才能打开(大约 5 秒).所以为了处理这个我使用了 WebDriverWait 延迟为 20 秒.但有时它无法在新窗口中选择查找元素,即使该元素可见.这种情况只有十次发生一次,其余时间它都可以正常工作. ..
发布时间:2021-11-30 23:02:57 Python

使用 AutoHotKey 查找并填充输入字段

对所有 AutoHotKey 高手的挑战: 给我们一个函数,该函数将查找和移动光标到输入字段(例如登录名),或者发送输入文本.对于像我这样只是摆弄 AHK 的老而懒惰的黑客来说,它看起来像这样: FindFillField(*elementid*,*sendtext*,*alt-text*) 其中 elementid 是该字段的 HTML id,例如用户名,其中 sendtext 是要填 ..
发布时间:2021-11-30 20:25:11 其他开发

属性错误:'NoneType' 对象没有属性 'parent'

from urllib.request import urlopen从 bs4 导入 BeautifulSouphtml= urlopen("http://www.pythonscraping.com/pages/page3.html")汤= BeautifulSoup(html.read())打印(soup.find("img",{"src":"../img/gifts/img1.jpg"}). ..
发布时间:2021-11-30 15:39:46 Python

Python Selenium 'WebDriver' 对象没有属性错误

我正在尝试从一个中文网站抓取一些 javascript 生成的内容.我正在使用 Selenium(和 Python),因为我无法直接抓取 javascript 内容. # -*- 编码:utf-8 -*-从硒导入网络驱动程序从 selenium.webdriver.common.keys 导入密钥from selenium.selenium 进口硒导入时间导入 urllib2导入 httplib ..
发布时间:2021-11-30 15:36:58 Python

AttributeError: ResultSet 对象没有属性“find_all"

我正在尝试复制一个网络抓取代码(来自一个教育网站),用于从维基百科中获取印度各州的名称.我一直收到“AttributeError: ResultSet object has no attribute 'find_all'"错误,因此无法继续.我在这里添加我的代码,希望能找到一些指导和帮助: # #import 库查询网站从 urllib.request 导入 urlopen#url 存储在一个 ..
发布时间:2021-11-30 15:35:01 Python

Android:在 Activity 上下文之外使用 WebView

我正在尝试通过后台 IntentService 实现网页抓取,该后台 IntentService 会定期抓取网站,而不会在用户手机上显示视图. 因为我必须在加载的页面上调用一些 javascript,所以我不能使用任何 HttpGet 等. 因此,我必须使用只能在 UI 线程上运行的 WebView 实例. 任何尝试启动使用 WebView 的 Activity 都会导致 View 进入 ..
发布时间:2021-11-27 23:24:01 移动开发

从 HTML 标签中的文件中抓取文本

我有一个要从中提取日期的文件,它是一个 HTML 源文件,因此里面充满了我不需要的代码和短语.我需要提取包含在特定 HTML 标记中的日期的每个实例: abbr title="((这是我需要的文字))" data-utime=" 实现这一目标的最简单方法是什么? 解决方案 如果您使用的是 Excel VBA,请设置对 MSHTML 库(名为 Microsoft HTML Obj ..
发布时间:2021-11-27 11:59:23 其他开发