beautifulsoup相关内容

如何按类查找元素

我在使用 Beautifulsoup 解析具有“class"属性的 HTML 元素时遇到问题.代码看起来像这样 soup = BeautifulSoup(sdata)mydivs = 汤.findAll('div')对于 mydivs 中的 div:if (div["class"] == "stylelistrow"):打印div 我在脚本完成“之后"的同一行收到错误消息. 文件“./bea ..
发布时间:2021-12-01 13:12:58 Python

使用 python 和 BeautifulSoup 从网页中检索链接

如何使用Python检索网页链接并复制链接的url地址? 解决方案 以下是使用 BeautifulSoup 中的 SoupStrainer 类的简短片段: 导入httplib2从 bs4 导入 BeautifulSoup,SoupStrainerhttp = httplib2.Http()状态,响应 = http.request('http://www.nytimes.com')对于 B ..
发布时间:2021-12-01 00:06:59 Python

UnicodeEncodeError: 'ascii' 编解码器无法对位置 20 中的字符 u'\xa0' 进行编码:序号不在范围内 (128)

我在处理从不同网页(在不同网站上)获取的文本中的 unicode 字符时遇到问题.我正在使用 BeautifulSoup. 问题在于错误并不总是可重现;它有时适用于某些页面,有时,它会抛出 UnicodeEncodeError.我已经尝试了几乎所有我能想到的方法,但我还没有找到任何可以在不抛出某种 Unicode 相关错误的情况下始终如一地工作的东西. 导致问题的代码部分如下所示: ..
发布时间:2021-11-30 23:19:10 Python

用beautifulsoup提取一个属性值

我正在尝试提取单个“值"的内容特定“输入"中的属性网页上的标签.我使用以下代码: 导入urllibf = urllib.urlopen("http://58.68.130.147")s = f.read()f.close()从 BeautifulSoup 导入 BeautifulStoneSoup汤 = BeautifulStoneSoup(s)inputTag = soup.findAll(a ..
发布时间:2021-11-30 15:41:01 Python

属性错误:'NoneType' 对象没有属性 'parent'

from urllib.request import urlopen从 bs4 导入 BeautifulSouphtml= urlopen("http://www.pythonscraping.com/pages/page3.html")汤= BeautifulSoup(html.read())打印(soup.find("img",{"src":"../img/gifts/img1.jpg"}). ..
发布时间:2021-11-30 15:39:46 Python

AttributeError: ResultSet 对象没有属性“find_all"

我正在尝试复制一个网络抓取代码(来自一个教育网站),用于从维基百科中获取印度各州的名称.我一直收到“AttributeError: ResultSet object has no attribute 'find_all'"错误,因此无法继续.我在这里添加我的代码,希望能找到一些指导和帮助: # #import 库查询网站从 urllib.request 导入 urlopen#url 存储在一个 ..
发布时间:2021-11-30 15:35:01 Python

UnicodeEncodeError: 'ascii' 编解码器无法对特殊名称的字符进行编码

我的 python (ver 2.7) 脚本运行良好,可以从本地 html 文件中获取一些公司名称,但是当涉及到某个特定的国家/地区名称时,它会出现此错误“UnicodeEncodeError: 'ascii' codec can't encode character" 出现这个公司名称时特别报错 公司名称:Kühlfix Kälteanlagen Ing.Gerhard Doczek ..
发布时间:2021-11-28 22:39:13 Python

Python 64位不存储与32位python一样长的字符串

我有两台电脑,都运行 64 位 Windows 7.一台机器有 python 32 位,一台运行 python 64 位.两台机器都有 8GB 的​​内存. 我正在使用 BeautifulSoup 抓取网页,但在我的 python64 机器上遇到了问题.我已经能够弄清楚我的 len(str(BeautifulSoup(request.get(http://www.sampleurl.com) ..
发布时间:2021-11-25 00:12:47 C#

使用 Python 抓取由 Javascript 创建的动态内容

我想使用 python 脚本废弃由 javascript 函数创建的 DIV 内容.我已经尝试过使用 BS4 并且通过这样做我无法获得动态数据.相反,它只显示源代码. 示例代码: 导入请求从 bs4 导入 BeautifulSoupURL = "https://rawgit.com/skysoft999/tableauJS/master/example.html"r = requests. ..
发布时间:2021-11-18 03:07:40 其他开发

Selenium Loop 将多个表附加在一起

我是这里的新 Python 用户.一直在写代码,用selenium和beautifulsoup去一个网站获取html表,转成数据框. 我正在使用 selenium 循环浏览许多不同的页面和漂亮的汤,以便从那里收集桌子. 我遇到的问题是我无法将所有这些表相互附加.如果我打印数据框,它只会打印最后一个被抓取的表.我如何告诉 beautifulsoup 将一个数据框附加到另一个的底部? ..
发布时间:2021-11-16 19:49:09 其他开发

Buildozer 编译 apk,但在 android 上崩溃

我能够构建一个 .apk,但在我的 android 手机上安装它后,它只是在启动时崩溃.我对失败的想法是我正在使用 3rd 方库,例如(beautifulsoup). 这是我的导入在 main.py 中的样子: from kivy.app import App从 kivy.properties 导入 ListProperty, StringProperty从 kivy.uix.boxlay ..
发布时间:2021-11-15 21:27:30 其他开发

硬抓取 API

如果您导航到以下 url 并选择 Search By 国家. 然后为Holder Country插入AE. 如下: 按搜索后.然后您会注意到对以下 APIXHR 调用> 这是一个 POST 请求. 就是这样: 如您所见,qz 有 value,我不知道它是如何实现的,以便调用 API 并进行分页 有人知道如何调用该 API 并进行分页吗? 我得到的最好的是处 ..
发布时间:2021-11-15 01:17:19 其他开发

如何从网站中提取冠状病毒病例?

我正在尝试从网站 (https://www.trackcorona.live) 中提取冠状病毒) 但我遇到了错误. 这是我的代码: response = requests.get('https://www.trackcorona.live')data = BeautifulSoup(response.text,'html.parser')li = data.find_all(class_= ..
发布时间:2021-11-15 01:15:43 其他开发

网页抓取 - 如何通过 Angular.js 访问以 JavaScript 呈现的内容?

我正在尝试从公共网站 asx.com.au 中抓取数据 页面 http://www.asx.com.au/asx/research/company.do#!/ACB/details 包含一个带有“view-content"类的 div,其中包含我需要的信息: 但是当我尝试通过 Python 的 urllib2.urlopen 查看此页面时,该 div 为空: 导入 urllib2从 b ..
发布时间:2021-11-09 02:42:34 其他开发

从无法访问的 JsonObject() 中提取数据

我正在尝试使用 JsObject 来抓取它. 导入请求从 bs4 导入 BeautifulSoupurl ='https://fjrgcwbcbo-dsn.algolia.net/1/indexes/*/queries?x-algolia-agent=Algolia%20for%20vanilla%20JavaScript%20(lite)%203.27.0%3Binstantsearch.js ..
发布时间:2021-10-26 18:35:58 其他开发

Python 64位不存储与32位python一样长的字符串

我有两台电脑,都运行 64 位 Windows 7.一台机器有 python 32 位,一台运行 python 64 位.两台机器都有 8GB 的​​内存. 我正在使用 BeautifulSoup 抓取网页,但在我的 python64 机器上遇到了问题.我已经能够弄清楚我的 len(str(BeautifulSoup(request.get(http://www.sampleurl.com) ..
发布时间:2021-10-26 16:10:56 其他开发

使用 ElementTree 解析 XML 时如何获取子节点的文本值

我有一个包含一堆产品的 XML 购物提要,见下文.如果我用漂亮的汤来解析它,以创建一个熊猫数据框,我会使用这样的东西: def parse_shopping_feed(feed_xml):#response = requests.get(feed_url)汤 = BeautifulSoup(feed_xml, "xml")all_products = []对于soup.find_all("ite ..
发布时间:2021-10-02 18:43:36 其他开发

用 BeautifulSoup 中的另一个标签替换一个标签

我试图在 XML 文档中找到一个标签,并用一个新标签完全替换它.我有我认为应该在下面工作的内容: para = monograph.find('para', text='Some text.')newpara = '一些new文本.'newpara = BeautifulSoup(newpara, 'xml')para.replace ..
发布时间:2021-10-01 19:18:58 其他开发

用于结果数量的 Python 谷歌包装器

我已经看到一些帖子来获取谷歌搜索的搜索结果数量,但到目前为止没有一个能满足我的需求.我想搜索一个带有空格的字符串,并获得与在 google 中手动执行的搜索几乎相同数量的结果.到目前为止我的日常是 导入请求从 bs4 导入 BeautifulSouptest='只是一个用于搜索的测试字符串'r = requests.get('http://www.google.com/search',参数={' ..
发布时间:2021-09-29 18:40:46 其他开发