beautifulsoup相关内容

如何将带有特殊字符的字符串变量转换为正确打印

如果标题令人困惑,我很抱歉,但我已经研究了两个小时,不知道我应该如何提出这个问题,所以任何人都可以自由编辑这篇文章。 我有一个使用Web抓取创建的字符串变量,它使用特殊字符,类似于“ud83dude00u0107u00e7 Hello“打印时没有引号。问题是我希望它打印实际的特殊字符,但我不确定应该使用什么编码方法。如果我复制并粘贴准确的字符串并打印它,它工作得很好,但作为我创建的变量,它不显示 ..
发布时间:2022-05-19 10:41:59 Python

从.csv中读取URL并将抓取结果添加到前面使用的Python、BeautifulSoup、Pandas

我让这段代码几乎正常工作,尽管我对此一无所知。请帮我打出本垒打! 问题1:输入: 我有一个很长的URL列表(1000+)可供读取,它们位于.csv中的单个列中。我更愿意读取该文件,而不是将它们粘贴到代码中,如下所示。 问题2:输出: 源文件实际上有3个驱动程序和3个挑战。在一个单独的python文件中,下面的代码查找、打印并保存所有3个文件,但在我使用下面的数据帧时不会(见 ..
发布时间:2022-04-05 11:50:13 Python

如何从ROW获取HREF

我做了一些电报机器人,我需要从html获得链接。 我想从这个网站获取比赛的HREFhttps://www.hltv.org/matches 我之前的代码是 elif message.text == "Matches": url_news = "https://www.hltv.org/matches" response = requests.g ..
发布时间:2022-04-03 20:53:39 Python

从Vivino.com上抓取数据

我正在尝试从vivino.com收集数据,但DataFrame结果为空,我可以看到我的汤正在收集网站信息,但看不到我的错误在哪里。 我的代码: def get_data(): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/ ..
发布时间:2022-03-02 10:33:49 Python

如何将bs4.element.ResultSet转换为字符串?蟒蛇

我有一个简单的代码,如下所示: p = soup.find_all("p") paragraphs = [] for x in p: paragraphs.append(str(x)) 我正在尝试转换从XML获得的列表,并将其转换为字符串。我想保留它的原始标签,这样我就可以重复使用一些文本,这就是我为什么要这样附加它的原因。但该列表包含6000多 ..
发布时间:2022-02-26 11:04:53 Python

如何构建Etherscan网络大楼?

我正在构建一个网络爬行器,它每隔30秒不断刷新一批以太扫描URL,如果发生了任何未考虑在内的新传输,它会向我发送电子邮件通知和指向以太扫描上相关地址的链接,以便我可以手动检查它们。 我想要跟踪的地址之一在这里: https://etherscan.io/token/0xd6a55c63865affd67e2fb9f284f87b7a9e5ff3bd?a=0xd071f6e384cf27 ..

在 python 3 中使用 requests.get 获取数据之前等待页面加载

我有一个页面,我需要获取与 BS4 一起使用的源,但页面中间需要 1 秒(可能更少)来加载内容,并且 requests.get 在该部分之前捕获页面的源加载,如何在获取数据之前等待一秒钟? r = requests.get(URL + self.search, headers=USER_AGENT, timeout=5 )汤 = BeautifulSoup(r.content, 'html.pa ..