python - BeautifulSoup如何解析HTML的问题
本文介绍了python - BeautifulSoup如何解析HTML的问题的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
问 题
#-*- coding:utf-8 -*-
from bs4 import BeautifulSoup
html_doc = """
<!DOCTYPE html>
<html lang="en" xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta charset="utf-8" />
<title>New Document</title>
</head>
<body>
<div class="tab-pane active" id="all-school-box">
<div class="col-md-12 table-list">
<table class="table table-bordered">
<tr>
<td class="col-md-1"><strong>学校名</strong></td>
<td class="col-md-3">北京大学</td>
<td class="col-md-1"><strong>联系人</strong></td>
<td class="col-md-3">路人甲</td>
<td class="col-md-1"><strong>联系电话</strong></td>
<td>13800138000</td>
</tr>
<tr>
<td><strong>城市</strong></td>
<td>北京</td>
<td><strong>状态</strong></td>
<td>正常</td>
<td><strong>加入时间</strong></td>
<td>0000-00-00</td>
</tr>
<tr>
<td><strong>学生<br>(总数 / 正常)</strong></td>
<td>5961 / 4761</td>
<td><strong>学生B部<br>(总数 / 正常)</strong></td>
<td>5961 / 4761</td>
<td><strong>学生C部<br>(总数 / 正常)</strong></td>
<td>0 / 0</td>
</tr>
</table>
</div>
</div>
</div>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'lxml')
print(soup.prettify())
思路
这种是可以转换为json?
还是直接正则过滤出数字?
我需要5961 / 4761 分开输出
转换为str格式
5961
4761
解决方案
直接正则好了,简单粗暴:
pattern = re.compile(r'<td>(\d+) / (\d+)</td>')
m = pattern.findall(html_doc)
for item in m:
print(item[0])
print(item[1])
这篇关于python - BeautifulSoup如何解析HTML的问题的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文