如何从 BeautifulSoup 中获取 CData [英] How can i grab CData out of BeautifulSoup
本文介绍了如何从 BeautifulSoup 中获取 CData的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我有一个我正在抓取的网站,其结构与以下类似.我希望能够从 CData 块中获取信息.
我正在使用 BeautifulSoup 从页面中提取其他信息,所以如果解决方案可以使用它,它将有助于降低我的学习曲线,因为我是 Python 新手.具体来说,我想获取隐藏在 CData 语句中的两种不同类型的数据.第一个只是文本我很确定我可以在它上面抛出一个正则表达式并得到我需要的东西.对于第二种类型,如果我可以将包含 html 元素的数据放入它自己的 beautifulsoup 中,我可以解析它.
我只是在学习 python 和 beautifulsoup,所以我正在努力寻找能够单独提供 CData 的魔法咒语.
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml"><头><标题>牛羊头部><身体><div id="main"><div id="main-precontents"><div id="main-contents" class="main-contents"><script type="text/javascript">//<![CDATA[var _ = g_cow;_[7654]={cowname_enus:'cows rule!',leather_quality:99,icon:'cow_level_23'};_[37357]={sheepname_enus:'咩呼吸',wool_quality:75,icon:'sheep_level_23'};_[39654].cowmeat_enus = '<table><tr><td><b class="q4">奶牛规则!</b><br></br><!--ts-->立即获取<table width="100%"><tr><td>NOW</td><th>NOW</th></tr></table><span>244奶牛</span><br></br>67 皮革<br></br>68 大脑<!--yy--><span class="q0">奶牛奖励:+9 奶牛力量</span><br></br>绵羊力量 60/60<br></br>绵羊 88<br></br>奶牛等级 555<!--?5695:5:40:45-->';//]]>