我如何可以提取之间&LT的文本; A>< / A&GT ;? [英] How can I extract the text between <a></a>?

查看:286
本文介绍了我如何可以提取之间&LT的文本; A>< / A&GT ;?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我用美丽的汤,但无法弄清楚如何做到这一点。

 < / TD>
        < TD类=playbuttonCell>
        <一类=PLAYBUTTON preVIEW轨道的href =/音乐/例如,数据分析重定向=false的>< IMG类=transparent_png play_iconWIDTH =13HEIGHT = 13ALT =播放SRC =http://cdn.last.fm/flatness/$p$pview/play_indicator.png的风格=/>< / A> < / TD>
                                                        < TD类=subjectCell称号=例如,出场3次>
            < D​​IV>
                                        < A HREF =/音乐/例如>此处就在于我需要的文字< / A>

这是不是做的工作。

 打印汤(A)在汤(A)链接:
    打印HTML

打印的一切,我可以尝试什么呢?


解决方案

 进口的urllib
从BS4进口BeautifulSoupHTML =了urllib.urlopen('http://www.last.fm/user/Jehl/charts?rangetype=overall&subtype=artists').read()
汤= BeautifulSoup(HTML)
打印汤(A)
#打印[< A HREF =/ID =lastfmLogo> Last.fm< / A>中<一类=导航链接的href =/音乐>音乐< / a取代。 ...

有关让他们每个人的文字。

 在汤(A)链接:
    打印link.get_text()

I'm using Beautiful Soup, but couldn't figure out how to do it.

</td>
        <td class="playbuttonCell">
        <a class="playbutton preview-track" href="/music/example" data-analytics-redirect="false"  ><img class="transparent_png play_icon" width="13" height="13" alt="Play" src="http://cdn.last.fm/flatness/preview/play_indicator.png" style="" /></a>    </td>
                                                        <td class="subjectCell" title="example, played 3 times">
            <div>
                                        <a href="/music/example"   >here lies the text i need</a>

this isn't doing the job

print soup('a')

for link in soup('a'):
    print html   

prints everything, what else can i try?

解决方案

import urllib
from bs4 import BeautifulSoup

html = urllib.urlopen('http://www.last.fm/user/Jehl/charts?rangetype=overall&subtype=artists').read()
soup = BeautifulSoup(html)
print soup('a')
# prints [<a href="/" id="lastfmLogo">Last.fm</a>, <a class="nav-link" href="/music">Music</a>....

For getting the text of each one of them.

for link in soup('a'):
    print link.get_text()

这篇关于我如何可以提取之间&LT的文本; A&GT;&LT; / A&GT ;?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
相关文章
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆