html-parsing相关内容
我是新来WebScraping / Python和BeautifulSoup和我有困难让我的code工作。 我想刮的网址: http://m.imdb.com/feature/bornondate “来获得: 名人的名称 名人形象 行业 最好的作品 该页面在十名人。我不知道我做错了。 下面是我的code: 进口的urllib2 从BS4进口BeautifulSoupURL
..
我想编写一个程序,将一个HTML文件,使之更加友好的电子邮件。现在所有的转换做手工,因为没有网络转换器做的正是我们所需要的。 这听起来像一个伟大的机会,推我的编程知识的限制,实际上$所以我愿意尝试在我的业余时间写一个程序,以帮助使这一过程更加自动化C $Ç一些有用的东西。 我不知道很多关于HTML或CSS,所以我主要是靠我的兄弟(谁做知道HTML和CSS)来描述什么样的变化这一计划需要做,
..
我与有孩子的标签,我想“忽略”或删除,这样文本仍然存在HTML元素的工作。刚才,如果我尝试 .string 与标签的任何元素,我得到的是无。 进口BS4汤= bs4.BeautifulSoup(“”“ < DIV ID =“主”> &所述p为H.;这是一个段落&下; / P> < P>这是一个段落<跨度类=“测试”>在
..
..
我使用BeautifulSoup从IMDB得到一个HTML页面,我想提取网页中的海报图像。我有根据的属性之一的形象,但我不知道如何提取里面的数据。 下面是我的code: URL ='http://www.imdb.com/title/tt%s/'%(ID) 汤= BeautifulSoup(urllib2.urlopen(URL).read()) 打印(“FOR之前”) 在soup.find
..
我试图提取此数据表的第一列和第三列使用BeautifulSoup。从看HTML中的第一列有一个<第i 标记。感兴趣的其他列的< TD> 标记。在任何情况下,所有我已经能够走出与标签列的列表。但是,我只是想文本。 表已经是一个列表,所以我不能使用的findAll(文= TRUE)。我不知道如何获得第一列的上市另一种形式。 从BeautifulSoup进口BeautifulSou
..
我使用这个code找到页面中的所有相关链接: soup.findAll('A',HREF = re.compile('^ notizia.php \\?IDN = \\ D +')) 和它的工作pretty好。不幸的是里面那个 标记有很多嵌套的标签,像字体 乙和不同的东西。我想获得只是文本内容,没有任何其他HTML标记。 链接示例:< A HREF =“?notizia.php ID
..
我想要做一些屏幕抓取与Python 2.7,和我有之间的差异没有上下文的HTMLParser ,化SGMLParser 或美味的汤。 难道这些都试图解决同样的问题,或者他们存在不同的原因?这是最简单的,这是最强大的,以及哪些(如果有的话)是默认的选择吗? 另外,请让我知道,如果我忽略了一个显著的选择。 编辑:我要指出,我没有特别的HTML解析经验丰富,我特别感兴趣的,这将让我感动的最快,对一
..
我有以下的HTML这是一个较大的文档中 < BR /> 重要的文本1 < BR /> < BR /> 不是重要的文本 < BR /> 重要的文本2 < BR /> 重要的文本3 < BR /> < BR /> 非重要的文本 < BR /> 重要的文本4 < BR /> 我目前使用Bea
..
我试图解析来自该网站的信息(HTML表格):
..
HTML =“”“ ... < TT CLASS =“descname”>所有< / TT> <&大GT;(小于/大> <环境监察及GT;及可迭代LT; / EM> <&大GT;)< /大> <一类=“headerlink的”href =“#都”称号=“永久链接到这个定义”>¶< / A> ... “”“
..
我想解析与Python中的HTML文件,我使用的模块是beautifulsoup。 我用它之后,一些奇怪happened.It据说功能“find_all”是 一样“的findAll”,但我已经尝试过他们两个。但它是不同的 谁能告诉我有什么不同? 进口的urllib,urllib2的,cookielib 从BeautifulSoup进口* 网站=“http://share.dmhy.or
..
我使用Python + BeautifulSoup解析HTML文档。 现在我需要替换所有的< H2类=“SomeClass的”> 元素在HTML文档中,用< H1类= “SomeClass的”> 。 我 如何更改标签名称,没有文件改变什么吗? 解决方案 我不知道你是如何访问标记但对我来说了以下工作: 进口BeautifulSoup如果__name__ ==“_
..
的故事: 当您解析与 BeautifulSoup HTML 类属性被认为是的
..
我想从网站刮项的列表,和preserve的顺序,它们在psented $ P $。这些项在表组织的,但它们可以是两个不同的类中的一个(排名不分先后)。 有什么办法来提供多个类,并有BeautifulSoup4找到它在任何给定的班?所有项目 我要做到这一点code做什么,除了preserve项目的顺序,因为它是在源$ C $ C: 项目= soup.findAll(真,{'类':'cl
..
BeautifulSoup使用正则表达式由复合类名称搜索时返回空列表。 例如: 进口重 从BS4进口BeautifulSoupBS = “”“ <一类=“名单name692的”href =“www.example.com”,“物实施例文字< / A> “”“bsObj = BeautifulSoup(BS)#这个返回类 found_elements =
..
这是我可以做出来,在Python的两个主要HTML解析库是LXML和BeautifulSoup。我选择BeautifulSoup一个项目我的工作,但是我选择了它比找到的语法有点容易学习和了解其他没有特别的理由。但是我看到很多人似乎赞成LXML和我听说lxml的速度更快。 所以我不知道是什么了另一种优势?什么时候我会想使用LXML我时会关闭使用BeautifulSoup更好?是否有任何其他图书馆值
..
我需要只用CMD窗口functionallity工作。我需要两个瓦尔/字符串从一个网站的batchscript用于验证它的行动。不让它不要太简单本网站需要除了鉴别。 我发现这个地方: @set @ X = 0 / * :: ChkHTTP.cmd 关闭@echo SETLOCAL 设置“URL = HTTP://www.google.com” CSCRIPT / NOLOGO / E:JSc
..
有是已使用ColdFusion创建了一个网站(不知道这是否事项或没有)。我需要与本网站互动。我需要做的主要事情是导航到不同的页面,然后点击按钮。 我想出了如何做到这两个想法。第一种方法是使用WebBrowser控件。有了这个,我当然可以浏览网页,然后点击按钮(据
..
我试图运行的HTML下面进一步以下Perl脚本。我的问题是如何定义正确的散列引用,以 attribs 我的HTML中指定的兴趣属性<表> 标签本身。 #!的/ usr / bin中/ perl的使用严格的;使用警告; 使用HTML :: TableExtract; 使用YAML; 我的$表= HTML :: TableExtract->新建(keep_html =大于0,深度=
..