html-parsing相关内容

用美丽的汤转换CSS属性个别HTML属性?

我想编写一个程序,将一个HTML文件,使之更加友好的电子邮件。现在所有的转换做手工,因为没有网络转换器做的正是我们所需要的。 这听起来像一个伟大的机会,推我的编程知识的限制,实际上$所以我愿意尝试在我的业余时间写一个程序,以帮助使这一过程更加自动化C $Ç一些有用的东西。 我不知道很多关于HTML或CSS,所以我主要是靠我的兄弟(谁做知道​​HTML和CSS)来描述什么样的变化这一计划需要做, ..
发布时间:2016-08-05 18:59:19 前端开发

如何忽略标签,同时得到一个美丽的汤元素的.string?

我与有孩子的标签,我想“忽略”或删除,这样文本仍然存在HTML元素的工作。刚才,如果我尝试 .string 与标签的任何元素,我得到的是无。 进口BS4汤= bs4.BeautifulSoup(“”“ < D​​IV ID =“主”> &所述p为H.;这是一个段落&下; / P> < P>这是一个段落<跨度类=“测试”>在 ..
发布时间:2016-08-05 18:59:09 Python

提取图片src基于与BeautifulSoup属性

我使用BeautifulSoup从IMDB得到一个HTML页面,我想提取网页中的海报图像。我有根据的属性之一的形象,但我不知道如何提取里面的数据。 下面是我的code: URL ='http://www.imdb.com/title/tt%s/'%(ID) 汤= BeautifulSoup(urllib2.urlopen(URL).read()) 打印(“FOR之前”) 在soup.find ..
发布时间:2016-08-05 18:58:38 Python

使用BeautifulSoup一个表中提取选定列

我试图提取此数据表的第一列和第三列使用BeautifulSoup。从看HTML中的第一列有一个<第i 标记。感兴趣的其他列的< TD> 标记。在任何情况下,所有我已经能够走出与标签列的列表。但是,我只是想文本。 表已经是一个列表,所以我不能使用的findAll(文= TRUE)。我不知道如何获得第一列的上市另一种形式。 从BeautifulSoup进口BeautifulSou ..
发布时间:2016-08-05 18:58:08 Python

BeautifulSoup - 简单的方法来获得免费的HTML内容

我使用这个code找到页面中的所有相关链接: soup.findAll('A',HREF = re.compile('^ notizia.php \\?IDN = \\ D +')) 和它的工作pretty好。不幸的是里面那个 标记有很多嵌套的标签,像字体 乙和不同的东西。我想获得只是文本内容,没有任何其他HTML标记。 链接示例:< A HREF =“?notizia.php ID ..
发布时间:2016-08-05 18:57:33 Python

解析HTML与Python 2.7 - 的HTMLParser,SGMLParser中,还是美味的汤?

我想要做一些屏幕抓取与Python 2.7,和我有之间的差异没有上下文的HTMLParser ,化SGMLParser 或美味的汤。 难道这些都试图解决同样的问题,或者他们存在不同的原因?这是最简单的,这是最强大的,以及哪些(如果有的话)是默认的选择吗? 另外,请让我知道,如果我忽略了一个显著的选择。 编辑:我要指出,我没有特别的HTML解析经验丰富,我特别感兴趣的,这将让我感动的最快,对一 ..
发布时间:2016-08-05 18:57:11 前端开发

使用beautifulsoup提取换行符之间的文本(例如小于GT BR /&;标签)

我有以下的HTML这是一个较大的文档中 < BR /> 重要的文本1 < BR /> < BR /> 不是重要的文本 < BR /> 重要的文本2 < BR /> 重要的文本3 < BR /> < BR /> 非重要的文本 < BR /> 重要的文本4 < BR /> 我目前使用Bea ..
发布时间:2016-08-05 18:56:56 前端开发

beautifulsoup的findAll find_all

我想解析与Python中的HTML文件,我使用的模块是beautifulsoup。 我用它之后,一些奇怪happened.It据说功能“find_all”是 一样“的findAll”,但我已经尝试过他们两个。但它是不同的 谁能告诉我有什么不同? 进口的urllib,urllib2的,cookielib 从BeautifulSoup进口* 网站=“htt​​p://share.dmhy.or ..
发布时间:2016-08-05 18:54:03 Python

如何更改标签名BeautifulSoup?

我使用Python + BeautifulSoup解析HTML文档。 现在我需要替换所有的< H2类=“SomeClass的”> 元素在HTML文档中,用< H1类= “SomeClass的”> 。 我 如何更改标签名称,没有文件改变什么吗? 解决方案 我不知道你是如何访问标记但对我来说了以下工作: 进口BeautifulSoup如果__name__ ==“_ ..
发布时间:2016-08-05 18:54:00 Python

BeautifulSoup的findAll()给出多个类?

我想从网站刮项的列表,和preserve的顺序,它们在psented $ P $。这些项在表组​​织的,但它们可以是两个不同的类中的一个(排名不分先后)。 有什么办法来提供多个类,并有BeautifulSoup4找到它在任何给定的班?所有项目 我要做到这一点code做什么,除了preserve项目的顺序,因为它是在源$ C ​​$ C: 项目= soup.findAll(真,{'类':'cl ..
发布时间:2016-08-05 18:53:31 前端开发

在python解析HTML - LXML或BeautifulSoup?哪一个是对什么样的目的更好?

这是我可以做出来,在Python的两个主要HTML解析库是LXML和BeautifulSoup。我选择BeautifulSoup一个项目我的工作,但是我选择了它比找到的语法有点容易学习和了解其他没有特别的理由。但是我看到很多人似乎赞成LXML和我听说lxml的速度更快。 所以我不知道是什么了另一种优势?什么时候我会想使用LXML我时会关闭使用BeautifulSoup更好?是否有任何其他图书馆值 ..
发布时间:2016-08-05 18:52:36 Python

批处理脚本获得HTML网站和解析的内容(不wget的,卷曲或其他外部应用程序)

我需要只用CMD窗口functionallity工作。我需要两个瓦尔/字符串从一个网站的batchscript用于验证它的行动。不让它不要太简单本网站需要除了鉴别。 我发现这个地方: @set @ X = 0 / * :: ChkHTTP.cmd 关闭@echo SETLOCAL 设置“URL = HTTP://www.google.com” CSCRIPT / NOLOGO / E:JSc ..
发布时间:2016-08-04 16:19:41 Windows 2008/2003/2000

与网页在C#交互

有是已使用ColdFusion创建了一个网站(不知道这是否事项或没有)。我需要与本网站互动。我需要做的主要事情是导航到不同的页面,然后点击按钮。 我想出了如何做到这两个想法。第一种方法是使用WebBrowser控件。有了这个,我当然可以浏览网页,然后点击按钮(据 ..
发布时间:2016-07-27 21:34:05 C#/.NET

HTML :: TableExtract:将权利attribs到指定感兴趣的属性

我试图运行的HTML下面进一步以下Perl脚本。我的问题是如何定义正确的散列引用,以 attribs 我的HTML中指定的兴趣属性<表> 标签本身。 #!的/ usr / bin中/ perl的使用严格的;使用警告; 使用HTML :: TableExtract; 使用YAML; 我的$表= HTML :: TableExtract->新建(keep_html =大于0,深度= ..
发布时间:2016-07-21 22:44:55 其他开发