html-parsing 第40页 - IT屋-程序员软件开发技术分享社区

Webscraping使用BeautifulSoup的IMDB页

我是新来WebScraping / Python和BeautifulSoup和我有困难让我的code工作。我想刮的网址： http://m.imdb.com/feature/bornondate “来获得：名人的名称名人形象行业最好的作品该页面在十名人。我不知道我做错了。下面是我的code：进口的urllib2 从BS4进口BeautifulSoupURL ..

发布时间：2016-08-05 19:00:01 python html web-scraping beautifulsoup html-parsing 前端开发

用美丽的汤转换CSS属性个别HTML属性？

我想编写一个程序，将一个HTML文件，使之更加友好的电子邮件。现在所有的转换做手工，因为没有网络转换器做的正是我们所需要的。这听起来像一个伟大的机会，推我的编程知识的限制，实际上$所以我愿意尝试在我的业余时间写一个程序，以帮助使这一过程更加自动化C $Ç一些有用的东西。我不知道很多关于HTML或CSS，所以我主要是靠我的兄弟（谁做知道HTML和CSS）来描述什么样的变化这一计划需要做， ..

发布时间：2016-08-05 18:59:19 python html css html-parsing beautifulsoup 前端开发

如何忽略标签，同时得到一个美丽的汤元素的.string？

我与有孩子的标签，我想“忽略”或删除，这样文本仍然存在HTML元素的工作。刚才，如果我尝试 .string 与标签的任何元素，我得到的是无。进口BS4汤= bs4.BeautifulSoup（“”“ ＆LT; DIV ID =“主”＆GT; ＆所述p为H.;这是一个段落＆下; / P＆GT; ＆LT; P＆gt;这是一个段落＆LT;跨度类=“测试”＆gt;在 ..

发布时间：2016-08-05 18:59:09 python dom html-parsing beautifulsoup Python

充分利用difflib更精细的diff文件（或方式进行后处理一个diff来实现同样的事情）

..

发布时间：2016-08-05 18:59:06 python beautifulsoup html-parsing lxml difflib Python

提取图片src基于与BeautifulSoup属性

我使用BeautifulSoup从IMDB得到一个HTML页面，我想提取网页中的海报图像。我有根据的属性之一的形象，但我不知道如何提取里面的数据。下面是我的code： URL ='http://www.imdb.com/title/tt%s/'％（ID）汤= BeautifulSoup（urllib2.urlopen（URL）.read（））打印（“FOR之前”）在soup.find ..

发布时间：2016-08-05 18:58:38 python html-parsing web-scraping beautifulsoup Python

使用BeautifulSoup一个表中提取选定列

我试图提取此数据表的第一列和第三列使用BeautifulSoup。从看HTML中的第一列有一个＆LT;第i 标记。感兴趣的其他列的＆LT; TD＆GT; 标记。在任何情况下，所有我已经能够走出与标签列的列表。但是，我只是想文本。表已经是一个列表，所以我不能使用的findAll（文= TRUE）。我不知道如何获得第一列的上市另一种形式。从BeautifulSoup进口BeautifulSou ..

发布时间：2016-08-05 18:58:08 python html-parsing beautifulsoup Python

BeautifulSoup - 简单的方法来获得免费的HTML内容

我使用这个code找到页面中的所有相关链接： soup.findAll（'A'，HREF = re.compile（'^ notizia.php \\？IDN = \\ D +'））和它的工作pretty好。不幸的是里面那个标记有很多嵌套的标签，像字体乙和不同的东西。我想获得只是文本内容，没有任何其他HTML标记。链接示例：＆LT; A HREF =“？notizia.php ID ..

发布时间：2016-08-05 18:57:33 python beautifulsoup html-parsing html-content-extraction Python

解析HTML与Python 2.7 - 的HTMLParser，SGMLParser中，还是美味的汤？

我想要做一些屏幕抓取与Python 2.7，和我有之间的差异没有上下文的HTMLParser ，化SGMLParser 或美味的汤。难道这些都试图解决同样的问题，或者他们存在不同的原因？这是最简单的，这是最强大的，以及哪些（如果有的话）是默认的选择吗？另外，请让我知道，如果我忽略了一个显著的选择。编辑：我要指出，我没有特别的HTML解析经验丰富，我特别感兴趣的，这将让我感动的最快，对一 ..

发布时间：2016-08-05 18:57:11 python html parsing beautifulsoup html-parsing 前端开发

使用beautifulsoup提取换行符之间的文本（例如小于GT BR /＆;标签）

我有以下的HTML这是一个较大的文档中＆LT; BR /＆GT; 重要的文本1 ＆LT; BR /＆GT; ＆LT; BR /＆GT; 不是重要的文本＆LT; BR /＆GT; 重要的文本2 ＆LT; BR /＆GT; 重要的文本3 ＆LT; BR /＆GT; ＆LT; BR /＆GT; 非重要的文本＆LT; BR /＆GT; 重要的文本4 ＆LT; BR /＆GT; 我目前使用Bea ..

发布时间：2016-08-05 18:56:56 python html html-parsing beautifulsoup 前端开发

BeautifulSoup HTML解析表

我试图解析来自该网站的信息（HTML表格）： ..

发布时间：2016-08-05 18:56:45 python table beautifulsoup mechanize html-parsing Python

如何获得使用BeautifulSoup只是两个指定标签之间的所有文本？

HTML =“”“ ... ＆LT; TT CLASS =“descname”＆GT;所有＆LT; / TT＆GT; ＆LT;＆大GT;（小于/大＆GT; ＆LT;环境监察及GT;及可迭代LT; / EM＆GT; ＆LT;＆大GT;）＆LT; /大＆GT; ＆LT;一类=“headerlink的”href =“＃都”称号=“永久链接到这个定义”＆GT;¶＆LT; / A＆GT; ... “”“ ..

发布时间：2016-08-05 18:55:28 python html-parsing beautifulsoup Python

beautifulsoup的findAll find_all

我想解析与Python中的HTML文件，我使用的模块是beautifulsoup。我用它之后，一些奇怪happened.It据说功能“find_all”是一样“的findAll”，但我已经尝试过他们两个。但它是不同的谁能告诉我有什么不同？进口的urllib，urllib2的，cookielib 从BeautifulSoup进口* 网站=“http://share.dmhy.or ..

发布时间：2016-08-05 18:54:03 python xml-parsing html-parsing beautifulsoup Python

如何更改标签名BeautifulSoup？

我使用Python + BeautifulSoup解析HTML文档。现在我需要替换所有的＆LT; H2类=“SomeClass的”＆GT; 元素在HTML文档中，用＆LT; H1类= “SomeClass的”＆GT; 。我如何更改标签名称，没有文件改变什么吗？解决方案我不知道你是如何访问标记但对我来说了以下工作：进口BeautifulSoup如果__name__ ==“_ ..

发布时间：2016-08-05 18:54:00 python html-parsing beautifulsoup Python

禁用特殊的＆QUOT;类＆QUOT;处理属性

的故事：当您解析与 BeautifulSoup HTML 类属性被认为是的 ..

发布时间：2016-08-05 18:53:57 python html beautifulsoup html-parsing 前端开发

BeautifulSoup的findAll（）给出多个类？

我想从网站刮项的列表，和preserve的顺序，它们在psented $ P $。这些项在表组织的，但它们可以是两个不同的类中的一个（排名不分先后）。有什么办法来提供多个类，并有BeautifulSoup4找到它在任何给定的班？所有项目我要做到这一点code做什么，除了preserve项目的顺序，因为它是在源$ C $ C：项目= soup.findAll（真，{'类'：'cl ..

发布时间：2016-08-05 18:53:31 python html beautifulsoup html-parsing 前端开发

BeautifulSoup复方类名称搜索时返回空列表

BeautifulSoup使用正则表达式由复合类名称搜索时返回空列表。例如：进口重从BS4进口BeautifulSoupBS = “”“ ＆LT;一类=“名单name692的”href =“www.example.com”，“物实施例文字＆lt; / A＆GT; “”“bsObj = BeautifulSoup（BS）＃这个返回类 found_elements = ..

发布时间：2016-08-05 18:52:48 python regex python-2.7 beautifulsoup html-parsing Python

在python解析HTML - LXML或BeautifulSoup？哪一个是对什么样的目的更好？

这是我可以做出来，在Python的两个主要HTML解析库是LXML和BeautifulSoup。我选择BeautifulSoup一个项目我的工作，但是我选择了它比找到的语法有点容易学习和了解其他没有特别的理由。但是我看到很多人似乎赞成LXML和我听说lxml的速度更快。所以我不知道是什么了另一种优势？什么时候我会想使用LXML我时会关闭使用BeautifulSoup更好？是否有任何其他图书馆值 ..

发布时间：2016-08-05 18:52:36 python beautifulsoup html-parsing lxml Python

批处理脚本获得HTML网站和解析的内容（不wget的，卷曲或其他外部应用程序）

我需要只用CMD窗口functionallity工作。我需要两个瓦尔/字符串从一个网站的batchscript用于验证它的行动。不让它不要太简单本网站需要除了鉴别。我发现这个地方： @set @ X = 0 / * :: ChkHTTP.cmd 关闭@echo SETLOCAL 设置“URL = HTTP：//www.google.com” CSCRIPT / NOLOGO / E：JSc ..

发布时间：2016-08-04 16:19:41 curl batch-file html-parsing wget Windows 2008/2003/2000

与网页在C＃交互

有是已使用ColdFusion创建了一个网站（不知道这是否事项或没有）。我需要与本网站互动。我需要做的主要事情是导航到不同的页面，然后点击按钮。我想出了如何做到这两个想法。第一种方法是使用WebBrowser控件。有了这个，我当然可以浏览网页，然后点击按钮（据 ..

发布时间：2016-07-27 21:34:05 c# automation screen-scraping html-parsing C#/.NET

HTML :: TableExtract：将权利attribs到指定感兴趣的属性

我试图运行的HTML下面进一步以下Perl脚本。我的问题是如何定义正确的散列引用，以 attribs 我的HTML中指定的兴趣属性＆LT;表＆gt; 标签本身。＃！的/ usr / bin中/ perl的使用严格的;使用警告; 使用HTML :: TableExtract; 使用YAML; 我的$表= HTML :: TableExtract-＆gt;新建（keep_html =大于0，深度= ..

发布时间：2016-07-21 22:44:55 perl attributes html-parsing 其他开发

html-parsing相关内容