beautifulsoup 第101页 - IT屋-程序员软件开发技术分享社区

如何从SECñ-Q文档使用BeautifulSoup提取表

（Python 2.7版，BeautifulSoup4）我试图提取SECñ-Q文件，表格内容。示例HTML浏览：的https://www.sec.gov/Archives/edgar/data/36405/000093247115006447/indexfunds_final.htm 该文件没有标签的。我想搜索一节“C.期货合约“，并寻找下一个＆LT;表>并提取上述＆lt内容; TR>。 ..

发布时间：2016-08-05 19:16:58 python web-scraping beautifulsoup Python

有没有用美丽的汤解析XML比单独使用lxml的有什么好处？

我用美丽的汤经常来解析HTML文件，所以当我最近需要解析XML文件，我选择使用它。但是，因为我解析一个非常大的文件时，它失败了。当研究为什么会失败，我被带到了这个问题： ..

发布时间：2016-08-05 19:16:54 python xml beautifulsoup lxml Python

Python的beautifulsoup 1级纯文本

我看了其他beautifulsoup获得同级别类型的问题。好像我的略有不同。下面是网站http://engine.data.cnzz.com/main.php?s=engine&uv=&st=2014-03-01&et=2014-03-31 我试图让右边的表。请注意表格的第一行是如何扩展成一个详细的分解数据的下降。我不希望这样的数据。我只希望最高层的数据。你还可以看到，其它行也可以扩展， ..

发布时间：2016-08-05 19:16:51 python beautifulsoup Python

刮痧Python中的网站的第二页不起作用

比方说，我想在这里刮的数据。我可以说好听用做的urlopen 和 BeautifulSoup 在Python 2.7。现在，如果我想从的这个地址。我得到的是从第一页中的数据！我看了看第二页的页面源代码使用Chrome的“查看页面源代码”和内容属于第一页！我怎样才能从第二页刮去数据？解决方案该页面是一个相当异步性，有形成搜索结果XHR请求，使用模拟它们在你的code ..

发布时间：2016-08-05 19:16:47 python python-2.7 web-scraping beautifulsoup urlopen Python

下面是小code得到DIV ATTR值。所有div名称相同与相同ATTR名。 redditFile = urllib2.urlopen（“http://www.bing.com/videos?q=owl”） redditHtml = redditFile.read（） redditFile.close（）汤= BeautifulSoup（redditHtml）productDivs = so ..

发布时间：2016-08-05 19:16:44 python web-scraping beautifulsoup Python

尽管utf8编码某些字符无法被识别

我想凑一个RSS与新闻标题是这样的：＆LT;标题＆GT;冰山的照片被认为是沉没泰坦尼克号在拍卖会上为21000£一起与放售;放大器; ＃039;＆世界放大器;放大器;＃039;最有价值的饼干和放大器;放大器;＃039;＆LT; /标题＆GT; 这实际上是我用美丽的汤我怎么刮的：汤= BeautifulSoup（XML，“XML”）开始= soup.findAll（'项目'）因为我在 ..

发布时间：2016-08-05 19:16:37 python utf-8 beautifulsoup Python

排除隐藏的标记，而使用B4刮

我有一个网站，有大量的HTML隐藏标签。我已经粘贴下面的源$ C $ C。我们面临的挑战是，有2种上隐藏的标签， 1 与问鼎 =风格“显示：无” 2 他们的每一个下提到的样式列表TD 标记。和它与每一个td标签的变化。对于它下面的例子有以下样式， hLcj {显示：无} .J9pE {显示：内联} .kUC- {显示：无} .Dzkb {显示：内联} .mXJU {显示 ..

发布时间：2016-08-05 19:16:31 python html python-2.7 beautifulsoup html-parsing 前端开发

我如何可以使用BeautifulSoup或SLIMIT在网站上输出从一个JavaScript变量的电子邮件地址

我有这样的例子网站： http://www.example.com/whatever。 ASP？轮廓= 1 对于每个配置文件号我在这个Java脚本的code不同的电子邮件。＆LT; SCRIPT LANGUAGE =“JavaScript的”＆GT; 功能的东西（） { VAR PTR; PTR =“”; PTR + =“＆LT;表＆gt;＆LT; TD类=法国＆GT;＆LT; / TD＆G ..

发布时间：2016-08-05 19:16:28 javascript python email parsing beautifulsoup 前端开发

如何从txt文件编码怪异

我想处理文本文件像这样的：的http://www.sec.gov/Archives/edgar/data/789019/000119312514289961/0001193125-14-289961.txt 如果你周围的文件的中间看到有类似如下：＆LT; / TEXT＆GT; ＆LT; /文件＆GT; ＆lt;文件＆GT; ＆LT; TYPE＆GT; EXCEL ＆LT;序列＆GT; ..

发布时间：2016-08-05 19:16:25 python html text beautifulsoup xbrl 前端开发

网络爬虫列表之间提取

我用Python写一个网络爬虫。我希望得到所有内容之间＆LT;立GT; ＆LT; /李＆GT; 标签。例如：＆LT;立GT; 1991年1月13日：至少40人＆LT; A HREF =“......”＆GT; ＆所述; / A＆GT; ＆LT; /李＆GT; 所以在这里我想：一）提取与日期，并将其转换成DD / MM / YYYY格式湾）人前的数量。汤= BeautifulSoup（第 ..

发布时间：2016-08-05 19:16:21 python parsing web-scraping beautifulsoup web-crawler Python

如何使用BeautifulSoup来获得深度嵌套的DIV值？

我需要得到的值深层嵌套＆LT;跨度＆GT; 在DOM结构，看起来像这样的元素：＆LT; DIV CLASS =“熊猫”＆GT; ＆LT; DIV CLASS =“即”＆GT; ＆LT; UL类=“foo”的＆GT; ＆LT;李班=“酒吧”＆GT; ＆LT; DIV CLASS =“喜”＆GT; ..

发布时间：2016-08-05 19:16:19 python beautifulsoup Python

麻烦从页面刮

指的是我的一个 ..

发布时间：2016-08-05 19:16:16 javascript python python-3.x beautifulsoup 前端开发

为什么当美丽的汤解析是这个标签是空的？

我解析这个页面与美丽的汤： https://au.finance.yahoo.com/q/is？ S = AAPL 我试图得到27/09/2014（42123000）的总收入是在靠近顶部的语句中的第一个值。我考察了镀铬工具的元素，并发现该值是一个表类名 yfnc_tabledata1 。我的Python code是如下：进口要求进口BS4＃获取网页页= requests.get ..

发布时间：2016-08-05 19:16:13 python html beautifulsoup html-parsing 前端开发

如何通过搜索键，并打通BS4导致

高清get_main_page_url（“https://malwr.com/analysis/search/”，strDestPath，strMD5）： BASE_URL ='https://malwr.com/“ URL ='https://malwr.com/account/login/“ 用户名=“MYNAME” 密码='PSWD“ 会话= request ..

发布时间：2016-08-05 19:16:03 python html beautifulsoup html-parsing 前端开发

提交查询，并使用python刮下aspx页面的结果吗？

我试图得到一个批次的查询结果，以这个人口统计工具网页：的 http://adlab.microsoft.com/Demographics-$p$pdiction/DPUI.aspx 表格中的POST操作调用同一个页面（_self），并很可能发布一些事件数据。我在那个计算器aspx页面通常需要一些视图状态和验证数据读取另一篇文章在这里。难道我只是保存这些从一个请求，POST请求重发？或者是有一 ..

发布时间：2016-08-05 19:16:00 python screen-scraping beautifulsoup Python

BeautifulSoup错误文件保存.TXT

从BS4进口BeautifulSoup 进口要求进口OS URL =“http://nos.nl/artikel/2093082-steeds-meer-nekklachten-bij-kinderen-door-gebruik-tablets.html” R = requests.get（URL）汤= BeautifulSoup（r.content.de code（“UTF-8”，“忽略 ..

发布时间：2016-08-05 19:15:57 python save beautifulsoup Python

如何通过使用Beautifulsoup提取HTML表

考虑下面的HTML程式码片段为例：＆GT;＆GT;＆GT;汤＆LT;表＆gt; ＆LT; TR＆GT;＆LT; TD类=“ABC”＆gt;这是ABC＆LT; / TD＆GT; ＆LT; / TR＆GT; ＆LT; TR＆GT;＆LT; TD类=“第一资讯”＆GT; data1_xxx＆LT; / TD＆GT; ＆LT; / TR＆GT; ＆LT; /表＆gt;＆LT;表＆gt; ＆所述; T ..

发布时间：2016-08-05 19:15:55 python html html-parsing beautifulsoup parent 前端开发

Python的webscraping - NoneObeject失败 - 破碎的HTML？

香港专业教育学院有一个问题，在我的python脚本解析。香港专业教育学院尝试了已经处于另一页（雅虎财经），它工作得很好。晨星不过其不工作。我得到的错误表变量的终端“NoneObject”。我猜它与moriningstar网站的结构做的，但我不确定。 Maybey somneone能告诉我什么地方出了错。抑或是不可能的，因为晨星网站的sitestructure用我简单的脚本？一个简单 ..

发布时间：2016-08-05 19:15:52 python html web-scraping beautifulsoup 前端开发

用于刮特定链接的CSS选择器

我是新来的Python和刮项目。我使用Firebug的复制必需的链接的CSS路径。我想从 http://kiascenehai.pk/ 但它收集“活动预告”的选项卡下的链接只是为了学习我如何能得到指定的链接。我要寻找这个问题的修复，也为如何检索使用CSS选择器指定链接的建议。从BS4进口BeautifulSoup 进口要求URL =“http://kiascenehai.pk/”R = ..

发布时间：2016-08-05 19:15:50 python beautifulsoup scrape Python

清洁文本字符串使用越来越Beautifulsoup正文之后

我试图从不同的网页文章获得文字，并将其写入清洁文本文档。我不希望所有看到的文本，因为这通常包括网页上的侧不相干的链接。我使用Beautifulsoup提取网页中的信息。但是，额外的链接不只是页面的一面，但也有时那些在正文的中间，并在文章底部有时会使其成为最终产品。有谁知道如何处理与被转换成文本实际上不是真正的文章的文字部分的额外的链接问题？ #Some进口的是这里没有显示code的其他部分 ..

发布时间：2016-08-05 19:15:47 python html text beautifulsoup html-content-extraction 前端开发

beautifulsoup相关内容