beautifulsoup相关内容

如何从SECñ-Q文档使用BeautifulSoup提取表

(Python 2.7版,BeautifulSoup4) 我试图提取SECñ-Q文件,表格内容。示例HTML浏览:的https://www.sec.gov/Archives/edgar/data/36405/000093247115006447/indexfunds_final.htm 该文件没有标签的。我想搜索一节“C.期货合约“,并寻找下一个<表>并提取上述&lt内容; TR>。 ..
发布时间:2016-08-05 19:16:58 Python

Python的beautifulsoup 1级纯文本

我看了其他beautifulsoup获得同级别类型的问题。好像我的略有不同。 下面是网站http://engine.data.cnzz.com/main.php?s=engine&uv=&st=2014-03-01&et=2014-03-31 我试图让右边的表。请注意表格的第一行是如何扩展成一个详细的分解数据的下降。我不希望这样的数据。我只希望最高层的数据。你还可以看到,其它行也可以扩展, ..
发布时间:2016-08-05 19:16:51 Python

刮痧Python中的网站的第二页不起作用

比方说,我想在这里刮的数据 。 我可以说好听用做的urlopen 和 BeautifulSoup 在Python 2.7。 现在,如果我想从的这个地址。 我得到的是从第一页中的数据​​!我看了看第二页的页面源代码使用Chrome的“查看页面源代码”和内容属于第一页! 我怎样才能从第二页刮去数据? 解决方案 该页面是一个相当异步性,有形成搜索结果XHR请求,使用模拟它们在你的code ..
发布时间:2016-08-05 19:16:47 Python

得到格属性VAL和DIV正文

下面是小code得到DIV ATTR值。所有div名称相同与相同ATTR名。 redditFile = urllib2.urlopen(“http://www.bing.com/videos?q=owl”) redditHtml = redditFile.read() redditFile.close() 汤= BeautifulSoup(redditHtml)productDivs = so ..
发布时间:2016-08-05 19:16:44 Python

尽管utf8编码某些字符无法被识别

我想凑一个RSS与新闻标题是这样的: <标题>冰山的照片被认为是沉没泰坦尼克号在拍卖会上为21000£一起与放售;放大器; #039;&世界放大器;放大器;#039;最有价值的饼干和放大器;放大器;#039;< /标题> 这实际上是我用美丽的汤我怎么刮的: 汤= BeautifulSoup(XML,“XML”) 开始= soup.findAll('项目') 因为我在 ..
发布时间:2016-08-05 19:16:37 Python

排除隐​​藏的标记,而使用B4刮

我有一个网站,有大量的HTML隐藏标签。 我已经粘贴下面的源$ C ​​$ C。 我们面临的挑战是,有2种上隐藏的标签, 1 与问鼎 =风格“显示:无” 2 他们的每一个下提到的样式列表TD 标记。 和它与每一个td标签的变化。 对于它下面的例子有以下样式, hLcj {显示:无} .J9pE {显示:内联} .kUC- {显示:无} .Dzkb {显示:内联} .mXJU {显示 ..
发布时间:2016-08-05 19:16:31 前端开发

我如何可以使用BeautifulSoup或SLIMIT在网站上输出从一个JavaScript变量的电子邮件地址

我有这样的例子网站: http://www.example.com/whatever。 ASP?轮廓= 1 对于每个配置文件号我在这个Java脚本的code不同的电子邮件。 < SCRIPT LANGUAGE =“JavaScript的”> 功能的东西() { VAR PTR; PTR =“”; PTR + =“<表>< TD类=法国>< / TD&G ..
发布时间:2016-08-05 19:16:28 前端开发

如何从txt文件编码怪异

我想处理文本文件像这样的: 的http://www.sec.gov/Archives/edgar/data/789019/000119312514289961/0001193125-14-289961.txt 如果你周围的文件的中间看到有类似如下: < / TEXT> < /文件> <文件> < TYPE> EXCEL <序列> ..
发布时间:2016-08-05 19:16:25 前端开发

网络爬虫列表之间提取

我用Python写一个网络爬虫。我希望得到所有内容之间<立GT; < /李> 标签。例如: <立GT; 1991年1月13日:至少40人< A HREF =“......”> &所述; / A> < /李> 所以在这里我想: 一)提取与日期,并将其转换成DD / MM / YYYY格式 湾)人前的数量。汤= BeautifulSoup(第 ..
发布时间:2016-08-05 19:16:21 Python

为什么当美丽的汤解析是这个标签是空的?

我解析这个页面与美丽的汤: https://au.finance.yahoo.com/q/is? S = AAPL 我试图得到27/09/2014(42123000)的总收入是在靠近顶部的语句中的第一个值。 我考察了镀铬工具的元素,并发现该值是一个表类名 yfnc_tabledata1 。 我的Python code是如下: 进口要求 进口BS4#获取网页 页= requests.get ..
发布时间:2016-08-05 19:16:13 前端开发

提交查询,并使用python刮下aspx页面的结果吗?

我试图得到一个批次的查询结果,以这个人口统计工具网页:的 http://adlab.microsoft.com/Demographics-$p$pdiction/DPUI.aspx 表格中的POST操作调用同一个页面(_self),并很可能发布一些事件数据。我在那个计算器aspx页面通常需要一些视图状态和验证数据读取另一篇文章在这里。难道我只是保存这些从一个请求,POST请求重发? 或者是有一 ..
发布时间:2016-08-05 19:16:00 Python

BeautifulSoup错误文件保存.TXT

从BS4进口BeautifulSoup 进口要求 进口OS URL =“htt​​p://nos.nl/artikel/2093082-steeds-meer-nekklachten-bij-kinderen-door-gebruik-tablets.html” R = requests.get(URL) 汤= BeautifulSoup(r.content.de code(“UTF-8”,“忽略 ..
发布时间:2016-08-05 19:15:57 Python

Python的webscraping - NoneObeject失败 - 破碎的HTML?

香港专业教育学院有一个问题,在我的python脚本解析。香港专业教育学院尝试了已经处于另一页(雅虎财经),它工作得很好。晨星不过其不工作。 我得到的错误表变量的终端“NoneObject”。我猜它与moriningstar网站的结构做的,但我不确定。 Maybey somne​​one能告诉我什么地方出了错。 抑或是不可能的,因为晨星网站的sitestructure用我简单的脚本? 一个简单 ..
发布时间:2016-08-05 19:15:52 前端开发

用于刮特定链接的CSS选择器

我是新来的Python和刮项目。我使用Firebug的复制必需的链接的CSS路径。我想从 http://kiascenehai.pk/ 但它收集“活动预告”的选项卡下的链接只是为了学习我如何能得到指定的链接。 我要寻找这个问题的修复,也为如何检索使用CSS选择器指定链接的建议。 从BS4进口BeautifulSoup 进口要求URL =“htt​​p://kiascenehai.pk/”R = ..
发布时间:2016-08-05 19:15:50 Python

清洁文本字符串使用越来越Beautifulsoup正文之后

我试图从不同的网页文章获得文字,并将其写入清洁文本文档。我不希望所有看到的文本,因为这通常包括网页上的侧不相干的链接。我使用Beautifulsoup提取网页中的信息。但是,额外的链接不只是页面的一面,但也有时那些在正文的中间,并在文章底部有时会使其成为最终产品。 有谁知道如何处理与被转换成文本实际上不是真正的文章的文字部分的额外的链接问题? #Some进口的是这里没有显示code的其他部分 ..
发布时间:2016-08-05 19:15:47 前端开发