beautifulsoup相关内容

使用Python 2.7 HTML解析树

我试图让配置一个解析树下面的HTML表,但不能形成它。我希望看到的树形结构的样子!任何人都可以帮助我在这里? #< HTML和GT; #< HEAD> #<标题> #睡鼠的故事 #< /标题> #< /头> #<身体GT; #< p =班“称号”> #< B> #睡鼠的故事 #< / B> #&所述; ..
发布时间:2016-08-05 19:10:17 Python

使用python + beautifulSoup4从动态图形刮数据

我需要实现数据从动态图形刮任务,并提取数据。图为随时间类似,如果你看一个公司的股票的图表,你会发现什么更新。我使用的请求,并在python beautifulsoup4库,但我只是想出如何刮文本和链接数据。似乎无法弄清楚如何我可以得到图的值到CSV文件 问题的图表可以发现 - 的http://www.apptrace.com/app/instagram/id389801252/ranks/top ..
发布时间:2016-08-05 19:10:03 Python

试图用美丽的汤(蟒蛇)找到属性的值2部分匹配

(这是一个后续问题为previous 帖子 ,其中用户 http://stackoverflow.com/users/771848/alecxe 帮我。更有意义张贴此后续作为一个独立的问题了,所以它是为别人更检索。) 我用美丽的汤来定位一个托管服务一些网络报告python脚本。 现在的脚本是pretty严格。我想使它多一点灵活。我觉得像REG-EX是我需要的,但也许有些嵌套搜索将工作太。我接受 ..
发布时间:2016-08-05 19:09:57 前端开发

HTML与美丽的汤解析返回空列表

我现在知道为什么这块code的,不符合此特定的网站工作。在其他情况下,它工作正常。 URL =“htt​​p://www.i-apteka.pl/search.php?node=443&counter=all” 内容= requests.get(URL)的.text 汤= BeautifulSoup(内容) 链接= soup.find_all(“一”,类_ =“n6300 ..
发布时间:2016-08-05 19:09:50 Python

多线程在Python / BeautifulSoup刮不加快在所有

我有一个CSV文件,该文件中列出的所有我需要刮链接(“SomeSiteValidURLs.csv”)。在code是工作,将通过网址在CSV,刮去信息和记录/保存在另一个csv文件(“Output.csv”)。然而,因为我打算做的站点(> 10,000,000页)一大截,速度是很重要的。对于每一个环节,它需要大约1秒抓取并保存信息为CSV,这是该项目的规模过于缓慢。所以,我已经把多线程模块,并让我吃 ..

使用BeautifulSoup标签之间的文本提取

我试图从一系列都遵循使用BeautifulSoup类似的格式的网页中提取文本。因为我想提取文本的HTML如下。实际的链接是在这里: http://www.p2016.org/ads1/bushad120215.html。 < P><跨度风格=“COLOR:RGB(153,153,153);”>< / SPAN><字体大小=“ - 1” > &LT ..
发布时间:2016-08-05 19:09:42 Python

显示Web刮内容

在code下面显示的所有字段出到screen.Is有什么办法可以得到域“一起”对方,因为他们将出现在一个数据库或为preadsheet.In源code领域的跟踪,日期,日期时间,等级,距离和奖品在resultsBlockHeader DIV类被发现,而翅(名次)灰狗,陷阱,SP timeSec和时间距离的股利resultsBlock.I被发现在尝试让他们显示如下 轨道,日期,日期时间,等级,距离 ..
发布时间:2016-08-05 19:09:32 前端开发

从一个HTML文档的特定章节

你好,我想获得一个HTML文档的特定部分,这部分是关系到一个div,并封装在一个span标签,段通常在文档的biginning。 self.contents = BeautifulSoup(convert_pdf_to_html(self.path),“html.parser') self.keywords = self.contents.find('跨',文本= re.compile(“(* ..
发布时间:2016-08-05 19:09:29 Python

beautifulSoup不一致的行为

我完全被下面的HTML刮code,我在两种不同环境自编自的行为感到困惑的需要帮助找到这种差异的根本原因 进口SYS 进口BS4 进口MD5 进口记录 从进口的urllib2的urlopen 从平台进口平台#登录环境的详情 logging.warning(“OS平台为%s”%平台()) logging.warning(“Python版本为%s”%内容sys.version) logging.war ..
发布时间:2016-08-05 19:09:27 Python

包括BeautifulSoup4中的findAll多个类名

我有一个python脚本一行code的如下图所示。 在soup.findAll摘要('格',{'类':'CB-LV-的SCR-COL CB-字体-12 CB-文本完成'}): #do与总结的东西 不过,我想总结还包括一个名为 CB-SCAG-MTCH状态CB-文本INPROGRESS另一个类从 DIV 笔数 我曾尝试以低于这里给出 - ..
发布时间:2016-08-05 19:09:23 Python

从ResultSet对象beautifulsoup称号

我一直在这一段时间,但似乎无法得到使用beautifulsoup ResultSet对象的元素的文本值。这里是失败的方法: 高清__getNameOfProduct(个体经营,产品): #product的类型是bs4.resultset的... 在产品价值: 打印value.find_all(“格”,类_ =“proddisc”)。title.string 其自 ..
发布时间:2016-08-05 19:09:20 Python

网页抓取HTML表使用Python

我觉得我真的很接近,所以任何帮助,将AP preciated。试图从标题为“股市活动”在纳斯达克的网页表格刮索引和值数据: 高清get_index_prices(NASDAQ_URL): HTML =的urlopen(NASDAQ_URL).read() 汤= BeautifulSoup(HTML,“LXML”) 在汤行('表',{'类':'genTable薄'})[0] ..
发布时间:2016-08-05 19:09:17 Python

如何下载链接刮[python]的PDF文件?

我正在制作PDF网站刮板Python编写的。从本质上讲,我试图刮掉所有的讲义,从我的课程,这是在PDF的形式之一。我想输入一个URL,然后得到的PDF文件,并​​将它们保存在我的笔记本电脑的目录。我看过几个教程,但我不完全知道如何去这样做。对StackOverflow的问题似乎都不需要任何帮助我。 下面是我到目前为止有: 进口要求 从BS4进口BeautifulSoup 进口shutilBS ..

元素内部<跨度>标签找不到回来了美丽的汤

我已经用美丽的汤与Python从网站抓取数据的尝试。 当我检查网站本身我看到以下内容: “<跨度ID =”测试“> 567< / SPAN>”中 但是当我用美丽的汤,我看到的是:“<跨度ID =”测试“>< / SPAN>”中 这是因为如果该号码已被隐藏的安全和保护的目的,但我怎样才能从这个分析的信息?我认为这是一个动态的JS元素,但我不 ..
发布时间:2016-08-05 19:09:08 前端开发

与美丽的汤抄袭:为什么不get_text方法返回此元素的文本?

最近,我一直工作在Python中的项目,涉及刮对于一些代理的几个网站。我运行到这样做的问题是,当我试着刮了一定众所周知的代理网站,美丽的汤不会做我期望什么,当我问它寻找到IP在代理表。我会尝试SCAPE的IP地址为每个代理,当我用美丽的汤的 .get_text()法的相应元素上我会得到这样的输出。 ....UbZT {显示:无} .f5fa {显示:内联} .Glj2 {显示:无} .cUce ..
发布时间:2016-08-05 19:09:07 前端开发