beautifulsoup 第107页 - IT屋-程序员软件开发技术分享社区

使用Python 2.7 HTML解析树

我试图让配置一个解析树下面的HTML表，但不能形成它。我希望看到的树形结构的样子！任何人都可以帮助我在这里？＃＆LT; HTML和GT; ＃＆LT; HEAD＆GT; ＃＆LT;标题＆GT; ＃睡鼠的故事＃＆LT; /标题＆GT; ＃＆LT; /头＆GT; ＃＆LT;身体GT; ＃＆LT; p =班“称号”＆GT; ＃＆LT; B＆GT; ＃睡鼠的故事＃＆LT; / B＆GT; ＃＆所述; ..

我要报废里面以下链接的JavaScript表。 http://data2.7m.cn/history_Matches_Data/2009-2010 /92/en/index.shtml 进口codeCS 进口lxml.html为LH 从LXML进口etree 进口要求硒进口的webdriver 进口的urllib2 从BS4进口BeautifulSoupURL ='http://data2. ..

发布时间：2016-08-05 19:10:05 javascript python selenium beautifulsoup 前端开发

使用python + beautifulSoup4从动态图形刮数据

我需要实现数据从动态图形刮任务，并提取数据。图为随时间类似，如果你看一个公司的股票的图表，你会发现什么更新。我使用的请求，并在python beautifulsoup4库，但我只是想出如何刮文本和链接数据。似乎无法弄清楚如何我可以得到图的值到CSV文件问题的图表可以发现 - 的http://www.apptrace.com/app/instagram/id389801252/ranks/top ..

发布时间：2016-08-05 19:10:03 python graph web-scraping beautifulsoup python-requests Python

“ASCII字符”codeC无法连接code字符U'\\ u2013'在第19位：顺序不在范围内（128）

\r \r ..

发布时间：2016-08-05 19:09:59 python html web-scraping beautifulsoup 前端开发

试图用美丽的汤（蟒蛇）找到属性的值2部分匹配

（这是一个后续问题为previous 帖子，其中用户 http://stackoverflow.com/users/771848/alecxe 帮我。更有意义张贴此后续作为一个独立的问题了，所以它是为别人更检索。）我用美丽的汤来定位一个托管服务一些网络报告python脚本。现在的脚本是pretty严格。我想使它多一点灵活。我觉得像REG-EX是我需要的，但也许有些嵌套搜索将工作太。我接受 ..

发布时间：2016-08-05 19:09:57 python html regex beautifulsoup 前端开发

获取HTML源代码时，由JavaScript生成一些HTML

我试图得到包括正在由JavaScript生成的html网页源$ C $ C。我的code目前如下：硒进口的webdriver 从BS4进口BeautifulSoupcase_url =“http://na.leagueoflegends.com/tribunal/en/case/5555631/#nogo” 尝试：浏览器= webdriver.Firefox（） ..

发布时间：2016-08-05 19:09:56 python python-2.7 selenium html-parsing beautifulsoup Python

HTML与美丽的汤解析返回空列表

我现在知道为什么这块code的，不符合此特定的网站工作。在其他情况下，它工作正常。 URL =“http://www.i-apteka.pl/search.php?node=443&counter=all” 内容= requests.get（URL）的.text 汤= BeautifulSoup（内容）链接= soup.find_all（“一”，类_ =“n6300 ..

发布时间：2016-08-05 19:09:50 python django parsing beautifulsoup Python

有没有更好的办法，我的Python的网络爬虫codeS使用BeautifulSoup？

我试图抓取页面从URL中的信息，并将其保存在文本文件中。我在这个问题收到很大的帮助 ..

发布时间：2016-08-05 19:09:47 python python-2.7 beautifulsoup web-crawler Python

多线程在Python / BeautifulSoup刮不加快在所有

我有一个CSV文件，该文件中列出的所有我需要刮链接（“SomeSiteValidURLs.csv”）。在code是工作，将通过网址在CSV，刮去信息和记录/保存在另一个csv文件（“Output.csv”）。然而，因为我打算做的站点（> 10,000,000页）一大截，速度是很重要的。对于每一个环节，它需要大约1秒抓取并保存信息为CSV，这是该项目的规模过于缓慢。所以，我已经把多线程模块，并让我吃 ..

发布时间：2016-08-05 19:09:46 multithreading python-2.7 parallel-processing web-scraping beautifulsoup 其他开发语言

使用BeautifulSoup标签之间的文本提取

我试图从一系列都遵循使用BeautifulSoup类似的格式的网页中提取文本。因为我想提取文本的HTML如下。实际的链接是在这里： http://www.p2016.org/ads1/bushad120215.html。＆LT; P＆GT;＆LT;跨度风格=“COLOR：RGB（153，153，153）;”＆GT;＆LT; / SPAN＆GT;＆LT;字体大小=“ - 1” ＆GT; ＆LT ..

发布时间：2016-08-05 19:09:42 python regex web-scraping beautifulsoup bs4 Python

如何获得一个JS重定向的PDF从网页链接

我使用要求来获取网页，举例如下。进口要求从BS4进口BeautifulSoup URL =“http://www.ofsted.gov.uk/inspection-reports/find-inspection-report/provider/CARE/EY298883” R = requests.get（URL）汤= BeautifulSoup（r.text）有关这些网页我想获 ..

发布时间：2016-08-05 19:09:35 javascript python web-scraping beautifulsoup python-requests 前端开发

显示Web刮内容

在code下面显示的所有字段出到screen.Is有什么办法可以得到域“一起”对方，因为他们将出现在一个数据库或为preadsheet.In源code领域的跟踪，日期，日期时间，等级，距离和奖品在resultsBlockHeader DIV类被发现，而翅（名次）灰狗，陷阱，SP timeSec和时间距离的股利resultsBlock.I被发现在尝试让他们显示如下轨道，日期，日期时间，等级，距离 ..

发布时间：2016-08-05 19:09:32 python html beautifulsoup 前端开发

从一个HTML文档的特定章节

你好，我想获得一个HTML文档的特定部分，这部分是关系到一个div，并封装在一个span标签，段通常在文档的biginning。 self.contents = BeautifulSoup（convert_pdf_to_html（self.path），“html.parser'） self.keywords = self.contents.find（'跨'，文本= re.compile（“（* ..

发布时间：2016-08-05 19:09:29 python beautifulsoup Python

beautifulSoup不一致的行为

我完全被下面的HTML刮code，我在两种不同环境自编自的行为感到困惑的需要帮助找到这种差异的根本原因进口SYS 进口BS4 进口MD5 进口记录从进口的urllib2的urlopen 从平台进口平台＃登录环境的详情 logging.warning（“OS平台为％s”％平台（）） logging.warning（“Python版本为％s”％内容sys.version） logging.war ..

发布时间：2016-08-05 19:09:27 python python-2.7 web-scraping beautifulsoup html-parsing Python

包括BeautifulSoup4中的findAll多个类名

我有一个python脚本一行code的如下图所示。在soup.findAll摘要（'格'，{'类'：'CB-LV-的SCR-COL CB-字体-12 CB-文本完成'}）： #do与总结的东西不过，我想总结还包括一个名为 CB-SCAG-MTCH状态CB-文本INPROGRESS另一个类从 DIV 笔数我曾尝试以低于这里给出 - ..

发布时间：2016-08-05 19:09:23 python beautifulsoup Python

从ResultSet对象beautifulsoup称号

我一直在这一段时间，但似乎无法得到使用beautifulsoup ResultSet对象的元素的文本值。这里是失败的方法：高清__getNameOfProduct（个体经营，产品）： #product的类型是bs4.resultset的... 在产品价值：打印value.find_all（“格”，类_ =“proddisc”）。title.string 其自 ..

发布时间：2016-08-05 19:09:20 python web-scraping beautifulsoup Python

网页抓取HTML表使用Python

我觉得我真的很接近，所以任何帮助，将AP preciated。试图从标题为“股市活动”在纳斯达克的网页表格刮索引和值数据：高清get_index_prices（NASDAQ_URL）： HTML =的urlopen（NASDAQ_URL）.read（）汤= BeautifulSoup（HTML，“LXML”）在汤行（'表'，{'类'：'genTable薄'}）[0] ..

发布时间：2016-08-05 19:09:17 python for-loop web-scraping beautifulsoup html-table Python

如何下载链接刮[python]的PDF文件？

我正在制作PDF网站刮板Python编写的。从本质上讲，我试图刮掉所有的讲义，从我的课程，这是在PDF的形式之一。我想输入一个URL，然后得到的PDF文件，并将它们保存在我的笔记本电脑的目录。我看过几个教程，但我不完全知道如何去这样做。对StackOverflow的问题似乎都不需要任何帮助我。下面是我到目前为止有：进口要求从BS4进口BeautifulSoup 进口shutilBS ..

发布时间：2016-08-05 19:09:14 pdf web-scraping beautifulsoup python-requests python-3.4 其他开发语言

元素内部＆LT;跨度＆GT;标签找不到回来了美丽的汤

我已经用美丽的汤与Python从网站抓取数据的尝试。当我检查网站本身我看到以下内容： “＆LT;跨度ID =”测试“＆GT; 567＆LT; / SPAN＆gt;”中但是当我用美丽的汤，我看到的是：“＆LT;跨度ID =”测试“＆GT;＆LT; / SPAN＆gt;”中这是因为如果该号码已被隐藏的安全和保护的目的，但我怎样才能从这个分析的信息？我认为这是一个动态的JS元素，但我不 ..

发布时间：2016-08-05 19:09:08 python html parsing beautifulsoup 前端开发

与美丽的汤抄袭：为什么不get_text方法返回此元素的文本？

最近，我一直工作在Python中的项目，涉及刮对于一些代理的几个网站。我运行到这样做的问题是，当我试着刮了一定众所周知的代理网站，美丽的汤不会做我期望什么，当我问它寻找到IP在代理表。我会尝试SCAPE的IP地址为每个代理，当我用美丽的汤的 .get_text（）法的相应元素上我会得到这样的输出。 ....UbZT {显示：无} .f5fa {显示：内联} .Glj2 {显示：无} .cUce ..

发布时间：2016-08-05 19:09:07 python html web-scraping html-parsing beautifulsoup 前端开发

beautifulsoup相关内容