beautifulsoup相关内容

重复过程中遵循一个网站链接(BeautifulSoup)

我用Python写一个code让所有的'a'使用美丽的汤在URL标记,然后我用3位的链接,那么我应该遵循的链接,我会重复这个过程约18倍。我包括低于code,其具有重复两次该过程。我不能去约的方式来重复同样的过程18次在loop.Any帮助将是AP preciated。 进口重 进口的urllib从BeautifulSoup进口* htm1 =了urllib.urlopen('https://p ..
发布时间:2016-08-05 19:11:22 Python

如何从分裂树的HTML标签

这是我的HTML树 <李班=“TAF”>< H3>< A HREF =“26eOffer code%3DGSONESTP ----------- “ID =”PA1“> 花旗银行< B>信用卡< / B> - 节省超过5%的燃油| Citibank.co.in< / A> < / H3和GT;获得印度石油 ..
发布时间:2016-08-05 19:11:14 Python

Python的beautifulsoup试图删除HTML标签“跨度”

我试图删除 [<跨度类=“街道地址”> 510ê航空路 < / SPAN>] 和我已经使用这个清洗功能去掉一个是两者之间< > 高清干净(VAL): 如果类型(VAL)不StringType:VAL = STR(VAL) VAL =应用re.sub(R'&所述。* GT;','',val)的 VAL ..
发布时间:2016-08-05 19:11:12 Python

我如何删除BeautifulSoup虚假标签

我甩开了presidential辩论的文字。我到rel=\"nofollow\" 之一是有一个问题:它错误地变成单词“辩论”的每一个提成标记<&辩论GT; 。来吧,搜索“欢迎回到共和党presidential”注意到一个明显的字不见了? 酷,所以BeautifulSoup做清理杂乱的HTML和添加结束标记的出色的工作为他们的应的一直。但是,在这种情况下,渣土我,因为<辩论> 现 ..
发布时间:2016-08-05 19:11:09 Python

下载与Python .csv文件

我在Windows上使用Python 3.3。我试图找出如何下载从雅虎财经.csv文件。这是历史价格的文件。 这是源$ C ​​$ C,其中的链接,我试图访问。 < P> <一href=\"http://ichart.finance.yahoo.com/table.csv?s=AAPL&d=1&e=1&f=2014&g=d&a=8&a ..
发布时间:2016-08-05 19:11:06 其他开发语言

为什么Python中坚持使用ASCII?

当与解析请求和美丽的汤HTML文件,下面一行是在一些网页抛出一个异常: 如果STR(tag.string)“VAR”: 下面是上下文: =响应requests.get(URL) 汤= bs4.BeautifulSoup(response.text.en code(“UTF-8”))在soup.findAll('脚本')标签: 如果STR(tag.string)“VAR”:#这是抛出异 ..
发布时间:2016-08-05 19:11:03 Python

Python的 - 美丽的汤查找文本不工作

解说= soup.find('格',{'ID':'活文本评论的方式包装'}) findtoure = commentary.findAll(文='Gnegneri丫丫图雷') 我不明白为什么这是行不通的。 解说的输出是:< D​​IV ID =“活文字解说,包装”> < H2 ID =“活文字介绍”>文字直播解说< / H> < D​​IV C ..
发布时间:2016-08-05 19:11:00 Python

Python的刮板 - 如果目标404'd套接字错误打破脚本

遇到错误,而建设一个网站刮板编译数据,并输出到XLS格式;再次测试域列表时,我想从,程序faulters刮时临危一个套接字错误。希望能找到一个'如果'的语句,将空解析一个破碎的网站,并继续通过我while循环。有任何想法吗? workingList = xlrd.open_workbook(listSelection) workingSheet = workingList.sheet_by_i ..
发布时间:2016-08-05 19:10:59 Python

BeautifulSoup:提取IMG ALT数据

我有下面的图像的HTML和我试图解析在中高音的信息。目前,我能够成功提取图像。 HTML(我目前解析 < IMG类=“RSLP-P”ALT =“索尼的Cyber​​-shot DSC-W570 16.1万像素数码相机 - 银”SRC =“HTTP://i.ebayimg。 !!!?COM / 00 / $(KGrHqZ,J E5dyh0jTpBO(3yE7Wg ~~ _26.JPG se ..
发布时间:2016-08-05 19:10:54 前端开发

在Beautifulsoup提取价值

我有以下的code: F =开放(路径,'R') HTML = f.read()#没有参数=>读取到EOF,并返回字符串汤= BeautifulSoup(HTML) schoolname = soup.findAll(ATTRS = {'ID':'ctl00_ContentPlaceHolder1_SchoolProfileUserControl_SchoolHeaderLabel'}) ..
发布时间:2016-08-05 19:10:49 Python

使用Python和BeautifulSoup解析表

我试图访​​问与Python和BeautifulSoup一定TD标签的内容。我可以拿到第一td标签符合条件(与find),或全部(带的findAll)。 现在,我可以只使用的findAll,让他们所有,并得到了我想要从他们的内容,但看来似乎是低效率的(即使我把限制在搜索)。反正是有一定要去td标签符合我想要的标准是什么?说第三个,还是10号? 下面是我的code迄今: 从__future__ ..
发布时间:2016-08-05 19:10:43 前端开发

使用replaceWith问题上的Python与BeautifulSoup取代HTML标签

我使用BeautifulSoup的Python和时遇到麻烦替换一些标签。我发现< D​​IV> 标记,并检查孩子。如果这些孩子没有孩子(有NODE_TYPE = 3的文本节点),我将它们复制是一个< P> 从BeautifulSoup进口标签,BeautifulSoup类吧: self.soup = BeautifulSoup(self.input) 富() 高清富( ..
发布时间:2016-08-05 19:10:39 Python

我可以合并两个'的findAll“搜索块beautifulsoup,成吗?

我可以将这两个块组合成一个: 编辑:不是像Yacoby结合循环任何其他方式在答题确实 在soup.findAll标签(['脚本','形式']): tag.extract()在soup.findAll(ID =“页脚”)标签: tag.extract() 也可以我多块到一个:在soup.findAll(ID =“页脚”)标签: tag.extract()在soup.f ..
发布时间:2016-08-05 19:10:37 Python

BeautifulSoup,得到的标签列表,并得到属性值

我试图用BeautifulSoup因此得到的HTML标签的列表,然后检查他们是否有一个名称属性,然后返回属性值。请参阅我的code: 汤= BeautifulSoup(HTML)#assume HTML包含< D​​IV>使用一个名称属性标记 名称标签= soup.findAll(“名称”) 在名称标签N: 如果n.has_key('名'): #获取的name属 ..
发布时间:2016-08-05 19:10:33 Python

如何解析Java的脚本包含[动态]的网页使用[HTML] Python的?

我建立一个蜘蛛,我用美丽的汤解析包含特定URL的。 现在,一些网站都在使用Java的脚本来显示动态包含将显示给用户,一旦某些动作[点击或时间]发生。 美丽的汤只是解析静态包含它是Java脚本标签已经用完了。 我想Java的脚本运行后包含的内容。 有没有办法做到这一点? 我能想到的一个办法:抓住的网址,打开浏览器并运行此URL和java脚本标记为好。然后这个URL传递到美丽的汤,可以看到包 ..
发布时间:2016-08-05 19:10:29 Python

印刷错误“bs4.element.NavigableString”

我是用美丽的汤报废从地下气象网站的数据。我能得到我想要的确切数据,并将其分配给一个变​​量 dayTemp 。但是当我尝试使用打印它打印dayTemp 。我收到以下错误: 回溯(最后最近一次调用): 文件“< pyshell#47>”中,1号线,上述<&模块GT; 打印dayTemp 文件“C:\\ Python27 \\ lib目录\\ idlelib \\ ..
发布时间:2016-08-05 19:10:22 Python

BeautifulSoup安装,但无法识别时dev_appserver运行

更新 通过添加BeautifulSoup.py到我的应用程序源代码,这个错误已经走了:) 由于@Ned Deily,沿着时间了,但卓有成效的 从这里忽略的结果 我有BeautifulSoup,仍然没有运气!我是我做错了什么,请大家帮忙安装Python 2.5的只是一个实例的bash-3.2 $ LS -ltr /Library/Frameworks/Python.framework/Ve ..
发布时间:2016-08-05 19:10:21 Python