html-parsing相关内容

与美丽的汤抄袭:为什么不get_text方法返回此元素的文本?

最近,我一直工作在Python中的项目,涉及刮对于一些代理的几个网站。我运行到这样做的问题是,当我试着刮了一定众所周知的代理网站,美丽的汤不会做我期望什么,当我问它寻找到IP在代理表。我会尝试SCAPE的IP地址为每个代理,当我用美丽的汤的 .get_text()法的相应元素上我会得到这样的输出。 ....UbZT {显示:无} .f5fa {显示:内联} .Glj2 {显示:无} .cUce ..
发布时间:2016-08-05 19:09:07 前端开发

BeautifulSoup:背后的另一个标记得到的标记文字

如何找到使用BeautifulSoup另一个标记的标签?在这个例子中,我想获得例如“0993 999 999”,这是与背后的另一个div DIV权“电话:”文本。 我试图把它用这个: 打印parsed.findAll('格',{“阶级”:“DVA”})[3]的.text 但它不能正常工作。我认为必须有办法告诉BeautifulSoup,它是仅次于“电话”文本或另一种方式。 < D​​ ..
发布时间:2016-08-05 19:08:47 前端开发

BeautifulSoup循环到达网址

我想收获一些棋类游戏,并得到了基本知识做了一些帮助更换预定主要功能礼貌看起来是这样的: 进口要求 进口的urllib2 从BS4进口BeautifulSoupR = requests.get(userurl) 汤= BeautifulSoup(r.content) gameids = [] 在soup.select链接('一[^ HREF = / livechess /游戏ID =?]'): ..
发布时间:2016-08-05 19:08:35 前端开发

硒:通过一组元素迭代

我做这个用BeautifulSoup但它是一个有点麻烦,我试图找出如果我可以直接硒做到这一点。 让我们说我有以下的HTML,其中重复多次在页面的源代码具有相同的元素,但不同的内容: < D​​IV CLASS =“人”> < D​​IV CLASS =“标题”> < A HREF =“htt​​p://www.url.com/johnsmi ..
发布时间:2016-08-05 19:07:38 前端开发

如何提取之前和QUOT文本; BR&Q​​UOT;?

我有小问题。我使用Python 2.7.8。我试图以提取前应与LT文本; BR >。我有这样的: < HTML和GT; <身体GT; < D​​IV CLASS =“条目内容”> < P>此处是与答案,解释和/或解决方案一起“变量名”C面试问题的列表: &所述; / P>&所述p为H.; 1。 C99标准保证唯一性的内部名称为____个字元< BR ..
发布时间:2016-08-05 19:07:35 前端开发

获取表的内容BeautifulSoup

我有一个网站,我与BeautifulSoup上提取下表 这是URL(我还附上一张照片 我非常希望让每个公司在一排CSV但是我得到它在不同的行。请参阅所附的图片。 我想它有它就像在现场“D”但我得到它在A1,A2,A3 ...... 这是code我使用提取: 高清_writeInCSV(文本): 打印“,在CSV文件写作” 开放('sara.csv','WB“)为csv ..
发布时间:2016-08-05 19:07:12 Python

解析HTML数据转换成操作Python列表

我想在HTML网站阅读并提取它们的数据。例如,我想在EPS(每股收益)为近5年来公司看。基本上,我可以阅读,可以使用BeautifulSoup或html2text创造了巨大的文本块。那么我要搜索的文件 - 我一直在使用re.search - 但似乎无法得到它才能正常工作。这里是我试图访问的行: EPS(基本)\\ n13.4620.6226.6930.1732.81 \\ n \\ n 所以, ..
发布时间:2016-08-05 19:07:07 前端开发

将HTML转换为纯文本和维护结构/格式化,红宝石

我想HTML转换为纯文本。我不想只去掉标签,虽然,我想聪明保留​​尽可能多的格式尽可能。插入换行符为< BR> 标记,检测段落和格式化它们的方式,等等。 输入是pretty简单,通常是格式良好的HTML(不是整个文件,只是一堆的内容,通常没有锚或图像)。 我可以放在一起一对夫妇regexs这让我80%,但有推测有可能是更智能一些现有的解决方案。 解决方案 首先,不要试图用正 ..
发布时间:2016-08-05 19:06:59 其他开发语言

如何提取在HTML页面中使用Python的JavaScript块中定义一个JSON对象?

我下载具有以下面的方式在其中定义的数据的HTML网页: ...<脚本类型=“文/ JavaScript的”> window.blog.data = {“活动”:{“类型”:“读”}}; < / SCRIPT> ... 我想提取“window.blog.data'定义的JSON对象。 有没有比手动解析它更简单的方法? (我期待到美丽的肥皂,但似乎无法找到,将返回的确切 ..
发布时间:2016-08-05 19:04:21 Python

网络刮动态JavaScript内容的网站

所以我使用Python和beautifulsoup4(这我不是绑)凑一个网站。问题是,当我使用urlib抓取页面,因为有些是通过javascript的生成它不是整个页面的HTML。有没有什么办法来解决这个问题? 解决方案 有基本上着手进行两个主要选项: 使用浏览器的开发者工具,看看Ajax请求会加载页面,并在你的脚本模拟它们,你可能会需要使用的 JSON 模块加载的响应JSON字符串 ..

Python的BeautifulSoup凑表

我试图创建BeautifulSoup表刮。我写这个的Python code: 进口的urllib2 从BS4进口BeautifulSoupURL =“htt​​p://dofollow.netsons.org/table1.htm”#变化到任何您的网址是页= urllib2.urlopen(URL).read() 汤= BeautifulSoup(页)因为我在soup.find_all(“形式” ..
发布时间:2016-08-05 19:03:17 前端开发

如何保存回在Python用BeautifulSoup HTML文件所做的更改?

Python的小白在这里... 我有下面的脚本,该脚本修改的HREFs一个HTML文件(在未来这将是HTML文件的目录列表)。使用beautifulSoup我设法访问变量值并修改它,因为我想,但我不知道如何保存回文件所做的更改。任何帮助将大大AP preciated。 导入OS 进口重 从BS4进口BeautifulSoup HTMLDOC =开放('adding_computer_c.htm ..
发布时间:2016-08-05 19:02:34 Python

BeautifulSoup无法解析长视图状态

我尝试使用BeautifulSoup4解析从 HTTP检索到的HTML://exporter.nih 。州长/ ExPORTER_Catalog.aspx指数= 0 如果我打印出来的结果汤,它最终是这样的: kZXI9IjAi“/>< /形式为GT;< /身体GT;< / HTML> 在搜索中的原始HTML的最后一个字符 9IjaI ,我发现,这是一个巨大的视 ..
发布时间:2016-08-05 19:01:24 Python

与Python的urllib2的和Beautifulsoup爬行时,维基百科删除HTML标签

我试图抓取维基百科来获取文本挖掘一些数据。我使用python的urllib2的和Beautifulsoup。我的问题是:有没有摆脱不必要的标签(如链接'A或“跨度的)从我读课文一种简单的方法 对于这种情况: 进口的urllib2 从BeautifulSoup进口* 首战= urllib2.build_opener() opener.addheaders = [(“用户代理”,“Mozilla的 ..
发布时间:2016-08-05 19:00:53 前端开发