html-parsing相关内容
最近,我一直工作在Python中的项目,涉及刮对于一些代理的几个网站。我运行到这样做的问题是,当我试着刮了一定众所周知的代理网站,美丽的汤不会做我期望什么,当我问它寻找到IP在代理表。我会尝试SCAPE的IP地址为每个代理,当我用美丽的汤的 .get_text()法的相应元素上我会得到这样的输出。 ....UbZT {显示:无} .f5fa {显示:内联} .Glj2 {显示:无} .cUce
..
如何找到使用BeautifulSoup另一个标记的标签?在这个例子中,我想获得例如“0993 999 999”,这是与背后的另一个div DIV权“电话:”文本。 我试图把它用这个: 打印parsed.findAll('格',{“阶级”:“DVA”})[3]的.text 但它不能正常工作。我认为必须有办法告诉BeautifulSoup,它是仅次于“电话”文本或另一种方式。 < D
..
我想收获一些棋类游戏,并得到了基本知识做了一些帮助更换预定主要功能礼貌看起来是这样的: 进口要求 进口的urllib2 从BS4进口BeautifulSoupR = requests.get(userurl) 汤= BeautifulSoup(r.content) gameids = [] 在soup.select链接('一[^ HREF = / livechess /游戏ID =?]'):
..
< UL> <立GT; < DIV CLASS =“c_logo_box”> < A HREF =“汇款,企业/ RIA-汇款/”>< IMG SRC =“http://www.compareremit.com/uploads/ria-logo11.png”的风格=“高度: 57px;宽度:147px;“ ALT =“R
..
我做这个用BeautifulSoup但它是一个有点麻烦,我试图找出如果我可以直接硒做到这一点。 让我们说我有以下的HTML,其中重复多次在页面的源代码具有相同的元素,但不同的内容: < DIV CLASS =“人”> < DIV CLASS =“标题”> < A HREF =“http://www.url.com/johnsmi
..
我有小问题。我使用Python 2.7.8。我试图以提取前应与LT文本; BR >。我有这样的: < HTML和GT; <身体GT; < DIV CLASS =“条目内容”> < P>此处是与答案,解释和/或解决方案一起“变量名”C面试问题的列表: &所述; / P>&所述p为H.; 1。 C99标准保证唯一性的内部名称为____个字元< BR
..
我有一个网站,我与BeautifulSoup上提取下表 这是URL(我还附上一张照片 我非常希望让每个公司在一排CSV但是我得到它在不同的行。请参阅所附的图片。 我想它有它就像在现场“D”但我得到它在A1,A2,A3 ...... 这是code我使用提取: 高清_writeInCSV(文本): 打印“,在CSV文件写作” 开放('sara.csv','WB“)为csv
..
我想在HTML网站阅读并提取它们的数据。例如,我想在EPS(每股收益)为近5年来公司看。基本上,我可以阅读,可以使用BeautifulSoup或html2text创造了巨大的文本块。那么我要搜索的文件 - 我一直在使用re.search - 但似乎无法得到它才能正常工作。这里是我试图访问的行: EPS(基本)\\ n13.4620.6226.6930.1732.81 \\ n \\ n 所以,
..
我想HTML转换为纯文本。我不想只去掉标签,虽然,我想聪明保留尽可能多的格式尽可能。插入换行符为< BR> 标记,检测段落和格式化它们的方式,等等。 输入是pretty简单,通常是格式良好的HTML(不是整个文件,只是一堆的内容,通常没有锚或图像)。 我可以放在一起一对夫妇regexs这让我80%,但有推测有可能是更智能一些现有的解决方案。 解决方案 首先,不要试图用正
..
输入HTML: < DIV的风格=“显示:弯曲”> < DIV CLASS =“半壁江山”的风格=“FONT-SIZE:0.8em;宽度:33%;”>苹果< / DIV> < DIV CLASS =“半壁江山”的风格=“FONT-SIZE:0.8em;文本对齐:中心;宽度:28%;”>桃子< / DIV>
..
我需要解析嵌套的HTML列表,并将其转换为父子字典。鉴于此列表: < UL> <立GT;操作系统 < UL> <立GT;的Linux < UL> <立GT; Debian的< /李> <立GT;的Fedora< /李>
..
我下载具有以下面的方式在其中定义的数据的HTML网页: ...<脚本类型=“文/ JavaScript的”> window.blog.data = {“活动”:{“类型”:“读”}}; < / SCRIPT> ... 我想提取“window.blog.data'定义的JSON对象。 有没有比手动解析它更简单的方法? (我期待到美丽的肥皂,但似乎无法找到,将返回的确切
..
我想解析网页
..
所以我使用Python和beautifulsoup4(这我不是绑)凑一个网站。问题是,当我使用urlib抓取页面,因为有些是通过javascript的生成它不是整个页面的HTML。有没有什么办法来解决这个问题? 解决方案 有基本上着手进行两个主要选项: 使用浏览器的开发者工具,看看Ajax请求会加载页面,并在你的脚本模拟它们,你可能会需要使用的 JSON 模块加载的响应JSON字符串
..
我试图创建BeautifulSoup表刮。我写这个的Python code: 进口的urllib2 从BS4进口BeautifulSoupURL =“http://dofollow.netsons.org/table1.htm”#变化到任何您的网址是页= urllib2.urlopen(URL).read() 汤= BeautifulSoup(页)因为我在soup.find_all(“形式”
..
Python的小白在这里... 我有下面的脚本,该脚本修改的HREFs一个HTML文件(在未来这将是HTML文件的目录列表)。使用beautifulSoup我设法访问变量值并修改它,因为我想,但我不知道如何保存回文件所做的更改。任何帮助将大大AP preciated。 导入OS 进口重 从BS4进口BeautifulSoup HTMLDOC =开放('adding_computer_c.htm
..
我尝试使用BeautifulSoup4解析从 HTTP检索到的HTML://exporter.nih 。州长/ ExPORTER_Catalog.aspx指数= 0 如果我打印出来的结果汤,它最终是这样的: kZXI9IjAi“/>< /形式为GT;< /身体GT;< / HTML> 在搜索中的原始HTML的最后一个字符 9IjaI ,我发现,这是一个巨大的视
..
code常见片: # - * - 编码:CP1252 - * - 导入CSV 进口的urllib2 进口SYS 进口时间 从BS4进口BeautifulSoup 从进口和itertools islice页= urllib2.urlopen('http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html').read()
..
Python的新手在这里。 Python 2.7版与beautifulsoup 4。 我想获得解析网页使用BeautifulSoup得到列。该网页有表内表;但表4是我想要的,它没有任何标题或个标签。我想数据进入列。 从BS4进口BeautifulSoup 进口的urllib2URL ='http://finance.yahoo.com/q/op?s=aapl+Options“ 的htmlTex
..
我试图抓取维基百科来获取文本挖掘一些数据。我使用python的urllib2的和Beautifulsoup。我的问题是:有没有摆脱不必要的标签(如链接'A或“跨度的)从我读课文一种简单的方法 对于这种情况: 进口的urllib2 从BeautifulSoup进口* 首战= urllib2.build_opener() opener.addheaders = [(“用户代理”,“Mozilla的
..