从使用python网页检索基本数据 [英] retrieving essential data from a webpage using python

查看：198 发布时间：2016/8/5 19:22:35 python get urllib2 beautifulsoup urllib

本文介绍了从使用python网页检索基本数据的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

下面是一个网页，我下载了urlretrieve（urllib模块）的一部分。我想只写在下面给出另一个文本文件作为网页这样的数据：

 工程数学-IV，4，36，40，F
环境研究，47，36，83，P
...
..
。

likeways ..
哪些模块，我应该使用？这所有的命令??

感谢名单提前..：）

的网页的部分

 ＆LT; TD＆GT;工程数学-IV抑制剂; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 4℃; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 36 LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 40℃; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; F＆LT; / TD＆GT;
    ＆LT; / TR＆GT;
＆LT; TR ALIGN =左边的bgcolor =＃FFFFFF'＆GT; ＆LT; TD＆GT; EIT402＆LT; / TD＆GT;
        ＆LT; TD＆GT;环境研究＆LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 47 LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 36 LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 83 LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; P＆LT; / TD＆GT;
    ＆LT; / TR＆GT;
＆LT; TR ALIGN =左边的bgcolor =＃DA9292'＆GT; ＆LT; TD＆GT; EIT403＆LT; / TD＆GT;
        ＆LT; TD＆GT;在线编程和LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 40℃; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 36 LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 76 LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; P＆LT; / TD＆GT;
    ＆LT; / TR＆GT;
＆LT; TR ALIGN =左边的bgcolor =＃FFFFFF'＆GT; ＆LT; TD＆GT; EIT404＆LT; / TD＆GT;
        ＆LT; TD＆GT;基于微处理器的设计与LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT;第3版; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 35℃; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 38 LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; F＆LT; / TD＆GT;
    ＆LT; / TR＆GT;
＆LT; TR ALIGN =左边的bgcolor =＃DA9292'＆GT; ＆LT; TD＆GT; EIT405＆LT; / TD＆GT;
        ＆LT; TD＆GT;编程范式＆LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 42℃; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 36 LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; -78℃; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; P＆LT; / TD＆GT;
    ＆LT; / TR＆GT;
＆LT; TR ALIGN =左边的bgcolor =＃FFFFFF'＆GT; ＆LT; TD＆GT; EIT406＆LT; / TD＆GT;
        ＆LT; TD＆GT;通信系统＆LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 9＆LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 35℃; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 44 LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; F＆LT; / TD＆GT;
    ＆LT; / TR＆GT;
＆LT; TR ALIGN =左边的bgcolor =＃DA9292'＆GT; ＆LT; TD＆GT; EIT407＆LT; / TD＆GT;
        ＆LT; TD＆GT;数据结构LAB＆LT; / TD＆GT;
        ＆LT; TD ALIGN =中心大于10＆LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 35℃; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 45℃; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; F＆LT; / TD＆GT;
    ＆LT; / TR＆GT;
＆LT; TR ALIGN =左边的bgcolor =＃FFFFFF'＆GT; ＆LT; TD＆GT; EIT408＆LT; / TD＆GT;
        ＆LT; TD＆GT;的编程环境LAB＆LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 20℃; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 25℃; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 45℃; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; F＆LT; / TD＆GT;
    ＆LT; / TR＆GT;

解决方案

 进口的urllib2
进口BeautifulSoup高清的main（）：
    infname ='htmltable.html
    outfname ='courses.txt    开放（infname）为INF：
        HTML = inf.read（）    DOC = BeautifulSoup.BeautifulSoup（HTML）
    表= doc.find（'表'，{'ID'：'内容'}）    开放（outfname，'W'）的OUTF：
        在table.findAll（'TR'）行：
            ID，名称A，B，C，D = [cell.getText（）。带（），用于在row.findAll细胞（'TD'）]
            outf.write（{}名称，{A}，{B}，{c}里，{D} \\ N.format（ID = ID，名称=名称，A = A，B = B，C = C， D = d）条）如果__name __ ==__ main__：
    主要（）

作品相当不错，如果你假设保存的页面开始像

 ＆LT; HTML＆GT;＆LT; HEAD＆GT;＆LT;标题＆GT;数据表＆LT; /标题＆GT;＆LT; /头＆GT;＆LT;身体GT;
＆LT;表ID ='内容'＆GT;
＆LT; TR ALIGN =左边的bgcolor =＃FFFFFF'＆GT; ＆LT; TD＆GT; EIT402＆LT; / TD＆GT;
    ＆LT; TD＆GT;工程数学-IV抑制剂; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 4℃; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 36 LT; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; 40℃; / TD＆GT;
        ＆LT; TD ALIGN =中心＆GT; F＆LT; / TD＆GT;
    ＆LT; / TR＆GT;

产生

 工程数学-IV，4，36，40，F
环境研究，47，36，83，P
系统编程，40，36，76，P
基于微处理器的设计，3，35，38，女
编程范式，42，36，78，P
通信系统，9，35，44，女
数据结构LAB，10，35，45，女
编程环境LAB，20，25，45，女

Following is a part of a webpage i downloaded with urlretrieve (urllib). I want to write only this data from the webpage given below in to another text file as:

ENGINEERING MATHEMATICS-IV, 4 ,36 ,40 , F
ENVIRONMENTAL STUDIES, 47, 36, 83 , p
...
..
.

likeways.. which module should i use?, which all commands??

thanx in advance..:)

part of the webpage

<td>ENGINEERING MATHEMATICS-IV</td>
        <td align=center>4</td>
        <td align=center>36</td>
        <td align=center>40</td>
        <td align=center>F</td>
    </tr>
<tr align=left bgcolor='#FFFFFF'>       <td>EIT402    </td>
        <td>ENVIRONMENTAL STUDIES</td>
        <td align=center>47</td>
        <td align=center>36</td>
        <td align=center>83</td>
        <td align=center>P</td>
    </tr>
<tr align=left bgcolor='#DA9292'>       <td>EIT403    </td>
        <td>SYSTEM PROGRAMMING</td>
        <td align=center>40</td>
        <td align=center>36</td>
        <td align=center>76</td>
        <td align=center>P</td>
    </tr>
<tr align=left bgcolor='#FFFFFF'>       <td>EIT404    </td>
        <td>MICROPROCESSOR BASED DESIGN</td>
        <td align=center>3</td>
        <td align=center>35</td>
        <td align=center>38</td>
        <td align=center>F</td>
    </tr>
<tr align=left bgcolor='#DA9292'>       <td>EIT405    </td>
        <td>PROGRAMMING PARADIGMS</td>
        <td align=center>42</td>
        <td align=center>36</td>
        <td align=center>78</td>
        <td align=center>P</td>
    </tr>
<tr align=left bgcolor='#FFFFFF'>       <td>EIT406    </td>
        <td>COMMUNICATION SYSTEMS</td>
        <td align=center>9</td>
        <td align=center>35</td>
        <td align=center>44</td>
        <td align=center>F</td>
    </tr>
<tr align=left bgcolor='#DA9292'>       <td>EIT407    </td>
        <td>DATA STRUCTURE LAB</td>
        <td align=center>10</td>
        <td align=center>35</td>
        <td align=center>45</td>
        <td align=center>F</td>
    </tr>
<tr align=left bgcolor='#FFFFFF'>       <td>EIT408    </td>
        <td>PROGRAMMING  ENVIRONMENTS  LAB</td>
        <td align=center>20</td>
        <td align=center>25</td>
        <td align=center>45</td>
        <td align=center>F</td>
    </tr>

解决方案

import urllib2
import BeautifulSoup

def main():
    infname  = 'htmltable.html'
    outfname = 'courses.txt'

    with open(infname) as inf:
        html = inf.read()

    doc   = BeautifulSoup.BeautifulSoup(html)
    table = doc.find('table',{'id':'content'})

    with open(outfname, 'w') as outf:
        for row in table.findAll('tr'):
            id,name,a,b,c,d = [cell.getText().strip() for cell in row.findAll('td')]
            outf.write("{name}, {a}, {b}, {c}, {d}\n".format(id=id, name=name, a=a, b=b, c=c, d=d))

if __name__=="__main__":
    main()

works quite nicely if you assume the saved page starts like

<html><head><title>Data Table</title></head><body>
<table id='content'>
<tr align=left bgcolor='#FFFFFF'>       <td>EIT402    </td>
    <td>ENGINEERING MATHEMATICS-IV</td>
        <td align=center>4</td>
        <td align=center>36</td>
        <td align=center>40</td>
        <td align=center>F</td>
    </tr>

resulting in

ENGINEERING MATHEMATICS-IV, 4, 36, 40, F
ENVIRONMENTAL STUDIES, 47, 36, 83, P
SYSTEM PROGRAMMING, 40, 36, 76, P
MICROPROCESSOR BASED DESIGN, 3, 35, 38, F
PROGRAMMING PARADIGMS, 42, 36, 78, P
COMMUNICATION SYSTEMS, 9, 35, 44, F
DATA STRUCTURE LAB, 10, 35, 45, F
PROGRAMMING  ENVIRONMENTS  LAB, 20, 25, 45, F

这篇关于从使用python网页检索基本数据的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

从使用python网页检索基本数据 [英] retrieving essential data from a webpage using python

问题描述

的网页的部分

part of the webpage

相关文章

Python最新文章

热门教程

热门工具

登录关闭

从使用python网页检索基本数据 [英] retrieving essential data from a webpage using python

问题描述

的网页的部分

part of the webpage

相关文章

Python最新文章

热门教程

热门工具

登录 关闭

登录关闭