使用Python进行网页抓取 [英] Web scrapping with Python

查看：109 发布时间：2020/5/25 1:49:58 python pandas parsing web-scraping beautifulsoup

本文介绍了使用Python进行网页抓取的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

如何从

How to parse table from https://ege.hse.ru/rating/2019/81031971/all/?rlist=&ptype=0&vuz-abiturients-budget-order=ge&vuz-abiturients-budget-val=10 with BeautifulSoup and make pandas DataFrame? My code:

import requests
from bs4 import BeautifulSoup
url = 'https://ege.hse.ru/rating/2019/81031971/all/?rlist=&ptype=0&vuz-abiturients-budget-order=ge&vuz-abiturients-budget-val=10'
page = requests.get(url)
soup = BeautifulSoup(page.content,"html.parser")
table = soup.find_all("table")
for each_table in table:
 for row in each_table.find_all('tr'):
  for cell in row.find_all("td"):
   print(cell.text)

我尝试:

import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "https://ege.hse.ru/rating/2019/81031971/all/?rlist=&ptype=0&vuz-abiturients-budget-order=ge&vuz-abiturients-budget-val=10"
page = requests.get(url)

soup = BeautifulSoup(page.content, 'html.parser')

tbl = soup.find("table", {"id": "MainContent_dataGridView1"})

data_frame = pd.read_html(str(tbl))[0]
print(data_frame)

但是它说:

"ValueError: No tables found"

推荐答案

我只能看到一个ID为id ="transparence_t"的表

I see only a table with id="transparence_t"

所以:

tbl = soup.find("table", {"id": "transparence_t"})
data_frame = pd.read_html(str(tbl))[0]
print(data_frame)

它向我返回一个698x6数据帧

It returns to me a 698x6 dataframe

这篇关于使用Python进行网页抓取的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

使用Python进行网页抓取 [英] Web scrapping with Python

问题描述

推荐答案

相关文章

Python最新文章

热门教程

热门工具

登录关闭

使用Python进行网页抓取 [英] Web scrapping with Python

问题描述

推荐答案

相关文章

Python最新文章

热门教程

热门工具

登录 关闭

登录关闭