网页爬虫 - python3爬不到完整数据 没有异步
本文介绍了网页爬虫 - python3爬不到完整数据 没有异步的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
问 题
import re,urllib3,urllib,requests
import urllib.request,urllib.parse
from bs4 import BeautifulSoup as soup
url = 'https://meiriyiwen.com'
http_head = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36',
'Cookie':'bdshare_firstime=1499212548332; _ga=GA1.2.879820613.1499212532; _gid=GA1.2.1501763376.1500365076',
'Connection':'keep-alive',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Cache-Control':'max-age=0',
'Accept-Language':'zh-CN,zh;q=0.8,en;q=0.6',
'Host':'meiriyiwen.com',
'Upgrade-Insecure-Requests':'1'
}
def set_config(url,http_head):
requst = urllib.request.Request(url,headers=http_head)
resutl = urllib.request.urlopen(requst)
html_soup = soup(resutl)
print(html_soup.find_all('p'))
set_config(url,http_head)
这是用chrome F12看到的数据 可以看到 直接返回数据 没有用ajax异步 但是 我用python获取的时候就成了
p标签 丢了
请问这是什么情况?
这个问题已被关闭,原因:问题已解决 - 问题已解决,且对他人无借鉴意义
解决方案
import requests
r = requests.get('https://meiriyiwen.com')
html_soup = soup(r.text)
print(html_soup.find_all('p'))
这篇关于网页爬虫 - python3爬不到完整数据 没有异步的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文