网页爬虫 - python3爬不到完整数据 没有异步

查看:229
本文介绍了网页爬虫 - python3爬不到完整数据 没有异步的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

import re,urllib3,urllib,requests
import urllib.request,urllib.parse
from bs4 import BeautifulSoup as soup

url = 'https://meiriyiwen.com'
http_head = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36',
'Cookie':'bdshare_firstime=1499212548332; _ga=GA1.2.879820613.1499212532; _gid=GA1.2.1501763376.1500365076',
    'Connection':'keep-alive',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Cache-Control':'max-age=0',
    'Accept-Language':'zh-CN,zh;q=0.8,en;q=0.6',
    'Host':'meiriyiwen.com',
    'Upgrade-Insecure-Requests':'1'
}

def set_config(url,http_head):
    requst = urllib.request.Request(url,headers=http_head)
    resutl = urllib.request.urlopen(requst)
    html_soup = soup(resutl)
    print(html_soup.find_all('p'))

set_config(url,http_head)


这是用chrome F12看到的数据 可以看到 直接返回数据 没有用ajax异步 但是 我用python获取的时候就成了

p标签 丢了
请问这是什么情况?

这个问题已被关闭,原因:问题已解决 - 问题已解决,且对他人无借鉴意义

解决方案

import requests

r = requests.get('https://meiriyiwen.com')

html_soup = soup(r.text)
print(html_soup.find_all('p'))

这篇关于网页爬虫 - python3爬不到完整数据 没有异步的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆