我无法获得 HTML 页面的整个源代码 [英] I can't get the whole source code of an HTML page
本文介绍了我无法获得 HTML 页面的整个源代码的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
使用 Python,我想在一个源非常大的网页上抓取数据(它是某个用户的 Facebook 页面).
假设 URL 是我试图抓取的 URL.我运行以下代码:
导入 urllib2usock = urllib2.urlopen(url)数据 = usock.read()usock.close()
数据应该包含我正在抓取的页面的来源,但由于某种原因,它不包含我直接与页面来源进行比较时可用的所有字符.我不知道我做错了什么.我知道我尝试抓取的页面最近没有更新,所以这不是因为我遗漏了一些最近的数据.
有人知道吗?
我缺少的信息类型如下: