我无法获得 HTML 页面的整个源代码 [英] I can't get the whole source code of an HTML page

查看:43
本文介绍了我无法获得 HTML 页面的整个源代码的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

使用 Python,我想在一个源非常大的网页上抓取数据(它是某个用户的 Facebook 页面).

假设 URL 是我试图抓取的 URL.我运行以下代码:

导入 urllib2usock = urllib2.urlopen(url)数据 = usock.read()usock.close()

数据应该包含我正在抓取的页面的来源,但由于某种原因,它不包含我直接与页面来源进行比较时可用的所有字符.我不知道我做错了什么.我知道我尝试抓取的页面最近没有更新,所以这不是因为我遗漏了一些最近的数据.

有人知道吗?

我缺少的信息类型如下: