urllib2相关内容
对于那些了解 wget 的人来说,它有一个选项 --spider,它允许人们检查链接是否损坏,而无需实际下载网页.我想在 Python 中做同样的事情.我的问题是我有一个包含 100'000 个链接的列表,我想每天最多检查一次,每周至少检查一次.无论如何,这都会产生大量不必要的流量. 据我了解 urllib2.urlopen() 文档,它不下载页面而只下载元信息.这样对吗?或者有没有其他方法
..
有没有办法从使用 Urllib2 创建的请求中获取标头或确认使用 urllib2.urlopen 发送的 HTTP 标头? 解决方案 查看请求(和响应标头)的一种简单方法是启用调试输出: opener = urllib2.build_opener(urllib2.HTTPHandler(debuglevel=1)) 然后您可以看到发送/接收的精确标头: >>>opener.open(
..
我希望能够使用 Python 下载页面及其所有相关资源(图像、样式表、脚本文件等).我(有点)熟悉 urllib2 并且知道如何下载单个 url,但是在我开始在 BeautifulSoup + urllib2 上进行黑客攻击之前,我想确保还没有等效于“wget --page-requisites http://www.google.com". 我特别感兴趣的是收集有关下载整个网页(包括所有资
..
我是 Python 新手,正在尝试制作一个非常基本的网络爬虫.例如,我做了一个简单的函数来加载一个显示在线游戏高分的页面.所以我能够获得 html 页面的源代码,但我需要从该页面中绘制特定的数字.例如,网页如下所示: http://hiscore.runescape.com/hiscorepersonal.ws?user1=bigdrizzle13 其中“bigdrizzle13"是链
..
我想在通过 urllib2 抓取数据时测试我的应用程序对超时的处理,并且我想有某种方法来强制请求超时. 找不到非常慢的互联网连接,我可以使用什么方法? 我似乎记得有一个有趣的应用程序/套件可以模拟这些事情.也许有人知道链接? 解决方案 我通常使用 netcat 监听本地机器的 80 端口: nc -l 80 然后我在我的应用程序中使用 http://localhost/ 作
..
urllib2 文档 表示添加了 timeout 参数在 Python 2.6 中.不幸的是,我的代码库一直在 Python 2.5 和 2.4 平台上运行. 有没有其他方法可以模拟超时?我想要做的就是让代码在固定的时间内与远程服务器通话. 也许有任何替代的内置库?(不想安装 3rd 方,比如 pycurl) 解决方案 您可以使用以下方法为所有套接字操作(包括 HTTP 请求)
..
我想从需要我的 Windows 用户名和密码的网页中获取一些数据. 到目前为止,我有: opener = build_opener()尝试:page = opener.open("http://somepagewhichneedsmywindowsusernameandpassword/")打印页面除了 URLError:打印“哦,不." urllib2 支持吗?我找到了 Python
..
我有一项任务是从网站下载 Gbs 的数据.数据为 .gz 文件形式,每个文件大小为 45mb. 获取文件的简单方法是使用“wget -r -np -A files url".这将以递归格式下载数据并镜像网站.下载速度非常高,4mb/sec. 但是,为了玩玩,我也使用 python 来构建我的 urlparser. 通过 Python 的 urlretrieve 下载非常慢,可能是
..
我正在使用 urllib2.urlopen 方法打开 URL 并获取网页的标记.其中一些站点使用 301/302 重定向来重定向我.我想知道我被重定向到的最终 URL.我怎样才能得到这个? 解决方案 调用返回的文件对象的 .geturl() 方法.根据 urllib2 文档: geturl() — 返回检索到的资源的 URL,通常用于确定是否遵循重定向 示例: 导入 urll
..
我目前正在 UDACITY 学习机器学习课程.在那里,他们用 python 2.7 编写了一些代码,但由于我目前使用的是 python 3.5,我遇到了一些错误.这是代码 导入urlliburl = "https://www.cs.cmu.edu/~./enron/enron_mail_20150507.tgz"urllib.urlretrieve(url, filename="../enron
..
我正在与 API 建立多个连接.进行删除查询.我在第 3000 次查询中遇到了该错误. 像这样: def delete_request(self,path):开瓶器 = urllib2.build_opener(urllib2.HTTPHandler)request = urllib2.Request('%s%s'%(self.endpoint,path))签名 = self._gen_
..
我用 python 解析了一个网站.他们使用了很多重定向,并且通过调用 javascript 函数来实现. 所以当我只是使用 urllib 来解析站点时,它对我没有帮助,因为我在返回的 html 代码中找不到目标 url. 有没有办法访问 DOM 并从我的 Python 代码中调用正确的 javascript 函数? 我需要的只是 url,重定向带我去的地方. 解决方案
..
他们在python文档中没有提到这一点.最近我正在测试一个网站,只是使用 urllib2.urlopen() 刷新网站以提取某些内容,我注意到有时当我更新网站时 urllib2.urlopen() 似乎没有获得新添加的内容.所以我想知道它是否在某处缓存了东西,对吧? 解决方案 所以我想知道它会在某处缓存东西,对吗? 它没有. 如果您没有看到新数据,这可能有很多原因.大多数大
..
代码如下: 导入 urllib2 作为 URLdef get_unread_msgs(user, passwd):auth = URL.HTTPBasicAuthHandler()auth.add_password(领域='新邮件提要',uri='https://mail.google.com',用户='%s'%用户,密码=密码)开瓶器 = URL.build_opener(auth)URL.i
..
我有一个使用 urllib2 的 Python 网络客户端.将 HTTP 标头添加到我的传出请求中很容易.我只是创建了一个我想添加的头的字典,并将它传递给请求初始值设定项. 但是,其他“标准"HTTP 标头会添加到请求中,以及我明确添加的自定义标头.当我使用 Wireshark 嗅探请求时,除了我自己添加的标头之外,我还会看到标头.我的问题是如何访问这些标题?我想记录每个请求(包括 完整 组
..
我遇到了一个奇怪的情况: 我像这样卷曲网址: def check_urlstatus(url):h = httplib2.Http()尝试:resp = h.request("http://" + url, 'HEAD')如果 int(resp[0]['status']) 在您的情况下,''(空白)不是有效的域名字符,您最终会得到: >>>'.f.de'.encode('idna')回溯
..
我正在学习制作网络抓取工具,并想为个人项目抓取 TripAdvisor,使用 urllib2 抓取 html.但是,我遇到了一个问题,使用下面的代码,我返回的 html 不正确,因为页面似乎需要一秒钟的时间来重定向(您可以通过访问 url 来验证这一点) - 相反,我得到了代码从最初短暂出现的页面. 是否有一些行为或参数需要设置以确保在获取网站内容之前页面已完全完成加载/重定向? 导入 u
..
我一直在使用亚马逊的产品广告 API 来生成包含给定书籍价格的网址.我生成的一个网址如下: http://www.amazon.com/gp/offer-listing/0415376327%3FSubscriptionId%3DAKIAJZY2VTI5JQ66K7QQ%26tag%3Damaztest04-20%Damaztest04-20%Damaztest04-20%D26link2%
..
似乎urllib2默认发送HTTP/1.1请求? 解决方案 urllib2 在幕后使用 httplib 进行连接.您可以将其更改为 http 1.0,如下所示.我已经包含了我的 apache 服务器访问日志以显示 http 连接如何更改为 1.0 代码 导入 urllib2、httplibhttplib.HTTPConnection._http_vsn = 10httplib.HT
..
使用 urllib2 时是否可以轻松限制 kbps?如果是,您可以指导我使用的任何代码示例或资源将不胜感激. 解决方案 urllib中有urlretrieve(url, filename=None, reporthook=None, data=None)函数 模块.如果您将 reporthook-function/object 实现为 令牌桶,或漏桶,你有你的全局速率限制. 编辑:经
..