urllib相关内容
我有一个 Python 脚本,可以获取网页并对其进行镜像.它适用于一个特定的页面,但我无法让它在多个页面上工作.我假设我可以将多个 URL 放入一个列表中,然后将其提供给函数,但我收到此错误: 回溯(最近一次调用最后一次): 中的文件“autowget.py",第 46 行获取网址()文件“autowget.py",第 43 行,在 getUrl 中响应 = urllib.request.url
..
比如我想在输入用户名和密码后下载这个页面: http://forum.ubuntu-it.org/ 我尝试过 wget,但没有用. python 有解决方案吗? 您可以使用这些用户名和密码进行测试: 用户名:johnconnor密码:你好你好 解决方案 就像@robert 所说,使用机械化. 让您开始: from mechanize import Browserb =
..
导入urllibresponse = urllib.urlopen('http://pool.sks-keyservers.net/')打印 'RESPONSE:', 响应打印 'URL :', response.geturl()标头 = response.info()打印'日期:',标题['日期']打印“标题:"打印 ' - - - - -'打印标题数据 = response.read()
..
为什么在使用 requests 和 urlopen(url).info() 的情况下内容长度不同>>>url = 'http://pymotw.com/2/urllib/index.html'>>>requests.head(url).headers.get('content-length', None)'8176'>>>urllib.urlopen(url).info()['内容长度']'38
..
我编写了一个脚本来查找 SO 问题标题中的拼写错误.我用了大约一个月.这很好用. 但是现在,当我尝试运行它时,我得到了这个. 回溯(最近一次调用最后一次): 中的文件“copyeditor.py",第 32 行find_bad_qn(i)文件“copyeditor.py",第 15 行,在 find_bad_qn 中html = urlopen(url)文件“/usr/lib/python
..
我正用这个头撞墙.我一直在尝试每个示例,阅读我可以在网上找到的有关 urllib2 的基本 http 授权的最后一点,但我无法弄清楚是什么导致了我的特定错误. 更令人沮丧的是,该代码适用于一个页面,但不适用于另一个页面.登录 www.mysite.com/adm 非常顺利.它验证没有问题.但是,如果我将地址更改为“http://mysite.com/adm/items.php?n=20110
..
这个简单的 Python 3 脚本: 导入 urllib.request主机 = "scholar.google.com"link = "/scholar.bib?q=info:K7uZdMSvdQ0J:scholar.google.com/&output=citation&hl=en&as_sdt=1,14&ct=citation&cd=0"url = "http://" + 主机 + 链接文
..
我刚刚开始使用 urllib3,我马上就遇到了一个问题.根据他们的手册,我从一个简单的例子开始: Python 2.7.1+ (r271:86832, 2011 年 4 月 11 日,18:13:53)[GCC 4.5.2] 在 linux2 上输入“帮助"、“版权"、“信用"或“许可"以获取更多信息.>>>导入 urllib3>>>>>>http = urllib3.PoolManager()
..
我从 github 打开了 python 代码.我假设它是 python2.x 并在我尝试运行它时出现上述错误.从阅读中我看到 Python 3 贬低了 urllib 本身,并用包括 urllib.request 在内的许多库替换了它. 看起来代码是用 python 3 编写的(感谢知道的人的确认.)在这一点上,我不想转移到 Python 3 - 我还没有研究它会对我现有的代码做什么.
..
导入 urllib.request进口重新page = urllib.request.urlopen("http://www.samair.ru/proxy/ip-address-01.htm").read()re.findall('\d+\.\d+\.\d+\.\d+', page) 我不明白为什么它说: 文件“C:\Python33\lib\re.py",第 201 行,在 finda
..
我使用请求来抓取某些内容的网页. 当我使用 导入请求requests.get('example.org') 我得到的页面与我使用浏览器或使用 时得到的页面不同 导入 urllib.requesturllib.request.urlopen('example.org') 我尝试使用 urllib 但它真的很慢. 在比较测试中,我做了它比 requests 慢 50% !! 你是如
..
如何在允许我的程序前进到下一条语句之前检查 urllib.urlretrieve(url, file_name) 是否已完成? 以下面的代码片段为例: 导入回溯导入系统导入图片从 urllib 导入 urlretrieve尝试:打印“下载gif....."urlretrieve(imgUrl,“tides.gif")# 留出时间下载/保存图像:时间.sleep(5)打印“已下载 Gif".
..
我有以下简单的代码: 导入 urllib2导入系统sys.path.append('../BeautifulSoup/BeautifulSoup-3.1.0.1')从 BeautifulSoup 进口 *page='http://en.wikipedia.org/wiki/Main_Page'c=urllib2.urlopen(页面) 此代码生成以下错误消息: c=urllib2.urlo
..
我有一个正在测试的简单网站.它在本地主机上运行,我可以在我的网络浏览器中访问它.索引页只是“运行"这个词.urllib.urlopen 将成功读取页面,但 urllib2.urlopen 不会.这是一个演示问题的脚本(这是实际脚本,而不是其他测试脚本的简化): 导入 urllib, urllib2打印 urllib.urlopen("http://127.0.0.1").read() # 打
..
嗨,我一直在使用此代码片段从网站下载文件,到目前为止,小于 1GB 的文件都很好.但我注意到一个 1.5GB 的文件不完整 #s 是请求会话对象r = s.get(fileUrl, headers=headers, stream=True)start_time = time.time()使用 open(local_filename, 'wb') 作为 f:计数 = 1块大小 = 512尝试:to
..
以下代码是非异步代码示例,有没有办法异步获取图片? 导入urllib对于范围内的 x(0,10):urllib.urlretrieve("http://test.com/file %s.png" % (x), "temp/file %s.png" % (x)) 我也看过 Grequests 库,但我不知道这是否可行或如何从文档中执行此操作. 解决方案 您不需要任何第三方库.只需为每个请
..
我想登录这个网站:https://www.fitbit.com/login这是我使用的代码: 导入 urllib2导入 urllib导入cookieliblogin_url = 'https://www.fitbit.com/login'acc_pwd = {'login':'Log In','email':'username','password':'pwd'}cj = cookielib.C
..
我正在使用来自 urllib 模块的 urlretrieve. 我似乎找不到如何向我的请求添加用户代理描述. 可以使用 urlretrieve 吗?还是我需要使用其他方法? 解决方案 一、设置版本: urllib.URLopener.version = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like
..
我正在尝试打开并解析一个 html 页面.在 python 2.7.8 中我没有问题: 导入urlliburl = "https://ipdb.at/ip/66.196.116.112"html = urllib.urlopen(url).read() 一切都很好.但是我想转移到 python 3.4,然后我收到 HTTP 错误 403(禁止).我的代码: 导入 urllib.request
..
目前可以正常工作并正确下载文件,但将它们放在运行它的同一文件夹中,但是我该如何说将这些移动到 c:\downloads 或类似的东西? urllib.urlretrieve(url, filename) 解决方案 filename 基本上是您对文件及其存储位置的引用.使用以下命令 fullfilename = os.path.join(myPath, filename)urllib.url
..