urllib相关内容

Python3,通过单击按钮从URL下载文件

我需要从这样的链接下载文件 https://freemidi.org/getter-13560 但是我不能使用urllib.request或requests库,因为它下载的是html,而不是midi.有什么解决办法吗?这也是按钮本身的链接链接 解决方案 通过添加适当的标头并使用会话,我们可以使用请求模块下载并保存文件. import requests headers = { ..
发布时间:2020-05-25 01:33:31 Python

在Python 2.4中使用urllib解析查询字符串

使用Python2.4.5(不要问!),我想解析一个查询字符串并获得一个dict作为回报.我是否需要像下面这样“手动"进行操作? >>> qs = 'first=1&second=4&third=3' >>> d = dict([x.split("=") for x in qs.split("&")]) >>> d {'second': '4', 'third': '3', 'first': ..
发布时间:2020-05-25 01:00:01 Python

用Python计数HTML图像

我需要一些关于如何提取Python 3.01后对HTML图像进行计数的反馈,也许我的正则表达式未正确使用. 这是我的代码: import re, os import urllib.request def get_image(url): url = 'http://www.google.com' total = 0 try: f = urllib.request.ur ..
发布时间:2020-05-21 19:09:43 Python

如何知道urllib.urlretrieve是否成功?

即使文件在远程http服务器上不存在, urllib.urlretrieve也会以静默方式返回,它只是将html页面保存到命名文件中.例如: urllib.urlretrieve('http://google.com/abc.jpg', 'abc.jpg') 只是默默地返回,即使google.com服务器上不存在abc.jpg,生成的abc.jpg也不是有效的jpg文件,它实际上是ht ..
发布时间:2020-05-17 03:15:59 Python

使用Pytest在函数中引发模拟异常

我具有以下功能,这是一个通用功能,它将根据输入的主机名和数据进行API调用.它将构造http请求以制作API并返回响应.此函数将引发四种类型的异常(无效的URL,超时,身份验证错误和状态检查).如何使用pytest进行Mcok和测试API调用中引发的异常?哪种方法是测试API调用引发的异常的最佳方法? import ssl import urllib import urllib.reques ..
发布时间:2020-05-10 01:38:42 其他开发

Python urllib2解析html问题

我正在使用机械化方法来解析网站的html,但是使用此网站,我得到了奇怪的结果. from mechanize import Browser br = Browser() r = br.open("http://www.heavenplaza.com") result = r.read() 结果是我无法理解的东西.您可以在此处看到: http://paste2.org/p/1556077 ..
发布时间:2020-05-08 01:07:45 Python

使用机械化和urllib下载pdf文件

我是Python的新手,我目前的任务是编写一个网络爬虫,该爬虫在某些网页中查找PDF文件并下载.这是我目前的方法(仅适用于1个示例网址): import mechanize import urllib import sys mech = mechanize.Browser() mech.set_handle_robots(False) url = "http://www.xyz.com" ..
发布时间:2020-05-08 01:06:04 Java开发

Python:使用urllib或urllib2单击按钮

我想用python单击一个按钮,该表格的信息会由网页自动填充.用于向按钮发送请求的HTML代码是: INPUT type="submit" value="Place a Bid"> 我将如何去做? 是否可以仅使用urllib或urllib2单击按钮?还是我需要使用机械化或斜纹呢? 解决方案 使用表单目标并将任何输入作为发布数据发送,如下所示: ..
发布时间:2020-05-08 01:02:02 Python

强制python mechanize/urllib2仅使用A请求?

这是一个相关的问题,但是我不知道如何将答案应用于机械化/urllib2:基本上,给出以下简单代码: #!/usr/bin/python import urllib2 print urllib2.urlopen('http://python.org/').read(100) 这导致wireshark说以下内容: 0.000000 10.102.0.79 -> 8.8.8.8 ..
发布时间:2020-05-08 01:01:56 Python

SSL:使用Python3的CERTIFICATE_VERIFY_FAILED

抱歉,这是一个愚蠢的问题,但是我一直在尝试自学如何使用BeautifulSoup,以便我可以创建一些项目. 我已将此链接作为教程使用: https://www.youtube.com/watch ?v = 5GzVNi0oTxQ 遵循与他完全相同的代码后,这是我得到的错误: Traceback (most recent call last): File "/Library/F ..
发布时间:2020-05-04 10:49:03 Python

如何使用urllib登录网站?

我正在尝试登录以下网站: http://www.broadinstitute.org/cmap/index.jsp .我在Windows上使用python 3.3.我遵循了这个答案 https://stackoverflow.com/a/2910487/651779 .我的代码: import http.cookiejar import urllib url = 'http://www.b ..
发布时间:2020-05-03 09:26:11 其他开发

如何测试网页是否为图像

很抱歉,标题不是很清楚,基本上我有一个包含整个url系列的列表,目的是下载图片.无论如何,是否可以检查网页是否为图像,以便我可以跳过那些页面? 预先感谢 解决方案 您可以使用请求模块.提出头要求并检查内容类型.头请求将不会下载响应正文. import requests response = requests.head(url) print response.headers.ge ..
发布时间:2020-05-02 06:53:33 Python

替换字符串python中的特殊字符

我正在使用urllib从网站获取html字符串,并且需要将html文档中的每个单词放入列表中. 这是我到目前为止的代码.我不断收到错误消息.我还复制了以下错误. import urllib.request url = input("Please enter a URL: ") z=urllib.request.urlopen(url) z=str(z.read()) removeS ..
发布时间:2020-05-02 05:13:51 Python

使用python urllib如何避免非HTML内容

我正在使用urllib(注意不是urllib2),并从用户提供的url获取页面标题.不幸的是,有时URL不是HTML,而是远程站点上的一些大文件或运行时间非常长的过程. 我检查了python文档,但urllib受到限制,从源头看,我似乎可以对其进行更改,但我无法在服务器上进行更改.提到了info(),但没有有关如何实现它的示例. 我正在使用FancyURLopener,我猜它在urll ..
发布时间:2020-04-30 11:37:53 Python

从网页中提取元关键字?

我需要使用Python从网页中提取meta关键字.我以为可以使用urllib或urllib2来完成此操作,但我不确定.有人有什么想法吗? 我在Windows XP上使用Python 2.6 解决方案 lxml 是我觉得它比BeautifulSoup更快,并且具有更好的功能,同时仍然相对易于使用.示例: 52> from urllib import urlopen 53> fro ..
发布时间:2020-04-26 09:35:50 Python