urllib2相关内容

IoError:尝试写入文件时出现[Errno 22]

我当前正在尝试从外部服务器下载mp3文件。我已经下载了104首歌曲。然而,我的程序在一首歌中失败了。文件的标题为 《怪异艾尔》扬科维奇-超级英雄颂(恶搞比利·乔尔《钢琴家》).mp3 失败的代码行如下 mp3file = urllib2.urlopen(url) output = open(filename, 'wb') output.write(mp3file.read()) ..
发布时间:2022-08-16 19:44:33 Python

Urllib2数据发送

我最近在SO的帮助下写了这篇文章。现在,谁能告诉我如何让它真正登录到黑板上。它仅以非登录格式显示所有内容。 import urllib2, re import urllib, re logindata = urllib.urlencode({'username': 'x', 'password': 'y'}) page = urllib2.urlopen("http://www.woarl. ..
发布时间:2022-05-26 12:55:57 Python

使用请求获取.onion域

我正在尝试使用请求访问下列域nzxj65x32vh2fkhk.onion。 我已经运行了Tor,并且正确配置了会话的对象代理。 import requests session = requests.session() session.proxies = {'http': 'socks5://localhost:9050', 'https': 'soc ..
发布时间:2022-05-26 12:47:54 Python

使用 PDFMiner (Python) 处理在线 pdf 文件.编码网址?

我希望使用 PDFMiner 提取在线可用的 pdf 文件的内容. 我的代码基于 文档 用于提取硬盘上的PDF文件内容: # 打开一个 PDF 文件.fp = open('mypdf.pdf', 'rb')# 创建一个与文件对象关联的PDF解析器对象.解析器 = PDFParser(fp)# 创建一个存储文档结构的PDF文档对象.文档 = PDFDocument(解析器) 稍作改动后效果 ..
发布时间:2022-01-20 14:34:54 Python

如何向 urllib2 开启程序添加标题?

cj = cookielib.CookieJar()opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))opener.open('http://abc.com')opener.open('http://google.com') 如您所见,我使用 opener 访问不同的网站,使用 cookie jar.我可以设置一个标头,以 ..
发布时间:2022-01-11 16:31:22 Python

如何在 HTTP 请求中发送带有 urllib2 的自定义标头?

我想在使用 urllib2.urlopen(..) 时在我的请求中发送一个自定义的“Accept"标头.我该怎么做? 解决方案 不完全是.创建 Request 对象实际上并不发送请求,并且 Request 对象没有 Read() 方法.(另外:read() 是小写的.)您需要做的就是将 Request 作为第一个参数传递给 urlopen() 并且会给你你的回应. 导入urllib2re ..
发布时间:2022-01-11 16:13:02 Python

从 HTTP 转义 Python 字符串

我从 HTTP 标头中获得了一个字符串,但它已被转义.. 我可以使用什么函数来取消转义它? myemail%40gmail.com ->myemail@gmail.com urllib.unquote() 会是正确的方法吗? 解决方案 我很确定 urllib 的 unquote 是这样做的常用方法. >>>导入 urllib>>>urllib.unquote("myemail%40g ..
发布时间:2022-01-11 16:08:14 Python

将 XML 从 URL 解析为 python 对象

goodreads 网站有这个 API 用于访问用户的“货架":https://www.goodreads.com/review/list/20990068.xml?key=nGvCqaQ6tn9w4HNpW8kquw&v=2&shelf=toread 它返回 XML.我正在尝试创建一个 django 项目,该项目在此 API 的书架上显示书籍.我正在寻找如何(或者是否有更好的方法)来编写我 ..
发布时间:2022-01-10 19:58:35 Python

Python urllib2 文件上传问题

我目前正在尝试使用 urllib2 和 urllib2_file 启动文件上传图书馆.这是我的代码: 导入系统导入 urllib2_file导入 urllib2URL='http://aquate.us/upload.php'd = [('上传', open(sys.argv[1:]))]req = urllib2.Request(URL, d)u = urllib2.urlopen(req)打 ..
发布时间:2022-01-09 23:12:10 Python

关闭 urllib2 连接

我正在使用 urllib2 从 ftp 和 http 服务器加载文件. 某些服务器仅支持每个 IP 一个连接.问题是,urllib2 不会立即关闭连接.查看示例程序. 从 urllib2 导入 urlopen从时间导入睡眠url = 'ftp://user:pass@host/big_file.ext'定义加载文件(网址):f = urlopen(url)加载 = 0而真:数据 = f.r ..
发布时间:2022-01-09 11:48:44 Python

urllib2 opener 提供错误的字符集

当我打开网址阅读时,我无法识别它.但是当我检查内容标题时,它说它被编码为 utf-8.所以我试图将它转换为 unicode,它抱怨 UnicodeDecodeError: 'ascii' codec can't decode byte 0x8b in position 1: ordinal not in range(128) using unicode(). .encode("utf-8") ..
发布时间:2022-01-07 21:35:28 Python

如何在python中下载具有正确字符集的任何(!)网页?

问题 当使用 python 抓取网页时,必须知道页面的字符编码.如果字符编码错误,那么您的输出将会一团糟. 人们通常使用一些基本的技术来检测编码.他们要么使用标题中的字符集或元标记中定义的字符集,要么使用 编码检测器(不关心元标记或标题).仅使用其中一种技术,有时您将无法获得与在浏览器中相同的结果. 浏览器这样做: 元标记始终优先(或 xml 定义) 当元标记中没有定义字 ..
发布时间:2022-01-07 21:04:05 Python

使用 urllib2 的 SSLv3 警报握手失败

我在 Python 2.7.10 下使用 urllib2 连接 https 时遇到问题. 有什么我想念的吗? Python 2.7.10(默认,2015 年 6 月 18 日,10:53:24)[GCC 4.4.5] 在 linux2 上输入“帮助"、“版权"、“信用"或“许可证"以获取更多信息.>>>导入 ssl、urllib2>>>ssl.HAS_SNI真的>>>ssl.OPENSSL ..
发布时间:2022-01-07 19:13:52 Python

与浏览器响应不同的糟糕响应

我正在尝试使用 scrapy 抓取此页面: http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=7391 我得到的响应与我在浏览器中看到的不同.浏览器响应有正确的页面,而scrapy响应是: http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=1 页面.我试过 u ..
发布时间:2022-01-04 21:04:42 其他开发

在 urllib2 中重复主机查找失败

我的代码使用 Python 的 urllib2 在多个线程中发出许多 HTTP GET 请求,将响应写入文件(每个线程一个). 在执行期间,看起来许多主机查找失败(导致名称或服务未知错误,请参阅附加的错误日志以获取示例). 这是由于不稳定的 DNS 服务吗?如果主机名没有改变,依赖 DNS 缓存是不好的做法吗?IE.是否应该将单个查找的结果传递到 urlopen 中? 线程 Thread ..
发布时间:2022-01-04 14:17:30 Python

告诉 urllib2 使用自定义 DNS

我想告诉 urllib2.urlopen(或自定义开启器)使用 127.0.0.1(或 ::1) 来解析地址.但是,我不会更改我的 /etc/resolv.conf. 一种可能的解决方案是使用dnspython 之类的工具来查询地址,使用httplib 之类的工具来构建自定义网址开启器.不过,我更愿意告诉 urlopen 使用自定义名称服务器.有什么建议吗? 解决方案 看起来名称解析 ..
发布时间:2022-01-04 13:48:27 Python

使用带有 wget -c 功能的 Python 中的 urllib 下载文件

我正在用 Python 编写一个软件,以便从数据库下载 HTTP PDF.有时下载会因此消息而停止: 检索不完整:在 10689634 个字节中只得到了 3617232 个 如何使用 206 Partial Content HTTP 功能要求下载在停止的地方重新启动? 我可以使用 wget -c 来实现,而且效果很好,但我想直接在我的 Python 软件中实现它. 有什么想法吗? ..
发布时间:2022-01-02 17:08:36 Python