urlopen - IT屋-程序员软件开发技术分享社区

使用 Python 抓取网页的 JavaScript 页面

..

告诉 urllib2 使用自定义 DNS

我想告诉 urllib2.urlopen(或自定义开启器)使用 127.0.0.1(或 ::1) 来解析地址.但是，我不会更改我的 /etc/resolv.conf. 一种可能的解决方案是使用dnspython 之类的工具来查询地址，使用httplib 之类的工具来构建自定义网址开启器.不过，我更愿意告诉 urlopen 使用自定义名称服务器.有什么建议吗? 解决方案看起来名称解析 ..

发布时间：2022-01-04 13:48:27 python dns urllib2 dnspython urlopen Python

防止“隐藏"在 Python 中使用 urlopen() 重定向

我正在使用 BeautifulSoup 进行网页抓取，并且在使用 urlopen 时遇到特定类型网站的问题.网站上的每个项目都有自己独特的页面，并且项目有不同的格式(例如:500 mL、1L、2L...). 当我使用 Internet 浏览器打开产品的 URL (www.example.com/product1) 时，我会看到一张 500 mL 格式的图片，以及有关它的信息 (价格、数量、风 ..

发布时间：2021-12-23 20:46:22 python beautifulsoup urllib urlopen Python

让 JSON 对象接受字节或让 urlopen 输出字符串

使用 Python 3，我从 URL 请求一个 json 文档. response = urllib.request.urlopen(request) response 对象是一个类似文件的对象，带有 read 和 readline 方法.通常可以使用以文本模式打开的文件来创建 JSON 对象. obj = json.load(fp) 我想做的是: obj = json.load(res ..

发布时间：2021-12-02 11:54:08 python json python-3.x encoding urlopen Python

在 Python 中解析 HTTP 响应

我想操作 THIS 网址中的信息.我可以成功打开它并阅读其内容.但我真正想做的是把我不想要的东西都扔掉，把我想保留的东西操纵起来. 有没有办法将字符串转换为 dict 以便我可以迭代它?还是我只需要按原样解析它(str 类型)? from urllib.request import urlopenurl = 'http://www.quandl.com/api/v1/datasets/FR ..

发布时间：2021-11-15 00:43:21 json api python-3.x dictionary urlopen 其他开发

如何在 Python 中可靠地处理网络数据

我正在使用以下代码从网站获取数据: time_out = 4def tryconnect(turl, timer=time_out, retries=10):urlopener = 无站点发现 = 1尝试 = 0while (sitefound != 0) 并尝试 ..

发布时间：2021-09-15 18:39:21 python web urllib2 urlopen Python

python urllib2 urlopen 响应

python urllib2 urlopen 响应: > 预期: {"token":"mYWmzpunvasAT795niiR"} 解决方案您需要将生成的类文件对象绑定到一个变量，否则解释器只会通过 repr 转储它: >>>导入 urllib2>>>urllib2.urlopen('http://www.google.com') ..

发布时间：2021-09-15 18:38:21 python urllib2 urlopen Python

使用 urllib2 加载 URL 时如何设置 TCP_NODELAY 标志?

我使用 urllib2 加载网页，我的代码是: httpRequest = urllib2.Request("http://www....com")pageContent = urllib2.urlopen(httpRequest)pageContent.readline() 如何获取套接字属性来设置TCP_NODELAY? 在普通套接字中，我将使用函数: socket.setsock ..

发布时间：2021-09-15 18:38:02 python sockets urllib2 urlopen setsockopt Python

Python 2.6 之前版本中 urllib2.urlopen() 的超时

urllib2 文档表示添加了 timeout 参数在 Python 2.6 中.不幸的是，我的代码库一直在 Python 2.5 和 2.4 平台上运行. 有没有其他方法可以模拟超时?我想要做的就是让代码在固定的时间内与远程服务器通话. 也许有任何替代的内置库?(不想安装 3rd 方，比如 pycurl) 解决方案您可以使用以下方法为所有套接字操作(包括 HTTP 请求) ..

发布时间：2021-09-15 18:37:31 python urllib2 urlopen Python

urllib2.urlopen() 是否缓存东西?

他们在python文档中没有提到这一点.最近我正在测试一个网站，只是使用 urllib2.urlopen() 刷新网站以提取某些内容，我注意到有时当我更新网站时 urllib2.urlopen() 似乎没有获得新添加的内容.所以我想知道它是否在某处缓存了东西，对吧? 解决方案所以我想知道它会在某处缓存东西，对吗? 它没有. 如果您没有看到新数据，这可能有很多原因.大多数大 ..

发布时间：2021-09-15 18:37:11 python urllib2 urlopen Python

如何处理urllib2.urlopen的url中的®?

我收到了一个网址:https://www.packtpub.com/virtualization-and-cloud/citrix-xenapp®-75-desktop-virtualization-solutions;它来自 BeautifulSoup. url=u'https://www.packtpub.com/virtualization-and-cloud/citrix-xenapp\ ..

发布时间：2021-09-15 18:36:38 python urllib2 python-unicode urlopen Python

HTML 数据对 urllib 隐藏

如何从该页面获取真实内容:http://kursuskatalog.au.dk/da/course/74960/105E17-Demokrati-og-diktatur-i-komparativt-perspektiv 我从下面的代码中得到的只是一些指向 javascript 和 CSS 文件的链接.有没有办法解决这个问题? from urllib.request import urlop ..

发布时间：2021-09-15 18:35:06 python web-scraping urllib urlopen Python

为什么从页面中检索的文本有时看起来像胡言乱语?

我在 Python 中使用 urllib 和 urllib2 打开和阅读网页，但有时，我得到的文本不可读.例如，如果我运行这个: 导入urllibtext = urllib.urlopen('http://tagger.steve.museum/steve/object/141913').read()打印文本我收到一些无法阅读的文本.我读过这些帖子: 来自 urlopen 的胡言乱语 ..

发布时间：2021-09-15 18:34:58 python urllib2 urllib urlopen Python

Python urllib 冻结特定 URL

我正在尝试获取一个页面并且 urlopen 挂起并且从不返回任何内容，尽管该网页非常轻巧并且可以使用任何浏览器打开而没有任何问题导入 urllib.request使用 urllib.request.urlopen("http://www.planalto.gov.br/ccivil_03/_Ato2007-2010/2008/Lei/L11882.htm") 作为响应:打印(响应.读()) ..

发布时间：2021-09-15 18:34:45 python python-3.x urllib urlopen Python

Python:Urllib.urlopen 非数字端口

对于下面的代码 theurl = "https://%s:%s@members.dyndns.org/nic/update?hostname=%s&myip=%s&wildcard=NOCHG&mx=NOCHG&backmx=NOCHG" %(用户名、密码、主机名、ip)conn = urlopen(theurl) # 向url发送请求print(conn.read()) # 读取响应conn. ..

发布时间：2021-09-15 18:34:37 python urllib urlopen Python

无缓冲的 urllib2.urlopen

我有用于 Web 界面的客户端，用于长时间运行的进程.我希望该过程的输出显示出来.与 urllib.urlopen() 配合使用效果很好，但它没有 timeout 参数.另一方面，使用 urllib2.urlopen() 输出被缓冲.有没有简单的方法可以禁用该缓冲区? 解决方案我想到的一个快速技巧是使用 urllib.urlopen() 和 threading.Timer() 模拟超时. ..

发布时间：2021-09-15 18:34:25 python urllib2 urllib buffering urlopen Python

Urllib 的 urlopen 在某些站点(例如 StackApps api)上中断:返回垃圾结果

我正在使用 urllib2 的 urlopen 函数尝试从 StackOverflow api 获取 JSON 结果. 我正在使用的代码: >>>导入 urllib2>>>conn = urllib2.urlopen("http://api.stackoverflow.com/0.8/users/")>>>conn.readline() 我得到的结果: '\x1f\x8b\x08\ ..

发布时间：2021-09-15 18:33:50 python urllib2 urllib urlopen Python

使用 urlopen 打开 url 列表

我有一个 Python 脚本，可以获取网页并对其进行镜像.它适用于一个特定的页面，但我无法让它在多个页面上工作.我假设我可以将多个 URL 放入一个列表中，然后将其提供给函数，但我收到此错误: 回溯(最近一次调用最后一次): 中的文件“autowget.py"，第 46 行获取网址()文件“autowget.py"，第 43 行，在 getUrl 中响应 = urllib.request.url ..

发布时间：2021-09-15 18:33:47 python urllib urlopen Python

再次 urllib.error.HTTPError: HTTP Error 400: Bad Request

嗨！我试图打开通常在浏览器中打开的网页，但python只是发誓不想工作. import urllib.request, urllib.errorf = urllib.request.urlopen('http://www.booking.com/reviewlist.html?cc1=tr;pagename=sapphire') 另一种方式 import urllib.request, ur ..

发布时间：2021-09-15 18:32:21 python python-3.x urllib http-status-code-400 urlopen Python

为什么 urllib.urlopen.read() 与源代码不对应?

我正在尝试获取以下网页: 导入urlliburllib.urlopen("http://www.gallimard-jeunesse.fr/searchjeunesse/advanced/(order)/author?catalog[0]=1&SearchAction=1").read() 结果与我使用谷歌浏览器检查网页源代码时看到的不符. 你能告诉我为什么会发生这种情况以及我如何改进我 ..

发布时间：2021-09-15 18:32:15 python urllib urlopen Python

urlopen相关内容