urllib相关内容
我需要从这样的链接下载文件 https://freemidi.org/getter-13560 但是我不能使用urllib.request或requests库,因为它下载的是html,而不是midi.有什么解决办法吗?这也是按钮本身的链接链接 解决方案 通过添加适当的标头并使用会话,我们可以使用请求模块下载并保存文件. import requests headers = {
..
使用Python2.4.5(不要问!),我想解析一个查询字符串并获得一个dict作为回报.我是否需要像下面这样“手动"进行操作? >>> qs = 'first=1&second=4&third=3' >>> d = dict([x.split("=") for x in qs.split("&")]) >>> d {'second': '4', 'third': '3', 'first':
..
我需要将任何网站的HTML代码保存在txt文件中,这是一个非常容易的练习,但是我对此表示怀疑,因为a具有执行此操作的功能: import urllib.request def get_html(url): f=open('htmlcode.txt','w') page=urllib.request.urlopen(url) pagetext=page.read()
..
我需要一些关于如何提取Python 3.01后对HTML图像进行计数的反馈,也许我的正则表达式未正确使用. 这是我的代码: import re, os import urllib.request def get_image(url): url = 'http://www.google.com' total = 0 try: f = urllib.request.ur
..
我正在学习如何从链接中提取数据,然后对它们进行图形化处理. 在本教程中,我使用的是股票的yahoo数据集. 代码如下 import matplotlib.pyplot as plt import numpy as np import urllib import matplotlib.dates as mdates import datetime def bytespdate2
..
即使文件在远程http服务器上不存在, urllib.urlretrieve也会以静默方式返回,它只是将html页面保存到命名文件中.例如: urllib.urlretrieve('http://google.com/abc.jpg', 'abc.jpg') 只是默默地返回,即使google.com服务器上不存在abc.jpg,生成的abc.jpg也不是有效的jpg文件,它实际上是ht
..
为什么下面的代码仅适用于multiprocessing.dummy,而不适用于简单的multiprocessing. import urllib.request #from multiprocessing.dummy import Pool #this works from multiprocessing import Pool urls = ['http://www.python.org
..
我对python还是很陌生,所以如果我错过了一些简单的事情,我会提前道歉.我正在尝试将数据发布到python中的多部分表单中.该脚本将运行,但不会发布.我不确定自己在做什么错. import urllib, urllib2 from poster.encode import multipart_encode from poster.streaminghttp import register_
..
我具有以下功能,这是一个通用功能,它将根据输入的主机名和数据进行API调用.它将构造http请求以制作API并返回响应.此函数将引发四种类型的异常(无效的URL,超时,身份验证错误和状态检查).如何使用pytest进行Mcok和测试API调用中引发的异常?哪种方法是测试API调用引发的异常的最佳方法? import ssl import urllib import urllib.reques
..
我正在使用机械化方法来解析网站的html,但是使用此网站,我得到了奇怪的结果. from mechanize import Browser br = Browser() r = br.open("http://www.heavenplaza.com") result = r.read() 结果是我无法理解的东西.您可以在此处看到: http://paste2.org/p/1556077
..
我们正在尝试从Forever 21网站的此页面获取产品网址(from bs4 import BeautifulSoup import urllib import urllib2 import requests #driver = webdriver.Firefox() url = "http://www.forever21.com/Product/Category.aspx?br=f21&cate
..
我是Python的新手,我目前的任务是编写一个网络爬虫,该爬虫在某些网页中查找PDF文件并下载.这是我目前的方法(仅适用于1个示例网址): import mechanize import urllib import sys mech = mechanize.Browser() mech.set_handle_robots(False) url = "http://www.xyz.com"
..
我想用python单击一个按钮,该表格的信息会由网页自动填充.用于向按钮发送请求的HTML代码是: INPUT type="submit" value="Place a Bid"> 我将如何去做? 是否可以仅使用urllib或urllib2单击按钮?还是我需要使用机械化或斜纹呢? 解决方案 使用表单目标并将任何输入作为发布数据发送,如下所示:
..
这是一个相关的问题,但是我不知道如何将答案应用于机械化/urllib2:基本上,给出以下简单代码: #!/usr/bin/python import urllib2 print urllib2.urlopen('http://python.org/').read(100) 这导致wireshark说以下内容: 0.000000 10.102.0.79 -> 8.8.8.8
..
抱歉,这是一个愚蠢的问题,但是我一直在尝试自学如何使用BeautifulSoup,以便我可以创建一些项目. 我已将此链接作为教程使用: https://www.youtube.com/watch ?v = 5GzVNi0oTxQ 遵循与他完全相同的代码后,这是我得到的错误: Traceback (most recent call last): File "/Library/F
..
我正在尝试登录以下网站: http://www.broadinstitute.org/cmap/index.jsp .我在Windows上使用python 3.3.我遵循了这个答案 https://stackoverflow.com/a/2910487/651779 .我的代码: import http.cookiejar import urllib url = 'http://www.b
..
很抱歉,标题不是很清楚,基本上我有一个包含整个url系列的列表,目的是下载图片.无论如何,是否可以检查网页是否为图像,以便我可以跳过那些页面? 预先感谢 解决方案 您可以使用请求模块.提出头要求并检查内容类型.头请求将不会下载响应正文. import requests response = requests.head(url) print response.headers.ge
..
我正在使用urllib从网站获取html字符串,并且需要将html文档中的每个单词放入列表中. 这是我到目前为止的代码.我不断收到错误消息.我还复制了以下错误. import urllib.request url = input("Please enter a URL: ") z=urllib.request.urlopen(url) z=str(z.read()) removeS
..
我正在使用urllib(注意不是urllib2),并从用户提供的url获取页面标题.不幸的是,有时URL不是HTML,而是远程站点上的一些大文件或运行时间非常长的过程. 我检查了python文档,但urllib受到限制,从源头看,我似乎可以对其进行更改,但我无法在服务器上进行更改.提到了info(),但没有有关如何实现它的示例. 我正在使用FancyURLopener,我猜它在urll
..
我需要使用Python从网页中提取meta关键字.我以为可以使用urllib或urllib2来完成此操作,但我不确定.有人有什么想法吗? 我在Windows XP上使用Python 2.6 解决方案 lxml 是我觉得它比BeautifulSoup更快,并且具有更好的功能,同时仍然相对易于使用.示例: 52> from urllib import urlopen 53> fro
..