wget相关内容

python的wget Vs urlretrieve

我有一项任务是从网站下载 Gbs 的数据.数据为 .gz 文件形式,每个文件大小为 45mb. 获取文件的简单方法是使用“wget -r -np -A files url".这将以递归格式下载数据并镜像网站.下载速度非常高,4mb/sec. 但是,为了玩玩,我也使用 python 来构建我的 urlparser. 通过 Python 的 urlretrieve 下载非常慢,可能是 ..
发布时间:2021-09-15 18:37:25 Python

wget 下载图片,链接被截断

我有一个 IP 摄像头,下面的链接拍了一张快照并在您的浏览器中显示图片: http://192.168.5.10:81/snapshot.cgi?user=admin&pwd=888888 我正在尝试编写一个脚本,在一段时间后使用 wget 将快照重复下载到我的本地.但是,当我使用 wget -m -p -k http://192.168.5.10:81/snapshot.cgi?user= ..
发布时间:2021-09-14 20:50:37 服务器开发

在谷歌驱动器文件上使用 Wget

https:///drive.google.com/a/uci.edu/uc?export=download&confirm=LJ_a&id=0Bxy-54SBqeekTlE4Qy1mWWpsYTQ 我正在尝试使用 Wget 下载上述文件.但是,它只生成 1 KB 的日志文件.我输入: wget https://drive.google.com/a/uci.edu/uc?export=d ..
发布时间:2021-09-14 19:54:41 服务器开发

wget拒绝仍然下载文件

我只想要文件夹结构,但我不知道如何使用 wget.相反,我正在使用这个: wget -R pdf,css,gif,txt,png -np -r http://example.com 应该拒绝 -R 之后的所有文件,但在我看来 wget 仍然下载文件,然后将其删除. 有没有更好的方法来获取文件夹结构? TTP 请求已发送,正在等待响应...200 OK 长度:136796 ( ..
发布时间:2021-09-14 19:50:23 服务器开发

使用 wget 从谷歌学者搜索结果中下载所有 pdf 文件

我想编写一个简单的网络蜘蛛,或者只是使用 wget 从谷歌学者下载 pdf 结果.这实际上是一种获取论文进行研究的好方法. 我已阅读有关 stackoverflow 的以下页面: 使用 wget 抓取网站并限制抓取的链接总数 网络蜘蛛与 Wget 的蜘蛛有何不同? 从网站下载所有 PDF 文件 如何使用 wget 从网站下载所有文件(但不是 HTML)? 最后一 ..
发布时间:2021-09-14 19:49:26 服务器开发

如何`wget`文本文件中的URL列表?

假设我在一个位置有一个包含数百个 URL 的文本文件,例如 http://url/file_to_download1.gzhttp://url/file_to_download2.gzhttp://url/file_to_download3.gzhttp://url/file_to_download4.gzhttp://url/file_to_download5.gz.... 使用 wget ..
发布时间:2021-09-06 19:06:32 其他开发

如何下载完整的网站?

修复网站代码使用CDN后(将所有url重写为图片,js & css),我需要测试域上的所有页面,以确保所有资源都是从 CDN 获取的. 所有网站页面都可以通过链接访问,没有孤立的页面. 目前我正在使用 FireBug 并检查“网络"视图... 有没有什么自动化的方法可以给一个域名并请求该域的所有页面+资源? 更新: 好的,我发现我可以这样使用 wget: wget ..
发布时间:2021-09-06 18:41:58 其他开发

wget 从标准输入读取输入

来自 wget 手册页 §2.4 记录和输入文件选项 ‘-i 文件’'--输入文件=文件'从本地或外部文件读取 url.如果'-'被指定为文件,urls从标准输入读取.(使用‘./-’从字面上读取文件名为“-".)如果使用此函数,则命令行上不需要出现 url.如果命令行和输入文件中都有 url,那些在命令行将是第一个被检索的.如果“--force-html"是未指定,则文件应由一系列 UR ..
发布时间:2021-08-30 19:03:36 其他开发

使用 wget 递归获取包含任意文件的目录

我有一个 Web 目录,用于存储一些配置文件.我想使用 wget 将这些文件拉下来并保持它们当前的结构.例如,远程目录看起来像: http://mysite.com/configs/.vim/ .vim 包含多个文件和目录.我想使用 wget 在客户端上复制它.似乎无法找到正确的 wget 标志组合来完成这项工作.有什么想法吗? 解决方案 您必须将 -np/--no-parent 选项 ..
发布时间:2021-07-23 21:05:24 其他开发

有没有办法以编程方式下载网页的部分内容,而不是整个 HTML 正文?

我们只需要来自 nytimes.com/technology 的 HTML 文档中的特定元素.这个页面包含很多文章,但我们只想要文章的标题,它在一个 .如果我们使用 wget、cURL 或任何其他工具或某些包,例如 Python 中的请求,整个 HTML文件被退回.我们可以将返回的数据限制为特定元素,例如 's 吗? 解决方案 HTTP 协议对 HTML 或 DOM 一无所知.使用 HTT ..
发布时间:2021-07-17 18:57:46 其他开发

我如何使用 wget 下载带有scrapy的文件

scrapy 没有正确下载文件.我有我的项目的 URL,所以我想我可以使用 wget 下载文件. 如何在scrapy process_item 函数中使用wget?或者,还有其他下载文件的方式吗? class MyImagesPipeline(ImagesPipeline):#名称下载版本def image_key(self, url):image_guid = url.split('/' ..
发布时间:2021-07-16 22:14:52 Python

通过 Ruby on Rails 使用 wget

我想建立一个简单的网站,可以下载网页 www.example.com/index.html 并在客户端请求时将其快照存储在服务器上.我正在考虑使用命令 wget 下载网页.Ruby on Rails 能够处理这个任务吗? 解决方案 是. 您可以在 Ruby 中通过反引号、exec 和 system 执行shell 命令.请注意,每个返回的内容略有不同: 反勾 `wget ht ..
发布时间:2021-07-12 20:20:27 其他开发

使用起始 url 中的 wget 停止从网站下载特定类型的所有文件

以下方法无效. wget -r -A .pdf home_page_url 它以以下消息停止: ....删除 site.com/index.html.tmp 因为它应该被拒绝.完成的 我不知道为什么它只停在起始 url 中,不要进入其中的链接来搜索给定的文件类型. 递归下载网站中所有 pdf 文件的任何其他方式.? 解决方案 下面的cmd对我有用,它会下载一个站点的图 ..
发布时间:2021-07-05 19:08:39 其他开发

如何使用 Python 请求来伪造浏览器访问 a.k.a 并生成用户代理?

我想从这个网站获取内容. 如果我使用像 Firefox 或 Chrome 这样的浏览器,我可以获得我想要的真实网站页面,但是如果我使用 Python requests 包(或 wget 命令)来获取它,它会返回一个完全不同的 HTML 页面. 我以为网站的开发者为此设置了一些障碍. 问题 如何使用 python 请求或命令 wget 伪造浏览器访问? 解决方案 提供 ..
发布时间:2021-06-25 19:07:13 Python

从 PyPi 下载轮子

如何从 PyPi 上列出的软件包中下载特定的轮子?我假设我会使用 wget 或 curl,但我不确定要使用哪些参数. 解决方案 众所周知,PyPI 很难自省.幸运的是,Debian 项目用于扫描新版本的 FTP 目录,并设置解决方案来解决此问题.它记录在 https://wiki.debian.org/debian/watch#PyPI 例如,如果您访问 https://pypi.d ..
发布时间:2021-06-24 18:49:21 其他开发

在 Ubuntu 中使用 wget 代理的问题

请帮助我,我想使用 wget 命令从 dev.opennebula.org 下载文件,但我遇到了代理问题.现在,我已经在文件/etc/wgetrc 中设置了 http-proxy 值,我使用命令 wget --proxy-username=username --proxy-password=password URL 但结果是 连接到 proxy.mmcs:8080 失败:连接超时.正在重试. ..
发布时间:2021-06-22 20:41:04 其他开发