wget 第7页 - IT屋-程序员软件开发技术分享社区

python的wget Vs urlretrieve

我有一项任务是从网站下载 Gbs 的数据.数据为 .gz 文件形式，每个文件大小为 45mb. 获取文件的简单方法是使用“wget -r -np -A files url".这将以递归格式下载数据并镜像网站.下载速度非常高，4mb/sec. 但是，为了玩玩，我也使用 python 来构建我的 urlparser. 通过 Python 的 urlretrieve 下载非常慢，可能是 ..

发布时间：2021-09-15 18:37:25 python urllib2 wget Python

我有一个 IP 摄像头，下面的链接拍了一张快照并在您的浏览器中显示图片: http://192.168.5.10:81/snapshot.cgi?user=admin&pwd=888888 我正在尝试编写一个脚本，在一段时间后使用 wget 将快照重复下载到我的本地.但是，当我使用 wget -m -p -k http://192.168.5.10:81/snapshot.cgi?user= ..

发布时间：2021-09-14 20:50:37 linux url wget unauthorized 服务器开发

在谷歌驱动器文件上使用 Wget

https:///drive.google.com/a/uci.edu/uc?export=download&confirm=LJ_a&id=0Bxy-54SBqeekTlE4Qy1mWWpsYTQ 我正在尝试使用 Wget 下载上述文件.但是，它只生成 1 KB 的日志文件.我输入: wget https://drive.google.com/a/uci.edu/uc?export=d ..

发布时间：2021-09-14 19:54:41 unix wget 服务器开发

wget拒绝仍然下载文件

我只想要文件夹结构，但我不知道如何使用 wget.相反，我正在使用这个: wget -R pdf,css,gif,txt,png -np -r http://example.com 应该拒绝 -R 之后的所有文件，但在我看来 wget 仍然下载文件，然后将其删除. 有没有更好的方法来获取文件夹结构? TTP 请求已发送，正在等待响应...200 OK 长度:136796 ( ..

发布时间：2021-09-14 19:50:23 unix wget 服务器开发

使用 wget 从谷歌学者搜索结果中下载所有 pdf 文件

我想编写一个简单的网络蜘蛛，或者只是使用 wget 从谷歌学者下载 pdf 结果.这实际上是一种获取论文进行研究的好方法. 我已阅读有关 stackoverflow 的以下页面: 使用 wget 抓取网站并限制抓取的链接总数网络蜘蛛与 Wget 的蜘蛛有何不同? 从网站下载所有 PDF 文件如何使用 wget 从网站下载所有文件(但不是 HTML)? 最后一 ..

发布时间：2021-09-14 19:49:26 unix wget web-crawler 服务器开发

从 Kaggle 下载文件到 Google Colab

我想将 Kaggle 的手语数据集下载到我的 Colab. 到目前为止我一直使用 wget 和具体的 zip 文件链接，例如: !wget --no-check-certificate \https://storage.googleapis.com/laurencemoroney-blog.appspot.com/rps.zip \-O/tmp/rps.zip 但是，当我右键单击 Kag ..

发布时间：2021-09-12 18:57:29 ubuntu download wget google-colaboratory kaggle 其他开发

如何`wget`文本文件中的URL列表?

假设我在一个位置有一个包含数百个 URL 的文本文件，例如 http://url/file_to_download1.gzhttp://url/file_to_download2.gzhttp://url/file_to_download3.gzhttp://url/file_to_download4.gzhttp://url/file_to_download5.gz.... 使用 wget ..

发布时间：2021-09-06 19:06:32 text wget 其他开发

如何下载完整的网站?

修复网站代码使用CDN后(将所有url重写为图片，js & css)，我需要测试域上的所有页面，以确保所有资源都是从 CDN 获取的. 所有网站页面都可以通过链接访问，没有孤立的页面. 目前我正在使用 FireBug 并检查“网络"视图... 有没有什么自动化的方法可以给一个域名并请求该域的所有页面+资源? 更新: 好的，我发现我可以这样使用 wget: wget ..

发布时间：2021-09-06 18:41:58 testing automation wget qa web-testing 其他开发

wget 从标准输入读取输入

来自 wget 手册页 §2.4 记录和输入文件选项 ‘-i 文件’'--输入文件=文件'从本地或外部文件读取 url.如果'-'被指定为文件，urls从标准输入读取.(使用‘./-’从字面上读取文件名为“-".)如果使用此函数，则命令行上不需要出现 url.如果命令行和输入文件中都有 url，那些在命令行将是第一个被检索的.如果“--force-html"是未指定，则文件应由一系列 UR ..

发布时间：2021-08-30 19:03:36 wget stdin 其他开发

使用新用户运行时，Wget 无法写入文件.如何解决?

我在 Ubuntu 中有一个名为 my_account 的用户帐户.然后我创建了另一个名为 test_account 的帐户.当我在 my_account 中执行 wget 时，它可以工作: my_account@my_machine:~$ wget --no-check-certificate https://hdfs_server:50470/webpage.html#tab-datanod ..

发布时间：2021-08-28 18:35:14 ubuntu ssl permissions ssl-certificate wget 其他开发

使用 wget 递归获取包含任意文件的目录

我有一个 Web 目录，用于存储一些配置文件.我想使用 wget 将这些文件拉下来并保持它们当前的结构.例如，远程目录看起来像: http://mysite.com/configs/.vim/ .vim 包含多个文件和目录.我想使用 wget 在客户端上复制它.似乎无法找到正确的 wget 标志组合来完成这项工作.有什么想法吗? 解决方案您必须将 -np/--no-parent 选项 ..

发布时间：2021-07-23 21:05:24 shell wget 其他开发

可以在shell脚本中对变量进行urlencode吗?

是否可以在 shell 脚本中对变量进行 url 编码? #!/bin/bash现在=$(日期+“%T")DATA=$(wget -q -O - "http://someurl.com/x.htm?callback=webRequest&exthrs=1&extMode=&fund=1&entitlement=0&skipcache=&extendedMask=1&;partnerId=2&ou ..

发布时间：2021-07-23 19:54:53 shell sh wget 其他开发

有没有办法以编程方式下载网页的部分内容，而不是整个 HTML 正文?

我们只需要来自 nytimes.com/technology 的 HTML 文档中的特定元素.这个页面包含很多文章，但我们只想要文章的标题，它在一个 .如果我们使用 wget、cURL 或任何其他工具或某些包，例如 Python 中的请求，整个 HTML文件被退回.我们可以将返回的数据限制为特定元素，例如 's 吗? 解决方案 HTTP 协议对 HTML 或 DOM 一无所知.使用 HTT ..

发布时间：2021-07-17 18:57:46 web scripting web-scraping web-crawler wget 其他开发

我如何使用 wget 下载带有scrapy的文件

scrapy 没有正确下载文件.我有我的项目的 URL，所以我想我可以使用 wget 下载文件. 如何在scrapy process_item 函数中使用wget?或者，还有其他下载文件的方式吗? class MyImagesPipeline(ImagesPipeline):#名称下载版本def image_key(self, url):image_guid = url.split('/' ..

发布时间：2021-07-16 22:14:52 python wget scrapy Python

通过 Ruby on Rails 使用 wget

我想建立一个简单的网站，可以下载网页 www.example.com/index.html 并在客户端请求时将其快照存储在服务器上.我正在考虑使用命令 wget 下载网页.Ruby on Rails 能够处理这个任务吗? 解决方案是. 您可以在 Ruby 中通过反引号、exec 和 system 执行shell 命令.请注意，每个返回的内容略有不同: 反勾 `wget ht ..

发布时间：2021-07-12 20:20:27 ruby-on-rails webserver wget 其他开发

使用起始 url 中的 wget 停止从网站下载特定类型的所有文件

以下方法无效. wget -r -A .pdf home_page_url 它以以下消息停止: ....删除 site.com/index.html.tmp 因为它应该被拒绝.完成的我不知道为什么它只停在起始 url 中，不要进入其中的链接来搜索给定的文件类型. 递归下载网站中所有 pdf 文件的任何其他方式.? 解决方案下面的cmd对我有用，它会下载一个站点的图 ..

发布时间：2021-07-05 19:08:39 recursion screen-scraping wget 其他开发

如何从 Python 链接下载带有 .torrent 扩展名的文件

我尝试使用 wget: url = https://yts.lt/torrent/download/A4A68F25347C709B55ED2DF946507C413D636DCAwget.download(url, 'c:/path/') 结果是我得到了一个名为 A4A68F25347C709B55ED2DF946507C413D636DCA 且没有任何扩展名的文件. 而当我将链接放在 ..

发布时间：2021-06-26 19:57:47 python python-2.7 wget Python

如何使用 Python 请求来伪造浏览器访问 a.k.a 并生成用户代理?

我想从这个网站获取内容. 如果我使用像 Firefox 或 Chrome 这样的浏览器，我可以获得我想要的真实网站页面，但是如果我使用 Python requests 包(或 wget 命令)来获取它，它会返回一个完全不同的 HTML 页面. 我以为网站的开发者为此设置了一些障碍. 问题如何使用 python 请求或命令 wget 伪造浏览器访问? 解决方案提供 ..

发布时间：2021-06-25 19:07:13 python web-scraping python-requests wget user-agent Python

从 PyPi 下载轮子

如何从 PyPi 上列出的软件包中下载特定的轮子?我假设我会使用 wget 或 curl，但我不确定要使用哪些参数. 解决方案众所周知，PyPI 很难自省.幸运的是，Debian 项目用于扫描新版本的 FTP 目录，并设置解决方案来解决此问题.它记录在 https://wiki.debian.org/debian/watch#PyPI 例如，如果您访问 https://pypi.d ..

发布时间：2021-06-24 18:49:21 curl wget pypi python-wheel 其他开发

在 Ubuntu 中使用 wget 代理的问题

请帮助我，我想使用 wget 命令从 dev.opennebula.org 下载文件，但我遇到了代理问题.现在，我已经在文件/etc/wgetrc 中设置了 http-proxy 值，我使用命令 wget --proxy-username=username --proxy-password=password URL 但结果是连接到 proxy.mmcs:8080 失败:连接超时.正在重试. ..

发布时间：2021-06-22 20:41:04 ubuntu proxy wget 其他开发

wget相关内容