wget相关内容

如何使用带有 wget 的 POST 参数排除链接

我想下载 www.site.com/en/下所有可访问的 html 文件.但是,网站上有很多带有帖子参数的链接 URL(例如,每个产品类别的第 1、2、3.. 页).我希望 wget 不要下载这些链接.我正在使用 -R "*\?*" 但它并不完美,因为它只会在下载文件后删除文件. 有什么方法可以例如用正则表达式过滤 wget 后面的链接吗? 解决方案 使用正则表达式可以避免这些文 ..
发布时间:2021-06-18 20:26:08 其他开发

如何完全镜像网页?

我在几个不同的网站上有几个网页,我想完全镜像它们.这意味着我将需要图像、CSS 等,并且需要转换链接.此功能类似于使用 Firefox 来“将页面另存为"并选择“网页,完成".我想将文件和相应的目录命名为合理的名称(例如 myfavpage1.html,myfavpage1.dir). 我无权访问服务器,它们也不是我的页面.这是一个示例链接:点击我! 再澄清一点……我有大约 100 个 ..
发布时间:2021-06-15 20:34:33 其他开发

快速重新抓取网站

我正在开发一个系统,该系统必须跟踪少数门户的内容并每晚检查更改(例如下载和索引白天添加的新站点).该门户的内容将被索引以供搜索.问题在于重新抓取此门户 - 第一次抓取门户需要很长时间(门户示例:www.onet.pl、www.bankier.pl、www.gazeta.pl)我想重新抓取它更快(尽可能快)例如通过检查修改日期但我已经使用 wget 下载 www.bankier.pl 但作为回应它抱 ..
发布时间:2021-06-11 18:42:08 其他开发

即使已安装wget,也无法将其识别为命令

我知道我在这里做的事情确实很愚蠢,但是我已经尝试了我能想到的事情. 这是我会议的相关部分: $ wget http://pjmedia.com/instapundit/-bash:wget:找不到命令$ cd ..$ pip install wget要求已经满足(使用--upgrade进行升级):wget./anaconda/lib/python2.7/site-packages$ ..
发布时间:2021-05-31 19:10:01 Python

wget .listing文件,有没有一种方法可以指定它的名称

好,所以我需要运行wget,但是我被禁止在需要运行wget的位置中创建“点"文件.所以我的问题是“我可以让wget使用我可以指定的.listing以外的名称吗?". 进一步说明:这是将ftp文件夹与本地ftp文件夹同步/镜像,因此使用-O选项并不是真正有用,因为我要求所有文件都保持格式. 解决方案 您可以使用 -O 选项设置输出文件名,如: wget -O文件http://sta ..
发布时间:2021-05-29 23:25:52 服务器开发

如何在Linux中隐藏wget输出?

当我使用 wget 时,我不想看到任何消息.我想取消它通常在屏幕上产生的所有输出. 我该怎么办? 解决方案 为什么不使用 -q ? 来自 man wget : -q- 安静的关闭Wget的输出. 测试 $ wget www.google.com--2015-05-08 14:07:42-- http://www.google.com/正在解析www.google.c ..
发布时间:2021-05-29 22:34:36 服务器开发

如何为wget设置代理?

我想使用代理通过 wget 下载某些内容: HTTP代理:127.0.0.1端口:8080 代理不需要用户名和密码. 我该怎么做? 解决方案 对于通过/etc/wgetrc 的系统的所有用户,或者仅对于使用〜/.wgetrc的用户文件: use_proxy =是http_proxy = 127.0.0.1:8080https_proxy = 127.0.0.1:8080 ..
发布时间:2021-05-29 22:11:38 服务器开发

如何下载Java依赖项的网页?

如何下​​载具有Java代码依赖关系的网页,以便其以本地方式呈现为在线方式?(不包括Ajax).我听说wget可以做到这一点,但是我正在寻找一些可以做到这一点的java代码. 谢谢. 解决方案 以下是(开放源代码)网络爬虫的列表: http://java-source.net/open-source/crawlers ,您可以用来执行此操作,也可以查看代码以查看如何完成. ..
发布时间:2021-05-18 21:03:09 Java开发

如何在C中创建自己的头文件?

我试图制作自己的头文件,但它不起作用 vim 说 wget.h:2:2:错误:无效的预处理指令#ifndef__WGET_H__wget.h:3:2:错误:无效的预处理指令#define__WGET_H__wget.h:7:2:错误:没有#if的#endif 我的代码是这样的: //wget头文件#ifndef__WGET_H__#define__WGET_H__int my_wget( ..
发布时间:2021-05-07 18:36:55 其他开发

如何在wget中使用正则表达式拒绝文件?

我正在尝试使用wget工具下载网站内容.我使用-R选项拒绝某些文件类型.但还有其他一些我不想下载的文件.这些文件的命名如下,没有任何扩展名. 字符串ID 例如: newsbrief-02 我如何告诉wget不要下载这些文件(文件名以指定字符串开头的文件)? 解决方案 您不能在 wget -R 键中指定正则表达式,但是可以指定模板(例如外壳). 答案如下: $ wge ..
发布时间:2021-05-02 20:32:18 服务器开发

Python wget一次下载多个文件

正在寻找一次下载多个文件的干净的Python Wget解决方案. 网址将始终相同: https://example.com/ 到目前为止,我可以做到这一点: import wget打印(“使用wget模块开始下载文件")url ='https://example.com/new_folder/1.jpg'wget.download(网址) 但是我还需要下载-2.jpg,-3. ..
发布时间:2021-04-30 20:18:11 Python

等待两次wget下载

我正在尝试从网站下载目录(包括子目录).我正在使用: wget -r -e robots = off --no-parent --reject"index.html *" http://example.com/directory1/ 问题是,服务器稍后拒绝连接,我认为在短时间内连接太多.所以我想做的是在每次下载/查找之间插入一个等待时间(5秒).那可能吗?如果可以,怎么办? 解决方案 ..
发布时间:2021-04-23 19:35:24 其他开发

是否可以使wget的进度栏适应多个文件?

通过或多或少的操作,我正在下载某些目录的所有".htm"文件: wget http://some/url/-r --accept ="*.htm" -nv --show-progress 我关闭了wget的打印但保留了进度条,这在我的情况下很有用( -nv --show-progress ) 这很好用,但是会输出一个每个下载文件的进度条.有没有可能出现一个单个进度条,该进度条会考 ..
发布时间:2021-04-14 20:33:42 服务器开发

wget转义特殊字符

我正在尝试使用wget下载此网页的内容: https://bibliotheque-numerique.paris.fr/search.aspx?SC=DEFAULT#/Search/(query:(ForceSearch:!f,Page:0,PageRange:3,QueryString:'*:*',ResultSize:50,ScenarioCode:DEFAULT,ScenarioDis ..
发布时间:2021-04-14 20:25:55 其他开发