wget相关内容
我想尝试将我的 bash 脚本从 linux 转移到 powershell,但不明白为什么会失败. Linux 命令: wget -q -x --user-agent="blablabla" --keep-session-cookies --load-cookies cook.txt http://site.com/qqq powershell 代码: $source = "http:
..
我在 SO 上看到了几个答案,例如 this 和 这个.但我总是收到一些类似于以下内容的错误. 不知道我做错了什么.我尝试了以下变体,但都给出了类似的错误.请帮忙. wget --user "My.UserName@gmail.com" --password "MyWhatEver@pas$w0rd" https://bitbucket.org/WhatEver/WhatEverBranc
..
我想下载 www.site.com/en/下所有可访问的 html 文件.但是,网站上有很多带有帖子参数的链接 URL(例如,每个产品类别的第 1、2、3.. 页).我希望 wget 不要下载这些链接.我正在使用 -R "*\?*" 但它并不完美,因为它只会在下载文件后删除文件. 有什么方法可以例如用正则表达式过滤 wget 后面的链接吗? 解决方案 使用正则表达式可以避免这些文
..
我在几个不同的网站上有几个网页,我想完全镜像它们.这意味着我将需要图像、CSS 等,并且需要转换链接.此功能类似于使用 Firefox 来“将页面另存为"并选择“网页,完成".我想将文件和相应的目录命名为合理的名称(例如 myfavpage1.html,myfavpage1.dir). 我无权访问服务器,它们也不是我的页面.这是一个示例链接:点击我! 再澄清一点……我有大约 100 个
..
这是运行 wget 的最简单示例: wget http://www.example.com/images/misc/pic.png 但是如果 pic.png 已经可用,如何让 wget 跳过下载? 解决方案 试试下面的参数: -nc, --no-clobber: 跳过会下载到现有文件. 示例用法: wget -nc http://example.com/pic.png
..
我正在开发一个系统,该系统必须跟踪少数门户的内容并每晚检查更改(例如下载和索引白天添加的新站点).该门户的内容将被索引以供搜索.问题在于重新抓取此门户 - 第一次抓取门户需要很长时间(门户示例:www.onet.pl、www.bankier.pl、www.gazeta.pl)我想重新抓取它更快(尽可能快)例如通过检查修改日期但我已经使用 wget 下载 www.bankier.pl 但作为回应它抱
..
我知道我在这里做的事情确实很愚蠢,但是我已经尝试了我能想到的事情. 这是我会议的相关部分: $ wget http://pjmedia.com/instapundit/-bash:wget:找不到命令$ cd ..$ pip install wget要求已经满足(使用--upgrade进行升级):wget./anaconda/lib/python2.7/site-packages$
..
好,所以我需要运行wget,但是我被禁止在需要运行wget的位置中创建“点"文件.所以我的问题是“我可以让wget使用我可以指定的.listing以外的名称吗?". 进一步说明:这是将ftp文件夹与本地ftp文件夹同步/镜像,因此使用-O选项并不是真正有用,因为我要求所有文件都保持格式. 解决方案 您可以使用 -O 选项设置输出文件名,如: wget -O文件http://sta
..
当我使用 wget 时,我不想看到任何消息.我想取消它通常在屏幕上产生的所有输出. 我该怎么办? 解决方案 为什么不使用 -q ? 来自 man wget : -q- 安静的关闭Wget的输出. 测试 $ wget www.google.com--2015-05-08 14:07:42-- http://www.google.com/正在解析www.google.c
..
我想使用代理通过 wget 下载某些内容: HTTP代理:127.0.0.1端口:8080 代理不需要用户名和密码. 我该怎么做? 解决方案 对于通过/etc/wgetrc 的系统的所有用户,或者仅对于使用〜/.wgetrc的用户文件: use_proxy =是http_proxy = 127.0.0.1:8080https_proxy = 127.0.0.1:8080
..
如何下载具有Java代码依赖关系的网页,以便其以本地方式呈现为在线方式?(不包括Ajax).我听说wget可以做到这一点,但是我正在寻找一些可以做到这一点的java代码. 谢谢. 解决方案 以下是(开放源代码)网络爬虫的列表: http://java-source.net/open-source/crawlers ,您可以用来执行此操作,也可以查看代码以查看如何完成.
..
此帖子是此人 的一部分 我想将此存储库复制到本地计算机上: https://repo.grails.org/grails/core/ 为了实现我的目标,我整晚运行了这个wget命令: wget -r -l = inf --no-parent --reject"index.html"https://repo.grails.org/grails/core" 今天早上,wget命令结束
..
我试图制作自己的头文件,但它不起作用 vim 说 wget.h:2:2:错误:无效的预处理指令#ifndef__WGET_H__wget.h:3:2:错误:无效的预处理指令#define__WGET_H__wget.h:7:2:错误:没有#if的#endif 我的代码是这样的: //wget头文件#ifndef__WGET_H__#define__WGET_H__int my_wget(
..
我正在尝试使用wget工具下载网站内容.我使用-R选项拒绝某些文件类型.但还有其他一些我不想下载的文件.这些文件的命名如下,没有任何扩展名. 字符串ID 例如: newsbrief-02 我如何告诉wget不要下载这些文件(文件名以指定字符串开头的文件)? 解决方案 您不能在 wget -R 键中指定正则表达式,但是可以指定模板(例如外壳). 答案如下: $ wge
..
正在寻找一次下载多个文件的干净的Python Wget解决方案. 网址将始终相同: https://example.com/ 到目前为止,我可以做到这一点: import wget打印(“使用wget模块开始下载文件")url ='https://example.com/new_folder/1.jpg'wget.download(网址) 但是我还需要下载-2.jpg,-3.
..
我正在尝试通过php下载音频文件.我尝试用curl和wget下载它.以下是示例:
..
我无法通过自动脚本访问此网站: https://mydtac.dtac.co.th/EserviceLogin/Login?page = N& lang = zh_CN 如果我从浏览器查看(chrome,firefox,甚至lynx都在工作),一切都很好.如果尝试从PHP(fsockopen),wget或curl加载它,我会抱怨: 警告:stream_socket_enable_cry
..
我正在尝试从网站下载目录(包括子目录).我正在使用: wget -r -e robots = off --no-parent --reject"index.html *" http://example.com/directory1/ 问题是,服务器稍后拒绝连接,我认为在短时间内连接太多.所以我想做的是在每次下载/查找之间插入一个等待时间(5秒).那可能吗?如果可以,怎么办? 解决方案
..
通过或多或少的操作,我正在下载某些目录的所有".htm"文件: wget http://some/url/-r --accept ="*.htm" -nv --show-progress 我关闭了wget的打印但保留了进度条,这在我的情况下很有用( -nv --show-progress ) 这很好用,但是会输出一个每个下载文件的进度条.有没有可能出现一个单个进度条,该进度条会考
..
我正在尝试使用wget下载此网页的内容: https://bibliotheque-numerique.paris.fr/search.aspx?SC=DEFAULT#/Search/(query:(ForceSearch:!f,Page:0,PageRange:3,QueryString:'*:*',ResultSize:50,ScenarioCode:DEFAULT,ScenarioDis
..