HTML下载和文本提取 [英] HTML downloading and text extraction

查看:70
本文介绍了HTML下载和文本提取的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

要下载URL列表并仅提取文本内容,什么是一个或一组好的工具? 不需要添加爬网程序,但是可以控制下载文件的名称,并且线程化将是一个加分项.

What would be a good tool, or set of tools, to download a list of URLs and extract only the text content? Spidering is not required, but control over the download file names, and threading would be a bonus.

平台是linux.

推荐答案

wget | html2ascii

注意:html2ascii也可以称为html2ahtml2text(而且我无法在网上为其找到合适的手册页).

Note: html2ascii can also be called html2a or html2text (and I wasn't able to find a proper man page on the net for it).

另请参阅: lynx .

See also: lynx.

这篇关于HTML下载和文本提取的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆