Nutch 原始 Html 保存 [英] Nutch Raw Html Saving

查看:29
本文介绍了Nutch 原始 Html 保存的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我试图在不同的文件中获取被抓取页面的原始 html,命名为页面的 url.Nutch 是否可以通过排除索引部分将原始 html 页面保存在不同的文件中?

I'm trying to get raw html of crawled pages in different files, named as url of the page. Is it possible with Nutch to save the raw html pages in different files by ruling out the indexing part?

推荐答案

没有直接的方法可以做到这一点.您将不得不做一些代码修改.请参阅这个这个.

The is no direct way to do that. You will have to do few code modifications. See this and this.

这篇关于Nutch 原始 Html 保存的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆