指纹和验证HTML结构的最佳方式 [英] Best way to Fingerprint and Verify html structure

查看:129
本文介绍了指纹和验证HTML结构的最佳方式的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我只是想知道的是你如何指纹/验证HTML /链接结构的意见。

I just want to know what is your opinion about how to fingerprint/verify html/links structure.

欲解决的问题是:指纹例如10个不同的位点,html页面。 过了一段时间,我想有可能对其进行核实,所以,如果网站已被改变,链接变化,验证失败,othervise验证成功。我的基础思想是通过拆分以某种方式,在做某种树的分析链接结构,并从该树产生某种code。但我还是在头脑风暴阶段,我需要与人讨论这个问题,并知道其他的想法。

The problem I want to solve is: fingerprint for example 10 different sites, html pages. And after some time I want to have possibility to verify them, so is, if site has been changed, links changed, verification fails, othervise verification success. My base Idea is to analyze link structure by splitting it in some way, doing some kind of tree, and from that tree generate some kind of code. But I'm still in brainstorm stage, where I need to discuss this with someone, and know other ideas.

所以任何想法,交易算法,并建议将是有用的。

So any ideas, algos, and suggestions would be usefull.

推荐答案

无论数据还是结构,你打算凑,总结否则指纹时,一定要考虑很多的网站的各种形式的噪声的输出有

Whatever data or structure you intend to hash, summarize and otherwise fingerprint, be sure to account for the various forms of noise on many of the web sites "out-there".

这样的噪声或随机内容的例子有:

Example of such noise or random content are:

  • 在公司股票价值股票代码
  • 在地方城市天气情况,他们是
  • 在几页有电流(现在的)日期,时间介于页脚或标题
  • 广告内容(越来越多的这些都是让看土著到现场打败的网络浏览器广告拦截)

这篇关于指纹和验证HTML结构的最佳方式的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆