如何检查后的唯一性(非重复)在一个RSS feed [英] how to check uniqueness (non duplication) of a post in an rss feed

查看:263
本文介绍了如何检查后的唯一性(非重复)在一个RSS feed的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

检索和缓存/储蓄(在数据库中)的一些帖子来自一个RSS feed,如何确定何时:

when retrieving and caching/saving (in a database) some posts from an rss feed, how to determine that:


  1. 这是同一职位(例如:当一些错别字被固定在饲料或如果标题改变,更改日期,等...)

  2. 找到该说说同一主题的饲料(例如:?从不同的来源同样的故事)

有没有这些东西的最佳做法

are there any best practices for these things?

日Thnx大量

推荐答案

部分RSS源有一个GUID元素作为标识符。使用共享GUID的帖子可能会复制。部分RSS源只是把这些东西的网址在那里,表明后的独特性是依赖于它的URL。请注意,如果URL匹配,但GUID不,这可能表示,该讯息不重复。如果饲料不维护的存档,URL可能不会改变。这种情况可能是非常罕见的。

Some RSS feeds have a guid element as an identifier. Posts with a shared guid are probably duplicates. Some RSS feeds just stuff the URL in there to indicate that a post's uniqueness is tied to its url. Note that if the URL matches but the Guid does not, this may indicate that the posts are not duplicates. If a feed does not maintain an archive, the url might not change. This situation is probably pretty rare.

这篇关于如何检查后的唯一性(非重复)在一个RSS feed的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆