如何检查后的唯一性(非重复)在一个RSS feed [英] how to check uniqueness (non duplication) of a post in an rss feed
问题描述
检索和缓存/储蓄(在数据库中)的一些帖子来自一个RSS feed,如何确定何时:
when retrieving and caching/saving (in a database) some posts from an rss feed, how to determine that:
- 这是同一职位(例如:当一些错别字被固定在饲料或如果标题改变,更改日期,等...)
- 找到该说说同一主题的饲料(例如:?从不同的来源同样的故事)
有没有这些东西的最佳做法
are there any best practices for these things?
日Thnx大量
推荐答案
部分RSS源有一个GUID元素作为标识符。使用共享GUID的帖子可能会复制。部分RSS源只是把这些东西的网址在那里,表明后的独特性是依赖于它的URL。请注意,如果URL匹配,但GUID不,这可能表示,该讯息不重复。如果饲料不维护的存档,URL可能不会改变。这种情况可能是非常罕见的。
Some RSS feeds have a guid element as an identifier. Posts with a shared guid are probably duplicates. Some RSS feeds just stuff the URL in there to indicate that a post's uniqueness is tied to its url. Note that if the URL matches but the Guid does not, this may indicate that the posts are not duplicates. If a feed does not maintain an archive, the url might not change. This situation is probably pretty rare.
这篇关于如何检查后的唯一性(非重复)在一个RSS feed的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!