检索早于包含在提要中的 RSS 帖子 [英] Retrieving RSS posts older than those included in feed

查看:33
本文介绍了检索早于包含在提要中的 RSS 帖子的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

在创建 RSS 阅读器时,您下载由 RSS 提要链接指向的 XML 格式的文档,您可以手动解析它,也可以使用 SyndicationFeed 命名空间中的功能进行解析.

When creating an RSS reader, you download the XML formatted document pointed to by the RSS feed link, and you can parse it manually or using the functionality in the SyndicationFeed namespace.

因此,如果我们以 Scott Guthrie 的博客为例,您可以在此处下载 RSS 提要文档,然后解析它.我的问题是这个文档只有 15 个条目,但他已经写了很多年的博客.

So if we take Scott Guthrie's blog as an example, you download the RSS feed document here, and parse it. My problem is that this document only holds 15 items, yet he has been blogging for a number of years.

是否有标准或既定的方法来获取未包含在 RSS 源文档中的旧帖子?或者您是否必须找到博客文章的基址,然后从那里解析站点的页面以获取它们?您如何避免丢失大量博客上的帖子?

Is there a standard or established way of getting the older posts not included in the RSS feed document? Or do you have to find the base address for the blog posts and then parse the pages of the site from there to get them? How do you avoid missing posts on high volume blogs?

推荐答案

使用 RSS/Atom,您无法查询较旧的文章.

With RSS/Atom you can't query older articles.

我构建了一个 RSS 存档服务(https://app.pub.center).我们所有的数据都可以通过 REST 免费使用.我们收取推送通知费用.

I built a RSS archival service (https://app.pub.center). All of our data is free to use via REST. We charge money for push notifications.

PubCenter 每天轮询它的 RSS 提要目录,并缓存文章.然后,您可以按时间顺序取回这些文章.例如:

PubCenter daily polls it's catalog of RSS feeds, and caches the articles. Then, you can get these articles back in a chronological order. For example:

大西洋的第 1 页 https://pub.center/feed/02702624d8a4c825dde21af94e9169773454e0c3/articles?limit=10&page=1

大西洋的第 2 页 https://pub.center/feed/02702624d8a4c825dde21af94e9169773454e0c3/articles?limit=10&page=2

这篇关于检索早于包含在提要中的 RSS 帖子的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆