feedparser相关内容

使用 feedparser 检索项目的原始 XML

我正在尝试使用 feedparser 从提要中检索一些特定信息,但也检索每个条目的原始 XML(即 RSS 和 Atom 的元素),但我不知道如何做到这一点.显然我可以手动解析 XML,但这不是很优雅,需要对 RSS 和 Atom 的单独支持,我想它可能会与 feedparser 不同步以获取格式错误的提要.有没有更好的办法? 谢谢! 解决方案 我是 feedparser 的当前开发 ..
发布时间:2021-07-10 21:02:09 Python

Python 中的 RSS 提要解析器库

我正在寻找一个很好的 Python 库,可以帮助我解析 RSS 提要.有人用过feedparser吗?有什么反馈吗? 解决方案 使用 feedparser比使用 minidom 或 BeautifulSoup 自己动手做更好的选择. 它规范了所有版本的 RSS 和 Atom 之间的差异,因此您不必为每种类型编写不同的代码. 检测 Feed 中的不同日期格式和其他变体非常有用. 它 ..
发布时间:2021-07-10 21:00:32 Python

如何检测页面是 RSS 还是 ATOM 提要

我目前正在用 PHP 构建一个新的在线订阅源阅读器.我正在研究的功能之一是提要自动发现.如果用户输入网站 URL,脚本将检测到它不是一个提要,并通过解析 HTML 以获取正确的 标记来查找真正的提要 URL. 问题是,我目前检测 URL 是供稿还是网站的方式仅在部分时间有效,我知道这不是最佳解决方案.现在我正在获取 CURL 响应并通过 simplexml_load_strin ..
发布时间:2021-07-10 21:00:08 PHP

Feedparser.parse() 'SSL: CERTIFICATE_VERIFY_FAILED'

我在使用 feedparser 解析 HTTPS RSS 提要时遇到了 SSL 问题,我真的不知道该怎么做,因为在涉及 feedparser 时我找不到关于此错误的任何文档: >>>导入提要解析器>>>feed = feedparser.parse(rss)>>>喂养{'feed': {}, 'bozo': 1, 'bozo_exception': URLError(SSLError(1, u' ..
发布时间:2021-06-26 18:48:10 Python

Feedparser - KeyError: 'fullcount'

我尝试遵循本指南.它是关于制作物理 gmail 通知程序.当我输入相同的代码时,它发现了一个错误: 回溯(最近一次调用最后一次):文件“C:/Python27/Projects/gmailnotifier.py",第 20 行,在 中)["feed"]["fullcount"])文件“C:\Python27\lib\site-packages\feedparser-5.1.3- ..
发布时间:2021-06-24 20:22:52 Python

从 FeedParser 获取 Feed 并导入到 Pandas DataFrame

我正在学习 Python.作为实践,我正在使用 feedparser 构建一个 rss 抓取器,将输出放入一个 Pandas 数据帧并尝试使用 NLTK 进行挖掘……但我首先从多个 RSS 提要中获取文章列表. 我使用了这篇关于如何传递多个提要 并将其与我之前在另一个关于如何将其放入 熊猫数据框. 问题是什么,我希望能够查看数据框中所有提要的数据.目前我只能访问提要列表中的第一项. ..
发布时间:2021-06-13 20:28:32 Python

FeedParser,删除特殊字符并写入CSV

我正在学习Python.我为自己设定了构建RSS刮板的微不足道的目标.我正在尝试收集作者,链接和标题.从那里我要写一个CSV. 我遇到一些问题.自昨晚以来,我一直在寻找答案,但似乎找不到解决方案.我确实有种感觉,就是在解析什么feedparser并将其移动到CSV之间时,我会丢失一些知识,但是我还没有词汇可以了解Google的内容. 如何删除特殊字符(例如'['和''')? 创建新文 ..
发布时间:2020-07-12 03:08:12 Python

使用httplib的IncompleteRead

我一直遇到从特定网站获取rss供稿的问题.我写了一个丑陋的程序来执行此功能,但是我很好奇为什么会发生这种情况,以及是否有任何更高级别的接口能够正确处理此问题.这个问题并不是真正的问题,因为我不需要经常检索提要. 我已经阅读了一个捕获异常并返回部分内容的解决方案,但是由于不完整的读取在实际获取的字节数方面有所不同,因此我不确定这种解决方案是否会真正起作用. #!/usr/bin/env ..
发布时间:2020-06-26 12:29:54 Python

Feedparser-从Google Reader检索旧邮件

我正在使用python中的feedparser库从本地报纸中检索新闻(我的意图是通过该语料库进行自然语言处理),并希望能够从RSS feed中检索许多过去的条目. 我对RSS的技术问题不太了解,但我认为应该可行(例如,我看到Google Reader和Feedly可以在移动滚动条时“按需"执行此操作) . 当我执行以下操作时: import feedparser url = ' ..
发布时间:2020-06-17 18:50:13 Python

如何获得SQLAlchemy来将Unicode省略号正确插入到mySQL表中?

我正在尝试使用feedparser解析RSS feed,并使用SQLAlchemy将其插入到mySQL表中.实际上,我能够使它运行得很好,但是今天,提要中有一个描述中带有省略号的项目,并且出现了以下错误: UnicodeEncodeError:'latin-1'编解码器无法在位置35处编码字符u'\ u2026':序数不在范围内(256) 如果我向引擎添加convert_unicode ..
发布时间:2020-05-15 00:42:32 数据库

用jQuery解析RSS

我想使用jQuery解析RSS feed.可以使用现成的基本jQuery库完成此操作,还是需要使用插件? 解决方案 警告 Google Feed Feed 已正式弃用和不再起作用! 不需要整个插件.这会将您的RSS作为JSON对象返回到回调函数: function parseRSS(url, callback) { $.ajax({ url: document ..
发布时间:2019-11-05 17:58:50 JavaScript

分析前检查日期格式

我正在使用字段持续时间解析几个文档。但是在不同的文件中,这是不同的格式,例如: “持续时间”:“00:43” “持续时间”:“113.046” “持续时间”:“21.55 s” 希望将它们全部解析为格式“Duration”:“113.046”,我怎么能在任何解析之前检查它是什么格式? 这段代码之前的一些条件,因为这是不正确的所有这些: 持续时间长; Da ..
发布时间:2018-02-03 18:07:44 Java开发

在Django中使用feedparser时,“QuerySet”对象没有属性“url”

这是从这里的问题的后续 Django / feedparser中的bozo_exception 我想通过模型/数据库中的许多Feed进行迭代,并将其中的每一个都显示在html模板中。虽然我明白我需要在html模板中迭代思考x.feed.entries,我认为通过每个rss源的迭代需要在视图函数中正确执行? def feed5(request): source = Feed.obje ..
发布时间:2017-05-31 01:26:18 其他开发