wikipedia相关内容

如何从 R 访问维基百科?

是否有任何 R 包允许查询 Wikipedia(很可能使用 Mediawiki API)以获取与此类查询相关的可用文章列表,以及导入所选文章以进行文本挖掘? 解决方案 使用 RCurl 包获取信息,以及 XML 或 RJSONIO> 用于解析响应的包. 如果您使用代理,请设置您的选项. opts 使用getForm 函数访问API. search_example ..
发布时间:2021-09-06 19:40:44 其他开发

从维基百科文章中提取第一段 (Python)

如何使用 Python 从维基百科文章中提取第一段? 例如,对于阿尔伯特·爱因斯坦,那就是: 阿尔伯特·爱因斯坦(读作/ˈælbərtˈaɪnstaɪn/;德语:[ˈalbɐt ˈaɪnʃtaɪn]( 听);1879 年 3 月 14 日 – 4 月 18 日1955)是一位理论物理学家,哲学家和作家,广泛被认为是最有影响力和标志性的科学家和历代知识分子.一种德国-瑞士诺贝尔奖获得者爱 ..
发布时间:2021-06-25 20:04:17 Python

黑名单IP数据库

是否有开放的网络黑名单 IP 数据库?你知道有很多公共网络代理......比如维基百科全球封锁使用的黑名单. 解决方案 Project Honeypot提供名为 Http:BL 的服务.作为 Project Honeypot 的活跃成员,您可以查询他们的 IP 数据库,这些 IP 被称为电子邮件地址收集器或垃圾评论发送者. ..
发布时间:2021-06-22 20:27:49 其他开发

为什么我不能使用 LWP::Simple 获取维基百科页面?

我正在尝试使用 LWP::Simple 获取维基百科页面,但它们不回来了.这段代码: #!/usr/bin/perl使用严格;使用 LWP::Simple;打印获取(“http://en.wikipedia.org/wiki/Stack_overflow"); 不打印任何东西.但如果我使用其他网页,请说 http://www.google.com,它工作正常. 我应该使用其他名称来引用维 ..
发布时间:2021-06-15 20:15:31 其他开发

我如何准备使用整个维基百科进行自然语言处理?

我在这里有点新.我有一个项目,我必须在其中下载和使用 Wikipedia 进行 NLP.我面临的问题如下:我只有 12 GB 的 RAM,但英文维基转储压缩了 15 GB 以上.这会限制我处理维基吗?我不需要来自维基的任何图片.我需要在处理前解压缩转储吗?有人可以告诉我所需的步骤或指向我的相关内容吗?提前致谢. 解决方案 处理维基百科转储最简单的方法是依赖 kiwix.org 转储,您可以 ..
发布时间:2021-06-07 20:35:21 其他开发

从维基百科解析出生和死亡日期?

我正在尝试编写一个 python 程序,该程序可以在维基百科中搜索人们的出生和死亡日期. 例如,阿尔伯特·爱因斯坦出生于:1879 年 3 月 14 日;逝世日期:1955 年 4 月 18 日. 我从使用 Python 获取维基百科文章 导入 urllib2开瓶器 = urllib2.build_opener()opener.addheaders = [('用户代理', 'Mozi ..
发布时间:2021-06-02 19:24:47 Python

如何使用Python从Wikipedia抓取链接

我正在尝试使用python从Wikipedia上的“海军战役清单"中删除所有战役链接.问题是我无法弄清楚如何将所有包含单词"/wiki/Battle"的链接导出到我的CSV文件.我已经习惯了C ++,所以python对我来说有点陌生.有任何想法吗?这是我到目前为止所拥有的... 从bs4 导入BeautifulSoup导入urllib2rootUrl ="https://en.wikipedi ..
发布时间:2021-05-15 19:17:16 Python

API检索有关名人的信息

我正在寻找一种可调用的方式来获取有关名人和名人的信息.给定一个字符串,我想确定它是否是一个名人的名字,如果是,是否还活着,以及他们可能属于哪一类(例如,演员,音乐家,运动员). 有人知道这样做的任何公开可用的API吗?我能想到的最好的是Wikipedia,但这很成问题,因为很多信息必须经过解析,而且格式也不可靠且可预测. 当初始搜索没有任何结果时,我还希望能够为可能的名称提供建议(因为 ..
发布时间:2021-04-08 20:43:00 其他开发

是否有仅用于检索内容摘要的Wikipedia API?

我只需要检索Wikipedia页面的第一段.内容必须为html格式,可以在我的网站上显示(因此,没有BBCODE或WIKIPEDIA特殊代码!) 解决方案 有一种方法可以获取整个“简介"部分,没有任何HTML解析!与AnthonyS的 answer 类似,并带有附加的 explaintext 参数,您可以以纯文本格式获得简介部分的文字文字. 查询 以纯文本格式获取Stack O ..
发布时间:2021-04-08 20:36:57 其他开发

如何可靠地获取Wikipedia信息框中使用的图像?

如何(可靠地)从API获取Wikipedia信息框中使用的主图像? 此问题已被问过并被接受答案承认这只是一个猜测.随后的答案充其量似乎很hack,并且不会返回正确的图像. 例如,Jimi Hendrix Wikipedia条目使用"File:Jimi Hendrix 1967.png"作为InfoBox中的主图像. 更新后的答案建议如果我解决方案 每个Wikipedia页面(例 ..
发布时间:2021-02-13 20:55:42 其他开发

维基百科文字下载

我正在为我的大学项目下载完整的Wikipedia文本.我是否需要编写自己的蜘蛛才能下载此文件,还是可以在线获取Wikipedia的公共数据集? 仅向您概述我的项目,我想找出我感兴趣的几篇文章中有趣的词.但是,为了找到这些有趣的词,我计划应用tf/idf来计算每个词的词频单词并选择高频的单词.但是要计算tf,我需要知道整个Wikipedia的总数. 这怎么办? 维基百科的 解决方案 ..
发布时间:2020-11-27 21:44:38 其他开发

如何将.xml格式的Wikipedia文件编入solr

我想将Wikipedia的xml文件编入Solr. 但是我遇到一个错误,它无法编制索引. Solr具有xml文件的特定格式.我更改了schema.xml和data-config.xml文件以适合Wikipedia文件的标签. 仍然无法索引文件.我的实际意图是索引Wikipedia,这是一个30 GB的xml文件. 我该如何将所有维基百科文件索引到Solr中? 解决方案 有 ..
发布时间:2020-11-27 20:25:04 其他开发

XPath获取两个标题之间的标记

我正在尝试编写一个小应用程序以从Wikipedia页面提取内容.当我最初考虑是否可以使用XPath定位包含内容的div时,但是在研究了Wikipedia如何构建其文章之后,我很快发现这并不是一件容易的事.进入页面时,分隔内容的最佳方法是选择两组h2标签之间的内容. 示例: Title Some Content Title 在这里 ..
发布时间:2020-11-24 02:44:28 前端开发

将英语维基百科转储导入SQL Server

我已从在这里,我正尝试将其导入SQL Server 2018。 我看不到XML文件,因为它的重量超过75 GB,并且因此,我不知道在使用批量XML 。 我该怎么做?我可以在 Python 或 C#上编写一些脚本。 解决方案 使用以下 SQL查询创建数据库 > 创建数据库供稿 ; GO USE [Feed] drop table Doc drop ..
发布时间:2020-10-27 00:39:21 数据库