wikipedia相关内容

使用 solr 索引维基百科转储

我的机器上安装了solr 3.6.2,与tomcat完美运行.我想使用 solr 索引维基百科转储文件.如何使用 DataImportHandler 执行此操作?还有什么办法吗?我对 xml 一无所知. 我提到的文件在提取时大约有 45GB.任何帮助将不胜感激. 更新-我尝试做 DataImportHandler 页面上所说的.但是有一些错误可能是因为他们的 solr 版本要旧得多. ..
发布时间:2021-12-30 08:41:12 其他开发

使用 solr 索引维基百科

我已经安装了 solr 4.6.0 并按照 Solr 主页上的教程进行操作.一切都很好,直到我需要做我即将做的真正工作.我必须快速访问维基百科内容,我被建议使用 Solr.好吧,我试图按照链接 http://wiki.apache 中的示例进行操作.org/solr/DataImportHandler#Example:_Indexing_wikipedia,但我找不到示例.我是新手,不知道data ..
发布时间:2021-12-30 08:21:05 其他开发

使用 python 的 urllib2 和 Beautifulsoup 抓取维基百科时删除 html 标签

我正在尝试抓取维基百科以获取一些用于文本挖掘的数据.我正在使用 python 的 urllib2 和 Beautifulsoup.我的问题是:是否有一种简单的方法可以从我阅读的文本中去除不必要的标签(如链接“a"或“span"). 对于这种情况: 导入 urllib2从 BeautifulSoup 进口 *开瓶器 = urllib2.build_opener()opener.addhead ..
发布时间:2021-12-23 20:54:04 前端开发

从维基百科表格中抓取数据

我只是想将维基百科表格中的数据抓取到熊猫数据框中. 我需要重现三列:“邮政编码、自治市镇、社区". 导入请求website_url = requests.get('https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M').text从 bs4 导入 BeautifulSoup汤 = BeautifulSoup(webs ..
发布时间:2021-12-23 19:56:58 Python

如何获取维基百科类别及其子类别下的所有文章页面?

我想获取一个类别及其子类别下的所有文章名称. 我知道的选项: 使用维基百科 API.它有这样的选择吗?? d/l 转储.哪种格式更适合我的使用? 还有一个选项可以在维基百科中搜索诸如 incategory:"music" 之类的内容,但我没有看到在 XML 中查看的选项. 请分享您的想法 解决方案 以下资源将帮助您下载该类别及其所有子类别中的所有页面: http ..
发布时间:2021-12-11 18:52:16 其他开发

在 7z 单个文件存档中随机查找

是否可以对由 7zip 压缩的非常大的文件进行随机访问(大量搜索)? 原始文件非常大(999gb xml),我无法以解压格式存储它(我没有太多可用空间).因此,如果 7z 格式允许访问中间块,而无需在选定块之前解压缩所有块,我就可以构建块开头的索引和相应的原始文件偏移量. 我的 7z 档案的标题是 37 7A BC AF 27 1C 00 02 28 99 F1 9D 4A 46 D ..
发布时间:2021-11-26 15:12:34 其他开发

在 7z 单个文件存档中随机查找

是否可以对由 7zip 压缩的非常大的文件进行随机访问(大量搜索)? 原始文件非常大(999gb xml),我无法以解压格式存储它(我没有太多可用空间).因此,如果 7z 格式允许访问中间块,而无需在选定块之前解压缩所有块,我就可以构建块开头的索引和相应的原始文件偏移量. 我的 7z 档案的标题是 37 7A BC AF 27 1C 00 02 28 99 F1 9D 4A 46 D ..
发布时间:2021-11-25 07:53:57 C#

维基百科 API 中的问题

我在使用维基百科 API 时遇到问题.我使用这个 PHP 脚本, load("http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=New_York_Yankees&rvprop=content&format=xml");打印 $xmlDoc->saveXML();?> 我在浏览器中得到以下结果.为什么? ..
发布时间:2021-11-15 04:17:35 PHP

维基百科 API 中的问题

我在使用维基百科 API 时遇到问题.我使用这个 PHP 脚本, load("http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=New_York_Yankees&rvprop=content&format=xml");打印 $xmlDoc->saveXML();?> 我在浏览器中得到以下结果.为什么? ..
发布时间:2021-11-15 04:09:06 PHP

检索维基百科文章的第一段

过去 2 天我一直在努力理解 MediaWiki 文档,但我不知道如何通过 MediaWiki API 检索维基百科文章的第一段. 有人能指出我正确的方向吗? 我即将向 file_get_contents 提出上诉,但我相信有一个“更干净"的解决方案. 解决方案 不要尝试使用原始 API,而是使用客户端包装器.这里有一长串可供选择的列表,全部用于 PHP: http:// ..
发布时间:2021-11-15 03:54:16 PHP

维基百科 API - 是否有一个通用的“音乐"类别?

我对维基百科 API 有疑问.我正在使用 openSearch 来获取带有维基百科页面链接的结果.然而,开放式搜索似乎不支持 +incategory.更重要的是,我想搜索音乐艺术家(乐队、独唱和所有其他类型的音乐家).但是我找不到任何名为“音乐"的类别.类别过于具体(即 1980 年代的音乐团体、独唱歌手等).但是,当您查看维基百科的消歧页面时,例如后代,您可以看到“在音乐中": http: ..
发布时间:2021-11-15 03:38:49 其他开发

并发 Python 维基百科包请求

我正在制作一个 python 应用程序,它使用 python 维基百科包来检索 3 个不同维基百科页面的正文.但是,我注意到在一次检索一篇文章时性能非常低.有没有一种方法可以同时检索 3 个维基百科页面的正文? 解决方案 如果您想要“原始"页面,您可以使用任何 python 抓取库,例如 扭曲/scrapy.但是,如果您正在寻找解析的 wiki 格式,您应该使用 pywikibot/mwp ..
发布时间:2021-11-15 03:10:57 Python

检索名人信息的 API

我正在寻找某种可调用的方式来获取有关名人和名人的信息.给定一个字符串,我想确定它是否是名人的名字,如果是,他们是否还活着,也许他们属于哪个类别(例如演员、音乐家、运动员). 有没有人知道任何公开可用的 API 来做这样的事情?我能想到的最好的是维基百科,但它有很大的问题,因为很多信息必须被解析,而且不是可靠和可预测的格式. 我还希望能够在初始搜索没有结果时为可能的名称提供建议(因为字符 ..
发布时间:2021-11-15 02:40:51 其他开发

使用属性查询维基百科页面

我需要使用 Wikipedia API Query 或任何其他 API(例如 Opensearch)来查询具有某些属性的简单页面列表. 输入:页面(文章)标题或 ID 列表. 输出:一个页面列表,每个页面包含以下属性: 页面 ID 标题 片段/描述(如在 opensearch api 中) 页面网址 图片网址(如在 opensearch api 中) 类似这样的结果: h ..
发布时间:2021-11-15 02:27:48 其他开发