wikipedia - IT屋-程序员软件开发技术分享社区

使用 AJAX (XMLHttpRequest) 查询 Wikipedia 的 API

我正在尝试使用 AJAX (XMLHttpRequest) 实现对维基百科 API 的简单请求.如果我在 Firefox 的地址栏中键入 url，我会得到一个整洁的 XML，那里不费吹灰之力.然而，调用完全相同的网址: //这是我的 XMLHttpRequest 对象httpObjectMain.open("GET", "http://en.wikipedia.org/w/api.php?act ..

发布时间：2022-01-15 21:42:23 javascript ajax api wikipedia xmlhttprequest 前端开发

在 Lucene 中使用 WikipediaTokenizer 的示例

我想在 lucene 项目中使用 WikipediaTokenizer - http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html 但我从未使用过 lucene.我只想将维基百科字符串转换为令牌列表.但是，我看到这个类 ..

发布时间：2022-01-15 12:58:18 java parsing programming-languages lucene wikipedia Java开发

用一个固定的Key对应一个HashSet创建一个HashMap.出发点

我的目标是创建一个以字符串为键、条目值为字符串的 HashSet 的哈希图. 输出现在的输出如下所示: Hudson+(姓)=[Q2720681], Hudson,+Quebec=[Q141445], Hudson+(given+name)=[Q5928530], Hudson,+Colorado=[Q2272323], Hudson,+Illinois=[Q2672022]，哈德 ..

发布时间：2022-01-08 14:41:27 java hashmap hashset wikipedia Java开发

使用 DBpedia 获取维基百科页面的超链接

我在 DBPedia 中有两个资源:dbr:Diabetes_mellitus 和 dbr:高血糖.在维基百科中，对应的页面是wikipedia-en:Diabetes_mellitus和wikipedia-en:Hyperglycemia. 在维基百科中有一个从 Diabetes_mellitus 页面到高血糖页面的超链接.但是当我尝试在 DBpedia 中查找 2 个资源之间的链接时，我 ..

发布时间：2022-01-02 08:25:39 hyperlink sparql rdf wikipedia dbpedia 其他开发

使用 solr 索引维基百科转储

我的机器上安装了solr 3.6.2，与tomcat完美运行.我想使用 solr 索引维基百科转储文件.如何使用 DataImportHandler 执行此操作?还有什么办法吗?我对 xml 一无所知. 我提到的文件在提取时大约有 45GB.任何帮助将不胜感激. 更新-我尝试做 DataImportHandler 页面上所说的.但是有一些错误可能是因为他们的 solr 版本要旧得多. ..

发布时间：2021-12-30 08:41:12 solr indexing dump wikipedia 其他开发

使用 solr 索引维基百科

我已经安装了 solr 4.6.0 并按照 Solr 主页上的教程进行操作.一切都很好，直到我需要做我即将做的真正工作.我必须快速访问维基百科内容，我被建议使用 Solr.好吧，我试图按照链接 http://wiki.apache 中的示例进行操作.org/solr/DataImportHandler#Example:_Indexing_wikipedia，但我找不到示例.我是新手，不知道data ..

发布时间：2021-12-30 08:21:05 solr indexing wikipedia 其他开发

使用 python 的 urllib2 和 Beautifulsoup 抓取维基百科时删除 html 标签

我正在尝试抓取维基百科以获取一些用于文本挖掘的数据.我正在使用 python 的 urllib2 和 Beautifulsoup.我的问题是:是否有一种简单的方法可以从我阅读的文本中去除不必要的标签(如链接“a"或“span"). 对于这种情况: 导入 urllib2从 BeautifulSoup 进口 *开瓶器 = urllib2.build_opener()opener.addhead ..

发布时间：2021-12-23 20:54:04 python html html-parsing beautifulsoup wikipedia 前端开发

从维基百科表格中抓取数据

我只是想将维基百科表格中的数据抓取到熊猫数据框中. 我需要重现三列:“邮政编码、自治市镇、社区". 导入请求website_url = requests.get('https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M').text从 bs4 导入 BeautifulSoup汤 = BeautifulSoup(webs ..

发布时间：2021-12-23 19:56:58 python pandas beautifulsoup wikipedia Python

如何获取维基百科类别及其子类别下的所有文章页面?

我想获取一个类别及其子类别下的所有文章名称. 我知道的选项: 使用维基百科 API.它有这样的选择吗?? d/l 转储.哪种格式更适合我的使用? 还有一个选项可以在维基百科中搜索诸如 incategory:"music" 之类的内容，但我没有看到在 XML 中查看的选项. 请分享您的想法解决方案以下资源将帮助您下载该类别及其所有子类别中的所有页面: http ..

发布时间：2021-12-11 18:52:16 sql web-services nlp wikipedia wikipedia-api 其他开发

在 7z 单个文件存档中随机查找

是否可以对由 7zip 压缩的非常大的文件进行随机访问(大量搜索)? 原始文件非常大(999gb xml)，我无法以解压格式存储它(我没有太多可用空间).因此，如果 7z 格式允许访问中间块，而无需在选定块之前解压缩所有块，我就可以构建块开头的索引和相应的原始文件偏移量. 我的 7z 档案的标题是 37 7A BC AF 27 1C 00 02 28 99 F1 9D 4A 46 D ..

发布时间：2021-11-26 15:12:34 wikipedia 7zip compression random-access 其他开发

在 7z 单个文件存档中随机查找

是否可以对由 7zip 压缩的非常大的文件进行随机访问(大量搜索)? 原始文件非常大(999gb xml)，我无法以解压格式存储它(我没有太多可用空间).因此，如果 7z 格式允许访问中间块，而无需在选定块之前解压缩所有块，我就可以构建块开头的索引和相应的原始文件偏移量. 我的 7z 档案的标题是 37 7A BC AF 27 1C 00 02 28 99 F1 9D 4A 46 D ..

发布时间：2021-11-25 07:53:57 wikipedia 7zip compression random-access C#

如何从维基百科 API 获取干净的 json

我想从维基百科页面获取结果https://en.wikipedia.org/wiki/February_2 作为 JSON. 我尝试使用他们的 API:https://en.wikipedia.org/w/api.php?action=parse&page=February_19&prop=text&formatversion=2&format=json 虽然它以 Json 格式给出. ..

发布时间：2021-11-15 04:30:51 json api wikipedia wikipedia-api 其他开发

维基百科 API 中的问题

我在使用维基百科 API 时遇到问题.我使用这个 PHP 脚本， load("http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=New_York_Yankees&rvprop=content&format=xml");打印 $xmlDoc->saveXML();?> 我在浏览器中得到以下结果.为什么? ..

发布时间：2021-11-15 04:17:35 php api wiki wikipedia PHP

维基百科 API 中的问题

我在使用维基百科 API 时遇到问题.我使用这个 PHP 脚本， load("http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=New_York_Yankees&rvprop=content&format=xml");打印 $xmlDoc->saveXML();?> 我在浏览器中得到以下结果.为什么? ..

发布时间：2021-11-15 04:09:06 php api wiki wikipedia PHP

如何获取“所有带有前缀的页面"的结果使用维基百科api?

我想用维基百科的api来提取这个页面的结果: http://en.wikipedia.org/wiki/Special:PrefixIndex 在其上搜索“某物"时，例如: http://en.wikipedia.org/w/index.php?title=Special%3APrefixIndex&prefix=tal&namespace=4 然后，我想访问每个结果页面并 ..

发布时间：2021-11-15 03:59:15 api wikipedia wikipedia-api mediawiki-api 其他开发

检索维基百科文章的第一段

过去 2 天我一直在努力理解 MediaWiki 文档，但我不知道如何通过 MediaWiki API 检索维基百科文章的第一段. 有人能指出我正确的方向吗? 我即将向 file_get_contents 提出上诉，但我相信有一个“更干净"的解决方案. 解决方案不要尝试使用原始 API，而是使用客户端包装器.这里有一长串可供选择的列表，全部用于 PHP: http:// ..

发布时间：2021-11-15 03:54:16 php api mediawiki wikipedia wikipedia-api PHP

维基百科 API - 是否有一个通用的“音乐"类别?

我对维基百科 API 有疑问.我正在使用 openSearch 来获取带有维基百科页面链接的结果.然而，开放式搜索似乎不支持 +incategory.更重要的是，我想搜索音乐艺术家(乐队、独唱和所有其他类型的音乐家).但是我找不到任何名为“音乐"的类别.类别过于具体(即 1980 年代的音乐团体、独唱歌手等).但是，当您查看维基百科的消歧页面时，例如后代，您可以看到“在音乐中": http: ..

发布时间：2021-11-15 03:38:49 api search categories wikipedia 其他开发

并发 Python 维基百科包请求

我正在制作一个 python 应用程序，它使用 python 维基百科包来检索 3 个不同维基百科页面的正文.但是，我注意到在一次检索一篇文章时性能非常低.有没有一种方法可以同时检索 3 个维基百科页面的正文? 解决方案如果您想要“原始"页面，您可以使用任何 python 抓取库，例如扭曲/scrapy.但是，如果您正在寻找解析的 wiki 格式，您应该使用 pywikibot/mwp ..

发布时间：2021-11-15 03:10:57 python api mediawiki wikipedia wikipedia-api Python

检索名人信息的 API

我正在寻找某种可调用的方式来获取有关名人和名人的信息.给定一个字符串，我想确定它是否是名人的名字，如果是，他们是否还活着，也许他们属于哪个类别(例如演员、音乐家、运动员). 有没有人知道任何公开可用的 API 来做这样的事情?我能想到的最好的是维基百科，但它有很大的问题，因为很多信息必须被解析，而且不是可靠和可预测的格式. 我还希望能够在初始搜索没有结果时为可能的名称提供建议(因为字符 ..

发布时间：2021-11-15 02:40:51 api wikipedia wikipedia-api 其他开发

使用属性查询维基百科页面

我需要使用 Wikipedia API Query 或任何其他 API(例如 Opensearch)来查询具有某些属性的简单页面列表. 输入:页面(文章)标题或 ID 列表. 输出:一个页面列表，每个页面包含以下属性: 页面 ID 标题片段/描述(如在 opensearch api 中) 页面网址图片网址(如在 opensearch api 中) 类似这样的结果: h ..

发布时间：2021-11-15 02:27:48 api search mediawiki wikipedia 其他开发

wikipedia相关内容