wikipedia相关内容
我正在尝试使用 AJAX (XMLHttpRequest) 实现对维基百科 API 的简单请求.如果我在 Firefox 的地址栏中键入 url,我会得到一个整洁的 XML,那里不费吹灰之力.然而,调用完全相同的网址: //这是我的 XMLHttpRequest 对象httpObjectMain.open("GET", "http://en.wikipedia.org/w/api.php?act
..
我想在 lucene 项目中使用 WikipediaTokenizer - http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html 但我从未使用过 lucene.我只想将维基百科字符串转换为令牌列表.但是,我看到这个类
..
我的目标是创建一个以字符串为键、条目值为字符串的 HashSet 的哈希图. 输出 现在的输出如下所示: Hudson+(姓)=[Q2720681], Hudson,+Quebec=[Q141445], Hudson+(given+name)=[Q5928530], Hudson,+Colorado=[Q2272323], Hudson,+Illinois=[Q2672022],哈德
..
我在 DBPedia 中有两个资源:dbr:Diabetes_mellitus 和 dbr:高血糖.在维基百科中,对应的页面是wikipedia-en:Diabetes_mellitus和wikipedia-en:Hyperglycemia. 在维基百科中有一个从 Diabetes_mellitus 页面到高血糖页面的超链接.但是当我尝试在 DBpedia 中查找 2 个资源之间的链接时,我
..
我的机器上安装了solr 3.6.2,与tomcat完美运行.我想使用 solr 索引维基百科转储文件.如何使用 DataImportHandler 执行此操作?还有什么办法吗?我对 xml 一无所知. 我提到的文件在提取时大约有 45GB.任何帮助将不胜感激. 更新-我尝试做 DataImportHandler 页面上所说的.但是有一些错误可能是因为他们的 solr 版本要旧得多.
..
我已经安装了 solr 4.6.0 并按照 Solr 主页上的教程进行操作.一切都很好,直到我需要做我即将做的真正工作.我必须快速访问维基百科内容,我被建议使用 Solr.好吧,我试图按照链接 http://wiki.apache 中的示例进行操作.org/solr/DataImportHandler#Example:_Indexing_wikipedia,但我找不到示例.我是新手,不知道data
..
我正在尝试抓取维基百科以获取一些用于文本挖掘的数据.我正在使用 python 的 urllib2 和 Beautifulsoup.我的问题是:是否有一种简单的方法可以从我阅读的文本中去除不必要的标签(如链接“a"或“span"). 对于这种情况: 导入 urllib2从 BeautifulSoup 进口 *开瓶器 = urllib2.build_opener()opener.addhead
..
我只是想将维基百科表格中的数据抓取到熊猫数据框中. 我需要重现三列:“邮政编码、自治市镇、社区". 导入请求website_url = requests.get('https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M').text从 bs4 导入 BeautifulSoup汤 = BeautifulSoup(webs
..
我想获取一个类别及其子类别下的所有文章名称. 我知道的选项: 使用维基百科 API.它有这样的选择吗?? d/l 转储.哪种格式更适合我的使用? 还有一个选项可以在维基百科中搜索诸如 incategory:"music" 之类的内容,但我没有看到在 XML 中查看的选项. 请分享您的想法 解决方案 以下资源将帮助您下载该类别及其所有子类别中的所有页面: http
..
是否可以对由 7zip 压缩的非常大的文件进行随机访问(大量搜索)? 原始文件非常大(999gb xml),我无法以解压格式存储它(我没有太多可用空间).因此,如果 7z 格式允许访问中间块,而无需在选定块之前解压缩所有块,我就可以构建块开头的索引和相应的原始文件偏移量. 我的 7z 档案的标题是 37 7A BC AF 27 1C 00 02 28 99 F1 9D 4A 46 D
..
是否可以对由 7zip 压缩的非常大的文件进行随机访问(大量搜索)? 原始文件非常大(999gb xml),我无法以解压格式存储它(我没有太多可用空间).因此,如果 7z 格式允许访问中间块,而无需在选定块之前解压缩所有块,我就可以构建块开头的索引和相应的原始文件偏移量. 我的 7z 档案的标题是 37 7A BC AF 27 1C 00 02 28 99 F1 9D 4A 46 D
..
我想从维基百科页面获取结果https://en.wikipedia.org/wiki/February_2 作为 JSON. 我尝试使用他们的 API:https://en.wikipedia.org/w/api.php?action=parse&page=February_19&prop=text&formatversion=2&format=json 虽然它以 Json 格式给出.
..
我在使用维基百科 API 时遇到问题.我使用这个 PHP 脚本, load("http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=New_York_Yankees&rvprop=content&format=xml");打印 $xmlDoc->saveXML();?> 我在浏览器中得到以下结果.为什么?
..
我在使用维基百科 API 时遇到问题.我使用这个 PHP 脚本, load("http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=New_York_Yankees&rvprop=content&format=xml");打印 $xmlDoc->saveXML();?> 我在浏览器中得到以下结果.为什么?
..
我想用维基百科的api来提取这个页面的结果: http://en.wikipedia.org/wiki/Special:PrefixIndex 在其上搜索“某物"时,例如: http://en.wikipedia.org/w/index.php?title=Special%3APrefixIndex&prefix=tal&namespace=4 然后,我想访问每个结果页面并
..
过去 2 天我一直在努力理解 MediaWiki 文档,但我不知道如何通过 MediaWiki API 检索维基百科文章的第一段. 有人能指出我正确的方向吗? 我即将向 file_get_contents 提出上诉,但我相信有一个“更干净"的解决方案. 解决方案 不要尝试使用原始 API,而是使用客户端包装器.这里有一长串可供选择的列表,全部用于 PHP: http://
..
我对维基百科 API 有疑问.我正在使用 openSearch 来获取带有维基百科页面链接的结果.然而,开放式搜索似乎不支持 +incategory.更重要的是,我想搜索音乐艺术家(乐队、独唱和所有其他类型的音乐家).但是我找不到任何名为“音乐"的类别.类别过于具体(即 1980 年代的音乐团体、独唱歌手等).但是,当您查看维基百科的消歧页面时,例如后代,您可以看到“在音乐中": http:
..
我正在制作一个 python 应用程序,它使用 python 维基百科包来检索 3 个不同维基百科页面的正文.但是,我注意到在一次检索一篇文章时性能非常低.有没有一种方法可以同时检索 3 个维基百科页面的正文? 解决方案 如果您想要“原始"页面,您可以使用任何 python 抓取库,例如 扭曲/scrapy.但是,如果您正在寻找解析的 wiki 格式,您应该使用 pywikibot/mwp
..
我正在寻找某种可调用的方式来获取有关名人和名人的信息.给定一个字符串,我想确定它是否是名人的名字,如果是,他们是否还活着,也许他们属于哪个类别(例如演员、音乐家、运动员). 有没有人知道任何公开可用的 API 来做这样的事情?我能想到的最好的是维基百科,但它有很大的问题,因为很多信息必须被解析,而且不是可靠和可预测的格式. 我还希望能够在初始搜索没有结果时为可能的名称提供建议(因为字符
..
我需要使用 Wikipedia API Query 或任何其他 API(例如 Opensearch)来查询具有某些属性的简单页面列表. 输入:页面(文章)标题或 ID 列表. 输出:一个页面列表,每个页面包含以下属性: 页面 ID 标题 片段/描述(如在 opensearch api 中) 页面网址 图片网址(如在 opensearch api 中) 类似这样的结果: h
..