如何获取Wikipedia类别及其子类别下的所有文章页面? [英] How to get all article pages under a Wikipedia Category and its sub-categories?

查看:104
本文介绍了如何获取Wikipedia类别及其子类别下的所有文章页面?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想获得一个类别及其子类别下的所有文章名称.

I want to get all the articles names under a category and its sub-categories.

我知道的选项:

  1. 使用Wikipedia API.它有这样的选择吗?
  2. d/l转储.哪种格式更适合我的用法?
  3. 还有一个选项可以在Wikipedia中进行搜索,例如incategory:"music",但是我没有看到以XML格式进行查看的选项.
  1. Using the Wikipedia API. Does it have such an option??
  2. d/l the dump. Which format would be better for my usage?
  3. There is also an option to search in Wikipedia something like incategory:"music", but I didn't see an option to view that in XML.

请分享您的想法

推荐答案

以下资源将帮助您从该类别及其所有子类别下载所有页面:

The following resource will help you to download all pages from the category and all its subcategories:

http://en.wikipedia.org/wiki/Wikipedia:CatScan

这里还有一个API:

https://www.mediawiki.org/wiki/API:Categorymembers

这篇关于如何获取Wikipedia类别及其子类别下的所有文章页面?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆