使用Wikidata Toolkit提取不同语言的相关文章 [英] Extract related articles in different languages using Wikidata Toolkit

查看:134
本文介绍了使用Wikidata Toolkit提取不同语言的相关文章的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试在Wikidata转储中提取与语言相关的文章.在互联网上搜索后,我发现有一个名为 Wikidata工具包的工具这些类型的数据.但是没有有关如何查找不同语言的相关文章的信息.例如,英文中的文章德累斯顿" 与该文章相关:<意大利语中的href ="https://it.wikipedia.org/wiki/Dresda" rel ="nofollow noreferrer">"Dresda" .我的意思是第二个是第一个的翻译版本. 我尝试使用该工具包,但找不到任何解决方案. 请写一些有关如何查找此相关文章的示例.

I'm trying to extract interlanguage related articles in Wikidata dump. After searching on the internet, I found out there is a tool named Wikidata Toolkit that helps to work with these type of data. But there is no information about how to find related articles in different languages. For example, the article: "Dresden" in the English language is related to the article: "Dresda" in the Italiano one. I mean the second one is the translated version of the first one. I tried to use the toolkit, but I couldn't find any solution. Please write some example about how to find this related article.

推荐答案

您可以使用Wikidata dump [1]获取多种语言的维基百科之间的文章映射.

you can use Wikidata dump [1] to get a mapping of articles among wikipedias in multiple language.

例如,如果您在底部看到呼吸系统[2]的Wikidata条目,则会看到所有用其他语言引用同一主题的文章.

for example if you see the wikidata entry for Respiratory System[2] at the bottom you see all the articles referring to the same topic in other languages.

该映射在wikidata转储中可用.只需下载Wikidata转储并获取映射,然后从Wikipedia转储中获取相应的文本即可. 您可能还会遇到其他问题,例如解决Wikipedia重定向.

That mapping is available in the wikidata dump. Just download wikidata dump and get the mapping and then get the corresponding text from the wikipedia dump. You might encounter some other issues, like resolving wikipedia redirects.

[1] >://dumps.wikimedia.org/wikidatawiki/entities/ [2] https://www.wikidata.org/wiki/Q7891

[1] https://dumps.wikimedia.org/wikidatawiki/entities/ [2] https://www.wikidata.org/wiki/Q7891

这篇关于使用Wikidata Toolkit提取不同语言的相关文章的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆