wikipedia相关内容
是否有任何 R 包允许查询 Wikipedia(很可能使用 Mediawiki API)以获取与此类查询相关的可用文章列表,以及导入所选文章以进行文本挖掘? 解决方案 使用 RCurl 包获取信息,以及 XML 或 RJSONIO> 用于解析响应的包. 如果您使用代理,请设置您的选项. opts 使用getForm 函数访问API. search_example
..
我正在尝试获取某些 Wikipedia 页面的重定向,但发生了一些令我感到好奇的事情. 如果我做: >>>request = requests.get("https://en.wikipedia.org/wiki/barcelona", allow_redirects=True)>>>请求.urlu'https://en.wikipedia.org/wiki/Barcelona'>>>请求
..
from bs4 import BeautifulSoup进口请求导入时间进口键盘进口重新定义搜索维基():search = input("你想搜索什么?").replace("", "_").replace("'", "%27")url = f“https://en.wikipedia.org/wiki/{search}"headers = {'User-Agent': 'Mozilla/5.
..
在运行我的 python 脚本时,我得到以下结果: 再试一次 无 导入维基百科导入时间def wiki_search(word):尝试:wikipedia.set_lang(“es")wiki_result = wikipedia.summary(单词,句子=1,auto_suggest=True,redirect=True)返回 wiki_result除了 wikipedia.ex
..
如何使用 Python 从维基百科文章中提取第一段? 例如,对于阿尔伯特·爱因斯坦,那就是: 阿尔伯特·爱因斯坦(读作/ˈælbərtˈaɪnstaɪn/;德语:[ˈalbɐt ˈaɪnʃtaɪn]( 听);1879 年 3 月 14 日 – 4 月 18 日1955)是一位理论物理学家,哲学家和作家,广泛被认为是最有影响力和标志性的科学家和历代知识分子.一种德国-瑞士诺贝尔奖获得者爱
..
是否有开放的网络黑名单 IP 数据库?你知道有很多公共网络代理......比如维基百科全球封锁使用的黑名单. 解决方案 Project Honeypot提供名为 Http:BL 的服务.作为 Project Honeypot 的活跃成员,您可以查询他们的 IP 数据库,这些 IP 被称为电子邮件地址收集器或垃圾评论发送者.
..
我正在尝试使用 LWP::Simple 获取维基百科页面,但它们不回来了.这段代码: #!/usr/bin/perl使用严格;使用 LWP::Simple;打印获取(“http://en.wikipedia.org/wiki/Stack_overflow"); 不打印任何东西.但如果我使用其他网页,请说 http://www.google.com,它工作正常. 我应该使用其他名称来引用维
..
我在这里有点新.我有一个项目,我必须在其中下载和使用 Wikipedia 进行 NLP.我面临的问题如下:我只有 12 GB 的 RAM,但英文维基转储压缩了 15 GB 以上.这会限制我处理维基吗?我不需要来自维基的任何图片.我需要在处理前解压缩转储吗?有人可以告诉我所需的步骤或指向我的相关内容吗?提前致谢. 解决方案 处理维基百科转储最简单的方法是依赖 kiwix.org 转储,您可以
..
我想以文本形式获取维基百科页面. 我从这里查看了维基百科 API https://en.wikipedia.org/w/api.php 表示为了将页面作为文本我需要将其附加到页面地址: api.php?action=query&meta=siteinfo&siprop=namespaces&format=txt 但是,当我尝试将此后缀附加到普通页面的地址时,找不到该页面: https:
..
我正在尝试编写一个 python 程序,该程序可以在维基百科中搜索人们的出生和死亡日期. 例如,阿尔伯特·爱因斯坦出生于:1879 年 3 月 14 日;逝世日期:1955 年 4 月 18 日. 我从使用 Python 获取维基百科文章 导入 urllib2开瓶器 = urllib2.build_opener()opener.addheaders = [('用户代理', 'Mozi
..
我正在尝试使用python从Wikipedia上的“海军战役清单"中删除所有战役链接.问题是我无法弄清楚如何将所有包含单词"/wiki/Battle"的链接导出到我的CSV文件.我已经习惯了C ++,所以python对我来说有点陌生.有任何想法吗?这是我到目前为止所拥有的... 从bs4 导入BeautifulSoup导入urllib2rootUrl ="https://en.wikipedi
..
我正在寻找一种可调用的方式来获取有关名人和名人的信息.给定一个字符串,我想确定它是否是一个名人的名字,如果是,是否还活着,以及他们可能属于哪一类(例如,演员,音乐家,运动员). 有人知道这样做的任何公开可用的API吗?我能想到的最好的是Wikipedia,但这很成问题,因为很多信息必须经过解析,而且格式也不可靠且可预测. 当初始搜索没有任何结果时,我还希望能够为可能的名称提供建议(因为
..
我只需要检索Wikipedia页面的第一段.内容必须为html格式,可以在我的网站上显示(因此,没有BBCODE或WIKIPEDIA特殊代码!) 解决方案 有一种方法可以获取整个“简介"部分,没有任何HTML解析!与AnthonyS的 answer 类似,并带有附加的 explaintext 参数,您可以以纯文本格式获得简介部分的文字文字. 查询 以纯文本格式获取Stack O
..
如何(可靠地)从API获取Wikipedia信息框中使用的主图像? 此问题已被问过并被接受答案承认这只是一个猜测.随后的答案充其量似乎很hack,并且不会返回正确的图像. 例如,Jimi Hendrix Wikipedia条目使用"File:Jimi Hendrix 1967.png"作为InfoBox中的主图像. 更新后的答案建议如果我解决方案 每个Wikipedia页面(例
..
我正在为我的大学项目下载完整的Wikipedia文本.我是否需要编写自己的蜘蛛才能下载此文件,还是可以在线获取Wikipedia的公共数据集? 仅向您概述我的项目,我想找出我感兴趣的几篇文章中有趣的词.但是,为了找到这些有趣的词,我计划应用tf/idf来计算每个词的词频单词并选择高频的单词.但是要计算tf,我需要知道整个Wikipedia的总数. 这怎么办? 维基百科的 解决方案
..
我想将Wikipedia的xml文件编入Solr. 但是我遇到一个错误,它无法编制索引. Solr具有xml文件的特定格式.我更改了schema.xml和data-config.xml文件以适合Wikipedia文件的标签. 仍然无法索引文件.我的实际意图是索引Wikipedia,这是一个30 GB的xml文件. 我该如何将所有维基百科文件索引到Solr中? 解决方案 有
..
我尝试使用Python的urllib获取Wikipedia文章: f = urllib.urlopen("http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes") s = f.read() f.close() 但是,我得到的不是HTML页面,而是以下响应:错误-Wikimedi
..
这些解析器都不被维基百科使用. ;他们都无法正确处理Wiki代码. 有人知道维基百科使用的解析器吗? 解决方案 Wikipedia使用 MediaWiki ,具有自己的解析器.
..
我正在尝试编写一个小应用程序以从Wikipedia页面提取内容.当我最初考虑是否可以使用XPath定位包含内容的div时,但是在研究了Wikipedia如何构建其文章之后,我很快发现这并不是一件容易的事.进入页面时,分隔内容的最佳方法是选择两组h2标签之间的内容. 示例:
Title
Some Content
Title
在这里
..
我已从在这里,我正尝试将其导入SQL Server 2018。 我看不到XML文件,因为它的重量超过75 GB,并且因此,我不知道在使用批量XML 。 我该怎么做?我可以在 Python 或 C#上编写一些脚本。 解决方案 使用以下 SQL查询创建数据库 > 创建数据库供稿 ; GO USE [Feed] drop table Doc drop
..