wikipedia 第4页 - IT屋-程序员软件开发技术分享社区

如何从 R 访问维基百科?

是否有任何 R 包允许查询 Wikipedia(很可能使用 Mediawiki API)以获取与此类查询相关的可用文章列表，以及导入所选文章以进行文本挖掘? 解决方案使用 RCurl 包获取信息，以及 XML 或 RJSONIO> 用于解析响应的包. 如果您使用代理，请设置您的选项. opts 使用getForm 函数访问API. search_example ..

发布时间：2021-09-06 19:40:44 r wikipedia text-mining wikipedia-api mediawiki-api 其他开发

requests.history 未显示所有重定向

我正在尝试获取某些 Wikipedia 页面的重定向，但发生了一些令我感到好奇的事情. 如果我做: >>>request = requests.get("https://en.wikipedia.org/wiki/barcelona", allow_redirects=True)>>>请求.urlu'https://en.wikipedia.org/wiki/Barcelona'>>>请求 ..

发布时间：2021-07-05 19:38:56 python redirect python-requests wikipedia Python

from bs4 import BeautifulSoup进口请求导入时间进口键盘进口重新定义搜索维基():search = input("你想搜索什么?").replace("", "_").replace("'", "%27")url = f“https://en.wikipedia.org/wiki/{search}"headers = {'User-Agent': 'Mozilla/5. ..

发布时间：2021-07-03 19:03:22 python beautifulsoup python-requests wikipedia re Python

如何从 Python 的输出中删除 None?

在运行我的 python 脚本时，我得到以下结果: 再试一次无导入维基百科导入时间def wiki_search(word):尝试:wikipedia.set_lang(“es")wiki_result = wikipedia.summary(单词，句子=1，auto_suggest=True，redirect=True)返回 wiki_result除了 wikipedia.ex ..

发布时间：2021-06-26 19:16:43 python python-2.7 wikipedia wikipedia-api Python

从维基百科文章中提取第一段 (Python)

如何使用 Python 从维基百科文章中提取第一段? 例如，对于阿尔伯特·爱因斯坦，那就是: 阿尔伯特·爱因斯坦(读作/ˈælbərtˈaɪnstaɪn/;德语:[ˈalbɐt ˈaɪnʃtaɪn]( 听);1879 年 3 月 14 日 – 4 月 18 日1955)是一位理论物理学家，哲学家和作家，广泛被认为是最有影响力和标志性的科学家和历代知识分子.一种德国-瑞士诺贝尔奖获得者爱 ..

发布时间：2021-06-25 20:04:17 python wikipedia Python

黑名单IP数据库

是否有开放的网络黑名单 IP 数据库?你知道有很多公共网络代理......比如维基百科全球封锁使用的黑名单. 解决方案 Project Honeypot提供名为 Http:BL 的服务.作为 Project Honeypot 的活跃成员，您可以查询他们的 IP 数据库，这些 IP 被称为电子邮件地址收集器或垃圾评论发送者. ..

发布时间：2021-06-22 20:27:49 security proxy wikipedia blacklist 其他开发

为什么我不能使用 LWP::Simple 获取维基百科页面?

我正在尝试使用 LWP::Simple 获取维基百科页面，但它们不回来了.这段代码: #!/usr/bin/perl使用严格；使用 LWP::Simple;打印获取(“http://en.wikipedia.org/wiki/Stack_overflow")；不打印任何东西.但如果我使用其他网页，请说 http://www.google.com，它工作正常. 我应该使用其他名称来引用维 ..

发布时间：2021-06-15 20:15:31 perl wikipedia lwp 其他开发

我如何准备使用整个维基百科进行自然语言处理?

我在这里有点新.我有一个项目，我必须在其中下载和使用 Wikipedia 进行 NLP.我面临的问题如下:我只有 12 GB 的 RAM，但英文维基转储压缩了 15 GB 以上.这会限制我处理维基吗?我不需要来自维基的任何图片.我需要在处理前解压缩转储吗?有人可以告诉我所需的步骤或指向我的相关内容吗?提前致谢. 解决方案处理维基百科转储最简单的方法是依赖 kiwix.org 转储，您可以 ..

发布时间：2021-06-07 20:35:21 nlp wikipedia 其他开发

如何通过 API 以文本形式获取维基百科内容?

我想以文本形式获取维基百科页面. 我从这里查看了维基百科 API https://en.wikipedia.org/w/api.php 表示为了将页面作为文本我需要将其附加到页面地址: api.php?action=query&meta=siteinfo&siprop=namespaces&format=txt 但是，当我尝试将此后缀附加到普通页面的地址时，找不到该页面: https: ..

发布时间：2021-06-02 19:24:58 mediawiki wikipedia wikipedia-api 其他开发

从维基百科解析出生和死亡日期?

我正在尝试编写一个 python 程序，该程序可以在维基百科中搜索人们的出生和死亡日期. 例如，阿尔伯特·爱因斯坦出生于:1879 年 3 月 14 日；逝世日期:1955 年 4 月 18 日. 我从使用 Python 获取维基百科文章导入 urllib2开瓶器 = urllib2.build_opener()opener.addheaders = [('用户代理', 'Mozi ..

发布时间：2021-06-02 19:24:47 python mediawiki wikipedia wikipedia-api mediawiki-api Python

如何使用Python从Wikipedia抓取链接

我正在尝试使用python从Wikipedia上的“海军战役清单"中删除所有战役链接.问题是我无法弄清楚如何将所有包含单词"/wiki/Battle"的链接导出到我的CSV文件.我已经习惯了C ++，所以python对我来说有点陌生.有任何想法吗?这是我到目前为止所拥有的... 从bs4 导入BeautifulSoup导入urllib2rootUrl ="https://en.wikipedi ..

发布时间：2021-05-15 19:17:16 python hyperlink screen-scraping wikipedia scrape Python

API检索有关名人的信息

我正在寻找一种可调用的方式来获取有关名人和名人的信息.给定一个字符串，我想确定它是否是一个名人的名字，如果是，是否还活着，以及他们可能属于哪一类(例如，演员，音乐家，运动员). 有人知道这样做的任何公开可用的API吗?我能想到的最好的是Wikipedia，但这很成问题，因为很多信息必须经过解析，而且格式也不可靠且可预测. 当初始搜索没有任何结果时，我还希望能够为可能的名称提供建议(因为 ..

发布时间：2021-04-08 20:43:00 api wikipedia wikipedia-api 其他开发

是否有仅用于检索内容摘要的Wikipedia API?

我只需要检索Wikipedia页面的第一段.内容必须为html格式，可以在我的网站上显示(因此，没有BBCODE或WIKIPEDIA特殊代码！) 解决方案有一种方法可以获取整个“简介"部分，没有任何HTML解析！与AnthonyS的 answer 类似，并带有附加的 explaintext 参数，您可以以纯文本格式获得简介部分的文字文字. 查询以纯文本格式获取Stack O ..

发布时间：2021-04-08 20:36:57 api wikipedia wikipedia-api 其他开发

如何可靠地获取Wikipedia信息框中使用的图像?

如何(可靠地)从API获取Wikipedia信息框中使用的主图像? 此问题已被问过并被接受答案承认这只是一个猜测.随后的答案充其量似乎很hack，并且不会返回正确的图像. 例如，Jimi Hendrix Wikipedia条目使用"File:Jimi Hendrix 1967.png"作为InfoBox中的主图像. 更新后的答案建议如果我解决方案每个Wikipedia页面(例 ..

发布时间：2021-02-13 20:55:42 json wikipedia wikipedia-api wikidata wikidata-api 其他开发

维基百科文字下载

我正在为我的大学项目下载完整的Wikipedia文本.我是否需要编写自己的蜘蛛才能下载此文件，还是可以在线获取Wikipedia的公共数据集? 仅向您概述我的项目，我想找出我感兴趣的几篇文章中有趣的词.但是，为了找到这些有趣的词，我计划应用tf/idf来计算每个词的词频单词并选择高频的单词.但是要计算tf，我需要知道整个Wikipedia的总数. 这怎么办? 维基百科的解决方案 ..

发布时间：2020-11-27 21:44:38 text wikipedia web-crawler information-retrieval 其他开发

如何将.xml格式的Wikipedia文件编入solr

我想将Wikipedia的xml文件编入Solr. 但是我遇到一个错误，它无法编制索引. Solr具有xml文件的特定格式.我更改了schema.xml和data-config.xml文件以适合Wikipedia文件的标签. 仍然无法索引文件.我的实际意图是索引Wikipedia，这是一个30 GB的xml文件. 我该如何将所有维基百科文件索引到Solr中? 解决方案有 ..

发布时间：2020-11-27 20:25:04 xml solr indexing wikipedia 其他开发

使用Python获取Wikipedia文章

我尝试使用Python的urllib获取Wikipedia文章: f = urllib.urlopen("http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes") s = f.read() f.close() 但是，我得到的不是HTML页面，而是以下响应:错误-Wikimedi ..

发布时间：2020-11-25 19:24:51 python urllib2 user-agent wikipedia http-status-code-403 Python

维基百科使用哪个维基标记解析器?

这些解析器都不被维基百科使用. ;他们都无法正确处理Wiki代码. 有人知道维基百科使用的解析器吗? 解决方案 Wikipedia使用 MediaWiki ，具有自己的解析器. ..

发布时间：2020-11-24 21:01:42 php html-parsing wikipedia wiki-engine PHP

XPath获取两个标题之间的标记

我正在尝试编写一个小应用程序以从Wikipedia页面提取内容.当我最初考虑是否可以使用XPath定位包含内容的div时，但是在研究了Wikipedia如何构建其文章之后，我很快发现这并不是一件容易的事.进入页面时，分隔内容的最佳方法是选择两组h2标签之间的内容. 示例: Title Some Content Title 在这里 ..

发布时间：2020-11-24 02:44:28 html xml xpath web wikipedia 前端开发

将英语维基百科转储导入SQL Server

我已从在这里，我正尝试将其导入SQL Server 2018。我看不到XML文件，因为它的重量超过75 GB，并且因此，我不知道在使用批量XML 。我该怎么做？我可以在 Python 或 C＃上编写一些脚本。解决方案使用以下 SQL查询创建数据库 > 创建数据库供稿 ; GO USE [Feed] drop table Doc drop ..

发布时间：2020-10-27 00:39:21 sql sql-server xml wikipedia dump 数据库

wikipedia相关内容