web-scraping相关内容

用R从JavaScript中提取数据

感谢您对此感兴趣。 我给了[单调乏味]的任务,看看某些药物的来源国是什么,因为它们是注册的哥伦比亚食品和药物管理局。该机构使用一个JavaScript(.jsp扩展名)的网站,我想知道是否有可能自动化该过程。 这是查找的一步一步: 前往代理网站:代理商咨询网站 在下拉列表中选择”Medicamentos“左边 在“expendiente”下(最上面的最右边的框)写下我们要查找的号 ..
发布时间:2018-06-15 09:40:22 前端开发

Excel VBA网页抓取数据表

我想从Roster Resource获取数据,这里是一个网页的例子( https: //www.rosterresource.com/mlb-arizona-diamondbacks )。最低限度,我希望获得“预计”转到“首发阵容”并将该数据导入到我的电子表格中。然后我会为Roster Resource的每个MLB球队做这件事,为每支球队创建一张表格,并为每支球队预测阵容。 我尝试了一些“ ..
发布时间:2018-06-15 09:23:00 前端开发

无法使用htmlagilitypack从https URL下载HTML数据

我有一个“小”问题htmlagilitypack(HAP)。当我试图从网站获取数据时,出现以下错误: $ b 类型'System.ArgumentException'的未处理异常发生在$ b中$ b mscorlib.dll 其他信息:'gzip'不是受支持的编码名称。有关定义自定义编码的信息,请参阅文档 for Encoding.RegisterProvider方法。 我正 ..
发布时间:2018-06-14 20:13:31 C#/.NET

R网络跨越多个页面

我正在制作一个网络抓取计划,以搜索特定的葡萄酒并返回该品种的当地葡萄酒清单。我遇到的问题是多个页面结果。下面的代码是我正在使用的一个基本示例 url2 htmlpage2 ..
发布时间:2018-06-14 19:20:27 前端开发

使用lxml和请求进行HTML抓取会导致unicode错误

我尝试使用此处提供的HTML刮板。它为他们提供的例子工作正常。但是,当我尝试将其与网页,我收到这个错误 - 支持的。请不要声明使用字节输入或XML片段。 我尝试了谷歌搜索,但找不到解决方案。我真的很感谢任何帮助。我想知道是否有方法使用Python将它复制为HTML。 编辑: from lxml import html 导入请求 page = requests.get('ht ..
发布时间:2018-06-14 19:14:46 前端开发

用BeautifulSoup和Python刮擦多个页面

我的代码成功地从[ http://my.gwu.edu/mod/pws/courses.cfm?campId=1&termId=201501&subjId=ACCY ]并将td元素写入文本文件。 然而,上面的网站中有多个网页可用,我希望能够抓取这些网页。 例如,通过上面的网址,当我点击指向“第2页”的链接时,整体网址不会发生变化。我查看了页面源代码并看到了JavaScript代码以进入 ..
发布时间:2018-06-13 16:08:32 前端开发

我如何使用Scrapy从网站获取所有纯文本?

我希望在呈现HTML之后在网站上显示所有文本。我使用Scrapy框架在Python中工作。 使用 xpath('// body // text()')我可以得到它,但是使用HTML标签,我只想要文本。任何解决方案?感谢! 解决方案 最简单的选择是 摘录 // body // text()和 加入 找到的所有东西: ''。join(sel.select(“// body // text() ..
发布时间:2018-06-13 10:53:26 前端开发

使用Jsoup提交登录表单时出现问题

由于某些原因,当我使用正确的登录信息时,此代码不会让我进入网站。 System.out.println 发布登录页面的代码,表明我的代码无法工作。有人可以告诉我我忘记了什么或者有什么问题吗? public void connect(){ 尝试{ Connection.Response loginForm = Jsoup.connect(“https://www.capitaliq.c ..
发布时间:2018-06-13 10:38:00 Java开发

如何使用Python请求来伪造浏览器访问?

我想从下面的网站获取内容。如果我使用Firefox或Chrome等浏览器,我可以得到我想要的真实网页,但如果使用Python请求包(或 wget 命令)来获取它,返回完全不同的HTML页面。我认为该网站的开发者已经为此做了一些阻止,所以问题是: 如何通过使用python请求或命令wget来伪造浏览器访问 http://www.ichangtou。 com /#company:data_ ..
发布时间:2018-06-13 10:06:55 前端开发

如何“扫描”一个网站(或网页)的信息,并将其带入我的程序?

好吧,我非常想弄清楚如何从网页中提取信息,并将其带入我的程序(使用Java)。 例如,如果我知道我想要的信息的确切网页,为了简化百思买商品页面,我将如何获取我需要的相应信息该页面?像标题,价格,描述一样? 这个过程甚至会被称为什么?编辑: 好​​的,我正在对JSoup(BalusC发布的那个)进行测试, ,但我不断收到此错误: 线程“main”中的异常java.lang.NoS ..
发布时间:2018-06-13 09:48:12 Java开发

Java HTML解析

我正在研究一个从网站上抓取数据的应用程序,我想知道如何获取数据。具体而言,我需要包含在使用特定CSS类的多个div标签中的数据 - 目前(用于测试目的)我只是检查 div class =“classname” 不禁感到有更好的解决方案。 有没有什么好的方法可以让一个类有一行HTML,并且有一些漂亮的方法: boolean usesClass(Strin ..
发布时间:2018-06-13 09:43:11 Java开发

使用XML包将html表格刮到R数据框中

如何使用XML包对html表格进行刮取? 例如,在巴西足球队。我想在R中读取它,并将“巴西队与国际足联认可的球队对阵的所有比赛名单”列为data.frame。如何才能做到这一点? 解决方案 ...或者更短的尝试: library(rlist) theurl ..
发布时间:2018-06-13 09:31:31 前端开发

哪个HTML解析器是最好的?

我编写了很多解析器。到目前为止,我正在使用HtmlUnit无头浏览器进行解析和浏览器自动化。 现在,我想将这两项任务分开。 由于80%的工作仅涉及解析,因此我需要使用浅HTML解析器,因为它需要很长时间才能首先加载页面,然后获取源代码然后解析它。 我想知道哪个HTML解析器是最好的。如果分析器接近HtmlUnit分析器,分析器会更好。 编辑: p> 通过最好的方式,我 ..
发布时间:2018-06-13 09:31:08 Java开发

HTML抓取的选项?

我正在考虑尝试 Beautiful Soup ,一个用于HTML抓取的Python包。有没有其他的HTML抓取包我应该看? Python不是必需品,我其实也有兴趣听到其他语言。 迄今为止的故事: Python 美丽的汤 lxml HTQL Scrapy 机械化 Ruby Nokogiri Hpricot 机械化 scrAPI LI> scRUBYt! ..