web-scraping 第154页 - IT屋-程序员软件开发技术分享社区

如何获取任何网址或网页的Google缓存年龄？

在我的项目中，我需要将Google缓存年龄添加为重要信息。我试图搜索Google缓存时代的来源，也就是Google自上次重新编制所列网页以来的天数。我在哪里可以获得Google缓存年龄？解决方案使用网址 http://webcache.googleusercontent.com/search?q=cache: 示例： ..

发布时间：2018-06-15 09:55:27 html url hyperlink web-scraping 前端开发

如何在不切断第一行的情况下使用readHTMLTable

这是表格我正试图从网上抓取到R 我运行下面的代码是表格的第一行被切断 - 例如，表格以Justin Tucker而不是Steven Gotskowski开头。图书馆（XML） kicker_1（类别标识符>>>>>>>> ..

发布时间：2018-06-15 09:49:12 html r web-scraping 前端开发

用R从JavaScript中提取数据

感谢您对此感兴趣。我给了[单调乏味]的任务，看看某些药物的来源国是什么，因为它们是注册的哥伦比亚食品和药物管理局。该机构使用一个JavaScript（.jsp扩展名）的网站，我想知道是否有可能自动化该过程。这是查找的一步一步：前往代理网站：代理商咨询网站在下拉列表中选择”Medicamentos“左边在“expendiente”下（最上面的最右边的框）写下我们要查找的号 ..

发布时间：2018-06-15 09:40:22 javascript html r jsp web-scraping 前端开发

Excel VBA网页抓取数据表

我想从Roster Resource获取数据，这里是一个网页的例子（ https： //www.rosterresource.com/mlb-arizona-diamondbacks ）。最低限度，我希望获得“预计”转到“首发阵容”并将该数据导入到我的电子表格中。然后我会为Roster Resource的每个MLB球队做这件事，为每支球队创建一张表格，并为每支球队预测阵容。我尝试了一些“ ..

发布时间：2018-06-15 09:23:00 html excel excel-vba web-scraping 前端开发

无法使用htmlagilitypack从https URL下载HTML数据

我有一个“小”问题htmlagilitypack（HAP）。当我试图从网站获取数据时，出现以下错误： $ b 类型'System.ArgumentException'的未处理异常发生在$ b中$ b mscorlib.dll 其他信息：'gzip'不是受支持的编码名称。有关定义自定义编码的信息，请参阅文档 for Encoding.RegisterProvider方法。我正 ..

发布时间：2018-06-14 20:13:31 c# html https web-scraping html-agility-pack C#/.NET

BeautifulSoup：类型'Response'的对象没有len（）

问题：当我尝试执行脚本时， BeautifulSoup（html，...）给出错误消息“TypeError：type of'Response'的对象没有len （）。我尝试传递实际的HTML作为参数，但它仍然无效。导入请求 url ='http://vineoftheday.com/?order_by=rating' response = requests.get（url） ht ..

发布时间：2018-06-14 20:06:00 python html parsing web-scraping beautifulsoup 前端开发

从html表中提取链接

我试图从以下网页中提取链接 http://ipt.humboldt.org.co / 是“样本”类型。我可以使用以下代码从网页获取表：图书馆（XML） sitePage ..

发布时间：2018-06-14 19:38:36 html xml r web-scraping 前端开发

R网络跨越多个页面

我正在制作一个网络抓取计划，以搜索特定的葡萄酒并返回该品种的当地葡萄酒清单。我遇到的问题是多个页面结果。下面的代码是我正在使用的一个基本示例 url2 htmlpage2 ..

发布时间：2018-06-14 19:20:27 html r web-scraping rvest 前端开发

使用lxml和请求进行HTML抓取会导致unicode错误

我尝试使用此处提供的HTML刮板。它为他们提供的例子工作正常。但是，当我尝试将其与网页，我收到这个错误 - 支持的。请不要声明使用字节输入或XML片段。我尝试了谷歌搜索，但找不到解决方案。我真的很感谢任何帮助。我想知道是否有方法使用Python将它复制为HTML。编辑： from lxml import html 导入请求 page = requests.get（'ht ..

发布时间：2018-06-14 19:14:46 python html unicode web-scraping lxml 前端开发

PHP Web抓取Javascript生成的内容

我想从$ html的链接中获取数据，tr和td的所有表格内容，在这里我试图抓住链接，但它只显示javascript：self.close（） ..

发布时间：2018-06-14 18:41:16 php html web-scraping PHP

用BeautifulSoup和Python刮擦多个页面

我的代码成功地从[ http://my.gwu.edu/mod/pws/courses.cfm?campId=1&termId=201501&subjId=ACCY ]并将td元素写入文本文件。然而，上面的网站中有多个网页可用，我希望能够抓取这些网页。例如，通过上面的网址，当我点击指向“第2页”的链接时，整体网址不会发生变化。我查看了页面源代码并看到了JavaScript代码以进入 ..

发布时间：2018-06-13 16:08:32 python html web-scraping page-numbering 前端开发

我如何使用Scrapy从网站获取所有纯文本？

我希望在呈现HTML之后在网站上显示所有文本。我使用Scrapy框架在Python中工作。使用 xpath（'// body // text（）'）我可以得到它，但是使用HTML标签，我只想要文本。任何解决方案？感谢！解决方案最简单的选择是摘录 // body // text（）和加入找到的所有东西： ''。join（sel.select（“// body // text（） ..

发布时间：2018-06-13 10:53:26 python html xpath web-scraping scrapy 前端开发

使用PhantomJS和node.js保存并呈现网页

我正在寻找一个请求网页的例子，等待JavaScript呈现（JavaScript修改DOM），然后抓取页面的HTML。解决方案 'd猜你有2个选项尝试找到phantomjs节点模块 - https://github.com/sgentle/phantomjs-node 在节点内运行phantomjs作为子进程 - http://nodejs.org/api/child_proc ..

发布时间：2018-06-13 10:48:37 javascript html node.js web-scraping phantomjs 前端开发

使用Jsoup提交登录表单时出现问题

由于某些原因，当我使用正确的登录信息时，此代码不会让我进入网站。 System.out.println 发布登录页面的代码，表明我的代码无法工作。有人可以告诉我我忘记了什么或者有什么问题吗？ public void connect（）{ 尝试{ Connection.Response loginForm = Jsoup.connect（“https://www.capitaliq.c ..

发布时间：2018-06-13 10:38:00 java php html web-scraping jsoup Java开发

如何使用Python请求来伪造浏览器访问？

我想从下面的网站获取内容。如果我使用Firefox或Chrome等浏览器，我可以得到我想要的真实网页，但如果使用Python请求包（或 wget 命令）来获取它，返回完全不同的HTML页面。我认为该网站的开发者已经为此做了一些阻止，所以问题是：如何通过使用python请求或命令wget来伪造浏览器访问 http：//www.ichangtou。 com /＃company：data_ ..

发布时间：2018-06-13 10:06:55 python html web-scraping python-requests wget 前端开发

如何“扫描”一个网站（或网页）的信息，并将其带入我的程序？

好吧，我非常想弄清楚如何从网页中提取信息，并将其带入我的程序（使用Java）。例如，如果我知道我想要的信息的确切网页，为了简化百思买商品页面，我将如何获取我需要的相应信息该页面？像标题，价格，描述一样？这个过程甚至会被称为什么？编辑：好的，我正在对JSoup（BalusC发布的那个）进行测试，，但我不断收到此错误：线程“main”中的异常java.lang.NoS ..

发布时间：2018-06-13 09:48:12 java html web-scraping jsoup Java开发

Java HTML解析

我正在研究一个从网站上抓取数据的应用程序，我想知道如何获取数据。具体而言，我需要包含在使用特定CSS类的多个div标签中的数据 - 目前（用于测试目的）我只是检查 div class =“classname” 不禁感到有更好的解决方案。有没有什么好的方法可以让一个类有一行HTML，并且有一些漂亮的方法： boolean usesClass（Strin ..

发布时间：2018-06-13 09:43:11 java html parsing web-scraping Java开发

使用XML包将html表格刮到R数据框中

如何使用XML包对html表格进行刮取？例如，在巴西足球队。我想在R中读取它，并将“巴西队与国际足联认可的球队对阵的所有比赛名单”列为data.frame。如何才能做到这一点？解决方案 ...或者更短的尝试： library（rlist） theurl ..

发布时间：2018-06-13 09:31:31 html r xml parsing web-scraping 前端开发

哪个HTML解析器是最好的？

我编写了很多解析器。到目前为止，我正在使用HtmlUnit无头浏览器进行解析和浏览器自动化。现在，我想将这两项任务分开。由于80％的工作仅涉及解析，因此我需要使用浅HTML解析器，因为它需要很长时间才能首先加载页面，然后获取源代码然后解析它。我想知道哪个HTML解析器是最好的。如果分析器接近HtmlUnit分析器，分析器会更好。编辑： p> 通过最好的方式，我 ..

发布时间：2018-06-13 09:31:08 java html parsing html-parsing web-scraping Java开发

HTML抓取的选项？

我正在考虑尝试 Beautiful Soup ，一个用于HTML抓取的Python包。有没有其他的HTML抓取包我应该看？ Python不是必需品，我其实也有兴趣听到其他语言。迄今为止的故事： Python 美丽的汤 lxml HTQL Scrapy 机械化 Ruby Nokogiri Hpricot 机械化 scrAPI LI> scRUBYt！ ..

发布时间：2018-06-13 09:28:05 html web-scraping html-parsing html-content-extraction 前端开发

web-scraping相关内容