web-scraping相关内容

刮维基百科季节和剧集(VBA EXCEL)

我正在尝试使用Excel 2013和Visual Basic创建一个程序。作为该计划的一部分,我将在列表框中列出电视节目。我希望能够双击其中一个,并将其打开到另一个窗体,并显示一个列表框,其中包含该季节的所有季节和剧集。 我发现这样做的最好方法是抓Wikipedia.org。我认为这将是唯一一个以大致相同格式显示这些信息的网站之一。我也打算这样做书籍。 我最初读到关于在这个网站上刮刮: ..
发布时间:2017-09-07 01:04:14 Office

网站数据表刮板

在我问我的问题之前,我是一个业余编码人员,基本上没有任何有意义的经验超越VBA在ms办公室应用程序(我知道 - noob!) 我试图使用VBA创建一个网页刮刀,将数据导入到excel中,根据我在下面的代码提取中的评论,我能够找到的最好的是在这个问题。 使用investing.com作为一个例子,但实际上我的项目将跨越多个站点,并将纳入一个矩阵,将随着事件的到期而每天更新和自我消耗 - ..
发布时间:2017-09-06 22:14:57 Office

无法在excel文件中正确写入提取的项目?

我已经在python中编写了一些代码来解析标题和从网页链接。最初,我试图解析左侧栏中的链接,然后通过跟踪每个链接从每个页面中删除上述文档。我完美无瑕。我尝试将不同链接的文档保存在单个excel文件中的不同页面中。但是,它创建了几个“表格”,从脚本中的标题变量中提取所需部分作为工作表名称。我遇到的问题是 - 当保存数据时,链接中每页的最后一条记录将保存在我的excel表中,而不是完整的记录。这是我尝 ..
发布时间:2017-09-04 01:20:28 Python

VBA分割结果从html导入表转换成excel

嗨,我从一个网站导入整个表格到excel字符串: Dim fST As String fST = Doc.getElementsByTagName(“table”)(0).innerText 之后,我想拆分excel单元格中的表格和使用html表格中的 标签进行拆分,或者至少这是我认为可以完成的选项所以导入的表将在excel中一样被导入,每个值都将在单独的单 ..
发布时间:2017-09-03 21:53:42 Office

对象“IWebBrowser2”的Excel VBA“Method'Document'失败”

我正在Excel中自动执行表单提交工作,并且在基础上遇到麻烦。我收到错误消息: “对象”IWebBrowser2“的方法'文档'失败” 随着代码的原样,如果我在等待检查中包含或部分,我会收到错误 “自动化错误调用的对象与客户端断开连接。” 我不知道在这里做,我搜索了所有的解决方案。这个代码最终要做的比这更多,但是在第一次尝试 getElementsByTagName 之前, ..
发布时间:2017-09-03 21:42:50 Office

在HTML标签中从文件中抓取文本

我有一个文件,我想从中提取日期,它是一个HTML源文件,所以它的代码和短语我不需要。我需要提取包含在特定HTML标签中的日期的每个实例: abbr title =“((这是我需要的文本))”data-utime =“ 最简单的方法是什么? 解决方案 如果您使用Excel VBA,请在参考菜单中为MSHTML库(标题为 Microsoft HTML对象库)设置引用(工具 - 引用 ..
发布时间:2017-09-03 21:24:27 Office

最好的web抓取Ruby on Rails库,处理JavaScript生成的动态HTML

我正在使用Ruby on Rails与Mechanize库来刮擦商店网站。问题是很多时候我无法抓取某些元素。但是,当我在网站上查看来源时,我可以看到这一点。 例如,沃尔玛的类别(在这种情况下,它是“健康”)是不可浏览的。我相信这是因为它是动态生成的HTML(例如从javascript)。为了抓住这一点,我需要一个浏览器来处理网络请求。 http://www.walmart.com/ip ..
发布时间:2017-07-22 13:50:49 前端开发

从下拉列表中选择的选项刮取响应

这是一个列出所选玩家的棒球统计信息页面的示例,默认为最近一年(2014年即将到2015) http://www.koreabaseball.com/Record/Player/HitterDetail/Game.aspx?playerId=76325 下拉列表允许用户选择年份到2010年,但不会更改显示的网址。我可以从下拉列表中的每个值中删除所有可用的年份吗? 我目前正在使用Pyth ..
发布时间:2017-07-17 22:27:20 Python

从Google专利中使用Python 3.4下载文件

我想下载(使用Python 3.4)Google专利批量下载页面上的所有(.zip)文件 http://www.google.com/googlebooks/uspto-patents-grants-text.html 我想知道这相当于大量的数据。)我想将所有文件保存一年,目录 [年] ,所以1976年每周)文件。我想将它们保存到我的Python脚本所在的目录。 我尝试使用 urlli ..
发布时间:2017-07-13 12:57:16 Python

使用PHP的DOM提取HTML页面

是否可以通过PHP的DOM工具(例如$ div = $ dom-> getElementsByTagName('table') - > item(0);)提取的HTML片段的内容中创建HTML输出,以便创建的HTML只包含具有指定标签名称的元素及其后代? 否则,还有其他方法可以从页面的完整HTML轻松提取HTML片段吗?我只是想提取一个页面的第一张表,并且只显示该表格及其内容。 解决方 ..
发布时间:2017-06-25 05:36:00 PHP

循环使用简单HTML DOM的表

我使用简单的HTML DOM从HTML文档中提取数据,我有几个问题需要一些帮助。 在以开头的行上,如果($ td-> find('a'))我想提取href和锚节点分开,并将它们放在单独的变量中。然而,代码不起作用(参见下面的代码中的回声输出)。 最好的方法是什么?请注意,我的目的是在以后的信息中创建一个XML文档,所以我需要正确的顺序信息。 链接导致页面包含有关不同车辆的详细信息 ..
发布时间:2017-06-25 05:19:51 PHP

解析外部网站表

有一个日历: http://www.friendsbalt.org/upper /stulife/calendar.asp 以静态表的形式,我想要一个服务器抓取并逐行解析表。这可能吗?你会如何做到最有效的方式? 解决方案 您可以使用类似简单的HTML DOM ,如果您希望通过网页完成。 require“simple_html_dom.php”; //从以上链接获取此文件 $ ht ..
发布时间:2017-06-25 04:03:14 PHP

在C#中实现动态Web Scraper的逻辑

我正在寻找以C#窗口形式开发Web刮刀。我想要完成的如下: 从用户处获取URL。 在WINForms中的IE UI控件(嵌入式浏览器)中加载Web页面。 允许用户选择一个文本(连续的,小的(不超过50个字符))。来自加载的网页。 当用户希望保留位置( HTML DOM位置)时,必须将其持久化到DB中,以便用户可以使用该位置在后续访问期间获取该位置的数据。 假设加载的网站是一个有价 ..
发布时间:2017-06-25 02:42:54 C#/.NET

如何解析DOM(REACT)

我正在尝试从网站上删除数据。该网站使用Facebook的反应。因此,我可以使用 Jaunt 解析的源代码与使用Chrome检查器检查元素时看到的代码完全不同。 p> 我很少知道这一切,但是做了一些研究,我认为这是与DOM而不是源代码有关的。我需要一种方式来掌握这个DOM代码,因为原始的源代码不包含任何内容,但是我没有这个最开心的想法(甚至在这里读过很多答案)。 这里是我想要删除的页面的 ..
发布时间:2017-06-24 23:28:47 前端开发

Google Apps Script有没有像getElementById?

我将使用Google App Script从广播电台的网站获取节目列表。 如何通过指定元素的id来选择网页中的指定元素? 因此,我可以得到网页中的程序。 解决方案 编辑,2013年12月: strong> Google已弃用旧的 Xml 服务,将其替换为 XmlService 。此答案中的脚本已更新为使用新服务。新服务需要符合标准的XML& HTML,而旧的是宽恕诸如缺少密码的问题。 ..
发布时间:2017-06-24 22:14:44 JavaScript

如何使用Phantomjs向下滚动以加载动态内容

我正在尝试从用户向下滚动到底部(无限滚动)时动态生成内容的页面上的链接。我已经尝试用Phantomjs做不同的事情,但不能收集第一页以外的链接。假设加载内容的底部的元素具有类 .has-more-items 。它可用,直到最终内容加载滚动,然后变得不可用在DOM(显示:无)。以下是我尝试过的东西 - 将视口大小设置为 var page = require('网页')create(); ..
发布时间:2017-06-24 20:29:24 前端开发