web-scraping相关内容
我正在尝试使用Excel 2013和Visual Basic创建一个程序。作为该计划的一部分,我将在列表框中列出电视节目。我希望能够双击其中一个,并将其打开到另一个窗体,并显示一个列表框,其中包含该季节的所有季节和剧集。 我发现这样做的最好方法是抓Wikipedia.org。我认为这将是唯一一个以大致相同格式显示这些信息的网站之一。我也打算这样做书籍。 我最初读到关于在这个网站上刮刮:
..
在我问我的问题之前,我是一个业余编码人员,基本上没有任何有意义的经验超越VBA在ms办公室应用程序(我知道 - noob!) 我试图使用VBA创建一个网页刮刀,将数据导入到excel中,根据我在下面的代码提取中的评论,我能够找到的最好的是在这个问题。 使用investing.com作为一个例子,但实际上我的项目将跨越多个站点,并将纳入一个矩阵,将随着事件的到期而每天更新和自我消耗 -
..
我已经在python中编写了一些代码来解析标题和从网页链接。最初,我试图解析左侧栏中的链接,然后通过跟踪每个链接从每个页面中删除上述文档。我完美无瑕。我尝试将不同链接的文档保存在单个excel文件中的不同页面中。但是,它创建了几个“表格”,从脚本中的标题变量中提取所需部分作为工作表名称。我遇到的问题是 - 当保存数据时,链接中每页的最后一条记录将保存在我的excel表中,而不是完整的记录。这是我尝
..
嗨,我从一个网站导入整个表格到excel字符串: Dim fST As String fST = Doc.getElementsByTagName(“table”)(0).innerText 之后,我想拆分excel单元格中的表格和使用html表格中的 标签进行拆分,或者至少这是我认为可以完成的选项所以导入的表将在excel中一样被导入,每个值都将在单独的单
..
我正在Excel中自动执行表单提交工作,并且在基础上遇到麻烦。我收到错误消息: “对象”IWebBrowser2“的方法'文档'失败” 随着代码的原样,如果我在等待检查中包含或部分,我会收到错误 “自动化错误调用的对象与客户端断开连接。” 我不知道在这里做,我搜索了所有的解决方案。这个代码最终要做的比这更多,但是在第一次尝试 getElementsByTagName 之前,
..
我有一个文件,我想从中提取日期,它是一个HTML源文件,所以它的代码和短语我不需要。我需要提取包含在特定HTML标签中的日期的每个实例: abbr title =“((这是我需要的文本))”data-utime =“ 最简单的方法是什么? 解决方案 如果您使用Excel VBA,请在参考菜单中为MSHTML库(标题为 Microsoft HTML对象库)设置引用(工具 - 引用
..
我正在尝试Hadley Wickham的“新”Rvest套餐。 我以前一直使用它,所以我预计一切顺利。 但是,我看到这个错误: > TV_Audio_Video_Marca
..
我正在使用Ruby on Rails与Mechanize库来刮擦商店网站。问题是很多时候我无法抓取某些元素。但是,当我在网站上查看来源时,我可以看到这一点。 例如,沃尔玛的类别(在这种情况下,它是“健康”)是不可浏览的。我相信这是因为它是动态生成的HTML(例如从javascript)。为了抓住这一点,我需要一个浏览器来处理网络请求。 http://www.walmart.com/ip
..
这是一个列出所选玩家的棒球统计信息页面的示例,默认为最近一年(2014年即将到2015) http://www.koreabaseball.com/Record/Player/HitterDetail/Game.aspx?playerId=76325 下拉列表允许用户选择年份到2010年,但不会更改显示的网址。我可以从下拉列表中的每个值中删除所有可用的年份吗? 我目前正在使用Pyth
..
我想下载(使用Python 3.4)Google专利批量下载页面上的所有(.zip)文件 http://www.google.com/googlebooks/uspto-patents-grants-text.html 我想知道这相当于大量的数据。)我想将所有文件保存一年,目录 [年] ,所以1976年每周)文件。我想将它们保存到我的Python脚本所在的目录。 我尝试使用 urlli
..
是否可以通过PHP的DOM工具(例如$ div = $ dom-> getElementsByTagName('table') - > item(0);)提取的HTML片段的内容中创建HTML输出,以便创建的HTML只包含具有指定标签名称的元素及其后代? 否则,还有其他方法可以从页面的完整HTML轻松提取HTML片段吗?我只是想提取一个页面的第一张表,并且只显示该表格及其内容。 解决方
..
我使用简单的HTML DOM从HTML文档中提取数据,我有几个问题需要一些帮助。 在以开头的行上,如果($ td-> find('a'))我想提取href和锚节点分开,并将它们放在单独的变量中。然而,代码不起作用(参见下面的代码中的回声输出)。 最好的方法是什么?请注意,我的目的是在以后的信息中创建一个XML文档,所以我需要正确的顺序信息。 链接导致页面包含有关不同车辆的详细信息
..
我正在尝试使用 Web :: Scraper 来解析以下HTML:
TITLE1
DESCRIPTION1
TITLE2
DESCRIPTION2
TITLE3
..
有一个日历: http://www.friendsbalt.org/upper /stulife/calendar.asp 以静态表的形式,我想要一个服务器抓取并逐行解析表。这可能吗?你会如何做到最有效的方式? 解决方案 您可以使用类似简单的HTML DOM ,如果您希望通过网页完成。 require“simple_html_dom.php”; //从以上链接获取此文件 $ ht
..
我正在寻找以C#窗口形式开发Web刮刀。我想要完成的如下: 从用户处获取URL。 在WINForms中的IE UI控件(嵌入式浏览器)中加载Web页面。 允许用户选择一个文本(连续的,小的(不超过50个字符))。来自加载的网页。 当用户希望保留位置( HTML DOM位置)时,必须将其持久化到DB中,以便用户可以使用该位置在后续访问期间获取该位置的数据。 假设加载的网站是一个有价
..
我正在尝试从网站上删除数据。该网站使用Facebook的反应。因此,我可以使用 Jaunt 解析的源代码与使用Chrome检查器检查元素时看到的代码完全不同。 p> 我很少知道这一切,但是做了一些研究,我认为这是与DOM而不是源代码有关的。我需要一种方式来掌握这个DOM代码,因为原始的源代码不包含任何内容,但是我没有这个最开心的想法(甚至在这里读过很多答案)。 这里是我想要删除的页面的
..
我将使用Google App Script从广播电台的网站获取节目列表。 如何通过指定元素的id来选择网页中的指定元素? 因此,我可以得到网页中的程序。 解决方案 编辑,2013年12月: strong> Google已弃用旧的 Xml 服务,将其替换为 XmlService 。此答案中的脚本已更新为使用新服务。新服务需要符合标准的XML& HTML,而旧的是宽恕诸如缺少密码的问题。
..
我正在尝试从用户向下滚动到底部(无限滚动)时动态生成内容的页面上的链接。我已经尝试用Phantomjs做不同的事情,但不能收集第一页以外的链接。假设加载内容的底部的元素具有类 .has-more-items 。它可用,直到最终内容加载滚动,然后变得不可用在DOM(显示:无)。以下是我尝试过的东西 - 将视口大小设置为 var page = require('网页')create();
..
如果我有一个电子邮件地址,例如 doesnotexist@gmail.com 我可以从 gmail中识别它属于gmail webmail服务.com 域名。还有 googlemail.com 地址属于同一个服务。 是否有已知的域名归属流行的电子邮件服务? 例如 Hotmail(hotmail.com,live Gmail(gmail.com,googlemail.com ..)
..
class Creative(models.Model): name = models.CharField(max_length = 200) picture = models.CharField(max_length = 200,null = True) class Project(models.Model): title = models.CharField(max_length
..