web-scraping相关内容

可以机械化读AJAX? (红宝石)

可我得到的是通过AJAX使用机械化红宝石显示正确的数据/文本? 或者是有其他的脚本的宝石,让我这样做? 解决方案 机械化无法读取JavaScript的显示数据,因为它并没有实现一个JavaScript引擎(换句话说,它不能运行)。你需要一个浏览器要做到这一点,或一个程序,可以自动浏览器为你做它。 WATIR 是这样一个程序。 ..
发布时间:2015-11-30 01:40:25 前端开发

刮去的页面的多个项目进一排整齐

作为一个例子: 我在输入从.txt加载: 本杰明,Schuvlein,德国,1912年,男,白 我做了一些code,我不会张贴在这里为简便起见,并获得了链接: https://familysearch.org/pal:/MM9.1.1/K3BN-低空急流 我要刮多的东西从该页面。在code以下,我只做1。 我也想使每个项目由一个分开,在输出的.txt。 而且,我想输出是由输入pceded ..
发布时间:2015-11-30 01:14:26 前端开发

的Perl - 最新从输入变量成两个为链接

我是从一个.txt刮的目的加载数据。然而,URL需要我打破可变起来,做+/- 2到它。例如,如果该值是2342,我需要创建2340和2344的URL的目的。 我参加了一个猜测如何打破它: $ {ARGS} birth_year =($ {ARGS} birth_year - 2)。 ' - '。 ($ ARGS {birth_year} + 2); 我怎么然后把它放在网址是什么? ..
发布时间:2015-11-30 01:14:23 前端开发

如何调用AJAX从python脚本的网页浏览器没有仿真或无头brawser?

我是新来的Ajax和JavaScript。 我爬了一个网站中,我能够获取的相关细节与片的XPath 的帮助使用Python下载网页后(的urllib2 / 申请 /的机械化)。 在网页这些都是一些资料,只有点击一个链接后是可见的。而该链接调用 XHR 使用Firefox的Web开发者工具来获取,我发现了细节。 (控制 + 移 + 问:或工具>> Web开发>>网络)我显 ..
发布时间:2015-11-30 01:02:13 前端开发

Symfony的履带式的按钮调用AJAX

这里我需要点击$('按钮看,更多的'),它会触发一个ajax打电话页面上加载更多的东西。我试图用 $链接= $ crawler-> selectLink('查看更多同类产品“) - GT;链接(); $履带= $客户 - >点击($链接); 但是,这ofcourse是行不通的,因为它没有任何锚标记。 这是HTML,按钮其实是一个元素,我想模拟就可以点击 < D​​ ..
发布时间:2015-11-30 00:29:37 前端开发

AJAX页面无浏览器网页抓取

使用Selenium阅读一些教程网页抓取。在试过 这样做的目的是对Web /屏幕刮一个页面,Ajax调用时(这个Ajax调用后的初始页面加载制造)。在加载所需要的数据 第二个目的是在后台(不打​​开任何浏览器)本地运行硒code允许加载页面(包括Ajax调用),获取最终的HTML并进行必要的处理。 在code到现在如下($ C从的 http://www.geekonweb.com/net/w ..
发布时间:2015-11-29 23:54:38 前端开发

如何网页刮AJAX更新面板与C#?

我期待网页刮一个网站,有一个AJAX更新面板。我已经能够使用正确构造HTTP请求登录到该网站(HttpWebRequest的),我可以发送POST请求得到的UpdatePanel的内容,但它有占位符的文本,而不是实际的数据。 下面是code,我提出请求,以获得UpdatePanel的数据: //已经发出POST用户名和密码请求来获取会话ID,饼干等 //创建POST数据并将其转换为一个字节数 ..
发布时间:2015-11-29 23:52:44 C#/.NET

通过网页抓取提取JavaScript的变量值

对于一个公司的项目,我需要创建一个PHP和JavaScript(包括jQuery的)的Web刮应用程序,将我们的客户的网站的每个页面中提取特定的数据。刮削的应用程序需要以获得两种类型的数据的每一页:1)确定具有特定ID的某些HTML元素是否present,和2)提取特定JavaScript变量的值。 JS的变量名是在每一页上是相同的,但该值通常是不同的。 我相信,我知道我能拿到第一数据要求:使用 ..
发布时间:2015-11-29 23:17:59 PHP

刮AJAX网页使用Python和/或scrapy

我想做的事情什么是刮信访数据 - 名称,城市,国家,日期,签名人数 - 从一个或多个请愿petitions.whitehouse.gov 我想在这一点上Python是要走的路 - 可能是scrapy库 - 一些功能以及处理现场的AJAX方面。这样做的原因刮的是,这份请愿书数据不向公众提供。 我是一个自由职业者的高科技记者,然后我希望能够倾倒每一个上访的数据到一个CSV文件,以便分析每个国家的人 ..
发布时间:2015-11-29 23:01:28 前端开发

刮从谷歌Analytics(分析)实时访客

我有很多的网站,并希望建立一个仪表盘显示的实时游客数量对他们每个人在一个页面上。 (将任何人想要这个?)现在唯一的方式来查看这些信息是打开一个新的标签为每个站点。 谷歌不具备实时API,所以我不知道是否可以凑这个数据。爱德华Cereto发现,谷歌在实时/绑定的网络要求传输的实时数据。任何人都更精明有我应该如何开始的想法?下面是我在想什么: 在弄清楚如何以编程方式验证 检查所有的实时/绑定的请 ..

刮使用python AJAX页面

我已经看到这个问题大约刮阿贾克斯,但蟒蛇没有被提及存在。我认为使用 scrapy 的,我相信他们对这个问题的一些文件,但你可以看到该网站已关闭。所以我不知道该怎么办。我要做到以下几点: 我只有一个网址,example.com你从网页点击提交,该URL,因为他们正在使用AJAX来显示内容不会改变进入页面。我想刮每一页的内容,该怎么办呢? 让我们说,我想刮只有数字,还有什么比scrapy等,将做到 ..
发布时间:2015-11-28 21:45:46 前端开发

我怎样才能捕捉和处理来自使用casperjs的XHR响应的数据?

在网页上的数据被动态显示,似乎检查在html每一个变化,并提取数据是非常艰巨的任务,并还需要我使用非常不可靠的XPath。因此,我希望能够从 XHR 包中提取数据。 我希望能够从 XHR提取信息包以及产生“XHR”报文发送到服务器。 在提取部分信息对我来说更重要,因为发送的信息可以通过自动触发使用casperjs HTML元素容易处理。 我安装我的意思的屏幕截图。 在响应选项卡中的文字是我需 ..
发布时间:2015-11-28 21:35:46 前端开发

你怎么刮AJAX页面?

标题说明了一切。请指教如何刮AJAX页面。 解决方案 概述: 所有屏幕刮首先需要你想提取的资源页面人工审查。当使用AJAX处理,你通常只需要分析多一点不仅仅是单纯的HTML。 在使用AJAX处理这只是意味着你想要的值是不是您所要求的初始HTML文件中,但JavaScript的将exectued它要求在服务器上为需要的额外信息。 您可以因此通常简单地分析JavaScript的,看看哪些要求 ..
发布时间:2015-11-28 21:31:59 前端开发

屏幕采用HTMLAgility帮助下刮,请

昨天晚上,当我问到屏幕抓取我得到了一个很好的文章链接,并得到了我这一点。我有几个问题,但是。我会后我的code,以及下面的HTML源文件。我试图获取数据表之间的数据,然后将数据发送到SQL表。我发现成功抢夺说明的Widget 3.5等...最后修改者乔但是由于1日2 / TR还包括IMG SRC = / ......“ALT =”00721​​408“的号码不要让一把抓。我我坚持至于如何改变cod ..
发布时间:2015-11-27 15:05:09 C#/.NET

屏幕抓取,网页抓取,网站采集,Web数据抽取等使用C#和.NET Framework

我工作的Microsoft .NET应用程序在C#中的Web收获,网页抓取,网络数据采集,屏幕抓取等,无论你怎么称呼它。对于解析HTML,我试图将HTML敏捷性包,但它不是那么容易,因为我认为这将是。我已经包含了什么我迄今为止的一些规格和图片,并希望得到有关如何我可以继续你的意见。基本上,我想做类似于可视化Web开膛手使用的布局的东西,但我不知道他们是如何做到这一点...任何想法? 图片: h ..
发布时间:2015-11-26 19:53:12 C#/.NET

WebBrowser控件DocumentCompleted IFRAME和功放后,使用Javascript完成

我需要捕获生成的HTML的图像。我使用的是亚历克斯Filipovici的优秀的解决方案从这里: HTML字符串转换为图片。它除了当我试图加载一个页面,有一个使用一些JavaScript加载一个iframe的伟大工程。 静态INT宽= 1024; 静态INT高= 768; 公共静态无效的捕获() { VAR ..
发布时间:2015-11-26 19:45:16 C#/.NET