screen-scraping相关内容

从网页抓取C#中提取数据

我ASP.NET MVC开发。 我一直在使用WebRequest类接收的内容,从任何URL,即HTTP,HTTPS等。 我收到特定网址的所有内容。 (现在我把 http://google.com ) 我的下一步是提取按钮,页眉,页脚,颜色,文本等。 下面是我的code现在: 公众的ActionResult的getContent(UrlModel模型)//有一个字符串URL模式 这是在文本 ..
发布时间:2016-06-12 19:39:15 C#/.NET

解析DL与HtmlAgilityPack

这是样本HTML我尝试使用HTML敏捷性包在ASP.Net(C#)来分析。 < D​​IV CLASS =“内容的div”> < D​​L> < D​​T> < B>< A HREF =“1.HTML”称号=“1”> 1 LT; / A>< / B> &L ..
发布时间:2016-06-11 23:09:30 C#/.NET

如何使用PHP /卷曲发布ASP.NET登录表单?

我需要创建一个工具,将使用PHP发布ASP.NET登录表单,这样我可以收集他们在登录后显示在用户的摘要页面的详细信息。 由于该网站使用ASP.NET和形式都有__VIEWSTATE和__EVENTVALIDATION隐藏字段,按我的理解,我必须首先获取这些值,然后在POST提交他们的登录表单这个工作。 我是新来的PHP。我所创建的脚本应该做到以下几点: 1)获取登录表单,并抢__VIEWST ..
发布时间:2016-06-11 20:46:00 PHP

BeautifulSoup和ASP.NET/C#

具有与ASP.NET/C#(可能使用IronPython的或以其他方式)任何人都集成BeautifulSoup? 是否有一个BeautifulSoup的替代或与ASP.NET/C#作品很好端口 计划使用该库的目的是提取的阅读的从任何随机URL文本。 感谢 解决方案 的Html敏捷性包是一个类似的项目,但对于C#和.NET 编辑: 要提取所有可读的文本: document.Do ..
发布时间:2016-06-10 22:09:06 C#/.NET

获得从HTML页面登录背后

这个问题是一个跟进到我的 previous问题有关从ASPX页面获取HTML。我决定用WebClient的对象来尝试,但问题是,我得到的登录页面的HTML,因为需要登录。我试图“在登录”使用WebClient的对象: WebClient的WW =新的WebClient(); ww.DownloadString(“用户名的Login.aspx =放大器;密码=”); 串的html = ww.Do ..
发布时间:2016-06-07 21:17:11 C#/.NET

出口ASPX为HTML

我们正在建立一个CMS。该网站将建成并通过在aspx页面的用户管理,但我们想创建HTML的静态网站。 我们现在正在做的方式是用code,我发现这里是重载的as​​px页面渲染方法和HTML字符串写入到文件中。这对于单页工作正常,但与我们的CMS的事情是,我们要自动创建从一开始就正确的网站了几个HTML网页,甚至在创作者编辑系统中的任何东西。 有谁知道任何方式做到这一点? 解决方案 调用 ..
发布时间:2016-06-05 20:48:15 C#/.NET

所有asp.net页面与AJAX实现分页数据刮痧

我要报废包含用户提供的地址列表中的网页,电子邮件等网页载有关于分页即页面的用户列表中包含10个用户,当我点击第2页链接将通过AJAX和加载用户列表形式第2页所以在更新列表中的所有分页链接。 网站是与扩展ASP的.aspx页面即开发,因为我不知道什么asp.net和ASP如何管理分页和AJAX 我是用简单的HTML DOM ..
发布时间:2016-06-05 19:50:40 PHP

解析与回发一个.net页面

我需要阅读的使用aspx页面显示来自联合国从在线数据库中的数据。我以前做过的HTML解析,但它通过操纵查询字符串值始终。在这种情况下,网站使用asp.net回发。所以,你点击一个值箱一个,那么框两个节目,点击一个值框2,点击一个按钮,让您的结果。 是否有人知道我怎么能自动执行该过程? 谢谢, 迈克 解决方案 您还可能只需要发送一个请求,但一个请求可以是相当复杂的。 ASP.Net是非 ..
发布时间:2016-06-05 18:47:46 C#/.NET

使用curl aspx页面的屏幕抓取

我用这code,它不工作。请帮助 $ URL =“htt​​p://www.riogrande.com/Category/Findings-and-Finished-Jewelry/132/Bails-and-Enhancers/472”; $文件=的file_get_contents($网址); preg_match(“#*#错?”,$文件,​​$ arr_viewstate); $视图状态 ..
发布时间:2016-06-05 13:52:16 PHP

我怎样才能得到网页的内容并将其保存到字符串变量

嗨伙计 我怎样才能使用asp.net web页面的内容?我想一个网站的HTML code存储到字符串变量我该怎么办呢?我的意思是有网站,我需要编写一个程序来获取页面,并将其存储到字符串变量。 解决方案 您可以使用WebClient Web客户端的客户端=新的WebClient(); 串downloadString = client.DownloadString(“http://w ..
发布时间:2016-06-04 21:57:42 C#/.NET

我如何prevent网站刮?

我有一个相当大的音乐网站用大艺术家数据库。我已经注意到其他音乐网站拼抢我们网站的数据(我在这里和那里,然后输入虚拟歌手姓名进行Google搜索他们的)。 我如何prevent屏幕抓取?它甚至有可能? 解决方案 我将$您已设置的PΦ$ psume 的robots.txt 。 正如其他人所说,铲运机可以伪造近他们的活动的各个方面,它可能是很难确定从坏人来的请求。 我会考虑: 设置了 ..
发布时间:2016-05-28 10:28:12 前端开发

统计结果的数量在Twitter上某个单词

要进一步我的一个个人项目,我一直在琢磨怎么算的结果对微博用户指定单词的数量。我已经广泛使用他们的API,但一直没能拿出一个有效的,甚至中途实用的方法来计算一个特定的词的出现。实际结果是不是关键的,只要整体计数。我会继续抓我的头。任何意见或方向指向将是最AP preciated。 例如。 ..
发布时间:2016-05-22 19:43:05 C#/.NET

印度铁路列车搜索API

有由印度铁路公司提供的API来搜索其铁路网络,时表等方面有很多网站在那里它显示的时程表等我搜索谷歌,但找不到Web服务或API的任何信息由铁道部提供。数据是刮的唯一途径? 解决方案 您需要一个大人物来使用他们的API(我不明白为什么你需要显示的5卢比亿卢比的营业额使用他们的API) 印度铁路打开了它的机票预订的API在几个星期前,这里是你需要了解一些精致的版画: *必须有最低年营业额 ..
发布时间:2016-05-22 19:31:22 其他开发

如何像kayak.com总内容的网站?

问候, 我一直在玩弄一个想法,一个新项目,并想知道如果任何人有像Kayak.com服务是如何能够如此快速而准确地从这么多的资源汇总数据,任何想法。更具体地讲,你认为Kayak.com与API的交互或者他们爬行/刮航空公司和酒店的网站为了满足用户的要求?我知道有这一类的事情不是一个正确的答案,但我很好奇,想知道别人怎么想会去这一个很好的方式。如果有帮助,pretend你要创建kayak.com明天 ..
发布时间:2016-05-22 19:27:51 其他开发

什么是从一个网站刮数据的最佳方式?

我需要提取从一个网站的内容,但应用程序不提供任何API或机制以编程方式访问这些数据。 我已经发现了一些有用的第三方工具(和服实验室&放大器;的 Import.io ),提供点击和网页拼抢和建筑的API去的功能,但我想保持我的本地数据,我不想向任何订阅计划。 什么样的​​技术做这些创业公司使用刮网页和建设自己的API? 我发现了一些网页刮框架( pjscrape &放大器;的 Scrapy ) ..
发布时间:2016-05-22 19:06:42 其他开发

获得的谷歌地图标记坐标

我创建包含的名称和坐标DATABSE的所有公交车在我的本地区域停止。我有存储在我的数据库中的所有名字,现在我需要添加坐标。我想获得一个包含所有这些作为对谷歌地图的地标一个网站的这些。像被从本地服务器生成它们,然后添加到地图似乎我。但是我无法准确找到所在的服务器查询坐标。 我希望通过使用屏幕刮刀来收集这些坐标。不过,除非我能找到的地方源$ C ​​$ C坐标创建这似乎是不可能的。我当然可以搜索和手 ..

取从网络文本与角JS标记,如NG-视图

我试图来从一个网站的所有可见的文字,我使用python-scrapy这项工作。但是我观察scrapy只能用HTML标签,如DIV,身体,头部等,而不是与角的js标记,如NG-视图的工作,如果有NG视​​图标签中的任何元素,当我做了右键单击该页面并做查看源代码,然后标签里面的内容不会出现,它会显示如< NG-视图> < / NG-视图> ,那么,如何可以使用Python报废此 ..
发布时间:2016-05-10 20:26:43 Python

其中HTML DOM解析器在Android上效果最好?

我需要处理在我的Andr​​oid应用程序的一些HTML网页,我会preFER使用XPath提取相关信息。对于经常J2SE有很多可能的实现方式解析普通的HTML成 把JTidy TagSoup 杰里科 NekoHTML HTMLCleaner (列表可能不完整 - 它已被提取推荐替代JTidy把) 但它是非常复杂的,以评估是否以及如何好这些库在Android上工作(库的大小,CPU和内存消耗) ..
发布时间:2015-12-05 13:35:54 Java开发