web-scraping相关内容

刮动态内容

,才有可能勉强度日动态网页。我所产生的数据意味着,例如本网站生成标记< FONT>一些Java脚本这是 的document.write(“< FONT类= spy2>:< \ / FONT>”中+(v2j0j0 ^ o5r8)+(r8d4x4 ^ y5i9)+(b2r8e5 ^ u1p6)+(r8d4x4 ^ y5i9)) 的值更改每个页面ref ..
发布时间:2016-10-03 20:50:24 C#/.NET

由JavaScript与C#生成的网页刮

我有一个网页浏览器,并在Visual Studio中的标签,基本上就是我想要做的就是抓住从其他网页的部分。 我试着使用WebClient.DownloadString和WebClient.DownloadFile,和JavaScript加载内容之前,他们两个人给我的网页的源代码。我的下一个想法是使用web浏览器的工具,只需要调用webBrowser.DocumentText加载后的页面,并没 ..
发布时间:2016-09-26 12:03:27 C#/.NET

处理信息时,C#形式冻结。

我写了一个个人网站刮板为自己的下脚料艺术家信息。代码工作,但是当我按下按钮,它开始处理while循环,在GUI冻结。我得到的文本框来.REFRESH()。但我不能移动的形式,也取消该计划的唯一办法是强制退出。我在此改写,所以我没有得到这个问题的过程。另外,我听说了踩水,想看看是否能够工作,也让它更快一点。程序被报废15,000页,然后将每个页面具有它需要报废另一个10个左右的页面。所以,在它终于完 ..
发布时间:2016-09-20 22:25:07 C#/.NET

屏幕延迟后刮网页

我想要刮使用C#一个网页,在页面加载后然而,执行它加载更多的元素融入其中,我需要刮DOM一些JavaScript。一个标准的刮板只是劫掠加载页面的HTML和不拿起通过JavaScript所做的DOM变化。 ?如何我把某种功能等待一两秒钟,然后抓住源 下面是我当前的代码: 私人字符串ScrapeWebpage(URL字符串,日期updateDate?) { HttpWebReques ..
发布时间:2016-09-20 09:43:35 C#/.NET

HTML敏捷包。装载和刮网页

这是对的最的方式拼抢时获得一个网页? HttpWebRequest的oReq =( HttpWebRequest的)WebRequest.Create(URL); HttpWebResponse RESP =(HttpWebResponse)oReq.GetResponse(); 变种DOC =新HtmlAgilityPack.HtmlDocument(); doc.Lo ..
发布时间:2016-09-06 12:47:15 C#/.NET

PHPQuery web浏览器插件 - 使用cookie

我试图登录到使用PHPQuery的web浏览器插件网站。我能够成功登录,但我不知道如何从previous调用next重用饼干。 $客户= phpQuery :: browserGet('https://website.com/login','success1');功能success1($浏览器){ $处理= $浏览器 - &GT; web浏览器('success2'); $处 ..
发布时间:2016-08-15 14:36:59 PHP

蟒蛇 - 手动浏览器登录后,从恢复的urllib2 Web会话

我说,我浏览到一个网站(Intranet的太)需要登录才能访问的内容。我将填写必填字段...例如用户名,密码和任何验证码等所需要的从浏览器本身登录 在我已经登录到该网站,有很多好吃的东西,可以从几个链接和标签登录后的第一页上刮下。 现在,从这一点向前(即从浏览器登录后)。我要控制页面和下载的urllib2 ...想通过页每一页,等通过网页,下载PDF文件和图像会 据我所知,我们可以使用一切从 ..
发布时间:2016-08-15 13:39:07 Python

网页浏览器的行为问题

我想要的网页浏览器使用.NET C#自动化。问题是,控制或者我应该说的IE浏览器在不同计算机上的行为很奇怪。例如,我在clickin链接,fillup这样一号计算机上的Ajax弹出的形式,没有任何错误: 私人无效btn_Start_Click(对象发件人,RoutedEventArgs E) { webbrowserIE.Navigate(“http://www.test.com/”); ..
发布时间:2016-08-15 13:04:46 C#/.NET

解析使用美丽的汤蟒谷歌新闻

我有蟒蛇code如下。它搜索一个谷歌新闻页面和打印超链接和标题每个新闻。我的问题是组了Googlenews消息,都在一个水桶及以下脚本打印在每个桶只有1日消息类似。如何打印所有新的所有桶? 从BS4进口BeautifulSoup 进口要求标题= {'用户代理“:”Mozilla的/ 5.0(Windows NT的6.1)为AppleWebKit / 537.36(KHTML,像壁虎)的Chrom ..
发布时间:2016-08-05 19:22:59 Python

BeautifulSoup:从另一个标签的文本替换锚文本

我试图提取网页上的所有链接,到目前为止,我能够得到的链接,但链接的锚文本不提供任何的相关的信息。这些信息包含在另一个兄弟标签。 这是HTML布局: &LT;&TBODY GT; &所述; TR&GT; &所述; TD&GT; &LT; H3&GT;驱动器与许可证E或F&LT; / H3 GT&; &LT; D​​IV CLASS =“日期”&GT; . ..
发布时间:2016-08-05 19:21:16 前端开发

标签的发生BeautifulSoup秩序

考虑以下情况: TAG1 = soup.find(** data_attrs) TAG2 = soup.find(** delim_attrs) 有没有办法找出在网页,其中标签发生“第一次”? 澄清: 对于我而言,顺序是一样的beautifulsoup的FindNext方法的。 (我目前使用这一点来“解决”我的问题,虽然这是哈克。) 这里的目的是基本上积累不是由一个“分隔符标签”分隔标记 ..
发布时间:2016-08-05 19:21:15 Python

如何获得div标签内的所有标签里

我刮了一个网站,让公司和产品的详细信息。 它有div标签,其中有李标签,我想div标签内的所有LI标记。 我使用python 3.5.1和BeautifulSoup 我的code: 从BS4进口BeautifulSoup 进口urllib.request里 进口重 R = urllib.request.urlopen('http://i.cantonfair.org.cn/en/ExpEx ..
发布时间:2016-08-05 19:20:31 Python

如何从列表中使用python刮网址

欲刮除列表中的URL present。基本上我刮的网站在我刮的链接从我发现特定的链接 一刮这些链接,我搜索其他特定链接一刮吧。 我的code: 从BS4进口BeautifulSoup 进口urllib.request里 进口重 R = urllib.request.urlopen('http://i.cantonfair.org.cn/en/ExpExhibitorList.aspx?k=g ..
发布时间:2016-08-05 19:20:29 Python

&LT;的urlopen错误[错误1] _ssl.c:510:错误:14077417:SSL

有谁知道为什么我收到此错误? SSLError:[错误1] _ssl.c:510:错误:14077438:SSL例程:SSL23_GET_SERVER_HELLO:使用TLSv1 我使用请求或urllib2的时候拿到埃罗,我跑在科迪的code。在code运行正常,当我在我的电脑上的Visual Studio运行它。 我想凑由我的ISP封锁一个网站,所以我使用该网站的代理版本。进口要求URL ..
发布时间:2016-08-05 19:20:18 Python

使用BeautifulSoup从URL抓取图像

我试图获取重要的图像,而不是来自于维基百科页面缩略图或其他GIF和使用以下code。然而,“IMG”即将到来为“0”的长度。如何纠正它的任何建议。 code: 进口的urllib 进口的urllib2 从BS4进口BeautifulSoup 进口OSHTML = urllib2.urlopen(“http://en.wikipedia.org/wiki/Main_Page”)汤= Beauti ..
发布时间:2016-08-05 19:20:15 Python