web-scraping 第161页 - IT屋-程序员软件开发技术分享社区

刮动态内容

，才有可能勉强度日动态网页。我所产生的数据意味着，例如本网站生成标记< FONT>一些Java脚本这是的document.write（“< FONT类= spy2>：< \ / FONT>”中+（v2j0j0 ^ o5r8）+（r8d4x4 ^ y5i9）+（b2r8e5 ^ u1p6）+（r8d4x4 ^ y5i9））的值更改每个页面ref ..

发布时间：2016-10-03 20:50:24 c# encryption web-scraping C#/.NET

由JavaScript与C＃生成的网页刮

我有一个网页浏览器，并在Visual Studio中的标签，基本上就是我想要做的就是抓住从其他网页的部分。我试着使用WebClient.DownloadString和WebClient.DownloadFile，和JavaScript加载内容之前，他们两个人给我的网页的源代码。我的下一个想法是使用web浏览器的工具，只需要调用webBrowser.DocumentText加载后的页面，并没 ..

发布时间：2016-09-26 12:03:27 c# javascript html visual-studio web-scraping C#/.NET

我写了一个个人网站刮板为自己的下脚料艺术家信息。代码工作，但是当我按下按钮，它开始处理while循环，在GUI冻结。我得到的文本框来.REFRESH（）。但我不能移动的形式，也取消该计划的唯一办法是强制退出。我在此改写，所以我没有得到这个问题的过程。另外，我听说了踩水，想看看是否能够工作，也让它更快一点。程序被报废15,000页，然后将每个页面具有它需要报废另一个10个左右的页面。所以，在它终于完 ..

发布时间：2016-09-20 22:25:07 c# winforms web-scraping C#/.NET

屏幕延迟后刮网页

我想要刮使用C＃一个网页，在页面加载后然而，执行它加载更多的元素融入其中，我需要刮DOM一些JavaScript。一个标准的刮板只是劫掠加载页面的HTML和不拿起通过JavaScript所做的DOM变化。？如何我把某种功能等待一两秒钟，然后抓住源下面是我当前的代码：私人字符串ScrapeWebpage（URL字符串，日期updateDate？） { HttpWebReques ..

发布时间：2016-09-20 09:43:35 c# c#-4.0 screen-scraping web-scraping C#/.NET

HTML敏捷包。装载和刮网页

这是对的最的方式拼抢时获得一个网页？ HttpWebRequest的oReq =（ HttpWebRequest的）WebRequest.Create（URL）; HttpWebResponse RESP =（HttpWebResponse）oReq.GetResponse（）; 变种DOC =新HtmlAgilityPack.HtmlDocument（）; doc.Lo ..

发布时间：2016-09-06 12:47:15 c# web-scraping html-agility-pack C#/.NET

PHPQuery web浏览器插件 - 使用cookie

我试图登录到使用PHPQuery的web浏览器插件网站。我能够成功登录，但我不知道如何从previous调用next重用饼干。 $客户= phpQuery :: browserGet（'https://website.com/login'，'success1'）;功能success1（$浏览器）{ $处理= $浏览器 - ＆GT; web浏览器（'success2'）; $处 ..

发布时间：2016-08-15 14:36:59 php browser web-scraping phpquery PHP

蟒蛇 - 手动浏览器登录后，从恢复的urllib2 Web会话

我说，我浏览到一个网站（Intranet的太）需要登录才能访问的内容。我将填写必填字段...例如用户名，密码和任何验证码等所需要的从浏览器本身登录在我已经登录到该网站，有很多好吃的东西，可以从几个链接和标签登录后的第一页上刮下。现在，从这一点向前（即从浏览器登录后）。我要控制页面和下载的urllib2 ...想通过页每一页，等通过网页，下载PDF文件和图像会据我所知，我们可以使用一切从 ..

发布时间：2016-08-15 13:39:07 python browser login web-scraping Python

网页浏览器的行为问题

我想要的网页浏览器使用.NET C＃自动化。问题是，控制或者我应该说的IE浏览器在不同计算机上的行为很奇怪。例如，我在clickin链接，fillup这样一号计算机上的Ajax弹出的形式，没有任何错误：私人无效btn_Start_Click（对象发件人，RoutedEventArgs E） { webbrowserIE.Navigate（“http://www.test.com/”）; ..

发布时间：2016-08-15 13:04:46 c# browser web-scraping webbrowser-control screen-scraping C#/.NET

从Python这样的动态Web数据库的数据刮痧

我是新来的Python和我目前正在设法弄清楚如何从这个网站抽取数据：的https://www.entsoe.eu/db-query/consumption/mhlv-a-specific-country-for-a-specific-month 我不知道如果我使用Scrapy，BeautifulSoup或硒。需要对特定的国家数据（DE说 - 德国）每个月和日内2012-2014 。任 ..

发布时间：2016-08-05 19:23:19 python selenium web-scraping beautifulsoup scrapy Python

从网站抄袭员工数据

我的工作从不同网页中提取员工数据。我不知道我的网站将被事先提取信息的列表。例如： ..

发布时间：2016-08-05 19:23:12 python web-scraping beautifulsoup Python

解析使用美丽的汤蟒谷歌新闻

我有蟒蛇code如下。它搜索一个谷歌新闻页面和打印超链接和标题每个新闻。我的问题是组了Googlenews消息，都在一个水桶及以下脚本打印在每个桶只有1日消息类似。如何打印所有新的所有桶？从BS4进口BeautifulSoup 进口要求标题= {'用户代理“：”Mozilla的/ 5.0（Windows NT的6.1）为AppleWebKit / 537.36（KHTML，像壁虎）的Chrom ..

发布时间：2016-08-05 19:22:59 python web-scraping beautifulsoup news Python

“字符映射”codeC无法连接code字符“\\ XAE”虽然刮网页

我是网络与刮的Python 使用 BeautifulSoap 我收到此错误 “字符映射”codeC无法连接code字符“\\ XAE”在第69位：字符映射到＆lt;＆未定义GT; 刮网页时这是我的的Python 酒店= BeautifulSoup（状态）。打印（hotel.select（“div.details.cf span.hotel-名”））＃尝试：打印（hotel.sele ..

发布时间：2016-08-05 19:21:44 python web-scraping beautifulsoup Python

BeautifulSoup：从另一个标签的文本替换锚文本

我试图提取网页上的所有链接，到目前为止，我能够得到的链接，但链接的锚文本不提供任何的相关的信息。这些信息包含在另一个兄弟标签。这是HTML布局：＆LT;＆TBODY GT; ＆所述; TR＆GT; ＆所述; TD＆GT; ＆LT; H3＆GT;驱动器与许可证E或F＆LT; / H3 GT＆; ＆LT; DIV CLASS =“日期”＆GT; . ..

发布时间：2016-08-05 19:21:16 html python-2.7 web-scraping beautifulsoup 前端开发

标签的发生BeautifulSoup秩序

考虑以下情况： TAG1 = soup.find（** data_attrs） TAG2 = soup.find（** delim_attrs）有没有办法找出在网页，其中标签发生“第一次”？澄清：对于我而言，顺序是一样的beautifulsoup的FindNext方法的。（我目前使用这一点来“解决”我的问题，虽然这是哈克。）这里的目的是基本上积累不是由一个“分隔符标签”分隔标记 ..

发布时间：2016-08-05 19:21:15 python web-scraping beautifulsoup Python

我应该如何凑这些图片没有错误？

我想刮的图像（或图像链接），本次论坛的（ http://www.xossip.com/showthread.php?t=1384077 ）。我试着美丽汤4和这里是code我尝试：进口要求从BS4进口BeautifulSoup高清蜘蛛（MAX_PAGES）：页面= 1 而网页＆LT; = MAX_PAGES： URL ='http://www.xossip.c ..

发布时间：2016-08-05 19:20:43 python web-scraping beautifulsoup web-crawler Python

BeautifulSoup刮痧：加载div的内容，而不是

菜鸟在这里。我试图从本网站刮的搜索结果： http://www.mastersportal.eu/search/?q=di-4|lv-master&order=relevance 我使用Python的BeautifulSoup 导入CSV 进口要求从BeautifulSoup进口BeautifulSoup在（'0'，'69'）麻木： URL = ('http://www. ..

发布时间：2016-08-05 19:20:37 javascript python html web-scraping beautifulsoup 前端开发

如何获得div标签内的所有标签里

我刮了一个网站，让公司和产品的详细信息。它有div标签，其中有李标签，我想div标签内的所有LI标记。我使用python 3.5.1和BeautifulSoup 我的code：从BS4进口BeautifulSoup 进口urllib.request里进口重 R = urllib.request.urlopen（'http://i.cantonfair.org.cn/en/ExpEx ..

发布时间：2016-08-05 19:20:31 python web-scraping beautifulsoup Python

如何从列表中使用python刮网址

欲刮除列表中的URL present。基本上我刮的网站在我刮的链接从我发现特定的链接一刮这些链接，我搜索其他特定链接一刮吧。我的code：从BS4进口BeautifulSoup 进口urllib.request里进口重 R = urllib.request.urlopen（'http://i.cantonfair.org.cn/en/ExpExhibitorList.aspx?k=g ..

发布时间：2016-08-05 19:20:29 python web-scraping beautifulsoup Python

＆LT;的urlopen错误[错误1] _ssl.c：510：错误：14077417：SSL

有谁知道为什么我收到此错误？ SSLError：[错误1] _ssl.c：510：错误：14077438：SSL例程：SSL23_GET_SERVER_HELLO：使用TLSv1 我使用请求或urllib2的时候拿到埃罗，我跑在科迪的code。在code运行正常，当我在我的电脑上的Visual Studio运行它。我想凑由我的ISP封锁一个网站，所以我使用该网站的代理版本。进口要求URL ..

发布时间：2016-08-05 19:20:18 python ssl web-scraping beautifulsoup kodi Python

使用BeautifulSoup从URL抓取图像

我试图获取重要的图像，而不是来自于维基百科页面缩略图或其他GIF和使用以下code。然而，“IMG”即将到来为“0”的长度。如何纠正它的任何建议。 code：进口的urllib 进口的urllib2 从BS4进口BeautifulSoup 进口OSHTML = urllib2.urlopen（“http://en.wikipedia.org/wiki/Main_Page”）汤= Beauti ..

发布时间：2016-08-05 19:20:15 python url web-scraping beautifulsoup urllib Python

web-scraping相关内容