web-crawler 第42页 - IT屋-程序员软件开发技术分享社区

Apache的Nutch的2.1不同批次ID（空）

我爬在Apache 2.1 Nutch的几个网站。在抓取我看到很多网页以下消息：结果恩。跳过 ..

发布时间：2016-05-20 00:12:00 apache nutch web-crawler 服务器开发

我可以阻止搜索爬虫对于Apache Web服务器上的每个网站？

我有几个网站制作code的公共互联网运行份临时服务器的一些。我真的不喜欢它，如果升级网站获得索引。有没有一种方法，我可以修改临时服务器上我的httpd.conf阻止搜索引擎抓取？更改的robots.txt就没有真正的工作，因为我使用脚本来在同一code碱基复制到这两个服务器。另外，我宁愿不改变虚拟主机conf文件或者作为有一堆网站，我不希望要记住超过一定的设置来复制，如果我做一个新的网 ..

发布时间：2016-05-20 00:04:57 apache search web-crawler httpd.conf 服务器开发

如何设置robots.txt或Apache来让爬虫只在特定时间？

当流量超过24小时分布不均，我想在非繁忙时段内偷看小时禁止爬虫，并允许他们。有没有办法做到这一点的方法？编辑：感谢所有的好建议。这是我们发现了另一个解决方案。 2bits.com对设置的IPTables防火墙限制从特定的IP地址的连接的数量的制品。文章的iptables的设置：使用connlimit 在新的Linux内核，对于iptables的一个connl ..

发布时间：2016-05-19 23:35:34 apache web-crawler robots.txt iptables 服务器开发

使用Apache星火分布式Web爬行

这是有趣的问题问我的时候，我参加关于Web挖掘一次采访。现在的问题是，是否有可能使用Apache星火抓取的网站？我猜测，这是可能的，因为它支持分布式星火的加工能力。面试结束后我搜索了这一点，但无法找到任何有趣的答案。那是可能的火花？解决方案这个怎么样方式：您的应用程序将得到一组网站的网址输入您的履带，如果要实现只是一个普通的应用程序，可以按照以下方式做到这一点：分割所有 ..

发布时间：2016-05-19 23:27:22 apache web web-crawler apache-spark 服务器开发

小$ P $共享PVIEW在社交媒体上的Ruby on Rails的链接时，

我工作的一个网站，其前端是 angularjs 和后端的 ROR ，相同的 ROR API 是在 Android应用也可使用。现在，我在这里有一个情况。我需要共享的社会化媒体我的Web的职位，比如的Facebook ，叽叽喳喳和谷歌加。并与链接到单后沿应该有一个小preVIEW 也（A $在Facebook中发布如前已抓取后的对$ PVIEW）。我这样做是采用了棱角分明的插件。但是，当涉及到And ..

发布时间：2016-04-11 20:38:53 ruby-on-rails angularjs ruby-on-rails-4 web-crawler google-crawlers JavaScript

是否html5mode（真）影响谷歌的搜索爬虫

我阅读本规范这是Web服务器之间的协议和搜索引擎抓取工具，允许动态创建的内容是爬虫可见。它说有，为了使履带指数HTML5的应用程序必须在URL中实现使用路由＃！。在角 html5mode（真）我们摆脱网址的这部分哈希的。我不知道这是否会从索引我的网站prevent爬虫。解决方案简短的回答 - 不，html5mode不会弄乱你的索引，但阅读重要提示：谷歌和必应可以抓取基于AJAX ..

发布时间：2016-04-08 00:10:00 javascript angularjs web-crawler google-crawlers 前端开发

设计问题的通知系统

在原来的职位张贴在设计问题的通知系统下面是进一步澄清的问题：通知系统，目的是让用户通知（通过电子邮件现在）时，该网站的内容已经更改或更新，或新发布而成。这可以被视为一个通知系统，其中人定义规则或关键字为第三方网站和通知系统熄灭crawle第三方网站和包装箱搜索倒排索引。然后，一个新的链接或文件显示，要求用户定义的关键字或规则（底部关于使用情况的详细说明），有关澄清使用情况：让想我是Crai ..

发布时间：2015-11-30 22:37:23 algorithm design search search-engine web-crawler C/C++

是否有一个哈希算法是宽容的细微差别？

我在做一些网络爬虫类的东西，我正在寻找某些条款的网页，并在网页上找到自己的位置，然后将其高速缓存以备后用。我希望能够定期检查网页的任何重大变化。类似的MD5可以通过简单地将当前的日期和时间在网页挫败是否有任何这样的事情工作的哈希算法？解决方案做文档相似性的常见方法是的叠瓦，这是有点比散列更为复杂。还应考虑的内容定义的组块的一种方式来分割的文件。我读报纸几年前有关使用布鲁姆过滤器相似 ..

发布时间：2015-11-30 16:27:25 algorithm caching web-crawler hash C/C++

当存储网络爬虫的数据？

我有一个在根（给定的URL）开始下载根页面的HTML然后扫描超链接和抓取他们一个简单的网络爬虫。我目前存储在SQL数据库的HTML页面。我目前面临的两个问题： 1，这似乎是爬行达到一个瓶颈，无法履带吊快，我读的地方，使得多线程的HTTP请求的页面可以使履带式爬行快，但我不知道如何做这一点。 2的第二个问题，我需要一个有效的数据结构来存储的HTML页，并能够对它们（当前使用一个SQL数据库希望听 ..

发布时间：2015-11-30 16:06:53 c# algorithm data web-crawler C#/.NET

我的网页排名之和为0.9收敛

当我计算一组爬域名的网页排名，使用0.85阻尼因子。正如在许多页提到的行列论文，页面的PR值的总和应收敛于1。但不管有多少反复做，这似乎收敛于0.90xxx。如果我低衰减系数为0.5，我靠拢1显而易见的。是不是坏了网页排名总和收敛于0.90，什么会，这通常牵连？解决方案这成为了算法： //数据结构私人的HashMap＆LT;字符串，双＆GT;页面的PR值; 私人的HashMap ..

发布时间：2015-11-30 15:40:51 algorithm web-crawler pagerank C/C++

Python的：最大递归深度时，超过调用Python对象

我已经建立了一个履带式的不得不对约500万页运行（通过增加URL ID），然后分析其中包含的信息：“我需要的页面。用算法中的URL（200K）上运行，并保存我发现我浪费了很多时间的好和坏的结果之后。我可以看到有一些机管局返回subtrahends，我可以用它来检查下一个有效的URL。您可以看到subtrahends相当快（几首“好标识”中的一个小前'） - 510000011＃+8 5 ..

发布时间：2015-11-30 15:33:11 python algorithm recursion web-crawler depth Python

确定一个搜索引擎爬虫

我工作的一个网站，通过AJAX加载数据。我也希望，整个网站可通过谷歌和雅虎的搜索引擎抓取。我想使两个版本的网站... [1]当用户谈到的超级链接应该只是如Gmail（＃'编辑超链接） [2]当履带而来的超链接应正常工作（AJAX模式关闭）我如何确定一个履带?? 解决方案您不应该present不同形式的网站对用户和履带。如果谷歌发现你这样做，他们可能会减少，因为它的搜索排名。此外，如果你 ..

发布时间：2015-11-30 01:40:51 ajax website web-crawler 前端开发

谷歌抓取，AJAX和HTML5

HTML5可以让我们无需刷新浏览器更新当前的URL。我创建的HTML5之上的小框架，让我透明地利用这一点，所以我可以做使用AJAX同时还具有无井号标签可收藏的URL的所有请求。因此，如我的导航看起来是这样的：＆LT; UL＆GT; ＆LT;李＆GT;＆LT; A HREF =“/家”＆GT;首页＆LT; / A＆GT;＆LT; /李＆GT; ＆LT;李＆GT;＆LT; A HREF ..

发布时间：2015-11-30 01:29:04 ajax html5 web-crawler hashtag pushstate 前端开发

使用的Nutch如何抓取网页被uisng AJAX动态内容？

我使用的Apache的Nutch 1.10抓取的网页，并提取网页中的内容。有些链接中包含有关于Ajax的调用加载动态内容。 Nutch的能不能抓取和提取AJAX的动态内容。我该如何解决这个问题？有没有什么解决办法吗？如果有，请帮我看看你的答案。在此先感谢。解决方案大多数的网络爬虫库不提供的JavaScript渲染开箱。你通常需要另一个插件库或产品，提供JS渲染像硒或PhantomJS。 ..

发布时间：2015-11-30 00:53:28 java ajax plugins web-crawler nutch Java开发

如何让我的AJAX内容抓取由谷歌？

我一直在使用jQuery的高度和载荷内容通过AJAX像这样一个网站： $（'＃newPageWrapper“）。负载（的新路径+'.pageWrapper'，函数（）{ //负载的逻辑 } 如今，它已走到了我的注意，谷歌不会索引任何通过JavaScript动态加载的内容，所以我一直在寻找一个解决问题的办法。我已经通过谷歌的使Ajax应用程序抓取文件什么似乎是100次，我还 ..

发布时间：2015-11-29 23:47:12 javascript ajax seo web-crawler htmlunit 前端开发

解析Ajax响应检索在Scrapy最终URL内容？

我有以下问题：我的刮板开始于“基地”的网址。此页面包含创建通过AJAX调用另一个下拉列表中选择下拉列表中，而这个级联2-3次，直到它拥有所有需要去“最终”页面，在这里我想刮的实际内容的信息。而不是点击的事情（和不必使用硒或类似），我用的是网页暴露JSON API来模仿这种行为，所以不是点击下拉菜单我只需发送一个请求，并读取包含的信息用于数组JSON响应生成下一个下拉列表中的内容，而做到 ..

发布时间：2015-11-29 23:24:37 python ajax screen-scraping scrapy web-crawler 前端开发

谷歌抓取AJAX /动态生成的内容 - 搜索引擎优化

我有一个非常独特的情况，我不相信任何在这里的其他话题可以涉及。我有一个动态加载/嵌入到第三方网站，没有IFRAME直JSON到Web客户端为内容的电子商务模块。我对这些第三方网站根本无法访问，其他然后我的JavaScript文件正在从他们的网页加载和动态生成的内容。我知道了＃的！法，但没有这里好，我的JS也会产生嵌入式平台中的“网址”，但他们是假冒的，只将地址栏，我不相信谷歌爬虫可以远 ..

发布时间：2015-11-29 22:45:12 ajax web-crawler seo google-crawlers 前端开发

如果我做的一切在我的使用Ajax网页，我该怎么做搜索引擎优化？

如何抓取工具和Ajax应用程序之间的关系？做网络爬虫或浏览器阅读动态创建的meta标签？我想到了：添加锚点到页面创建永久链接的内容在动态添加meta标签。 HTTP：//$c$c.google。 COM /网/ ajaxcrawling /文档/学习，more.html 解决方案 JavaScript并没有在搜索引擎优化中的实际意义不是很多你。搜索引擎主要是看原始文本，就像你 ..

发布时间：2015-11-29 15:15:59 ajax web-applications seo web-crawler meta 前端开发

阿贾克斯生成的内容，抓取和黑上市

我的网站使用AJAX。我有一个用户列表页，其中列出用户在Ajax表（带分页和更多信息的东西......）。该网页的网址是： /用户列表用户列表是通过AJAX创建。当用户点击一个用户，他被重定向到一个页面，该页面的网址为：/成员/成员名所以，我们可以在这里看到，Ajax是用于生成内容，而不是管理导航（＃字符）。我要检测机器人索引所有页面。所以，在阿贾克斯我要显示与分页和凉爽的 ..

发布时间：2015-11-29 00:56:12 ajax seo web-crawler blacklist 前端开发

如何自动检索的URL的AJAX调用？

的目的是编程crawlspider能够： 1）获取了在本页面的表中的链接的URL： HTTP ：//cordis.europa.eu/fp7/security/projects_en.html 2）按照所有这些URL的AJAX调用，找出最后的（“AJAX”），其中包含的数据，我想刮网址 3）刮确定的AJAX网址的最后几页。到目前为止，我已经写了Scrapy下的两个蜘蛛： 1）第一个检索 ..

发布时间：2015-11-29 00:27:51 ajax web-crawler scrapy 前端开发

web-crawler相关内容