web-crawler相关内容

我可以阻止搜索爬虫对于Apache Web服务器上的每个网站?

我有几个网站制作code的公共互联网运行份临时服务器的一些。我真的不喜欢它,如果升级网站获得索引​​。 有没有一种方法,我可以修改临时服务器上我的httpd.conf阻止搜索引擎抓取? 更改的robots.txt就没有真正的工作,因为我使用脚本来在同一code碱基复制到这两个服务器。另外,我宁愿不改变虚拟主机conf文件或者作为有一堆网站,我不希望要记住超过一定的设置来复制,如果我做一个新的网 ..
发布时间:2016-05-20 00:04:57 服务器开发

如何设置robots.txt或Apache来让爬虫只在特定时间?

当流量超过24小时分布不均,我想在非繁忙时段内偷看小时禁止爬虫,并允许他们。 有没有办法做到这一点的方法? 编辑: 感谢所有的好建议。 这是我们发现了另一个解决方案。 2bits.com对设置的IPTables防火墙限制从特定的IP地址的连接的数量的制品。 文章 的iptables的设置: 使用connlimit 在新的Linux内核,对于iptables的一个connl ..
发布时间:2016-05-19 23:35:34 服务器开发

使用Apache星火分布式Web爬行

这是有趣的问题问我的时候,我参加关于Web挖掘一次采访。现在的问题是,是否有可能使用Apache星火抓取的网站? 我猜测,这是可能的,因为它支持分布式星火的加工能力。面试结束后我搜索了这一点,但无法找到任何有趣的答案。那是可能的火花? 解决方案 这个怎么样方式: 您的应用程序将得到一组网站的网址输入您的履带,如果要实现只是一个普通的应用程序,可以按照以下方式做到这一点: 分割所有 ..
发布时间:2016-05-19 23:27:22 服务器开发

小$ P $共享PVIEW在社交媒体上的Ruby on Rails的链接时,

我工作的一个网站,其前端是 angularjs 和后端的 ROR ,相同的 ROR API 是在 Android应用也可使用。现在,我在这里有一个情况。我需要共享的社会化媒体我的Web的职位,比如的Facebook ,叽叽喳喳和谷歌加。并与链接到单后沿应该有一个小preVIEW 也(A $在Facebook中发布如前已抓取后的对$ PVIEW)。我这样做是采用了棱角分明的插件。但是,当涉及到And ..

是否html5mode(真)影响谷歌的搜索爬虫

我阅读本规范这是Web服务器之间的协议和搜索引擎抓取工具,允许动态创建的内容是爬虫可见。 它说有,为了使履带指数HTML5的应用程序必须在URL中实现使用路由#!。在角 html5mode(真)我们摆脱网址的这部分哈希的。我不知道这是否会从索引我的网站prevent爬虫。 解决方案 简短的回答 - 不,html5mode不会弄乱你的索引,但阅读 重要提示:谷歌和必应可以抓取基于AJAX ..
发布时间:2016-04-08 00:10:00 前端开发

设计问题的通知系统

在原来的职位张贴在设计问题的通知系统 下面是进一步澄清的问题:通知系统,目的是让用户通知(通过电子邮件现在)时,该网站的内容已经更改或更新,或新发布而成。这可以被视为一个通知系统,其中人定义规则或关键字为第三方网站和通知系统熄灭crawle第三方网站和包装箱搜索倒排索引。然后,一个新的链接或文件显示,要求用户定义的关键字或规则(底部关于使用情况的详细说明), 有关澄清使用情况:让想我是Crai ..
发布时间:2015-11-30 22:37:23 C/C++

是否有一个哈希算法是宽容的细微差别?

我在做一些网络爬虫类的东西,我正在寻找某些条款的网页,并在网页上找到自己的位置,然后将其高速缓存以备后用。我希望能够定期检查网页的任何重大变化。类似的MD5可以通过简单地将当前的日期和时间在网页挫败 是否有任何这样的事情工作的哈希算法? 解决方案 做文档相似性的常见方法是的叠瓦,这是有点比散列更为复杂。还应考虑的内容定义的组块的一种方式来分割的文件。 我读报纸几年前有关使用布鲁姆过滤器相似 ..
发布时间:2015-11-30 16:27:25 C/C++

当存储网络爬虫的数据?

我有一个在根(给定的URL)开始下载根页面的HTML然后扫描超链接和抓取他们一个简单的网络爬虫。我目前存储在SQL数据库的HTML页面。我目前面临的两个问题: 1,这似乎是爬行达到一个瓶颈,无法履带吊快,我读的地方,使得多线程的HTTP请求的页面可以使履带式爬行快,但我不知道如何做这一点。 2的第二个问题,我需要一个有效的数据结构来存储的HTML页,并能够对它们(当前使用一个SQL数据库希望听 ..
发布时间:2015-11-30 16:06:53 C#/.NET

我的网页排名之和为0.9收敛

当我计算一组爬域名的网页排名,使用0.85阻尼因子。正如在许多页提到的行列论文,页面的PR值的总和应收敛于1。但不管有多少反复做,这似乎收敛于0.90xxx。如果我低衰减系数为0.5,我靠拢1显而易见的。 是不是坏了网页排名总和收敛于0.90,什么会,这通常牵连? 解决方案 这成为了算法: //数据结构 私人的HashMap<字符串,双>页面的PR值; 私人的HashMap ..
发布时间:2015-11-30 15:40:51 C/C++

Python的:最大递归深度时,超过调用Python对象

我已经建立了一个履带式的不得不对约500万页运行(通过增加URL ID),然后分析其中包含的信息:“我需要的页面。 用算法中的URL(200K)上运行,并保存我发现我浪费了很多时间的好和坏的结果之后。我可以看到有一些机管局返回subtrahends,我可以用它来检查下一个有效的URL。 您可以看到subtrahends相当快(几首“好标识”中的一个小前') - 510000011#+8 5 ..
发布时间:2015-11-30 15:33:11 Python

确定一个搜索引擎爬虫

我工作的一个网站,通过AJAX加载数据。我也希望,整个网站可通过谷歌和雅虎的搜索引擎抓取。 我想使两个版本的网站... [1]当用户谈到的超级链接应该只是如Gmail(#'编辑超链接) [2]当履带而来的超链接应正常工作(AJAX模式关闭) 我如何确定一个履带?? 解决方案 您不应该present不同形式的网站对用户和履带。如果谷歌发现你这样做,他们可能会减少,因为它的搜索排名。此外,如果你 ..
发布时间:2015-11-30 01:40:51 前端开发

谷歌抓取,AJAX和HTML5

HTML5可以让我们无需刷新浏览器更新当前的URL。我创建的HTML5之上的小框架,让我透明地利用这一点,所以我可以做使用AJAX同时还具有无井号标签可收藏的URL的所有请求。因此,如我的导航看起来是这样的: < UL> <李>< A HREF =“/家”>首页< / A>< /李> <李>< A HREF ..
发布时间:2015-11-30 01:29:04 前端开发

使用的Nutch如何抓取网页被uisng AJAX动态内容?

我使用的Apache的Nutch 1.10抓取的网页,并提取网页中的内容。有些链接中包含有关于Ajax的调用加载动态内容。 Nutch的能不能抓取和提取AJAX的动态内容。我该如何解决这个问题?有没有什么解决办法吗?如果有,请帮我看看你的答案。 在此先感谢。 解决方案 大多数的网络爬虫库不提供的JavaScript渲染开箱。你通常需要另一个插件库或产品,提供JS渲染像硒或PhantomJS。 ..
发布时间:2015-11-30 00:53:28 Java开发

如何让我的AJAX内容抓取由谷歌?

我一直在使用jQuery的高度和载荷内容通过AJAX像这样一个网站: $('#newPageWrapper“)。负载(的新路径+'.pageWrapper',函数(){ //负载的逻辑 } 如今,它已走到了我的注意,谷歌不会索引任何通过JavaScript动态加载的内容,所以我一直在寻找一个解决问题的办法。 我已经通过谷歌的使Ajax应用程序抓取文件什么似乎是100次,我还 ..
发布时间:2015-11-29 23:47:12 前端开发

解析Ajax响应检索在Scrapy最终URL内容?

我有以下问题: 我的刮板开始于“基地”的网址。此页面包含创建通过AJAX调用另一个下拉列表中选择下拉列表中,而这个级联2-3次,直到它拥有所有需要去“最终”页面,在这里我想刮的实际内容的信息。 而不是点击的事情(和不必使用硒或类似​​),我用的是网页暴露JSON API来模仿这种行为,所以不是点击下拉菜单我只需发送一个请求,并读取包含的信息用于数组JSON响应生成下一个下拉列表中的内容,而做到 ..
发布时间:2015-11-29 23:24:37 前端开发

谷歌抓取AJAX /动态生成的内容 - 搜索引擎优化

我有一个非常独特的情况,我不相信任何在这里的其他话题可以涉及。 我有一个动态加载/嵌入到第三方网站,没有IFRAME直JSON到Web客户端为内容的电子商务模块。我对这些第三方网站根本无法访问,其他然后我的JavaScript文件正在从他们的网页加载和动态生成的内容。 我知道了#的!法,但没有这里好,我的JS也会产生嵌入式平台中的“网址”,但他们是假冒的​​,只将地址栏,我不相信谷歌爬虫可以远 ..
发布时间:2015-11-29 22:45:12 前端开发

如果我做的一切在我的使用Ajax网页,我该怎么做搜索引擎优化?

如何抓取工具和Ajax应用程序之间的关系? 做网络爬虫或浏览器阅读动态创建的meta标签? 我想到了: 添加锚点到页面 创建永久链接的内容 在动态添加meta标签。 HTTP://$c$c.google。 COM /网/ ajaxcrawling /文档/学习,more.html 解决方案 JavaScript并没有在搜索引擎优化中的实际意义不是很多你。搜索引擎主要是看原始文本,就像你 ..
发布时间:2015-11-29 15:15:59 前端开发

阿贾克斯生成的内容,抓取和黑上市

我的网站使用AJAX。 我有一个用户列表页,其中列出用户在Ajax表(带分页和更多信息的东西......)。 该网页的网址是: /用户列表 用户列表是通过AJAX创建。当用户点击一个用户,他被重定向到一个页面,该页面的网址为:/成员/成员名 所以,我们可以在这里看到,Ajax是用于生成内容,而不是管理导航(#字符)。 我要检测机器人索引所有页面。 所以,在阿贾克斯我要显示与分页和凉爽的 ..
发布时间:2015-11-29 00:56:12 前端开发

如何自动检索的URL的AJAX调用?

的目的是编程crawlspider能够: 1)获取了在本页面的表中的链接的URL: HTTP ://cordis.europa.eu/fp7/security/projects_en.html 2)按照所有这些URL的AJAX调用,找出最后的(“AJAX”),其中包含的数据,我想刮网址 3)刮确定的AJAX网址的最后几页。 到目前为止,我已经写了Scrapy下的两个蜘蛛: 1)第一个检索 ..
发布时间:2015-11-29 00:27:51 前端开发