web-crawler相关内容
我已经使用这个网站很长时间来寻找我的问题的答案,但我无法在这个网站上找到答案. 我正在与一个小组合作开展一个班级项目.我们将建立一个小型“游戏交易"网站,允许人们注册、放入他们想要交易的游戏,并接受他人的交易或请求交易. 我们的网站提前很长时间运行,因此我们正在尝试向网站添加更多内容.我自己想做的一件事是将放入 Metacritic 的游戏链接起来. 这是我需要做的.我需要(在
..
我想抓取一个网站,问题是它充满了 JavaScript 的东西,比如按钮,当它们被按下时,它们不会改变 URL,但页面上的数据会改变. 我通常使用 LWP/Mechanize 等来抓取网站,但都不支持 JavaScript.有什么想法吗? 解决方案 另一个选择可能是 Selenium 和 WWW::Selenium 模块
..
Selenium 是否有一种通用的方法可以等待所有 ajax 内容加载完毕?(不绑定到特定网站 - 所以它适用于每个 ajax 网站) 解决方案 您需要等待 Javascript 和 jQuery 完成加载.执行 Javascript 来检查 jQuery.active 是否为 0 和 document.readyState 是否为 complete,这意味着 JS 和jQuery 加载完
..
出于研究目的,我试图抓取公共 Docker 注册表(https://registry.hub.docker.com/a> ) 并找出 1) 平均图像有多少层以及 2) 这些层的大小以了解分布. 然而我研究了API和公共库以及github上的细节,但我找不到任何方法: 检索所有公共存储库/图像(即使有数千个,我仍然需要一个起始列表来迭代) 查找图像的所有图层 找到层的大小(不是图像,
..
我有一个关于 HTML 解析的问题.我有一个包含一些产品的网站,我想将页面中的文本捕获到我当前的电子表格中.这个电子表格很大,但在第 3 列中包含 ItemNbr,我希望第 14 列中的文本和一行对应一个产品(项目). 我的想法是在网页上获取标签后的 Innertext 内的“材料".id 号从一页到另一页变化(有时). 这是网站的结构:
..
我试图抓取一个网站,但我没有得到一些元素,因为这些元素是动态创建的. 我在 node.js 中使用了cheerio,我的代码如下. var request = require('request');varcheerio = require('cheerio');var url = "http://www.bdtong.co.kr/index.php?c_category=C02";请求(网
..
简介: 我正在构建一个单节点网络爬虫来简单地验证 .NET Core 控制台应用程序中的 URL 是否200 OK.我在不同的主机上有一组 URL,我使用 HttpClient 向这些主机发送请求.我刚开始使用 Polly 和 TPL Dataflow. 要求: 我想支持与一个并行发送多个 HTTP 请求可配置的MaxDegreeOfParallelism. 我想将对任何给定主
..
实际上,我们已经多次为客户烧毁了我们的 asp.net 网站的静态/存档副本.到目前为止,我们一直在使用 WebZip,但我们遇到了无数的崩溃问题,下载的页面无法正确重新链接,等 我们基本上需要一个应用程序来抓取和下载我们 asp.net 网站上所有内容的静态副本(页面、图像、文档、css 等),然后处理下载的页面,以便它们可以在没有互联网连接的情况下在本地浏览(摆脱链接等中的绝对网址).白
..
一个朋友问过我这个问题,我无法回答. 他问:我正在制作这个网站,您可以在其中存档您的网站... 它的工作原理是这样的,您输入您的网站,例如 something.com,然后我们的网站会抓取该网站上的内容(如图片),然后将其上传到我们的网站.然后人们可以在 oursite.com/something.com 上查看该网站的精确副本,即使承载 something.com 的服务器已关闭.
..
我们需要每天为所有 iOS 应用下载元数据.我们计划通过抓取 iTunes 网站和使用 iTunes 搜索 API 来提取信息.由于有 70 万多个应用程序,我们需要一种有效的方法来做到这一点. 一种方法是在 EC2 上设置一堆脚本并并行运行它们.在我们走上这条道路之前,是否有像 80legs 这样的服务供人们用来完成类似的任务?本质上,我们想要一些东西来帮助我们非常快速地抓取数十万个页面(
..
我正在尝试通过 rest api 启动爬网.爬行从注入 url 开始.使用 chrome 开发者工具“Advanced Rest Client",我正在尝试构建这个 POST 有效负载,但我得到的响应是 400 Bad Request. POST - http://localhost:8081/job/create 有效载荷 {"crawl-id":"crawl-01","类型":"
..
我们需要每天为所有 iOS 应用下载元数据.我们计划通过抓取 iTunes 网站和使用 iTunes 搜索 API 来提取信息.由于有 70 万多个应用程序,我们需要一种有效的方法来做到这一点. 一种方法是在 EC2 上设置一堆脚本并并行运行它们.在我们走上这条道路之前,是否有像 80legs 这样的服务供人们用来完成类似的任务?本质上,我们想要一些东西来帮助我们非常快速地抓取数十万个页面(
..
我是网络编程新手.我想构建一个爬虫,用于通过 Python 爬取 Foursquare 中的社交图.我通过使用 apiv2 库获得了一个“手动"控制的爬虫.主要方法如下: def main():代码 = "******"url = "https://foursquare.com/oauth2/authenticate?client_id=****&response_type=code&redir
..
直到最近,有多种方法可以在不需要 API 身份验证的情况下检索 Instagram 用户媒体.但显然,该网站阻止了所有这些. 一些旧方法: https://api.instagram.com/v1/users/user-id/media/recent/ https://www.instagram.com/user-id/media https://www.instagram
..
运行命令时: storm jar target/crawlIndexer-1.0-SNAPSHOT.jar org.apache.storm.flux.Flux --local es-injector.flux --sleep 86400000 我收到一条错误消息: 8710 [Thread-26-status-executor[4 4]] 错误 c.d.s.e.p.StatusUpdate
..
运行命令时: storm jar target/crawlIndexer-1.0-SNAPSHOT.jar org.apache.storm.flux.Flux --local es-injector.flux --sleep 86400000 我收到一条错误消息: 8710 [Thread-26-status-executor[4 4]] 错误 c.d.s.e.p.StatusUpdate
..
所以我想弄清楚如何使用 ES 和 Kibana 安装和设置 Storm/Stormcrawler,如 此处. 我从来没有在我的本地机器上安装过 Storm,因为我以前用过 Nutch,而且我从来没有在本地安装过 Hadoop……我认为 Storm 可能也一样(也许不是?). 我现在想开始用 Stormcrawler 而不是 Nutch 爬行. 看来,如果我只是下载一个版本并将/b
..
我使用 Nutch 2.1 抓取了一个 URL,然后我想在页面更新后重新抓取它们.我怎样才能做到这一点?我如何知道页面已更新? 解决方案 你根本做不到.您需要重新抓取页面以控制它是否已更新.因此,根据您的需要,对页面/域进行优先级排序并在一段时间内重新抓取它们.为此,您需要一个作业调度程序,例如 Quartz. 您需要编写一个比较页面的函数.但是,Nutch 最初将页面保存为索引文件
..
我应该使用什么 .htaccess rewriterule 来检测已知的机器人,例如大型机器人: altavista、谷歌、必应、雅虎 我知道我可以检查他们的 ip 或主机,但有没有更好的方法? 解决方案 RewriteCond %{HTTP_USER_AGENT} AltaVista [OR]RewriteCond %{HTTP_USER_AGENT} Googlebot [
..
我正在创建一个(表现良好的)网络蜘蛛,我注意到一些服务器导致 Apache HttpClient 给我一个 SocketException —— 特别是: java.net.SocketException:连接重置 导致这种情况的代码是: //执行请求HttpResponse 响应;尝试 {响应 = httpclient.execute(httpget);//httpclient 是 Htt
..