web-crawler相关内容

从网页中提取数据,解析特定片段并显示

我已经使用这个网站很长时间来寻找我的问题的答案,但我无法在这个网站上找到答案. 我正在与一个小组合作开展一个班级项目.我们将建立一个小型“游戏交易"网站,允许人们注册、放入他们想要交易的游戏,并接受他人的交易或请求交易. 我们的网站提前很长时间运行,因此我们正在尝试向网站添加更多内容.我自己想做的一件事是将放入 Metacritic 的游戏链接起来. 这是我需要做的.我需要(在 ..
发布时间:2021-12-12 23:31:57 C#/.NET

查找每个 Docker 镜像的层和层大小

出于研究目的,我试图抓取公共 Docker 注册表(https://registry.hub.docker.com/a> ) 并找出 1) 平均图像有多少层以及 2) 这些层的大小以了解分布. 然而我研究了API和公共库以及github上的细节,但我找不到任何方法: 检索所有公共存储库/图像(即使有数千个,我仍然需要一个起始列表来迭代) 查找图像的所有图层 找到层的大小(不是图像, ..
发布时间:2021-12-07 12:13:39 其他开发

在 VBA 中解析 HTML 内容

我有一个关于 HTML 解析的问题.我有一个包含一些产品的网站,我想将页面中的文本捕获到我当前的电子表格中.这个电子表格很大,但在第 3 列中包含 ItemNbr,我希望第 14 列中的文本和一行对应一个产品(项目). 我的想法是在网页上获取标签后的 Innertext 内的“材料".id 号从一页到另一页变化(有时). 这是网站的结构: ..
发布时间:2021-12-02 22:46:43 其他开发

使用 HttpClient 和 Polly 发送并行请求,但每个主机只有一个,以优雅地处理 429 响应

简介: 我正在构建一个单节点网络爬虫来简单地验证 .NET Core 控制台应用程序中的 URL 是否200 OK.我在不同的主机上有一组 URL,我使用 HttpClient 向这些主机发送请求.我刚开始使用 Polly 和 TPL Dataflow. 要求: 我想支持与一个并行发送多个 HTTP 请求可配置的MaxDegreeOfParallelism. 我想将对任何给定主 ..
发布时间:2021-11-24 13:23:16 C#/.NET

您如何存档整个网站以供离线查看?

实际上,我们已经多次为客户烧毁了我们的 asp.net 网站的静态/存档副本.到目前为止,我们一直在使用 WebZip,但我们遇到了无数的崩溃问题,下载的页面无法正确重新链接,等 我们基本上需要一个应用程序来抓取和下载我们 asp.net 网站上所有内容的静态副本(页面、图像、文档、css 等),然后处理下载的页面,以便它们可以在没有互联网连接的情况下在本地浏览(摆脱链接等中的绝对网址).白 ..
发布时间:2021-11-17 03:15:03 前端开发

如何从另一个网站“抓取"内容

一个朋友问过我这个问题,我无法回答. 他问:我正在制作这个网站,您可以在其中存档您的网站... 它的工作原理是这样的,您输入您的网站,例如 something.com,然后我们的网站会抓取该网站上的内容(如图片),然后将其上传到我们的网站.然后人们可以在 oursite.com/something.com 上查看该网站的精确副本,即使承载 something.com 的服务器已关闭. ..
发布时间:2021-11-17 03:14:36 其他开发

用于抓取网页或调用 API(尤其是 iTunes)的最快服务?

我们需要每天为所有 iOS 应用下载元数据.我们计划通过抓取 iTunes 网站和使用 iTunes 搜索 API 来提取信息.由于有 70 万多个应用程序,我们需要一种有效的方法来做到这一点. 一种方法是在 EC2 上设置一堆脚本并并行运行它们.在我们走上这条道路之前,是否有像 80legs 这样的服务供人们用来完成类似的任务?本质上,我们想要一些东西来帮助我们非常快速地抓取数十万个页面( ..
发布时间:2021-11-15 04:18:29 移动开发

Apache Nutch REST API

我正在尝试通过 rest api 启动爬网.爬行从注入 url 开始.使用 chrome 开发者工具“Advanced Rest Client",我正在尝试构建这个 POST 有效负载,但我得到的响应是 400 Bad Request. POST - http://localhost:8081/job/create 有效载荷 {"crawl-id":"crawl-01","类型":" ..
发布时间:2021-11-15 04:12:51 其他开发

用于抓取网页或调用 API(尤其是 iTunes)的最快服务?

我们需要每天为所有 iOS 应用下载元数据.我们计划通过抓取 iTunes 网站和使用 iTunes 搜索 API 来提取信息.由于有 70 万多个应用程序,我们需要一种有效的方法来做到这一点. 一种方法是在 EC2 上设置一堆脚本并并行运行它们.在我们走上这条道路之前,是否有像 80legs 这样的服务供人们用来完成类似的任务?本质上,我们想要一些东西来帮助我们非常快速地抓取数十万个页面( ..
发布时间:2021-11-15 04:02:04 移动开发

在本地模式下运行 StormCrawler 还是安装 Apache Storm?

所以我想弄清楚如何使用 ES 和 Kibana 安装和设置 Storm/Stormcrawler,如 此处. 我从来没有在我的本地机器上安装过 Storm,因为我以前用过 Nutch,而且我从来没有在本地安装过 Hadoop……我认为 Storm 可能也一样(也许不是?). 我现在想开始用 Stormcrawler 而不是 Nutch 爬行. 看来,如果我只是下载一个版本并将/b ..
发布时间:2021-11-14 23:39:09 其他开发

使用 Nutch 重新抓取 URL 仅用于更新的站点

我使用 Nutch 2.1 抓取了一个 URL,然后我想在页面更新后重新抓取它们.我怎样才能做到这一点?我如何知道页面已更新? 解决方案 你根本做不到.您需要重新抓取页面以控制它是否已更新.因此,根据您的需要,对页面/域进行优先级排序并在一段时间内重新抓取它们.为此,您需要一个作业调度程序,例如 Quartz. 您需要编写一个比较页面的函数.但是,Nutch 最初将页面保存为索引文件 ..
发布时间:2021-11-11 06:03:34 服务器开发