web-crawler 第4页 - IT屋-程序员软件开发技术分享社区

从网页中提取数据，解析特定片段并显示

我已经使用这个网站很长时间来寻找我的问题的答案，但我无法在这个网站上找到答案. 我正在与一个小组合作开展一个班级项目.我们将建立一个小型“游戏交易"网站，允许人们注册、放入他们想要交易的游戏，并接受他人的交易或请求交易. 我们的网站提前很长时间运行，因此我们正在尝试向网站添加更多内容.我自己想做的一件事是将放入 Metacritic 的游戏链接起来. 这是我需要做的.我需要(在 ..

发布时间：2021-12-12 23:31:57 c# asp.net parsing web-crawler server-side C#/.NET

如何在 Perl 网络爬虫中处理 Javascript?

我想抓取一个网站，问题是它充满了 JavaScript 的东西，比如按钮，当它们被按下时，它们不会改变 URL，但页面上的数据会改变. 我通常使用 LWP/Mechanize 等来抓取网站，但都不支持 JavaScript.有什么想法吗? 解决方案另一个选择可能是 Selenium 和 WWW::Selenium 模块 ..

发布时间：2021-12-10 17:59:46 javascript perl web-crawler web-scraping 前端开发

Selenium 等待 Ajax 内容加载 - 通用方法

Selenium 是否有一种通用的方法可以等待所有 ajax 内容加载完毕?(不绑定到特定网站 - 所以它适用于每个 ajax 网站) 解决方案您需要等待 Javascript 和 jQuery 完成加载.执行 Javascript 来检查 jQuery.active 是否为 0 和 document.readyState 是否为 complete，这意味着 JS 和jQuery 加载完 ..

发布时间：2021-12-08 16:35:45 java selenium selenium-webdriver web-crawler Java开发

查找每个 Docker 镜像的层和层大小

出于研究目的，我试图抓取公共 Docker 注册表(https://registry.hub.docker.com/a> ) 并找出 1) 平均图像有多少层以及 2) 这些层的大小以了解分布. 然而我研究了API和公共库以及github上的细节，但我找不到任何方法: 检索所有公共存储库/图像(即使有数千个，我仍然需要一个起始列表来迭代) 查找图像的所有图层找到层的大小(不是图像， ..

发布时间：2021-12-07 12:13:39 docker web-crawler docker-image 其他开发

在 VBA 中解析 HTML 内容

我有一个关于 HTML 解析的问题.我有一个包含一些产品的网站，我想将页面中的文本捕获到我当前的电子表格中.这个电子表格很大，但在第 3 列中包含 ItemNbr，我希望第 14 列中的文本和一行对应一个产品(项目). 我的想法是在网页上获取标签后的 Innertext 内的“材料".id 号从一页到另一页变化(有时). 这是网站的结构: ..

发布时间：2021-12-02 22:46:43 vba parsing excel html-parsing web-crawler 其他开发

如何使用 node.js 抓取包含动态内容的页面?

我试图抓取一个网站，但我没有得到一些元素，因为这些元素是动态创建的. 我在 node.js 中使用了cheerio，我的代码如下. var request = require('request');varcheerio = require('cheerio');var url = "http://www.bdtong.co.kr/index.php?c_category=C02";请求(网 ..

发布时间：2021-12-01 22:29:07 javascript node.js web-crawler phantomjs 前端开发

使用 HttpClient 和 Polly 发送并行请求，但每个主机只有一个，以优雅地处理 429 响应

简介: 我正在构建一个单节点网络爬虫来简单地验证 .NET Core 控制台应用程序中的 URL 是否200 OK.我在不同的主机上有一组 URL，我使用 HttpClient 向这些主机发送请求.我刚开始使用 Polly 和 TPL Dataflow. 要求: 我想支持与一个并行发送多个 HTTP 请求可配置的MaxDegreeOfParallelism. 我想将对任何给定主 ..

发布时间：2021-11-24 13:23:16 c# .net-core web-crawler tpl-dataflow polly C#/.NET

您如何存档整个网站以供离线查看?

实际上，我们已经多次为客户烧毁了我们的 asp.net 网站的静态/存档副本.到目前为止，我们一直在使用 WebZip，但我们遇到了无数的崩溃问题，下载的页面无法正确重新链接，等我们基本上需要一个应用程序来抓取和下载我们 asp.net 网站上所有内容的静态副本(页面、图像、文档、css 等)，然后处理下载的页面，以便它们可以在没有互联网连接的情况下在本地浏览(摆脱链接等中的绝对网址).白 ..

发布时间：2021-11-17 03:15:03 html web-crawler archive 前端开发

如何从另一个网站“抓取"内容

一个朋友问过我这个问题，我无法回答. 他问:我正在制作这个网站，您可以在其中存档您的网站... 它的工作原理是这样的，您输入您的网站，例如 something.com，然后我们的网站会抓取该网站上的内容(如图片)，然后将其上传到我们的网站.然后人们可以在 oursite.com/something.com 上查看该网站的精确副本，即使承载 something.com 的服务器已关闭. ..

发布时间：2021-11-17 03:14:36 web-crawler archive 其他开发

用于抓取网页或调用 API(尤其是 iTunes)的最快服务?

我们需要每天为所有 iOS 应用下载元数据.我们计划通过抓取 iTunes 网站和使用 iTunes 搜索 API 来提取信息.由于有 70 万多个应用程序，我们需要一种有效的方法来做到这一点. 一种方法是在 EC2 上设置一堆脚本并并行运行它们.在我们走上这条道路之前，是否有像 80legs 这样的服务供人们用来完成类似的任务?本质上，我们想要一些东西来帮助我们非常快速地抓取数十万个页面( ..

发布时间：2021-11-15 04:18:29 ios api search-engine web-crawler itunes 移动开发

Apache Nutch REST API

我正在尝试通过 rest api 启动爬网.爬行从注入 url 开始.使用 chrome 开发者工具“Advanced Rest Client"，我正在尝试构建这个 POST 有效负载，但我得到的响应是 400 Bad Request. POST - http://localhost:8081/job/create 有效载荷 {"crawl-id":"crawl-01","类型":" ..

发布时间：2021-11-15 04:12:51 api rest web-crawler nutch 其他开发

用于抓取网页或调用 API(尤其是 iTunes)的最快服务?

我们需要每天为所有 iOS 应用下载元数据.我们计划通过抓取 iTunes 网站和使用 iTunes 搜索 API 来提取信息.由于有 70 万多个应用程序，我们需要一种有效的方法来做到这一点. 一种方法是在 EC2 上设置一堆脚本并并行运行它们.在我们走上这条道路之前，是否有像 80legs 这样的服务供人们用来完成类似的任务?本质上，我们想要一些东西来帮助我们非常快速地抓取数十万个页面( ..

发布时间：2021-11-15 04:02:04 ios api search-engine web-crawler itunes 移动开发

如何使用 oauth2 为网站构建 Python 爬虫

我是网络编程新手.我想构建一个爬虫，用于通过 Python 爬取 Foursquare 中的社交图.我通过使用 apiv2 库获得了一个“手动"控制的爬虫.主要方法如下: def main():代码 = "******"url = "https://foursquare.com/oauth2/authenticate?client_id=****&response_type=code&redir ..

发布时间：2021-11-15 02:26:54 python api oauth-2.0 web-crawler foursquare Python

无论如何，目前是否可以在没有身份验证的情况下获取 Instagram 用户媒体?

直到最近，有多种方法可以在不需要 API 身份验证的情况下检索 Instagram 用户媒体.但显然，该网站阻止了所有这些. 一些旧方法: https://api.instagram.com/v1/users/user-id/media/recent/ https://www.instagram.com/user-id/media https://www.instagram ..

发布时间：2021-11-15 01:01:24 api web-crawler instagram 其他开发

StormCrawler 无法连接到 ElasticSearch

运行命令时: storm jar target/crawlIndexer-1.0-SNAPSHOT.jar org.apache.storm.flux.Flux --local es-injector.flux --sleep 86400000 我收到一条错误消息: 8710 [Thread-26-status-executor[4 4]] 错误 c.d.s.e.p.StatusUpdate ..

发布时间：2021-11-14 23:43:11 java elasticsearch web-crawler apache-storm stormcrawler Java开发

StormCrawler 无法连接到 ElasticSearch

运行命令时: storm jar target/crawlIndexer-1.0-SNAPSHOT.jar org.apache.storm.flux.Flux --local es-injector.flux --sleep 86400000 我收到一条错误消息: 8710 [Thread-26-status-executor[4 4]] 错误 c.d.s.e.p.StatusUpdate ..

发布时间：2021-11-14 23:42:59 java elasticsearch web-crawler apache-storm stormcrawler Java开发

在本地模式下运行 StormCrawler 还是安装 Apache Storm?

所以我想弄清楚如何使用 ES 和 Kibana 安装和设置 Storm/Stormcrawler，如此处. 我从来没有在我的本地机器上安装过 Storm，因为我以前用过 Nutch，而且我从来没有在本地安装过 Hadoop……我认为 Storm 可能也一样(也许不是?). 我现在想开始用 Stormcrawler 而不是 Nutch 爬行. 看来，如果我只是下载一个版本并将/b ..

发布时间：2021-11-14 23:39:09 web-crawler apache-storm stormcrawler 其他开发

使用 Nutch 重新抓取 URL 仅用于更新的站点

我使用 Nutch 2.1 抓取了一个 URL，然后我想在页面更新后重新抓取它们.我怎样才能做到这一点?我如何知道页面已更新? 解决方案你根本做不到.您需要重新抓取页面以控制它是否已更新.因此，根据您的需要，对页面/域进行优先级排序并在一段时间内重新抓取它们.为此，您需要一个作业调度程序，例如 Quartz. 您需要编写一个比较页面的函数.但是，Nutch 最初将页面保存为索引文件 ..

发布时间：2021-11-11 06:03:34 apache solr lucene nutch web-crawler 服务器开发

使用 htaccess apache 重定向所有机器人

我应该使用什么 .htaccess rewriterule 来检测已知的机器人，例如大型机器人: altavista、谷歌、必应、雅虎我知道我可以检查他们的 ip 或主机，但有没有更好的方法? 解决方案 RewriteCond %{HTTP_USER_AGENT} AltaVista [OR]RewriteCond %{HTTP_USER_AGENT} Googlebot [ ..

发布时间：2021-11-11 05:26:02 apache .htaccess bots web-crawler 服务器开发

Apache HTTPClient 抛出 java.net.SocketException:许多域的连接重置

我正在创建一个(表现良好的)网络蜘蛛，我注意到一些服务器导致 Apache HttpClient 给我一个 SocketException —— 特别是: java.net.SocketException:连接重置导致这种情况的代码是: //执行请求HttpResponse 响应；尝试 {响应 = httpclient.execute(httpget);//httpclient 是 Htt ..

发布时间：2021-11-11 05:25:36 java apache sockets web-crawler httpclient Java开发

web-crawler相关内容