web-crawler相关内容

扫描网站内容(快速)

我在一个数据库中有数千个网站,我想在所有网站中搜索特定的字符串。做这件事最快的方法是什么?我认为我应该先获取每个网站的内容--这就是我的做法: import urllib2, re string = "search string" source = urllib2.urlopen("http://website1.com").read() if re.search(word,source): ..
发布时间:2022-08-02 15:08:28 Python

木偶中的页面cookie不适用于保持登录

我要在https://web.whatsapp.com上制作Web刮板 向我的客户发送消息 我想保存我的登录信息以备下次使用,这样就不需要重新扫描二维码了 我知道我必须保存cookie以备下次使用。 扫描QR并登录到我的帐户后,我在Google Chrome开发工具、应用程序选项卡和Cookie部分看到Cookie,但page.cookie为空并返回[] 我尝试使用示例代码将cookie存储在文件 ..
发布时间:2022-03-11 18:14:56 其他开发

允许在Puppeteer中的所有站点上运行Flash

免责声明:我知道Flash将在2020年底被抛弃,但我不能放弃这个案例,需要在木偶中安装Flash,尽管我也不喜欢这样。 我需要爬行某些闪存网站,并采取他们的屏幕截图,为以后的编程比较。我可以提供需要检查的域的有限列表(尽管列表可能会随时间变化,因此能够以某种方式在运行时加载它们将是很棒的)。 我在网上寻找解决方案已经有一段时间了,我在SA问题上得到的最接近的问题是:how to ad ..
发布时间:2022-03-11 17:58:55 前端开发

用于使用窗体身份验证绕过警报消息的scrapy

Scrapy是否可以爬网警报消息? 链接(例如http://domainhere/admin)加载到实际浏览器后,会显示一条带有表单的警告消息,用于填写用户名和密码。 或者是否有办法检查警报消息中的表单,以了解要填写哪些参数? PS:我确实有此网站的凭据,我只想通过Web爬网自动执行流程。 谢谢。 推荐答案 我通过执行以下操作实现了这一点: 已观察到在身份 ..
发布时间:2022-02-25 10:39:52 Python

查找API端点的方法

API探索 虽然有几个问题涉及到这个主题,但我所能找到的问题没有一个能解决我试图理解的核心概念 如果知道API根结构,让我们想象力地说http://stackoverflow.com/api/service/,我们可以成功地从已知端点检索结果,比如说http://stackoverflow.com/api/service/answers/?id=39234,是否有任何编程或其他方法来标 ..
发布时间:2022-02-25 10:36:55 其他开发

NodeJS网络抓取-形式深渊翻滚

我正在尝试使用X光来做以下事情,我不太熟悉网络刮削,我正在寻找一种适合我使用的技术。 浏览页面,在其中分配特定表单,设置一些变量,然后提交。 然后转到另一个页面,依此类推. 带示例和文档的基于NodeJS的最佳解决方案是什么? 谢谢。 推荐答案 有许多为Web抓取创建的节点模块。 其中一些是: cheerio osmosis x-ray noodlejs ..
发布时间:2022-02-25 10:34:54 其他开发

如何构建Etherscan网络大楼?

我正在构建一个网络爬行器,它每隔30秒不断刷新一批以太扫描URL,如果发生了任何未考虑在内的新传输,它会向我发送电子邮件通知和指向以太扫描上相关地址的链接,以便我可以手动检查它们。 我想要跟踪的地址之一在这里: https://etherscan.io/token/0xd6a55c63865affd67e2fb9f284f87b7a9e5ff3bd?a=0xd071f6e384cf27 ..

非常简单的C++网络爬虫/爬行器?

我正在尝试用C++做一个非常简单的网络爬虫/蜘蛛应用程序。我一直在用谷歌搜索一种简单的方式来理解这个概念。我发现了这个: spider_simpleCrawler 但是,这对我来说很难理解,因为我大约在一个月前开始学习C++。 例如,我正在尝试执行以下操作: 输入URL:www.example.com(我将使用bash->;wget,获取内容/源代码), 可能要查 ..
发布时间:2022-02-25 10:31:37 C/C++开发

如何通过任何爬虫php获取悬停数据(ajax)

我正在抓取一个网站的数据.我能够在一个页面上完整的内容.但是页面上的一些数据是在悬停在一些图标上并显示为工具提示之后出现的.所以我也需要这些数据.是否可以使用任何爬虫. 我正在使用 PHP 和 simplehtmldom 来解析/抓取页面. 解决方案 任何爬虫都无法获取悬停数据. 爬虫爬取网页并获取整个数据(HTML 页面源).这是我们只要点击 URL 就可以查看的视图.悬停需 ..
发布时间:2022-01-22 22:46:50 PHP

jquery中查找和过滤的区别

我正在从 wiki 页面获取数据.我正在使用 php 和 jquery 的组合来执行此操作.首先,我在 php 中使用 curl 来获取页面内容并回显内容.文件名是 content.php: $url = $_GET['url'];$url = 修剪($url," ");$url = urldecode($url);$url = str_replace(" ","%20",$url);echo ..
发布时间:2022-01-20 16:39:28 其他开发

爬取 Google Play 商店

我想抓取 Google Play 商店以下载所有 android 应用程序的网页(所有具有以下基本 url 的网页:https://play.google.com/store/apps/).我检查了 play store 的 robots.txt 文件,它不允许抓取这些 URL. 另外,当我浏览 Google Play 商店时,我只能看到每个类别最多 3 页的热门应用程序.如何获取其他应用页 ..
发布时间:2022-01-20 09:45:37 移动开发

对与 Lucene 或 Solr 一起使用的爬虫工具的建议?

对于 HTML 和 XML 文档(本地或基于 Web)并在 Lucene/Solr 解决方案空间中运行良好的爬虫(蜘蛛)是什么?可以是基于 Java 的,但不是必须的. 解决方案 在我看来,这是一个非常重要的漏洞,它阻碍了 Solr 的广泛采用.新的 DataImportHandler 是导入结构化数据的良好第一步,但 Solr 没有一个好的文档摄取管道.Nutch 确实有效,但是 Nut ..
发布时间:2022-01-15 13:14:23 其他开发

Lucene爬虫(需要建立lucene索引)

如果可能的话,我正在寻找用 java 或任何其他语言编写的 Apache Lucene 网络爬虫.爬虫必须使用lucene并创建有效的lucene索引和文档文件,所以这就是nutch被淘汰的原因例如... 有谁知道这样的网络爬虫存在吗?如果答案是肯定的,我可以在哪里找到它.天呐…… 解决方案 你要问的是两个组件: 网络爬虫 基于 Lucene 的自动索引器 首先要说一句 ..
发布时间:2022-01-15 12:45:48 Java开发

用于系统测试的自动链接检查器

我经常需要处理脆弱的旧网站,这些网站在更新逻辑或配置时会以意想不到的方式中断. 我没有创建 Selenium 脚本所需的时间或系统知识.此外,我不想检查特定的用例——我想验证网站上的每个链接和页面. 我想创建一个自动系统测试,它会爬取网站并检查是否存在损坏的链接和崩溃.理想情况下,我可以使用一个工具来实现这一点.它应该具有尽可能多的以下功能,按优先级降序排列: 通过脚本触发 不 ..
发布时间:2022-01-14 17:24:32 其他开发

抓取网站并仅返回 URL

我正在寻找一种对网站进行伪蜘蛛化的方法.关键是我实际上并不想要内容,而是一个简单的 URI 列表.我可以通过 Wget 使用 --spider 来合理地接近这个想法code> 选项,但是当通过 grep 管道输出时,我似乎找不到正确的魔法来使它工作: wget --spider --force-html -r -l1 http://somesite.com |grep '保存到:' grep ..
发布时间:2022-01-06 13:21:44 其他开发