web-crawler相关内容

是否有任何 Python 模块可以帮助从 Javascript 加载的 DOM 中抓取数据?

我想从使用 Ajax 调用加载 DOM 元素的页面中抓取数据. 我尝试过旧的基于 PyQt4 的抓取解决方案,它在完全加载后加载 DOM,但问题是我需要做一个 POST 请求,它只能用于 GET. 新的 Python 模块 ghost.py 存在超时问题:当它获取大型 DOM 树时它引发超时异常. 如果有人知道任何可以帮助我执行 POST 请求并在 DOM 完全加载后获取数据的特 ..
发布时间:2021-09-22 20:29:29 Python

php爬虫检测

我正在尝试编写一个 sitemap.php,它的行为取决于正在查找的人. 我想将爬虫重定向到我的 sitemap.xml,因为这将是最新的页面并且将包含他们需要的所有信息,但我希望我的普通读者在 php 页面上显示一个 html 站点地图. 这都将在 php 标头中进行控制,我发现 这段代码在网络上看起来应该可以工作,但事实并非如此.谁能帮我破解这个? function getIsCra ..
发布时间:2021-09-22 20:29:26 PHP

如何在 selenium 中右键单击并单击将图像另存为 python

我正在尝试用鼠标右键单击,然后在 selenium python 中单击另存为图像.我能够使用以下方法执行右键单击,但是执行右键单击的下一个操作不再起作用.我该如何解决这个问题? from selenium.webdriver import ActionChains从 selenium.webdriver.common.keys 导入密钥从硒导入网络驱动程序driver.get(url)# 获取 ..
发布时间:2021-09-22 20:29:20 Python

爬取需要认证的网站

我将如何编写一个登录到 okcupid 并统计我每天收到多少条消息? 输出将类似于: 1/21/2011 1 条消息1/22/2011 0 消息2011/1/23 2 条消息1/24/2011 1 条消息 主要问题是我以前从未写过网络爬虫.我不知道如何以编程方式登录到像 okcupid 这样的网站.如何在加载不同页面时保持身份验证?等等. 一旦我可以访问原始 HTML,我就可以通过 ..
发布时间:2021-09-22 20:29:17 其他开发

制作网络爬虫/蜘蛛

我正在考虑制作网络爬虫/蜘蛛,但我需要有人为我指明正确的方向才能开始. 基本上,我的蜘蛛将搜索音频文件并将它们编入索引. 我只是想知道是否有人对我应该如何做有任何想法.我听说用 PHP 完成它会非常慢.我知道 vb.net 那么它可以派上用场吗? 我正在考虑使用 Google 的文件类型搜索来获取要抓取的链接.可以吗? 解决方案 在 VB.NET 中,您需要先获取 HTM ..
发布时间:2021-09-22 20:29:14 其他开发

使用 Selenium 抓取 iframe

我想抓取网站中的广告,但其中很多都是动态的,而且是 DOM 对象.例如在这个片段 我可以通过 Selenium 获取 iframe 标签,但我不能再进一步了.我认为这是因为 XPATH.在这种情况下,iframe 内 的 XPATH 是 /html,与主页 相同. 这是使用的代码行: element = WebDriverWait(self.driver,20).until(EC.p ..
发布时间:2021-09-22 20:29:11 其他开发

避免 Google Scholar 阻止抓取

我使用以下 python 脚本从 python 中抓取谷歌学者: 导入urllibfilehandle = urllib.urlopen('http://www.techyupdates.blogspot.com')对于 filehandle.readlines() 中的行:印刷线文件句柄.close() 但我反复这样做所以我被网站谷歌学者阻止说: 当 Google 自动检测到来自您的计 ..
发布时间:2021-09-22 20:29:07 Python

NodeJS Web Scraping - 表单提交

我正在尝试使用 X-Ray 来执行以下操作,我不熟悉网络刮削,我正在寻找适合我使用的技术. 浏览到一个页面,在其中分配一个特定的表单,设置一些变量,然后提交.然后获取另一个页面,依此类推... 带有示例和文档的基于 NodeJS 的最佳解决方案是什么? 谢谢. 解决方案 为网页抓取创建了许多 Node 模块. 其中一些是: cheerio 渗透 x 射线 ..
发布时间:2021-09-22 20:29:04 其他开发

如何逐步在 Python Selenium 中向下滚动

大家好,我是 Selenium 和 Python 的新手.我只是在抓取网站 pagalguy 网站.我知道如何向下滚动到页面底部,但我需要的是逐步向下滚动,以便 Selenium 将单击所有阅读按钮,但我不知道如何像这样一步一步向下滚动我硬编码如下 browser.execute_script("window.scrollTo(0,300);")browser.find_element_by_l ..
发布时间:2021-09-22 20:29:01 Python

关于如何抓取 __doPostBack('...'); 后面的页面的任何想法?

我正在研究这个基于 php 的刮板/爬虫,它工作正常,直到它获得 .net 生成的 herf 链接 __doPostBack(...),知道如何处理这个问题并抓取这些链接后面的页面吗? 解决方案 与其尝试自动单击 JavaScript 按钮(这需要 PHP 中的其他库),不如尝试复制单击按钮后浏览器发送的请求.有各种 firefox 扩展可以帮助您检查请求,例如 TamperData、Fi ..
发布时间:2021-09-22 20:28:59 PHP

防止我的 PHP Web Crawler 停止运行

我正在使用 PHPCrawl 类并添加了一些 DOMDocument 和 DOMXpath 代码以从网页中获取特定数据,但是脚本在它甚至接近抓取整个网站之前就停止了. 我已将 set_time_limit 设置为 100000000,所以这应该不是问题. 有什么想法吗? 谢谢,尼克 发布时间:".$output['time_stamp'] ."经过 " .$output['us ..
发布时间:2021-09-22 20:28:56 PHP

是否有适用于 PHP 或 Ruby 的网络爬虫库?

是否有适用于 PHP 或 Ruby 的网络爬虫库?一个可以深度优先或广度优先的库......即使在使用 href="../relative_path.html" 和基本 url 时也能处理链接. 解决方案 查看此页面以获取 Ruby 库:Ruby机械化 我想提一下,您仍需对您的抓取工具遍历网站的方式负责. ..
发布时间:2021-09-22 20:28:53 PHP

使用 R 进行网页抓取

我在从网站抓取数据时遇到了一些问题.首先,我对网页抓取没有很多经验......我的计划是使用 R 从以下网站抓取一些数据:http://spiderbook.com/company/17495/details?rel=300795 特别是,我想提取本网站文章的链接. 我目前的想法: xmltext 但这并没有带来预期的信息.在这里非常感谢一些帮助!谢谢! 最好的克里斯托夫 ..
发布时间:2021-09-22 20:28:50 其他开发

构建网络爬虫 - 使用 Webkit 包

我正在尝试构建一个网络爬虫. 我需要两件事: 将 HTML 转换为 DOM 对象. 按需执行现有 JavaScript. 我期望的结果是一个 DOM 对象,其中执行加载的 JavaScript 已经执行. 此外,我需要一个选项来按需执行额外的 JavaScript(在诸如 onMouseOver、onMouseClick 等事件上)首先,我找不到好的文档来源. 我搜索了 Webki ..
发布时间:2021-09-22 20:28:47 前端开发

多线程处理?

当我尝试使我的脚本多线程时, 我发现了多处理, 我想知道是否有办法使多处理与线程一起工作? cpu 1 -> 3 个线程(工人 A、B、C) cpu 2 -> 3 个线程(worker D、E、F) ... 我正在尝试自己做,但遇到了很多问题. 有没有办法让这两者协同工作? 解决方案 您可以生成多个 Processes,然后从它们内部生成 Threads. ..
发布时间:2021-09-22 20:28:44 Python

php crawl - 启用 javascript

Bonjour,有谁知道一种创建蜘蛛的方法,就像启用了 javascript 一样? PHP 代码: file_get_contents("http://www.google.co.uk/search?hl=en&q=".$keyword."&start=".($x*10)."&;sa=N") 它将检索该页面的输出.如果你用过,PHP代码: file_get_contents("htt ..
发布时间:2021-09-22 20:28:42 PHP

在 Python 中进行 Web 爬网的最佳预构建库是什么

我需要在本地抓取和存储有限网站列表的内容,以供将来分析.我基本上想浏览所有页面并跟踪所有内部链接以获取整个公开网站. 是否有现有的免费图书馆可以让我到达那里?我见过奇尔卡特,但它是为了报酬.我只是在这里寻找基线功能.想法?建议? 完全重复:有人知道我可以使用的基于 Python 的优秀网络爬虫吗? 解决方案 使用 Scrapy. 它是一个基于扭曲的网络爬虫框架.仍在大力开 ..
发布时间:2021-09-22 20:28:39 Python

如何最好地开发网络爬虫

我习惯于创建一些爬虫来编译信息,当我来到一个网站时,我需要这些信息,我启动了一个特定于该站点的新爬虫,大部分时间使用 shell 脚本,有时使用 PHP. 我的做法是用一个简单的for来迭代页面列表,一个wget下载它并sed,tr、awk 或其他实用程序来清理页面并获取我需要的特定信息. 所有过程都需要一些时间,具体取决于站点,下载所有页面需要更多时间.我经常进入一个让一切都复杂化的 ..
发布时间:2021-09-22 20:28:36 其他开发

相当于Python中的wget下载网站和资源

2.5 年前在 在 Python 中下载网页及其所有资源文件,但没有得到答案,并且“请参阅相关主题"并不是真正在问同样的事情. 我想下载页面上的所有内容,以便仅从文件中查看. 命令 wget --page-requisites --domains=DOMAIN --no-parent --html-extension --convert-links --restrict-file ..
发布时间:2021-09-22 20:28:33 Python