web-crawler 第8页 - IT屋-程序员软件开发技术分享社区

是否有任何 Python 模块可以帮助从 Javascript 加载的 DOM 中抓取数据?

我想从使用 Ajax 调用加载 DOM 元素的页面中抓取数据. 我尝试过旧的基于 PyQt4 的抓取解决方案，它在完全加载后加载 DOM，但问题是我需要做一个 POST 请求，它只能用于 GET. 新的 Python 模块 ghost.py 存在超时问题:当它获取大型 DOM 树时它引发超时异常. 如果有人知道任何可以帮助我执行 POST 请求并在 DOM 完全加载后获取数据的特 ..

发布时间：2021-09-22 20:29:29 python web-crawler web-scraping Python

php爬虫检测

我正在尝试编写一个 sitemap.php，它的行为取决于正在查找的人. 我想将爬虫重定向到我的 sitemap.xml，因为这将是最新的页面并且将包含他们需要的所有信息，但我希望我的普通读者在 php 页面上显示一个 html 站点地图. 这都将在 php 标头中进行控制，我发现这段代码在网络上看起来应该可以工作，但事实并非如此.谁能帮我破解这个? function getIsCra ..

发布时间：2021-09-22 20:29:26 php web-crawler PHP

有什么方法可以告诉 selenium 在某些时候不执行 js?

我想抓取一个由 js 生成的内容的网站.该站点每 5 秒运行一次 js 更新内容(请求新的加密 js 文件，无法解析). 我的代码: from selenium import webdriver驱动程序 = webdriver.PhantomJS()driver.set_window_size(1120, 550)driver.get(url)trs = driver.find_eleme ..

发布时间：2021-09-22 20:29:23 python selenium web-crawler Python

如何在 selenium 中右键单击并单击将图像另存为 python

我正在尝试用鼠标右键单击，然后在 selenium python 中单击另存为图像.我能够使用以下方法执行右键单击，但是执行右键单击的下一个操作不再起作用.我该如何解决这个问题? from selenium.webdriver import ActionChains从 selenium.webdriver.common.keys 导入密钥从硒导入网络驱动程序driver.get(url)# 获取 ..

发布时间：2021-09-22 20:29:20 python selenium web-crawler Python

爬取需要认证的网站

我将如何编写一个登录到 okcupid 并统计我每天收到多少条消息? 输出将类似于: 1/21/2011 1 条消息1/22/2011 0 消息2011/1/23 2 条消息1/24/2011 1 条消息主要问题是我以前从未写过网络爬虫.我不知道如何以编程方式登录到像 okcupid 这样的网站.如何在加载不同页面时保持身份验证?等等. 一旦我可以访问原始 HTML，我就可以通过 ..

发布时间：2021-09-22 20:29:17 web-crawler 其他开发

制作网络爬虫/蜘蛛

我正在考虑制作网络爬虫/蜘蛛，但我需要有人为我指明正确的方向才能开始. 基本上，我的蜘蛛将搜索音频文件并将它们编入索引. 我只是想知道是否有人对我应该如何做有任何想法.我听说用 PHP 完成它会非常慢.我知道 vb.net 那么它可以派上用场吗? 我正在考虑使用 Google 的文件类型搜索来获取要抓取的链接.可以吗? 解决方案在 VB.NET 中，您需要先获取 HTM ..

发布时间：2021-09-22 20:29:14 web-crawler 其他开发

使用 Selenium 抓取 iframe

我想抓取网站中的广告，但其中很多都是动态的，而且是 DOM 对象.例如在这个片段我可以通过 Selenium 获取 iframe 标签，但我不能再进一步了.我认为这是因为 XPATH.在这种情况下，iframe 内的 XPATH 是 /html，与主页相同. 这是使用的代码行: element = WebDriverWait(self.driver,20).until(EC.p ..

发布时间：2021-09-22 20:29:11 selenium web-scraping scrapy web-crawler scrapy-spider 其他开发

避免 Google Scholar 阻止抓取

我使用以下 python 脚本从 python 中抓取谷歌学者: 导入urllibfilehandle = urllib.urlopen('http://www.techyupdates.blogspot.com')对于 filehandle.readlines() 中的行:印刷线文件句柄.close() 但我反复这样做所以我被网站谷歌学者阻止说: 当 Google 自动检测到来自您的计 ..

发布时间：2021-09-22 20:29:07 python web-crawler Python

NodeJS Web Scraping - 表单提交

我正在尝试使用 X-Ray 来执行以下操作，我不熟悉网络刮削，我正在寻找适合我使用的技术. 浏览到一个页面，在其中分配一个特定的表单，设置一些变量，然后提交.然后获取另一个页面，依此类推... 带有示例和文档的基于 NodeJS 的最佳解决方案是什么? 谢谢. 解决方案为网页抓取创建了许多 Node 模块. 其中一些是: cheerio 渗透 x 射线 ..

发布时间：2021-09-22 20:29:04 node.js web-scraping web-crawler 其他开发

如何逐步在 Python Selenium 中向下滚动

大家好，我是 Selenium 和 Python 的新手.我只是在抓取网站 pagalguy 网站.我知道如何向下滚动到页面底部，但我需要的是逐步向下滚动，以便 Selenium 将单击所有阅读按钮，但我不知道如何像这样一步一步向下滚动我硬编码如下 browser.execute_script("window.scrollTo(0,300);")browser.find_element_by_l ..

发布时间：2021-09-22 20:29:01 python python-3.x selenium web-scraping web-crawler Python

关于如何抓取 __doPostBack('...'); 后面的页面的任何想法?

我正在研究这个基于 php 的刮板/爬虫，它工作正常，直到它获得 .net 生成的 herf 链接 __doPostBack(...)，知道如何处理这个问题并抓取这些链接后面的页面吗? 解决方案与其尝试自动单击 JavaScript 按钮(这需要 PHP 中的其他库)，不如尝试复制单击按钮后浏览器发送的请求.有各种 firefox 扩展可以帮助您检查请求，例如 TamperData、Fi ..

发布时间：2021-09-22 20:28:59 php web-scraping web-crawler PHP

防止我的 PHP Web Crawler 停止运行

我正在使用 PHPCrawl 类并添加了一些 DOMDocument 和 DOMXpath 代码以从网页中获取特定数据，但是脚本在它甚至接近抓取整个网站之前就停止了. 我已将 set_time_limit 设置为 100000000，所以这应该不是问题. 有什么想法吗? 谢谢，尼克发布时间:".$output['time_stamp'] ."经过 " .$output['us ..

发布时间：2021-09-22 20:28:56 php web-crawler PHP

是否有适用于 PHP 或 Ruby 的网络爬虫库?

是否有适用于 PHP 或 Ruby 的网络爬虫库?一个可以深度优先或广度优先的库......即使在使用 href="../relative_path.html" 和基本 url 时也能处理链接. 解决方案查看此页面以获取 Ruby 库:Ruby机械化我想提一下，您仍需对您的抓取工具遍历网站的方式负责. ..

发布时间：2021-09-22 20:28:53 php ruby web-crawler PHP

使用 R 进行网页抓取

我在从网站抓取数据时遇到了一些问题.首先，我对网页抓取没有很多经验......我的计划是使用 R 从以下网站抓取一些数据:http://spiderbook.com/company/17495/details?rel=300795 特别是，我想提取本网站文章的链接. 我目前的想法: xmltext 但这并没有带来预期的信息.在这里非常感谢一些帮助！谢谢！最好的克里斯托夫 ..

发布时间：2021-09-22 20:28:50 r web-scraping web-crawler 其他开发

构建网络爬虫 - 使用 Webkit 包

我正在尝试构建一个网络爬虫. 我需要两件事: 将 HTML 转换为 DOM 对象. 按需执行现有 JavaScript. 我期望的结果是一个 DOM 对象，其中执行加载的 JavaScript 已经执行. 此外，我需要一个选项来按需执行额外的 JavaScript(在诸如 onMouseOver、onMouseClick 等事件上)首先，我找不到好的文档来源. 我搜索了 Webki ..

发布时间：2021-09-22 20:28:47 webkit web-crawler javascript dom-manipulation 前端开发

多线程处理?

当我尝试使我的脚本多线程时，我发现了多处理，我想知道是否有办法使多处理与线程一起工作? cpu 1 -> 3 个线程(工人 A、B、C) cpu 2 -> 3 个线程(worker D、E、F) ... 我正在尝试自己做，但遇到了很多问题. 有没有办法让这两者协同工作? 解决方案您可以生成多个 Processes，然后从它们内部生成 Threads. ..

发布时间：2021-09-22 20:28:44 python python-3.x web-crawler Python

php crawl - 启用 javascript

Bonjour，有谁知道一种创建蜘蛛的方法，就像启用了 javascript 一样? PHP 代码: file_get_contents("http://www.google.co.uk/search?hl=en&q=".$keyword."&start=".($x*10)."&;sa=N") 它将检索该页面的输出.如果你用过，PHP代码: file_get_contents("htt ..

发布时间：2021-09-22 20:28:42 php web-crawler PHP

在 Python 中进行 Web 爬网的最佳预构建库是什么

我需要在本地抓取和存储有限网站列表的内容，以供将来分析.我基本上想浏览所有页面并跟踪所有内部链接以获取整个公开网站. 是否有现有的免费图书馆可以让我到达那里?我见过奇尔卡特，但它是为了报酬.我只是在这里寻找基线功能.想法?建议? 完全重复:有人知道我可以使用的基于 Python 的优秀网络爬虫吗? 解决方案使用 Scrapy. 它是一个基于扭曲的网络爬虫框架.仍在大力开 ..

发布时间：2021-09-22 20:28:39 python web-crawler Python

如何最好地开发网络爬虫

我习惯于创建一些爬虫来编译信息，当我来到一个网站时，我需要这些信息，我启动了一个特定于该站点的新爬虫，大部分时间使用 shell 脚本，有时使用 PHP. 我的做法是用一个简单的for来迭代页面列表，一个wget下载它并sed，tr、awk 或其他实用程序来清理页面并获取我需要的特定信息. 所有过程都需要一些时间，具体取决于站点，下载所有页面需要更多时间.我经常进入一个让一切都复杂化的 ..

发布时间：2021-09-22 20:28:36 web-crawler 其他开发

相当于Python中的wget下载网站和资源

2.5 年前在在 Python 中下载网页及其所有资源文件，但没有得到答案，并且“请参阅相关主题"并不是真正在问同样的事情. 我想下载页面上的所有内容，以便仅从文件中查看. 命令 wget --page-requisites --domains=DOMAIN --no-parent --html-extension --convert-links --restrict-file ..

发布时间：2021-09-22 20:28:33 python web-crawler wget Python

web-crawler相关内容