screen-scraping相关内容

计算 Twitter 上特定单词的结果数

为了推进我的一个个人项目,我一直在思考如何计算 Twitter 上用户指定单词的结果数量.我已经广泛地使用了他们的 API,但一直无法想出一种有效的甚至半实用的方法来计算特定单词的出现次数.实际结果并不重要,只是总体计数.我会一直挠头.任何想法或方向将不胜感激. 例如http://search.twitter.com/search?q=tomatoes 解决方案 我可以回去大约一周. ..
发布时间:2021-11-15 00:52:14 C#/.NET

像 kayak.com 这样的网站如何聚合内容?

您好,我一直在琢磨一个新项目的想法,想知道是否有人知道像 Kayak.com 这样的服务如何能够如此快速准确地聚合来自这么多来源的数据.更具体地说,您认为 Kayak.com 是在与 API 交互,还是他们正在抓取/抓取航空公司和酒店网站以满足用户请求?我知道这类事情没有一个正确的答案,但我很想知道其他人认为什么是解决这个问题的好方法.如果有帮助,假设您明天要创建 kayak.com ...... ..
发布时间:2021-11-15 00:41:33 其他开发

从网站上抓取数据的最佳方式是什么?

我需要从网站中提取内容,但该应用程序不提供任何应用程序编程接口或其他机制来以编程方式访问该数据. 我发现了一个名为 Import.io 的有用的第三方工具,它提供了用于抓取网页和构建数据集的点击即走功能,唯一的问题是我想将我的数据保存在本地,而且我不想订阅任何订阅计划. 这家公司使用什么样的技术来抓取网页和构建他们的数据集?我发现了一些网页抓取框架 pjscrape &Scrapy他们 ..
发布时间:2021-11-15 00:27:39 其他开发

网页抓取实时更改数据

我对网页抓取还很陌生.静态内容很容易,但我想知道是否有办法抓取这样的网站:https://threatmap.checkpoint.com/ 我需要从该站点抓取所有实时攻击.但我什至不知道如何开始. 解决方案 有时您根本不需要抓取. 但要深入了解机制. 本网站使用内置的浏览器提取API. 你只需要从这个来源解码: https://threatmap-api.check ..
发布时间:2021-09-22 19:52:57 前端开发

屏幕抓取使用 javaScript 和框架的网页

我想从 www.marktplaats.nl 抓取数据.我想在 Excel/Access 中分析抓取的描述、价格、日期和视图. 我尝试用 Ruby(nokogiri、scrapi)抓取数据,但没有任何效果.(在其他网站上它运行良好)主要问题是例如 selectorgadget 和附加萤火虫 (Firefox) 找不到任何可用于抓取页面的 css.在其他站点上,我可以使用 selectorga ..
发布时间:2021-07-17 18:45:59 前端开发

使用 excel 和 VBA 进行网页抓取

我在 excel 表中编写了我的 VBA 代码,如下所示,但它不是为我抓取数据,而且我不知道为什么请任何人帮助我.它让我感到“点击她阅读更多",只是我想抓取所有数据,例如名字姓氏州邮政编码等 子提取表数据()Dim IE As Object, obj As Object将 myState 调暗为字符串Dim r As Integer, c As Integer, t As IntegerDim ..
发布时间:2021-07-17 18:45:56 其他开发

使用 Libreoffice Basic 读取 HTML 页面

我是 LibreOffice Basic 的新手.我正在尝试在 LibreOffice Calc 中编写一个宏,该宏将从一个单元格(例如 Stark)中读取一个高贵的维斯特洛家族的名称,并通过在 冰与火维基上的相关页面.它应该像这样工作: 这是伪代码: 从 A 列读取 HouseName在“http://www.awoiaf.westeros.org/index.php/House_"上打 ..

来自网址列表的电子邮件抓取工具

我正在尝试构建什么 在 Sheet1 列 A row2 下到 x 行,将有一个网站 URL 列表.我需要代码来浏览 url 并找到电话号码和电子邮件并将它们放在 url 旁边的 B + C 列中,如果没有找到,请在单元格中放置一个连字符. 我几乎已经开始工作了.代码循环遍历 Sheet1 列 A 中的 URL 列表并提取电话号码和电子邮件,将它们放入列 B 和 C.我编写的当前代码只有 ..
发布时间:2021-07-17 18:45:51 其他开发

如何使用SELENIUM PYTHON填写亚马逊付款方式

这是我代码的一部分,在这里我点击“添加信用卡或借记卡"并切换框架,因为我将继续填写表格但出现此错误: selenium.common.exceptions.NoSuchElementException:消息:没有这样的元素:无法定位元素:{“方法":“xpath",“选择器":“//*[@id="pp-QqmNYT-14"]"} 这是我的代码部分: self.__driver.find_el ..
发布时间:2021-07-17 18:45:47 其他开发

simple_html_dom.php

我正在使用“simple_html_dom.php"从维基百科站点中抓取数据.如果我在 scraperwiki.com 中运行代码,它会抛出一个错误为 exit status 139 并且如果运行我的 xampp 服务器中的相同代码,服务器挂起. 我有一组链接 我正在尝试从所有网站获得扫盲价值 如果我用一个链接运行代码,就没有问题,它会返回预期的结果 如果我尝试一次性从所有站点获取数据 ..
发布时间:2021-07-17 18:45:41 PHP

从使用 javascript 的网站抓取数据

我目前正在开发一个检查大学课程可用性的程序,但该网站使用 JavaScript 来显示课程及其时间.使用 Java,我正在抓取这些数据并使用它来告诉用户何时打开类. 我尝试过使用 Selenium,但我真的不知道如何很好地使用它.有没有更简单的方法来做到这一点? 解决方案 没有具体就很难知道.但是我假设如果数据在加载时不在页面中,他们可能会使用 AJAX 来加载它. 正如我所说 ..
发布时间:2021-07-17 18:45:40 Java开发

在 Visual Basic 中监视特定颜色的屏幕区域

我正在设计一个播放器应用程序来配合我们的电话系统.当我们的呼叫者接听电话时,它会记录每个电话.他们可以转到列表模块,找到录音并双击打开我的播放器.我遇到的问题是,如果呼叫者接到另一个电话,我的播放器不知道并且会继续玩.我正在寻找一种方法来监控特定区域的屏幕,当它看到黄色或红色而不是蓝色时,它会暂停我的播放器. 电话系统没有任何可以连接的 API,所以我必须以另一种方式尝试. 屏幕分辨率 ..
发布时间:2021-07-17 18:45:33 其他开发

是否允许 Web 开发人员抓取 html 内容?

我想从几个网站上抓取 html 内容,然后在我的网站上以一种混搭形式查看它们.我也会参考并链接到它们! 谢谢 解决方案 继续做,但检查他们的 robots.txt 并确保他们在遇到问题时可以联系您.大多数人会很高兴从您的混搭中获得流量.无论如何,他们有责任要求您不要这样做. ..
发布时间:2021-07-17 18:45:20 其他开发

在 Visual Basic 中使用 GetPixel/GetDC 发生内存泄漏

我有一个计时器,可以检查屏幕上的 5 个点是否有颜色变化.我的程序监视电话系统应用程序并检查是否有来自 5 个按钮中的任何一个的新来电.我正在根据我发布的另一个问题使用以下代码.在 Visual Basic 中监视屏幕区域的特定颜色 私有函数CheckforCall()尝试Dim queue1 As Integer = GetPixel(GetDC(0), 40, 573)Dim queue2 ..
发布时间:2021-07-17 18:45:17 其他开发

如何使用仅 XPath 的正则表达式模式抓取无 ID 的网站元素

有几个与 XPath 搜索中使用正则表达式相关的类似问题——但是,有些不是很启发给我,而其他人失败是因为我的具体问题.因此,对于可能遇到相同问题的未来用户,我发布了以下问题: 在 Python/Selenium 中使用一次调用,我希望能够一次抓取下面的所有元素(为了没有代码格式的可读性): /html/body/div[6]/div/div[1]/div/div[3]/div[2]/div ..
发布时间:2021-07-17 18:45:14 Python

使用 Python 3 从 Yahoo Finance 获取价格以外的网络抓取信息

我是 Python 新手,因此对于任何新手错误,我深表歉意.我按照教程从 python 中抓取股票价格,但在修复它以在 python 3 中工作后,当我尝试将其适应雅虎财经页面的其他元素(例如市盈率和 Beta)时,输出只是空方括号. 导入 urllib.request进口重新符号列表 = ["aapl","spy","goog","nflx"]我=0而 i ..
发布时间:2021-07-17 18:45:05 Python

VBA WebScraping 一无所获

正如我之前的问题所示,我一直在尝试从网站上抓取数据. 感谢社区,我能够弄清楚我的问题是什么,但现在我面临另一个问题. 这次我没有收到任何错误,但是程序没有将任何值导出到 excel,我的页面仍然是空白的. 在我抓取的另一个网站上,HTML.Elements 是 divs,现在是 spans,这是因为那个? 这是我的代码: 选项显式公共子Loiça()Dim data As Object, ..
发布时间:2021-07-17 18:45:03 前端开发