screen-scraping相关内容

从彭博终端抓取数据的编程

我对通过编程搜索彭博数据很感兴趣。想知道有没有什么方法可以使用一些编程语言,比如Python,从彭博终端获得大量数据?假设我想获取数千条有关债券在特定期间的利率变化日期的信息? 推荐答案 您想要的是...来使用该API。(截屏并不是一个真正的选择……如果有一个相当好的API,你为什么要这样做呢?) Bloomberg使在Excel中实现这一点变得非常容易,听起来这可能足以满足您的 ..
发布时间:2022-07-15 17:52:40 Python

Selenson在坐标上单击,而不是在预期位置单击

我需要对使用ActiveX控件进行导航的网页进行屏幕抓取。这不是为了测试用户界面,而是为了从旧版应用程序下载数据。 我的问题是,顶部导航是完整的ActiveX和Java脚本,不可能通过任何方式获取元素。所以我试着在坐标上点击鼠标。 我正在使用以下方法answer by Bergstrom 基本上我在做 var action = new Actions(ieDriver).M ..
发布时间:2022-04-12 18:26:33 C#/.NET

《硒》慢慢向下滚动

我正在尝试使用Python语言在呈现为Java脚本的网页上进行动态Web抓取。 1)但是,元素仅在我缓慢向下滚动页面时加载。 我已尝试: driver.execute_script("window.scrollTo(0, Y)") (这不起作用,因为它只滚动到页面上的某个点,而忽略了其他结果) 和 driver.execute_script("window.sc ..
发布时间:2022-04-12 18:22:29 Python

在 iOS 中解析 XML/“屏幕抓取"的最佳方法是什么?UIWebview 还是 NSXMLParser?

我正在创建一个需要从网页获取一些数据的 iOS 应用.我的第一个想法是使用 NSXMLParser initWithContentsOfURL: 并使用 NSXMLParser 委托解析 HTML.然而,这种方法似乎很快就会变得很痛苦(例如,如果 HTML 发生了变化,我将不得不重写解析代码,这可能会很尴尬). 在加载网页时,我也查看了 UIWebView.看起来 UIWebView 可能是 ..
发布时间:2022-01-19 21:36:03 移动开发

file_get_contents() 给我 403 Forbidden

我有一个合作伙伴创建了一些内容供我抓取. 我可以使用浏览器访问该页面,但是在尝试使用 file_get_contents 时,我得到了 403 禁止. 我尝试过使用 stream_context_create,但这并没有帮助 - 可能是因为我不知道应该在那里输入什么. 1) 我有什么方法可以抓取数据吗? 2) 如果没有,并且不允许合作伙伴配置服务器允许我访问,我该怎么办? 我 ..
发布时间:2022-01-17 16:56:35 PHP

PHP CSS 选择器库?

是否有允许我使用 CSS 选择器查询 XHTML 文档的 PHP 类/库?如果我能以某种方式使用 CSS 选择器(jQuery 宠坏了我!),我需要抓取一些非常容易访问的数据页面.有什么想法吗? 解决方案 进一步谷歌搜索后(最初的结果不是很有帮助),似乎实际上有一个 Zend Framework 库,以及其他一些: DOM-Query phpQuery pQuery 查询路径 ..
发布时间:2022-01-10 08:17:15 PHP

如何在python中下载具有正确字符集的任何(!)网页?

问题 当使用 python 抓取网页时,必须知道页面的字符编码.如果字符编码错误,那么您的输出将会一团糟. 人们通常使用一些基本的技术来检测编码.他们要么使用标题中的字符集或元标记中定义的字符集,要么使用 编码检测器(不关心元标记或标题).仅使用其中一种技术,有时您将无法获得与在浏览器中相同的结果. 浏览器这样做: 元标记始终优先(或 xml 定义) 当元标记中没有定义字 ..
发布时间:2022-01-07 21:04:05 Python

使用 Angular JS 标签(例如 ng-view)从网络中获取文本

我正在尝试从网站获取所有可见文本,我正在使用 python-scrapy 来完成这项工作.然而,我观察到的scrapy 只适用于HTML 标签,如div、body、head 等,而不适用于角js 标签如ng-view,如果ng-view 标签中有任何元素,当我右键单击时页面并查看源代码,然后标签内的内容不会出现,它显示为 ,那么我如何使用 python 来抓取 ..
发布时间:2022-01-04 21:05:01 Python

如何使用不同的退出 IP 一次运行多个 Tor 进程?

我是 Tor 的新手,我觉得应该考虑多个 Tor.我这里提到的多个tors不仅是多个实例,而且每个实例都使用不同的代理端口,就像这里所做的一样http://www.howtoforge.com/ultimate-security-proxy-with-tor) 我正在尝试开始使用 4 Tors.但是,本教程仅适用于 Arch Linux,我使用的是无头 EC2 ubuntu 64 位.经历 ..
发布时间:2021-12-31 19:34:35 服务器开发

是否有相当于 Perl 的 WWW::Mechanize 的 PHP?

我正在寻找一个功能类似于 Perl 的WWW::Mechanize,但适用于 PHP.基本上,它应该允许我使用简单的语法提交 HTTP GET 和 POST 请求,然后解析结果页面并以简单格式返回所有表单及其字段以及页面上的所有链接. 我知道 CURL,但它有点过于准系统,而且语法非常难看(大量的 curl_foo($curl_handle, ...) 语句 说明: 我想要比目前 ..
发布时间:2021-12-29 12:45:39 PHP

PhantomJS 无法打开 HTTPS 站点

我使用以下基于 loadspeed.js 示例的代码打开一个 https://站点,该站点也需要 http 服务器身份验证. var page = require('webpage').create(), system = require('system'), t, address;page.settings.userName = '我的用户名';page.settings.password = ..
发布时间:2021-12-26 19:26:01 其他开发

Nokogiri、open-uri 和 Unicode 字符

我正在使用 Nokogiri 和 open-uri 来获取网页上标题标签的内容,但在处理重音字符时遇到了问题.处理这些问题的最佳方法是什么?这是我正在做的: 需要'open-uri'需要'nokogiri'doc = Nokogiri::HTML(打开(链接))title = doc.at_css("title") 此时,标题是这样的: 抹布\303\271 代替: 抹布 ..
发布时间:2021-12-26 13:48:36 其他开发