screen-scraping - IT屋-程序员软件开发技术分享社区

如何用Python从pocoin.app中抓取时间序列图数据

我正在尝试刮token info from poocoin。所有其他信息都可用，但我无法从图表中获取时间序列数据。 import requests, re from bs4 import BeautifulSoup import pandas as pd url = 'https://poocoin.app/tokens/0x7606267a4bfff2c5010c92924348c3e ..

发布时间：2022-07-15 18:09:57 python web-scraping beautifulsoup python-requests screen-scraping Python

为什么CONTAINS(TEXT()，&QOOT；STRING&QOOT；)不能在XPath中工作？

我已经为下面的HTML代码编写了此表达式//*[contains(text(), "Brand:" )]。数据-lang=“js”数据-隐藏=“假”数据-控制台=“真”数据-巴贝尔=“假”> Informazioni prodotto Brand: ..

发布时间：2022-07-15 18:01:17 html xml web-scraping xpath screen-scraping 前端开发

从彭博终端抓取数据的编程

我对通过编程搜索彭博数据很感兴趣。想知道有没有什么方法可以使用一些编程语言，比如Python，从彭博终端获得大量数据？假设我想获取数千条有关债券在特定期间的利率变化日期的信息？推荐答案您想要的是...来使用该API。(截屏并不是一个真正的选择……如果有一个相当好的API，你为什么要这样做呢？) Bloomberg使在Excel中实现这一点变得非常容易，听起来这可能足以满足您的 ..

发布时间：2022-07-15 17:52:40 python api screen-scraping bloomberg Python

C++libcurl-无法从URL检索整个html内容

使用C++和libcurl库，我试图以这种方式从该网站https://www.nutritionix.com/food/Banana获取完整的HTML： int main(){ std::string content; curl_global_init(CURL_GLOBAL_ALL); CURL *curl = nullptr; curl = curl_easy_i ..

发布时间：2022-04-12 18:35:18 c++ screen-scraping libcurl C/C++开发

单击后正在抓取.aspx站点

我正在尝试从以下位置收集我的中队的日程安排数据： https://www.cnatra.navy.mil/scheds/schedule_data.aspx?sq=vt-9 我已经知道如何使用BeautifulSoup提取数据，方法如下： import urllib2 from urllib2 import urlopen import bs4 as bs url = 'https: ..

发布时间：2022-04-12 18:30:33 python asp.net selenium beautifulsoup screen-scraping C#/.NET

Selenson在坐标上单击，而不是在预期位置单击

我需要对使用ActiveX控件进行导航的网页进行屏幕抓取。这不是为了测试用户界面，而是为了从旧版应用程序下载数据。我的问题是，顶部导航是完整的ActiveX和Java脚本，不可能通过任何方式获取元素。所以我试着在坐标上点击鼠标。我正在使用以下方法answer by Bergstrom 基本上我在做 var action = new Actions(ieDriver).M ..

发布时间：2022-04-12 18:26:33 c# selenium screen-scraping C#/.NET

在if(file.access(phantompath，1)<；0){：当我使用Phantomjs(port=4567l)时，参数的长度为零

我的代码是 library(RSelenium) library(wdman) pDrv ..

发布时间：2022-04-12 18:24:15 r phantomjs screen-scraping rselenium bigdata 其他开发

《硒》慢慢向下滚动

我正在尝试使用Python语言在呈现为Java脚本的网页上进行动态Web抓取。 1)但是，元素仅在我缓慢向下滚动页面时加载。我已尝试： driver.execute_script("window.scrollTo(0, Y)") (这不起作用，因为它只滚动到页面上的某个点，而忽略了其他结果) 和 driver.execute_script("window.sc ..

发布时间：2022-04-12 18:22:29 python selenium web screen-scraping Python

Python urllib2.open 连接由对等错误重置

我正在尝试使用 python 抓取页面问题是，我不断收到对等方重置 Errno54 连接. 运行此代码时出现错误 - urllib2.urlopen("http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001&categoryId=9604&storeId=10 ..

发布时间：2022-01-24 15:19:10 python connection screen-scraping reset Python

在 iOS 中解析 XML/“屏幕抓取"的最佳方法是什么?UIWebview 还是 NSXMLParser?

我正在创建一个需要从网页获取一些数据的 iOS 应用.我的第一个想法是使用 NSXMLParser initWithContentsOfURL: 并使用 NSXMLParser 委托解析 HTML.然而，这种方法似乎很快就会变得很痛苦(例如，如果 HTML 发生了变化，我将不得不重写解析代码，这可能会很尴尬). 在加载网页时，我也查看了 UIWebView.看起来 UIWebView 可能是 ..

发布时间：2022-01-19 21:36:03 iphone ios uiwebview screen-scraping nsxmlparser 移动开发

file_get_contents() 给我 403 Forbidden

我有一个合作伙伴创建了一些内容供我抓取. 我可以使用浏览器访问该页面，但是在尝试使用 file_get_contents 时，我得到了 403 禁止. 我尝试过使用 stream_context_create，但这并没有帮助 - 可能是因为我不知道应该在那里输入什么. 1) 我有什么方法可以抓取数据吗? 2) 如果没有，并且不允许合作伙伴配置服务器允许我访问，我该怎么办? 我 ..

发布时间：2022-01-17 16:56:35 php html http-headers screen-scraping PHP

Selenium:无法理解 xPath

我有一些这样的 HTML: 搜索搜索我正在 ..

发布时间：2022-01-14 18:03:18 html selenium screen-scraping automated-tests 前端开发

PHP CSS 选择器库?

是否有允许我使用 CSS 选择器查询 XHTML 文档的 PHP 类/库?如果我能以某种方式使用 CSS 选择器(jQuery 宠坏了我！)，我需要抓取一些非常容易访问的数据页面.有什么想法吗? 解决方案进一步谷歌搜索后(最初的结果不是很有帮助)，似乎实际上有一个 Zend Framework 库，以及其他一些: DOM-Query phpQuery pQuery 查询路径 ..

发布时间：2022-01-10 08:17:15 php screen-scraping css-selectors PHP

如何在python中下载具有正确字符集的任何(！)网页?

问题当使用 python 抓取网页时，必须知道页面的字符编码.如果字符编码错误，那么您的输出将会一团糟. 人们通常使用一些基本的技术来检测编码.他们要么使用标题中的字符集或元标记中定义的字符集，要么使用编码检测器(不关心元标记或标题).仅使用其中一种技术，有时您将无法获得与在浏览器中相同的结果. 浏览器这样做: 元标记始终优先(或 xml 定义) 当元标记中没有定义字 ..

发布时间：2022-01-07 21:04:05 python character-encoding screen-scraping urllib2 urllib Python

使用 Angular JS 标签(例如 ng-view)从网络中获取文本

我正在尝试从网站获取所有可见文本，我正在使用 python-scrapy 来完成这项工作.然而，我观察到的scrapy 只适用于HTML 标签，如div、body、head 等，而不适用于角js 标签如ng-view，如果ng-view 标签中有任何元素，当我右键单击时页面并查看源代码，然后标签内的内容不会出现，它显示为，那么我如何使用 python 来抓取 ..

发布时间：2022-01-04 21:05:01 python angularjs web-scraping scrapy screen-scraping Python

如何使用 lxml、XPath 和 Python 从网页中提取链接?

我有这个 xpath 查询: /html/body//tbody/tr[*]/td[*]/a[@title]/@href 它提取具有标题属性的所有链接 - 并在 hrefrel="nofollow noreferrer">FireFox 的 Xpath 检查器附加组件. 但是，我似乎无法将它与 lxml 一起使用. from lxml import etreeparsedPage = ..

发布时间：2022-01-02 08:42:45 python screen-scraping hyperlink lxml extraction Python

如何使用不同的退出 IP 一次运行多个 Tor 进程?

我是 Tor 的新手，我觉得应该考虑多个 Tor.我这里提到的多个tors不仅是多个实例，而且每个实例都使用不同的代理端口，就像这里所做的一样http://www.howtoforge.com/ultimate-security-proxy-with-tor) 我正在尝试开始使用 4 Tors.但是，本教程仅适用于 Arch Linux，我使用的是无头 EC2 ubuntu 64 位.经历 ..

发布时间：2021-12-31 19:34:35 linux proxy screen-scraping socks tor 服务器开发

是否有相当于 Perl 的 WWW::Mechanize 的 PHP?

我正在寻找一个功能类似于 Perl 的WWW::Mechanize，但适用于 PHP.基本上，它应该允许我使用简单的语法提交 HTTP GET 和 POST 请求，然后解析结果页面并以简单格式返回所有表单及其字段以及页面上的所有链接. 我知道 CURL，但它有点过于准系统，而且语法非常难看(大量的 curl_foo($curl_handle, ...) 语句说明: 我想要比目前 ..

发布时间：2021-12-29 12:45:39 php automation screen-scraping mechanize www-mechanize PHP

PhantomJS 无法打开 HTTPS 站点

我使用以下基于 loadspeed.js 示例的代码打开一个 https://站点，该站点也需要 http 服务器身份验证. var page = require('webpage').create(), system = require('system'), t, address;page.settings.userName = '我的用户名';page.settings.password = ..

发布时间：2021-12-26 19:26:01 https screen-scraping phantomjs 其他开发

Nokogiri、open-uri 和 Unicode 字符

我正在使用 Nokogiri 和 open-uri 来获取网页上标题标签的内容，但在处理重音字符时遇到了问题.处理这些问题的最佳方法是什么?这是我正在做的: 需要'open-uri'需要'nokogiri'doc = Nokogiri::HTML(打开(链接))title = doc.at_css("title") 此时，标题是这样的: 抹布\303\271 代替: 抹布 ..

发布时间：2021-12-26 13:48:36 ruby unicode screen-scraping nokogiri open-uri 其他开发

screen-scraping相关内容