screen-scraping相关内容
我正在尝试刮token info from poocoin。所有其他信息都可用,但我无法从图表中获取时间序列数据。 import requests, re from bs4 import BeautifulSoup import pandas as pd url = 'https://poocoin.app/tokens/0x7606267a4bfff2c5010c92924348c3e
..
我已经为下面的HTML代码编写了此表达式//*[contains(text(), "Brand:" )]。 数据-lang=“js”数据-隐藏=“假”数据-控制台=“真”数据-巴贝尔=“假”>
Informazioni prodotto
Brand:
..
我对通过编程搜索彭博数据很感兴趣。想知道有没有什么方法可以使用一些编程语言,比如Python,从彭博终端获得大量数据?假设我想获取数千条有关债券在特定期间的利率变化日期的信息? 推荐答案 您想要的是...来使用该API。(截屏并不是一个真正的选择……如果有一个相当好的API,你为什么要这样做呢?) Bloomberg使在Excel中实现这一点变得非常容易,听起来这可能足以满足您的
..
使用C++和libcurl库,我试图以这种方式从该网站https://www.nutritionix.com/food/Banana获取完整的HTML: int main(){ std::string content; curl_global_init(CURL_GLOBAL_ALL); CURL *curl = nullptr; curl = curl_easy_i
..
我正在尝试从以下位置收集我的中队的日程安排数据: https://www.cnatra.navy.mil/scheds/schedule_data.aspx?sq=vt-9 我已经知道如何使用BeautifulSoup提取数据,方法如下: import urllib2 from urllib2 import urlopen import bs4 as bs url = 'https:
..
我需要对使用ActiveX控件进行导航的网页进行屏幕抓取。这不是为了测试用户界面,而是为了从旧版应用程序下载数据。 我的问题是,顶部导航是完整的ActiveX和Java脚本,不可能通过任何方式获取元素。所以我试着在坐标上点击鼠标。 我正在使用以下方法answer by Bergstrom 基本上我在做 var action = new Actions(ieDriver).M
..
我的代码是 library(RSelenium) library(wdman) pDrv
..
我正在尝试使用Python语言在呈现为Java脚本的网页上进行动态Web抓取。 1)但是,元素仅在我缓慢向下滚动页面时加载。 我已尝试: driver.execute_script("window.scrollTo(0, Y)") (这不起作用,因为它只滚动到页面上的某个点,而忽略了其他结果) 和 driver.execute_script("window.sc
..
我正在尝试使用 python 抓取页面 问题是,我不断收到对等方重置 Errno54 连接. 运行此代码时出现错误 - urllib2.urlopen("http://www.bkstr.com/webapp/wcs/stores/servlet/CourseMaterialsResultsView?catalogId=10001&categoryId=9604&storeId=10
..
我正在创建一个需要从网页获取一些数据的 iOS 应用.我的第一个想法是使用 NSXMLParser initWithContentsOfURL: 并使用 NSXMLParser 委托解析 HTML.然而,这种方法似乎很快就会变得很痛苦(例如,如果 HTML 发生了变化,我将不得不重写解析代码,这可能会很尴尬). 在加载网页时,我也查看了 UIWebView.看起来 UIWebView 可能是
..
我有一个合作伙伴创建了一些内容供我抓取. 我可以使用浏览器访问该页面,但是在尝试使用 file_get_contents 时,我得到了 403 禁止. 我尝试过使用 stream_context_create,但这并没有帮助 - 可能是因为我不知道应该在那里输入什么. 1) 我有什么方法可以抓取数据吗? 2) 如果没有,并且不允许合作伙伴配置服务器允许我访问,我该怎么办? 我
..
我有一些这样的 HTML:
搜索搜索
我正在
..
是否有允许我使用 CSS 选择器查询 XHTML 文档的 PHP 类/库?如果我能以某种方式使用 CSS 选择器(jQuery 宠坏了我!),我需要抓取一些非常容易访问的数据页面.有什么想法吗? 解决方案 进一步谷歌搜索后(最初的结果不是很有帮助),似乎实际上有一个 Zend Framework 库,以及其他一些: DOM-Query phpQuery pQuery 查询路径
..
问题 当使用 python 抓取网页时,必须知道页面的字符编码.如果字符编码错误,那么您的输出将会一团糟. 人们通常使用一些基本的技术来检测编码.他们要么使用标题中的字符集或元标记中定义的字符集,要么使用 编码检测器(不关心元标记或标题).仅使用其中一种技术,有时您将无法获得与在浏览器中相同的结果. 浏览器这样做: 元标记始终优先(或 xml 定义) 当元标记中没有定义字
..
我正在尝试从网站获取所有可见文本,我正在使用 python-scrapy 来完成这项工作.然而,我观察到的scrapy 只适用于HTML 标签,如div、body、head 等,而不适用于角js 标签如ng-view,如果ng-view 标签中有任何元素,当我右键单击时页面并查看源代码,然后标签内的内容不会出现,它显示为 ,那么我如何使用 python 来抓取
..
我有这个 xpath 查询: /html/body//tbody/tr[*]/td[*]/a[@title]/@href 它提取具有标题属性的所有链接 - 并在 hrefrel="nofollow noreferrer">FireFox 的 Xpath 检查器附加组件. 但是,我似乎无法将它与 lxml 一起使用. from lxml import etreeparsedPage =
..
我是 Tor 的新手,我觉得应该考虑多个 Tor.我这里提到的多个tors不仅是多个实例,而且每个实例都使用不同的代理端口,就像这里所做的一样http://www.howtoforge.com/ultimate-security-proxy-with-tor) 我正在尝试开始使用 4 Tors.但是,本教程仅适用于 Arch Linux,我使用的是无头 EC2 ubuntu 64 位.经历
..
我正在寻找一个功能类似于 Perl 的WWW::Mechanize,但适用于 PHP.基本上,它应该允许我使用简单的语法提交 HTTP GET 和 POST 请求,然后解析结果页面并以简单格式返回所有表单及其字段以及页面上的所有链接. 我知道 CURL,但它有点过于准系统,而且语法非常难看(大量的 curl_foo($curl_handle, ...) 语句 说明: 我想要比目前
..
我使用以下基于 loadspeed.js 示例的代码打开一个 https://站点,该站点也需要 http 服务器身份验证. var page = require('webpage').create(), system = require('system'), t, address;page.settings.userName = '我的用户名';page.settings.password =
..
我正在使用 Nokogiri 和 open-uri 来获取网页上标题标签的内容,但在处理重音字符时遇到了问题.处理这些问题的最佳方法是什么?这是我正在做的: 需要'open-uri'需要'nokogiri'doc = Nokogiri::HTML(打开(链接))title = doc.at_css("title") 此时,标题是这样的: 抹布\303\271 代替: 抹布
..