RSelum:抓取加载速度较慢的动态加载页面 [英] RSelenium: Scraping a dynamically loaded page that loads slowly
本文介绍了RSelum:抓取加载速度较慢的动态加载页面的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我不确定是不是因为我的互联网速度很慢,但我正在尝试抓取一个在您向下滚动页面时加载信息的网站。我正在执行一个转到页面末尾的脚本,并等待Selify/Chrome服务器加载额外的内容。服务器确实会更新和加载新内容,因为我能够抓取最初不在页面上的信息,新内容会显示在Chrome查看器上,但它只更新一次。我将Sys.sleep()
函数设置为每次等待一分钟,这样内容将有足够的时间加载,但它仍然不会多次更新。我是不是错误地使用了RSelum?有没有其他方法来抓取动态加载的网站?
不管怎样,你能提供的任何建议或帮助都是很棒的。
以下是我认为的代码中与在页面末尾加载新内容相关的部分:
for(i in 1:3){
webElem <- remDr$findElement('css', 'body')
remDr$executeScript('window.scrollTo(0, document.body.scrollHeight);')
Sys.sleep(60)
}
以下是完整代码:
library(RSelenium)
library(rvest)
library(stringr)
rsDriver(port = 4444L, browser = 'chrome')
remDr <- remoteDriver(browser = 'chrome')
remDr$open()
remDr$navigate('http://www.codewars.com/kata')
#find the total number of recorded katas
tot_kata <- remDr$findElement(using = 'css', '.is-gray-text')$getElementText() %>%
unlist() %>%
str_extract('\d+') %>%
as.numeric()
#there are about 30 katas per page reload
tot_pages <- (tot_kata/30) %>%
ceiling()
#will be 1:tot_pages once I know the below code works
for(i in 1:3){
webElem <- remDr$findElement('css', 'body')
remDr$executeScript('window.scrollTo(0, document.body.scrollHeight);')
Sys.sleep(60)
}
page_source <- remDr$getPageSource()
kata_vector <- read_html(page_source[[1]]) %>%
html_nodes('.item-title a') %>%
html_attr('href') %>%
str_replace('/kata/', '')
remDr$close
推荐答案
该网站提供了一个api,应该是第一个访问端口。如果做不到此操作,您可以使用以下命令访问各个页面:
http://www.codewars.com/kata?page=21
如果您想使用RSelenium
滚动到页面底部,直到没有其他内容为止,您可以使用"正在加载..."元素,它有一个class=js-infinite-marker
。虽然我们仍然在页面上有这个元素,但我们尝试每秒钟向下滚动到它(对于任何问题,都会捕获一些错误)。如果元素不存在,我们认为所有内容都已加载:
library(RSelenium)
rD <- rsDriver(port = 4444L, browser = 'chrome')
remDr <- rD$client # You dont need to use the open method
remDr$navigate('http://www.codewars.com/kata')
chk <- FALSE
while(!chk){
webElem <- remDr$findElements("css", ".js-infinite-marker")
if(length(webElem) > 0L){
tryCatch(
remDr$executeScript("elem = arguments[0];
elem.scrollIntoView();
return true;", list(webElem[[1]])),
error = function(e){}
)
Sys.sleep(1L)
}else{
chk <- TRUE
}
}
这篇关于RSelum:抓取加载速度较慢的动态加载页面的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文