css - 用Jsoup抓取36氪网站的数据返回null

查看:89
本文介绍了css - 用Jsoup抓取36氪网站的数据返回null的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

一、问题描述
用Jsoup抓取36氪网站的这部分数据(下图),也就是<div id="app">里面的数据,总是返回null。

二、我的尝试
1、用id查找

2、用其中的一个类查找

3、打印整个document,结果如下图,好像这是一个空标签。

三、我的思考
当我点击<div id="app">这行代码时(谷歌的检查),发现右边的小窗口styles里面有句div{display:block;}。然后我在网站上找到类似的(下图:class="top_swing"),发现获取到的element也是空的。经过查阅,display:block代表元素以块状显示。所以我猜想是不是块状元素要用另外的方法获取,还是其它原因??用Jsoup怎么解决??

解决方案

那些内容是Javascript动态生成的,不要看谷歌开发者工具,而是右键网页,查看源代码。
可以看到

<div id="app"></div>

你用Jsoup之类的,只能抓取到html内容,js生成的内容是无法抓取的。

这篇关于css - 用Jsoup抓取36氪网站的数据返回null的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆