python - scrapy 如何爬取网页里面的thunder链接？

查看：120 发布时间：2017/9/6 6:37:12 scrapy python

本文介绍了python - scrapy 如何爬取网页里面的thunder链接？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

问题

目标url：
http://www.xiaopian.com/html/...

这个是chrome里显示的源代码

这个是scrapy shell url后用response.css().extract()显示东西

我想知道为何二者不一致？scrapy爬取到的信息并没有对应的thunder链接，而是明面上的ftp链接

解决方案

爬虫看网页源代码应该是右键>查看网页源代码. 而不是在审查元素里,这里看到的代码都经过了js渲染,和原始代码不同了,而通过爬虫得到的代码是没经过js渲染的,也就是原始代码.
我看了下,这个迅雷下载地址是js算出来的

具体代码如下:

function ThunderEncode(t_url) {
    var thunderPrefix = "AA";
    var thunderPosix = "ZZ";
    var thunderTitle = "thunder://";

    var thunderUrl = thunderTitle + base64encode(utf16to8(thunderPrefix + t_url + thunderPosix));

    return thunderUrl;
}

测试了下:
把地址 ftp://a:a@dygod18.com:21/[电影天堂www.dy2018.com]忍者神龟2破影而出BD中英双字.rmvb 作为参数传入就得到了迅雷连接,但和网页上的不太一样,反编后它是把汉字进行了url编码,只要编码统一,就不会有问题了.

这篇关于python - scrapy 如何爬取网页里面的thunder链接？的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

python - scrapy 如何爬取网页里面的thunder链接？

问题描述

相关文章

Python最新文章

热门教程

热门工具

登录关闭

python - scrapy 如何爬取网页里面的thunder链接？

问题描述

相关文章

Python最新文章

热门教程

热门工具

登录 关闭

登录关闭