网页爬虫 - python处理中文

查看：132 发布时间：2017/9/6 10:52:34 网页爬虫 python

本文介绍了网页爬虫 - python处理中文的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题

最近在学习python爬虫，用的scrapy，基本流程都通顺了，但是发现解析页面中文的时候比较头大。

比如抽取到的内容可能含有《【等字符，这个时候怎么处理?

另外，xpath搜索的时候也有可能需要通过中文匹配，怎么破？

解决方案

可以考虑采用正则匹配。
参考这篇文章：http://blog.csdn.net/gatieme/article/details/43235791

这篇关于网页爬虫 - python处理中文的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文