阿拉伯字母上的 Scrapy 返回一些奇怪的东西 [英] Scrapy on arabic letters returns something strange

查看:45
本文介绍了阿拉伯字母上的 Scrapy 返回一些奇怪的东西的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我在阿拉伯字母和英文字母上使用 scrapy.

I am using scrapy on arabic letters and english letters.

英文字母完美.

但是,阿拉伯字母显示如下:

However, the arabic letters shows like this:

gs300 2006  \u0644\u0643\u0632\u0633 \u062c\u064a 

有什么帮助吗?我正在使用带有scrapy 0.20.2的python.

Any help, please? I am using python with scrapy 0.20.2.

我提取数据的方式是:

site.xpath('my selector').extract()

我像这样从cmd调用json操作

and I call the json operation from cmd like this

scrapy crawl dmoz -o items.json -t json

推荐答案

字符串 \u0000 是 Unicode 代码点.每个代表一个字符(例如 \u064a 代表 是的).要将这些字符转换为更有用的东西,您必须使用 encodedecode 以正确处理 Unicode 字符串.

The strings \u0000 are Unicode code points. Each represents a single character (e.g. \u064a represents yeh). To convert these characters into something more useful, you will have to use encode and decode to handle Unicode strings properly.

这篇关于阿拉伯字母上的 Scrapy 返回一些奇怪的东西的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆