首页
Python
Python将html ascii编码的文本转换为utf8

Python将html ascii编码的文本转换为utf8 [英] Python convert html ascii encoded text to utf8

查看：317 发布时间：2017/8/17 0:54:19 python encoding utf-8 ascii html-entities

本文介绍了Python将html ascii编码的文本转换为utf8的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我有一个xml文件，我需要转换为utf8。
不幸的是，实体包含这样的文本：

 &＃047; mytext&＃044;

我正在使用编解码器库将文件转换为utf8，但html实体将无法使用

有没有一个简单的方法来摆脱html编码？

谢谢

解决方案

您可以通过 unescape 函数，然后将其传递给XML解析器。

或者，如果您只解析HTML ， lxml的http解析器为您做到这一点：

 >>> import lxml.html 
>>> html = lxml.html.fromstring（< html>< body>< p>&＃047; mytext&＃044;< / p>< / body>< / html>）
>>>> lxml.html.tostring（html）
'< html>< body>< p> / mytext< / p>< / body>< / html>'

I have a xml file, which I need to convert to utf8. Unfortunately the entities contain text like this:

&#047;mytext&#044;

I'm using the codec library to convert files to utf8, but html entities won't work with it.



Is there an easy way to get rid of the html encoding?

Thanks
 解决方案 
You can pass the text of the file through an unescape function before passing it to the XML parser.

Alternatively, if you're only parsing HTML, lxml's http parser does this for you:
>>> import lxml.html
>>> html = lxml.html.fromstring("<html><body><p>&#047;mytext&#044;</p></body></html>")
>>> lxml.html.tostring(html)
'<html><body><p>/mytext,</p></body></html>'


                        
这篇关于Python将html ascii编码的文本转换为utf8的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！


                    
                        查看全文


        
            



        
        
            相关文章
            
                    
                        
                            将文本转换为UTF8;
                        
                    
                    
                        
                            将 ASCII 转换为 UTF-8 编码;
                        
                    
                    
                        
                            将ASCII转换为UTF-8编码;
                        
                    
                    
                        
                            从UTF8转换为ASCII;
                        
                    
                    
                        
                            从UTF8转换为ASCII;
                        
                    
                    
                        
                            如何使用Maven将ASCII转换为utf8;
                        
                    
                    
                        
                            Python + PostgreSQL +奇怪的ascii = UTF8编码错误;
                        
                    
                    
                        
                            Python 2.7，将utf8字符串转换为ascii;
                        
                    
                    
                        
                            如何将文本从CP437编码转换为UTF8编码?;
                        
                    
                    
                        
                            PowerPoint文本编码utf8;
                        
                    
                    
                        
                            如何将ANSI文本转换为UTF8;
                        
                    
                    
                        
                            将 UTF-8 转换为 ASCII 的 Python 脚本;
                        
                    
                    
                        
                            使用python将所有csv文件从编码ansi转换为utf8;
                        
                    
                    
                        
                            必须将utf 16的xml编码转换为utf8;
                        
                    
                    
                        
                            Java文件编码从ANSI转换为UTF8;
                        
                    
                    
                        
                            Javascript将ansi转换为utf8;
                        
                    
                    
                        
                            UTF8编码？;
                        
                    
                    
                        
                            Python将latin1转换为UTF8;
                        
                    
                    
                        
                            将 UTF8 表上的 latin1 字符转换为 UTF8;
                        
                    
                    
                        
                            检查NSData是否包含ASCII或UTF8编码;
                        
                    
                    
                        
                            将C字符串从本地编码转换为UTF8;
                        
                    
                    
                        
                            去语言如何将ansi文本转换为utf8？;
                        
                    
                    
                        
                            Delphi 2010:如何将UTF8编码的PAnsiChar转换为UnicodeString?;
                        
                    
                    
                        
                            用于将UTF-8转换为ASCII的Python脚本;
                        
                    
                    
                        
                            将熊猫数据框转换为utf8;


    
        
            Python最新文章
            
                    
                        
                            类型错误：只有长度为1的阵列可以尝试拟合指数的数据转换到Python标量;
                        
                    
                    
                        
                            bs4.FeatureNotFound：找不到一棵树建设者您所要求的功能：LXML。你需要安装一个解析器库？;
                        
                    
                    
                        
                            系列的真值是不明确的。使用a.empty，a.bool（），a.item（），a.any（）或a.all（）;
                        
                    
                    
                        
                            （unicode错误）'unicodeescape'编解码器无法解码位置2-3中的字节：truncated \UXXXXXXXX escape;
                        
                    
                    
                        
                            将pandas dataframe中的列从int转换为string;
                        
                    
                    
                        
                            Python：由实例对象调用方法：“missing 1 required positional argument：'self'”;
                        
                    
                    
                        
                            Sparksql过滤与多个条件（与where子句中选择）;
                        
                    
                    
                        
                            JSONDe codeError：期待值：1行1列（CHAR 0）;
                        
                    
                    
                        
                            Cmake不能找到Python库;
                        
                    
                    
                        
                            Python  - 将Dataframe中的所有项目转换为字符串;
                        
                    
            
        
        
            
                热门教程
            
            
                
                    
                        Java教程
                    
                
                
                    
                        Apache ANT 教程
                    
                
                
                    
                        Kali Linux教程
                    
                
                
                    
                        JavaScript教程
                    
                
                
                    
                        JavaFx教程
                    
                
                
                    
                        MFC 教程
                    
                
                
                    
                        Apache HTTP客户端教程
                    
                
                
                    
                        Microsoft Visio 教程
                    
                
            
        
        
            
                热门工具
            
            
                
                
                    
                        Java 在线工具
                    
                
                
                    
                        C(GCC) 在线工具
                    
                
                
                    
                        PHP 在线工具
                    
                
                
                    
                        C# 在线工具
                    
                
                
                    
                        Python 在线工具
                    
                
                
                    
                        MySQL 在线工具
                    
                
                
                    
                        VB.NET 在线工具
                    
                
                
                    
                        Lua 在线工具
                    
                
                
                    
                        Oracle 在线工具
                    
                
                
                    
                        C++(GCC) 在线工具
                    
                
                
                    
                        Go 在线工具
                    
                
                
                    
                        Fortran 在线工具



    
        
            登录
            关闭
        
        
            
                扫码关注1秒登录
            
            
                
            
            
                
                
            
            
                发送“验证码”获取
                |
                15天全站免登陆
            
            
        
    
    





    
		
			友情链接：
            IT屋
            Chrome插件
            谷歌浏览器插件
        
        
            IT屋
            ©2016-2022 琼ICP备2021000895号-1
            站点地图
            站点标签
            SiteMap
            <免责申明>
            本站内容来源互联网,如果侵犯您的权益请联系我们删除.