首页
Python
用于XML的LXML中的正则表达式

用于XML的LXML中的正则表达式 [英] Regex in lxml for python

查看：66 发布时间：2021/5/15 18:39:30 python regex xpath html-parsing

本文介绍了用于XML的LXML中的正则表达式的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我在xpath命令中实现正则表达式遇到麻烦.我的目标是下载主页的html内容以及主页上所有超链接的内容.但是，该程序引发异常，因为某些href链接未连接任何内容(例如'//:javascript'或'#').我将如何在xpath中使用regex?除了非绝对href以外，还有其他更简单的方法吗?

I having trouble implementing regex within xpath command. My goal here is to download the html contents of the main page, as well as the contents of all hyperlinks on the main page. However, the program throws exceptions because some of the href links do not connect to anything (ex. '//:javascript', or '#'). How would I use regex in xpath? Is there an easier way to except non-absolute hrefs?

from lxml import html
import requests
main_pg = requests.get("http://gazetaolekma.ru/")
with open("Sample.html","w", encoding='utf-8') as doc:
    doc.write(main_pg.text)
tree = html.fromstring(main_pg.content)
hrefs = tree.xpath('//a[re:findall("^(http|https|ftp):.*")]/@href')
for href in hrefs:
    link_page = requests.get(href)
    with open("%s.html"%href[0:9], "w", encoding ='utf-8') as href_doc:
        href_doc.write(link_page.text)

推荐答案

对于xpath 1.0，您始终可以在谓词中使用或:


with xpath 1.0 you can always use or in your predicate:
hrefs = tree.xpath('//a/@href[starts-with(., "http") or starts-with(., "ftp")]')


                        这篇关于用于XML的LXML中的正则表达式的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！


                    
                        查看全文


        
            



        
        
            相关文章
            
                    
                        
                            用于查找正则表达式的正则表达式?;
                        
                    
                    
                        
                            用于密码验证的正则表达式(正则表达式);
                        
                    
                    
                        
                            用于缩进 XML 文件的正则表达式;
                        
                    
                    
                        
                            用于替换 xml 属性的正则表达式;
                        
                    
                    
                        
                            正则表达式的正则表达式?;
                        
                    
                    
                        
                            正则表达式中的Perl正则表达式;
                        
                    
                    
                        
                            正则表达式正则表达式;
                        
                    
                    
                        
                            用于正则表达式匹配的 xpath 表达式?;
                        
                    
                    
                        
                            用于“提及"的正则表达式;
                        
                    
                    
                        
                            正则表达式用于验证;
                        
                    
                    
                        
                            寻找正则表达式的正则表达式？;
                        
                    
                    
                        
                            嵌套 XML 属性的正则表达式;
                        
                    
                    
                        
                            正则表达式用于目录中的文件;
                        
                    
                    
                        
                            正则表达式描述正则表达式模式?;
                        
                    
                    
                        
                            正则表达式表达式;
                        
                    
                    
                        
                            用于删除iframe的正则表达式;
                        
                    
                    
                        
                            用于识别 If 语句的正则表达式;
                        
                    
                    
                        
                            用于匹配人名的正则表达式;
                        
                    
                    
                        
                            仅用于数字的正则表达式;
                        
                    
                    
                        
                            用于提取数字的正则表达式;
                        
                    
                    
                        
                            用于删除空格的正则表达式;
                        
                    
                    
                        
                            用于解析JSON的正则表达式;
                        
                    
                    
                        
                            用于解析JSON的正则表达式;
                        
                    
                    
                        
                            仅用于数值的正则表达式;
                        
                    
                    
                        
                            用于验证url的正则表达式;


    
        
            Python最新文章
            
                    
                        
                            类型错误：只有长度为1的阵列可以尝试拟合指数的数据转换到Python标量;
                        
                    
                    
                        
                            bs4.FeatureNotFound：找不到一棵树建设者您所要求的功能：LXML。你需要安装一个解析器库？;
                        
                    
                    
                        
                            系列的真值是不明确的。使用a.empty，a.bool（），a.item（），a.any（）或a.all（）;
                        
                    
                    
                        
                            （unicode错误）'unicodeescape'编解码器无法解码位置2-3中的字节：truncated \UXXXXXXXX escape;
                        
                    
                    
                        
                            将pandas dataframe中的列从int转换为string;
                        
                    
                    
                        
                            Python：由实例对象调用方法：“missing 1 required positional argument：'self'”;
                        
                    
                    
                        
                            Sparksql过滤与多个条件（与where子句中选择）;
                        
                    
                    
                        
                            JSONDe codeError：期待值：1行1列（CHAR 0）;
                        
                    
                    
                        
                            Cmake不能找到Python库;
                        
                    
                    
                        
                            Python  - 将Dataframe中的所有项目转换为字符串;
                        
                    
            
        
        
            
                热门教程
            
            
                
                    
                        Java教程
                    
                
                
                    
                        Apache ANT 教程
                    
                
                
                    
                        Kali Linux教程
                    
                
                
                    
                        JavaScript教程
                    
                
                
                    
                        JavaFx教程
                    
                
                
                    
                        MFC 教程
                    
                
                
                    
                        Apache HTTP客户端教程
                    
                
                
                    
                        Microsoft Visio 教程
                    
                
            
        
        
            
                热门工具
            
            
                
                
                    
                        Java 在线工具
                    
                
                
                    
                        C(GCC) 在线工具
                    
                
                
                    
                        PHP 在线工具
                    
                
                
                    
                        C# 在线工具
                    
                
                
                    
                        Python 在线工具
                    
                
                
                    
                        MySQL 在线工具
                    
                
                
                    
                        VB.NET 在线工具
                    
                
                
                    
                        Lua 在线工具
                    
                
                
                    
                        Oracle 在线工具
                    
                
                
                    
                        C++(GCC) 在线工具
                    
                
                
                    
                        Go 在线工具
                    
                
                
                    
                        Fortran 在线工具



    
        
            登录
            关闭
        
        
            
                扫码关注1秒登录
            
            
                
            
            
                
                
            
            
                发送“验证码”获取
                |
                15天全站免登陆
            
            
        
    
    





    
		
			友情链接：
            IT屋
            Chrome插件
            谷歌浏览器插件
        
        
            IT屋
            ©2016-2022 琼ICP备2021000895号-1
            站点地图
            站点标签
            SiteMap
            <免责申明>
            本站内容来源互联网,如果侵犯您的权益请联系我们删除.