首页
前端开发
关于解析HTML并使用shell提取数据

关于解析HTML并使用shell提取数据 [英] About parsing html and extract data using shell

查看：740 发布时间：2018/6/15 13:34:49 html parsing shell

本文介绍了关于解析HTML并使用shell提取数据的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我需要解析一个html并使用shell脚本提取4个部分的html。但是，我对shell非常陌生。我只是从for循环开始，通过 cat $ 1 来查看html的每一行。任何人都可以帮我或给我建议吗？

`HTML-XML-utils`

您可以使用 htmlutils
$ curl -s http://example.com/ | hxselect title < title>示例域< / title>

有关更多示例，请查看 html-xml-utils 。

I need to parse a html and extract 4 parts of the html using shell script. However, I am quite new to shell. I just start by a for loop to cat $1 to look through each line of the html. Can anybody help me or give me advice?

解决方案

`HTML-XML-utils`



You may use htmlutils for parsing well-formatted HTML/XML files. The package includes a lot of binary tools to extract or modify the data. For example:
$ curl -s http://example.com/ | hxselect title
<title>Example Domain</title>
For more examples, check the html-xml-utils. 

                        这篇关于关于解析HTML并使用shell提取数据的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！


                    
                        查看全文


        
            



        
        
            相关文章
            
                    
                        
                            使用Shell解析HTML;
                        
                    
                    
                        
                            如何使用Microdata提取/解析HTML;
                        
                    
                    
                        
                            使用Jsoup提取和解析HTML表;
                        
                    
                    
                        
                            Java Html解析器提取特定数据？;
                        
                    
                    
                        
                            使用python解析/提取表格数据;
                        
                    
                    
                        
                            SPService从SharePoint提取数据并更新HTML列表;
                        
                    
                    
                        
                            如何从shell脚本中的html表中提取数据？;
                        
                    
                    
                        
                            从网页中提取数据，解析特定片段并显示;
                        
                    
                    
                        
                            使用Selenium Python解析HTML并读取HTML表;
                        
                    
                    
                        
                            如何使用html5lib解析HTML，并使用XPath查询已解析的HTML?;
                        
                    
                    
                        
                            使用Java解析HTML数据（DOM解析）;
                        
                    
                    
                        
                            问题提取HTML数据使用Android;
                        
                    
                    
                        
                            如何使用HTMLAgilityPack提取HTML数据;
                        
                    
                    
                        
                            提取解析HTML&amp;文本;
                        
                    
                    
                        
                            使用Python从解析的HTML中提取文本;
                        
                    
                    
                        
                            使用jsoup解析html并删除标记块;
                        
                    
                    
                        
                            Jenkins Pipeline Plugin:执行shell并解析输出;
                        
                    
                    
                        
                            Jenkins Pipeline插件:执行shell并解析输出;
                        
                    
                    
                        
                            关于提取;
                        
                    
                    
                        
                            用Java解析/提取HTML表，网站;
                        
                    
                    
                        
                            html5 - 关于html游览器解析顺序;
                        
                    
                    
                        
                            解析html并遵循javascript链接;
                        
                    
                    
                        
                            解析数据数组并使用nodemailer发送?;
                        
                    
                    
                        
                            如何从动态HTML表中提取数据并使用java存储在数据库中？;
                        
                    
                    
                        
                            使用Bash Shell提取JSON对象?;


    
        
            前端开发最新文章
            
                    
                        
                            为什么Chrome（在Electron内部）突然重定向到chrome-error：// chromewebdata？;
                        
                    
                    
                        
                            错误102（net :: ERR_CONNECTION_REFUSED）：服务器拒绝连接;
                        
                    
                    
                        
                            如何解决'重定向已被CORS策略阻止：没有'Access-Control-Allow-Origin'标题'？;
                        
                    
                    
                        
                            如何处理“Uncaught（in promise）DOMException：play（）失败，因为用户没有首先与文档交互。”在桌面上使用Chrome 66？;
                        
                    
                    
                        
                            警告：添加非被动事件侦听器到滚动阻塞'touchstart'事件;
                        
                    
                    
                        
                            如何在浏览器中播放.TS文件（视频/ MP2T媒体类型）？;
                        
                    
                    
                        
                            此请求已被阻止;内容必须通过HTTPS提供;
                        
                    
                    
                        
                            资源解释为样式表，但转换为MIME类型text / html（似乎与web服务器无关）;
                        
                    
                    
                        
                            通过HTTPS加载页面但请求不安全的XMLHttpRequest端点;
                        
                    
                    
                        
                            拒绝从执行脚本'*'，因为它的MIME类型（“应用/ JSON'）不是可执行文件，并严格MIME类型检查被启用。;
                        
                    
            
        
        
            
                热门教程
            
            
                
                    
                        Java教程
                    
                
                
                    
                        Apache ANT 教程
                    
                
                
                    
                        Kali Linux教程
                    
                
                
                    
                        JavaScript教程
                    
                
                
                    
                        JavaFx教程
                    
                
                
                    
                        MFC 教程
                    
                
                
                    
                        Apache HTTP客户端教程
                    
                
                
                    
                        Microsoft Visio 教程
                    
                
            
        
        
            
                热门工具
            
            
                
                
                    
                        Java 在线工具
                    
                
                
                    
                        C(GCC) 在线工具
                    
                
                
                    
                        PHP 在线工具
                    
                
                
                    
                        C# 在线工具
                    
                
                
                    
                        Python 在线工具
                    
                
                
                    
                        MySQL 在线工具
                    
                
                
                    
                        VB.NET 在线工具
                    
                
                
                    
                        Lua 在线工具
                    
                
                
                    
                        Oracle 在线工具
                    
                
                
                    
                        C++(GCC) 在线工具
                    
                
                
                    
                        Go 在线工具
                    
                
                
                    
                        Fortran 在线工具



    
        
            登录
            关闭
        
        
            
                扫码关注1秒登录
            
            
                
            
            
                
                
            
            
                发送“验证码”获取
                |
                15天全站免登陆
            
            
        
    
    





    
		
			友情链接：
            IT屋
            Chrome插件
            谷歌浏览器插件
        
        
            IT屋
            ©2016-2022 琼ICP备2021000895号-1
            站点地图
            站点标签
            SiteMap
            <免责申明>
            本站内容来源互联网,如果侵犯您的权益请联系我们删除.