首页
前端开发
从HTML文档中提取特定的字符串

从HTML文档中提取特定的字符串 [英] Extracting a specific string out an HTML document

查看：213 发布时间：2018/6/26 20:39:24 python html parsing

本文介绍了从HTML文档中提取特定的字符串的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我需要从脱机HTML文档中仅抽取和提取特定字符串，并将该信息写入* .txt文件。

I need to sample and extract only a specific string out of an offline HTML document and write that information nice and clean into a *.txt file.

因此，对于例如，假设这是HTML文件的一部分：

So for example, lets assume that this is a section of the HTML file:

<span id="dataView01">001.00 SPL</span> <span id="dataView02">543.00 SPL</span> <span id="dataView03">056.00 SPL</span> <span id="dataView04">228.00 SPL</span>

我需要这样做：

001.00 SPL 543.00 SPL 056.00 SPL 228.00 SPL

您可以帮我解决这个问题，
谢谢。

Could you please help me with this, Thanks.

推荐答案

使用HTML解析器，如 BeautifulSoup 。

示例：

Use an HTML parser like BeautifulSoup.
Example:

from bs4 import BeautifulSoup as bs import re markup = '''<span id="dataView01">001.00 SPL</span> <span id="dataView02">543.00 SPL</span> <span id="dataView03">056.00 SPL</span> <span id="dataView04">228.00 SPL</span>''' soup = bs(markup) tags = soup.find_all('span', id=re.compile(r'[dataView]\d+')) for t in tags: print(t.text)

结果：

Result:

001.00 SPL 543.00 SPL 056.00 SPL 228.00 SPL

下一步;写入.txt文件：

Next step; write to .txt file:

import csv with open('output.txt','wb') as fou: csv_writer = csv.writer(fou) for tag in tags: split_on_whitespace = t.text.split() csv_writer.writerow(split_on_whitespace)

这篇关于从HTML文档中提取特定的字符串的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

相关文章

从字符串中提取特定文本;

从HTML字符串中提取字符串;

从字符串中提取特定数据。;

期望:从输出中提取特定的字符串;

从HTML字符串中提取脚本标记;

从 Oracle 中的给定字符串中提取特定字符串;

从字符串中提取以特定字符开头的单词;

从包含子字符串中特定字符的字符串中提取单词;

使用JavaScript从HTML字符串中提取文本;

从字符串中提取HTML标记名称;

使用 JavaScript 从 HTML 字符串中提取文本;

如何从 HTML 字符串中提取 IP 地址?;

从字符串中提取子字符串;

从字符串中提取字符串;

从vb.net的html源代码（网站）中提取特定的html字符串;

从包含子字符串中的特定字符的字符串中提取单词;

按照特定模式从列中提取字符串;

从字符串中提取数值;

从字符串中提取文本;

从字符串中提取模式;

从字符串中提取网址;

从字符串中提取日期;

从字符串中提取整数;

从字符串中提取张量;

从字符串中提取地址;

前端开发最新文章

为什么Chrome（在Electron内部）突然重定向到chrome-error：// chromewebdata？;

错误102（net :: ERR_CONNECTION_REFUSED）：服务器拒绝连接;

如何解决'重定向已被CORS策略阻止：没有'Access-Control-Allow-Origin'标题'？;

如何处理“Uncaught（in promise）DOMException：play（）失败，因为用户没有首先与文档交互。”在桌面上使用Chrome 66？;

警告：添加非被动事件侦听器到滚动阻塞'touchstart'事件;

如何在浏览器中播放.TS文件（视频/ MP2T媒体类型）？;

此请求已被阻止;内容必须通过HTTPS提供;

资源解释为样式表，但转换为MIME类型text / html（似乎与web服务器无关）;

通过HTTPS加载页面但请求不安全的XMLHttpRequest端点;

拒绝从执行脚本'*'，因为它的MIME类型（“应用/ JSON'）不是可执行文件，并严格MIME类型检查被启用。;

热门教程

Java教程

Apache ANT 教程

Kali Linux教程

JavaScript教程

JavaFx教程

MFC 教程

Apache HTTP客户端教程

Microsoft Visio 教程

热门工具

Java 在线工具

C(GCC) 在线工具

PHP 在线工具

C# 在线工具

Python 在线工具

MySQL 在线工具

VB.NET 在线工具

Lua 在线工具

Oracle 在线工具

C++(GCC) 在线工具

Go 在线工具

Fortran 在线工具

登录关闭

扫码关注1秒登录

发送“验证码”获取 | 15天全站免登陆

友情链接： IT屋 Chrome插件谷歌浏览器插件

IT屋 ©2016-2022 琼ICP备2021000895号-1 站点地图站点标签 SiteMap <免责申明> 本站内容来源互联网,如果侵犯您的权益请联系我们删除.