从 HTML 中提取文本,同时保留块级元素换行符 [英] Extract text from HTML while preserving block-level element newlines

查看:29
本文介绍了从 HTML 中提取文本,同时保留块级元素换行符的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

背景

大多数关于从 HTML 中提取文本的问题(即剥离标签)使用:

jQuery( htmlString ).text();

虽然这抽象了浏览器的不一致(例如 innerTexttextContent),但函数调用也忽略了块级元素(例如 li).

问题

在各种浏览器中保留块级元素的换行符(即语义意图)需要不小的努力,因为 迈克威尔科克斯描述.

一个看似更简单的解决方案是模拟将 HTML 内容粘贴到