html-parsing相关内容

用python解析HTML文档

我对python完全陌生,我试图解析HTML文档以删除标签,而我只是想保留以前从我的计算机上下载过的报纸网站的标题和正文. 我正在使用我在文档中找到的HTML Parser类,但是我不知道如何很好地使用它,我不太了解这种语言:( 这是我的代码: #importa clase HTMLParser从html.parser导入HTMLParser类HTMLCleaner(HTMLPar ..
发布时间:2021-05-15 18:39:55 前端开发

如何抓取表格及其链接

我想做的就是浏览以下网站 https://www.tdcj.texas.gov/death_row/dr_executed_offenders.html 查看源: https://www.tdcj.texas.gov/death_row/dr_executed_offenders.html 然后选择执行的年份,输入"Last Statement"链接,然后检索该语句...也许我会创建 ..
发布时间:2021-05-15 18:39:46 其他开发

javax.swing.text.ElementIterator奇怪的行为

使用javax.swing.text.ElementIterator()出现奇怪的行为.它永远不会显示所有元素,并且会显示不同数量的元素,具体取决于我使用哪种类型的ParserCallback.以下测试是使用我个人资料中的网站完成的,但可以使用任何其他较大的html文件完成. //在某些情况下会显示一些导入,以防其导入混淆导入javax.swing.text.AttributeSet;导入jav ..
发布时间:2021-05-15 18:39:43 Java开发

如何以编程方式加载HTML文档以添加到文档中?

我们从客户端提供了HTML“包装器"文件,我们需要将它们插入到内容中,然后呈现HTML. 在呈现插入了内容的HTML之前,我需要向客户端包装的 部分添加一些标签,例如对脚本文件,css和某些文件的引用元标记. 所以我在做什么 string html = File.ReadAllText(wrapperLocation,Encoding.GetEncoding("iso ..
发布时间:2021-05-15 18:39:40 C#/.NET

帮助使用PHP和XPath

我需要在PHP中使用XPath做一些事情的帮助. 使用任何给定的HTML,我需要: 删除所有表及其内容 删除第一个h1标签之后的所有内容 仅保留段落(包括其内部HTML(链接,列表等)) 使用正则表达式,我可以使一切正常运行.但是,当我遇到嵌套表时,我认为用正则表达式解析HTML确实是愚蠢的. 非常感谢! 解决方案 使用任何给定的HTML,我需要: • ..
发布时间:2021-05-15 18:39:37 PHP

用于HTML标签的正则表达式

我正在执行以下操作: < ;?$ text = preg_replace("/&p;(.*?)/","$ 1 ","$ text");?> 因此,我可以删除 标记,并在字符串的末尾放置一个空格(这是用于页面样式). 这完全适用于“ 某事 " . 但是,带有如下文字: 由Cicero在45 BC/h3中写成的"de Finibus Bon ..
发布时间:2021-05-15 18:39:33 PHP

用于XML的LXML中的正则表达式

我在xpath命令中实现正则表达式遇到麻烦.我的目标是下载主页的html内容以及主页上所有超链接的内容.但是,该程序引发异常,因为某些href链接未连接任何内容(例如'//:javascript'或'#').我将如何在xpath中使用regex?除了非绝对href以外,还有其他更简单的方法吗? 从LXML导入HTML的 汇入要求main_pg = requests.get("http://ga ..
发布时间:2021-05-15 18:39:30 Python

如何使用Python从网站获取脚本标签变量

我正在尝试使用Python在脚本标签中提取一个名为meta的变量.我以前曾经用硒来做到这一点,但是硒对于我要完成的工作来说太慢了.还有其他方法吗? 我尝试使用BeautifulSoup,但是我被卡住了……代码在下面 这是我试图从以下位置获取元变量的脚本标签: window.ShopifyAnalytics = window.ShopifyAnalytics ||{ ..
发布时间:2021-05-15 18:39:20 Python

替换非渲染(非显示)元素文本中的↵(\ n)

我正在编写一个解析器,该解析器从隐藏的iframe中获取数据. 在文本中,我需要将 \ n (↵)字符替换为 (空格).我将其用于此任务- text.replace(/\ n/gi,“").但是,它仅适用于可见元素(即没有 display:none ).如果该元素不可见( display:none ),换行符就会消失并且不会得到任何替换. HTML示例: ..
发布时间:2021-05-15 18:39:16 前端开发

使用PHP正则表达式从HTML提取JSON对象

阅读所有相关线程后,我找不到任何能显示正则表达式的东西,该正则表达式能够从html内容中提取完整的json对象,因此希望有人可以帮助我获得正确的正则表达式来解决此问题. 例如,要提取的json im如下所示: “分类法":{“页面":"/products/1/",“价格":"350.00",“国家/地区代码":"gb",“品牌":“苹果"}, 我正在尝试提取html中Java脚本函数内 ..
发布时间:2021-05-15 18:39:13 PHP

用于Android/iOS开发的FLUTTER中的HTML解析

我们知道有一个供Android开发人员使用的Jsoup库,用于解析html文本,代码等.由于我是flutter移动应用程序开发的新手,我想知道是否有像Jsoup这样的库来解析html文本,来自网络的代码现场扑朔迷离. 解决方案 您可以通过这种方式解析HTML字符串 导入"package:html/parser.dart";//函数在这里字符串_parseHtmlString(String ..
发布时间:2021-05-15 18:39:06 移动开发

解析HTML不会输出所需的数据(FedEx的跟踪信息)

我正在尝试制作一个脚本,以从联邦快递网站上获取跟踪信息. 我发现fi只是转到url' https://www.fedex.com/fedextrack/?tracknumbers = "并将跟踪号粘贴到它的末尾,它带我到跟踪页面,其中包含我需要的信息. 我试图向URL提供跟踪号并从响应中解析html. 这是我尝试过的. 导入urlliburl_prefix ='https:// ..
发布时间:2021-05-15 18:38:59 Python

如何将html对象转换为字符串类型?

我使用jQuery方法获取某种类型的html对象: var content = $('#cke_ckeditor iframe').contents().find('.cke_show_borders').clone(); 然后我要将其转换为 string 类型: console.log(content [0] .toString()); 但是结果是: [对象HTMLBodyE ..
发布时间:2021-05-15 18:38:56 其他开发