html-parsing相关内容

从网页获取特定数据

我有一个页面,对于该页面,我需要从其他页面获取值. 我只想在“NúmerosSorteados"框中检索这6个数字. 到目前为止,我只成功获得了整个网页: WebRequest request = WebRequest.Create("http://www1.caixa.gov.br/loterias/loterias/ultimos_resultados.asp"); WebR ..
发布时间:2020-11-24 21:08:23 C#/.NET

XML解析器与正则表达式

我应该使用什么? 我将获取链接,图像,文本等,并将其用于构建seo统计信息和页面分析. 您建议使用什么? XML解析器或正则表达式 我一直在使用正则表达式,但从未遇到过任何问题,但是,我一直在听人们说它不能做某些事情,等等……但是说实话,我不知道为什么,但是我恐怕要使用XML解析器,而更喜欢使用正则表达式(它可以很好地工作并且可以很好地达到目的) 因此,如果正则表达式一切正 ..
发布时间:2020-11-24 21:08:13 PHP

HTMLParser是否可以区分链接文本和其他数据?

说我有与此类似的html代码: Stuff I do want Stuff I don't want 使用HTMLParser的handle_data不能区分链接文本(我想要的东西)(这是否是正确的术语?)和我不需要的东西. HTMLParser是否具有使handle_data仅返回链接文本而不返回其他内容 ..
发布时间:2020-11-24 21:08:10 Python

无法通过scrapy访问xpath属性

我目前正在尝试抓取以下网址: http://www.bedbathandbeyond.com /store/product/dyson-dc59-motorhead-cordless-vacuum/1042997979?categoryId = 10562 在此页面上,我要提取列出的评论数.也就是说,我要提取数字693. 这是我当前的xpath: sel.xpath('//*[@ ..
发布时间:2020-11-24 21:08:03 Python

使用硒和beautifulsoup进行Web抓取..解析和选择按钮时遇到麻烦

我正尝试在以下网站上使用网址"url =' https://angel.co/life-科学' “.该网站包含8000多个数据.在此页面上,我需要诸如公司名称和链接,加入日期和关注者之类的信息.在此之前,我需要通过单击按钮对关注者列进行排序.然后,通过单击更多隐藏项来加载更多信息按钮.该页面最多可点击20次(更多隐藏的内容),此后它不会加载更多信息.但是我只能通过排序来获取主要关注者信息.在这里, ..
发布时间:2020-11-24 21:07:56 Python

帮助Java Swing HTML解析

我正在使用Java Swing HTML解析库来解析HTML文档的集合,并且试图隔离标记之间的文本,以便可以使用它们来标识文档,但是我很难做到这一点因为handleStartTag方法无权访问标记内的文本 解决方案 您可以使用XPath从HTML中提取数据: String html = //... //read the HTML into a DOM StreamSo ..
发布时间:2020-11-24 21:07:52 Java开发

Jsoup-如何提取每个元素

我正在尝试使用Jsoup获取字体信息.例如: 下面是我的代码: result = rtfToHtml(new StringReader(streamToString((InputStream)contents.getTransferData(dfRTF)))); // Example of text extraction from html ..
发布时间:2020-11-24 21:07:47 Java开发

获取html输入元素的值作为php字符串

我在php中有一个作为字符串加载的html文件,我需要获取HTML字符串中输入元素的值.有人可以帮我建立一个使用输入元素名称并返回其值的函数吗? 这是我要执行的功能的示例: function getVal($name){ $htmlStr = " ..
发布时间:2020-11-24 21:07:45 PHP

如何确定网站的语言

我有一个网站的网址,需要找出该网站使用的语言(无论是西班牙语,法语,意大利语等). 该网站的顶级域名是 .com ,这完全没有帮助.我不能简单地检查字符串是否包含".de",“.fr"或任何其他国家(地区)代码. 我试图获取html标签的lang属性,但是有许多网站没有它.另外,我此处可以检查元数据标签,如下所示: ..
发布时间:2020-11-24 21:06:42 PHP

如何在R中使用readHTMLTable读取注释掉的HTML表

过去,我已经能够在R中使用readHTMLTable来获取一些足球统计数据.当今年再次尝试这样做时,即使表格在网页上可见,也不会显示表格.这是一个示例: http://www.pro-football-reference.com/boxscores/201609080den.htm 当我查看页面的源代码时,所有表都被注释掉了(我怀疑这是为什么readHTMLTable找不到它们的原因). ..
发布时间:2020-11-24 21:05:37 前端开发

使用DOMDocument解析带有JS代码的HTML

我将HTML作为字符串,然后解析它以将所有href链接更改为其他内容.但是,当HTML页面具有一些JS脚本标签,即时,它将被删除!例如以下行: 更改为: [removed][removed] 但是,我想保留所有内容.这是我的功能: f ..
发布时间:2020-11-24 21:05:29 PHP