html-parsing相关内容
我需要使用php代码提取存储在标记中的链接值. 从上面的代码中,我想使用php代码提取链接http://stackoverflow.com/questions/ask. 解决方案 $url = '
..
我尝试解析一些html内容,这是HTML内容: *TITLE* Some Event Name 1:15pm-5:00pm Stream 5
*TITLE* Some: Event Name 1:30pm-5:00pm
..
我想从具有属性的HTML标记中提取标记名称. 例如,我有这个标签 ,我需要提取标签名称a 我已经尝试了以下正则表达式,但是它不起作用.
..
我有一个页面,对于该页面,我需要从其他页面获取值. 我只想在“NúmerosSorteados"框中检索这6个数字. 到目前为止,我只成功获得了整个网页: WebRequest request = WebRequest.Create("http://www1.caixa.gov.br/loterias/loterias/ultimos_resultados.asp"); WebR
..
我想知道在rvest包中是否有此行为.当rvest看到\n under 30 = \n 如果这是故意的,
..
如果我有以下HTML页面
Hello world!
Hello and Hello again this is an example
我想获取特定的单词,例如"hello",并将其更改为"welcome",无论它们在文档中的何处 您有什么建议吗?无论您使用哪
..
我应该使用什么? 我将获取链接,图像,文本等,并将其用于构建seo统计信息和页面分析. 您建议使用什么? XML解析器或正则表达式 我一直在使用正则表达式,但从未遇到过任何问题,但是,我一直在听人们说它不能做某些事情,等等……但是说实话,我不知道为什么,但是我恐怕要使用XML解析器,而更喜欢使用正则表达式(它可以很好地工作并且可以很好地达到目的) 因此,如果正则表达式一切正
..
说我有与此类似的html代码: Stuff I do want
Stuff I don't want
使用HTMLParser的handle_data不能区分链接文本(我想要的东西)(这是否是正确的术语?)和我不需要的东西. HTMLParser是否具有使handle_data仅返回链接文本而不返回其他内容
..
我有以下html标记:
Online: 2/14/2010 3:40 AM
Hearing Impaired: No
..
我目前正在尝试抓取以下网址: http://www.bedbathandbeyond.com /store/product/dyson-dc59-motorhead-cordless-vacuum/1042997979?categoryId = 10562 在此页面上,我要提取列出的评论数.也就是说,我要提取数字693. 这是我当前的xpath: sel.xpath('//*[@
..
我想在以下网站上抓取内容: http://financials.morningstar.com/ratios/r.html? t = AMD 在其中 Key Ratios 下,我想单击"Growth"按钮,然后在Python中抓取数据. 我该怎么做? 解决方案 您可以使用requests + BeautifulSoup来解决.发送到 http://financials.m
..
我正尝试在以下网站上使用网址"url =' https://angel.co/life-科学' “.该网站包含8000多个数据.在此页面上,我需要诸如公司名称和链接,加入日期和关注者之类的信息.在此之前,我需要通过单击按钮对关注者列进行排序.然后,通过单击更多隐藏项来加载更多信息按钮.该页面最多可点击20次(更多隐藏的内容),此后它不会加载更多信息.但是我只能通过排序来获取主要关注者信息.在这里,
..
我正在使用Java Swing HTML解析库来解析HTML文档的集合,并且试图隔离标记之间的文本,以便可以使用它们来标识文档,但是我很难做到这一点因为handleStartTag方法无权访问标记内的文本 解决方案 您可以使用XPath从HTML中提取数据: String html = //... //read the HTML into a DOM StreamSo
..
我正在尝试解析此html以获得商品标题(例如,Big Boss空气炸锅-健康的1300瓦超大型16夸脱,油炸锅5色-新)
Details about Big Boss A
..
我正在尝试使用Jsoup获取字体信息.例如: 下面是我的代码: result = rtfToHtml(new StringReader(streamToString((InputStream)contents.getTransferData(dfRTF)))); // Example of text extraction from html
..
我在php中有一个作为字符串加载的html文件,我需要获取HTML字符串中输入元素的值.有人可以帮我建立一个使用输入元素名称并返回其值的函数吗? 这是我要执行的功能的示例: function getVal($name){ $htmlStr = "
..
我有一个网站的网址,需要找出该网站使用的语言(无论是西班牙语,法语,意大利语等). 该网站的顶级域名是 .com ,这完全没有帮助.我不能简单地检查字符串是否包含".de",“.fr"或任何其他国家(地区)代码. 我试图获取html标签的lang属性,但是有许多网站没有它.另外,我此处可以检查元数据标签,如下所示:
..
过去,我已经能够在R中使用readHTMLTable来获取一些足球统计数据.当今年再次尝试这样做时,即使表格在网页上可见,也不会显示表格.这是一个示例: http://www.pro-football-reference.com/boxscores/201609080den.htm 当我查看页面的源代码时,所有表都被注释掉了(我怀疑这是为什么readHTMLTable找不到它们的原因).
..
我正在尝试从html页面解析块,所以我尝试使用php preg_match此块 if( preg_match('(.*?)
', $data, $t)) 但不起作用 blablabla blablabla blablabla
我只希望grep blablabla
..
我将HTML作为字符串,然后解析它以将所有href链接更改为其他内容.但是,当HTML页面具有一些JS脚本标签,即时,它将被删除!例如以下行: 更改为: [removed][removed] 但是,我想保留所有内容.这是我的功能: f
..