jsoup - 提取文本

以下示例将展示在将HTML字符串解析为Document对象后使用方法获取文本.

语法

 
文档文档= Jsoup.parse(html); 
 Element link = document.select("a").first(); 
 System.out.println("Text:"+ link.text());

其中

  • 文件 :  document对象代表HTML DOM.

  • Jsoup : 用于解析给定HTML字符串的主类.

  • html :  HTML字符串.

  • 链接 :  Element对象表示代表锚标记的html节点元素.

  • link.text() :  text()方法检索元素文本.

描述

元素对象代表一个元素并提供各种方法来获取dom元素的文本.

示例

使用您选择的任何编辑器创建以下Java程序,例如C :/> jsoup.

JsoupTester.java

 
 import org. jsoup.Jsoup; 
 import org.jsoup.nodes.Document; 
 import org.jsoup.nodes.Element; 
公共类JsoupTester {
 public static void main(String [] args){
 String html ="< html>< head>< title&gt ;样本标题</title></head>" 
 +"< body>" 
 +"< p>示例内容</p>" 
 +"< div id ='sampleDiv'>< a href ='www.google.com'> Google</a>" 
 +"< h3>< a>样本</a>< h3>" 
 +"</div>" 
 +"</body></html>"; 
文档文档= Jsoup.parse(html); 
//a with href 
 Element link = document.select("a").first(); 
 System.out.println("Text:"+ link.text()); 
} 
}

验证结果

使用 javac编译类编译如下:

 
 C:\ _jsoup> javac JsoupTester.java

现在运行JsoupTester查看结果.

 
 C:\ _jsoup> java JsoupTester

查看结果.

 
文字:Google