jsoup相关内容
我正在用Java编写网络爬虫工具.当我输入网站名称时,如何在不定义协议的情况下使它以http或https连接到该网站? try { Jsoup.connect("google.com").get(); } catch (IOException ex) { Logger.getLogger(LinkGUI.class.getName()).log(Level.SEVERE, nul
..
我将JSoup用于我的Web爬网程序 Connection con = Jsoup.connect("http://t.co/uySIPVNfgP"); Document doc = con.get(); String u = doc.baseUri(); 上面的代码将重定向的网址作为基本uri 但是设置了以下用户代理: con.userAgent("Mozilla/5.0
..
我有
Tom
..
对于家庭作业,我必须编写一个程序,该程序从网站上抓取HTML,然后以某种方式在网站内查找短语.当我说短语时,是指以某种任意的方式组织文本,以便彼此接近的词放在同一组中.我知道这听起来确实不清楚,但是作业说明我们如何执行此操作取决于我们自己对如何找到“短语"的解释. 目前,我的代码如下: Document doc = Jsoup.connect("http://oracle.com/")
..
我想使用Jsoup从网站提取数据.数据在表格中. HTML代码:
Pop.Density 123
我要打印: zip code...(taken from a text file): 123 我有以下例外情况: Exce
..
下面的Java代码对于带有css-sched-table-title之类的html文件可以很好地工作. 但是我有多个类名可以在html文件中找到,例如css-sched-waypoints,css-sched-times.如何在jsoup中使用getElementsByClass方法组合搜索.我不想多次编写代码,因为我想保留订单.我的意思是我想要 之类的东西 doc.getElement
..
维基百科歧义消除页面上的某些html是模棱两可的,也就是说,连接到名为Corzine的特定人员的链接很难使用jsoup捕获,因为它们没有明确的结构化,也没有存在例如此示例中的特定部分.请参见此处的"Corzine"页面. 如何获得它们? jsoup是适合此任务的工具吗? 也许我应该使用正则表达式,但是我害怕这样做,因为我希望它可以通用. may refer to:
..
如何围绕该代码的Async部分包装一个方法,以便可以获取作为返回值返回的变量"doc",从而可以重用此方法?我无法在此类内声明静态方法,并且当我尝试使用void方法时,无法返回变量"doc",并且代码中也存在错误. class JsoupParseTask extends AsyncTask { protected Docum
..
我需要能够使用给定的URL(即http://website.com/document.pdf)在线解析文件中包含的文本. 我正在制作一个搜索引擎,该引擎基本上可以告诉我所搜索的单词是否在线存在于某个文件中,并检索文件的URL,因此我不需要下载文件而只需要阅读它即可. 我一直在寻找一种方法,并且找到了InputStream和OpenConnection的东西,但是并没有真正做到这一点.
..
我正在jsoup中尝试我的第一个认真的项目,但我在此问题上陷入了困境- 我正在尝试从网站获取邮政编码.有一个邮政编码列表. 以下是显示邮政编码的几行之一- 33011 所以我得到的想法是浏览页面,并从1-
..
我的代码在大多数情况下都有效.当网站重定向到新URL时,它将失败.例如,URL: http://www.oil-india.com/ 重定向到 http://www.oil-india.com/oilnew/ 在浏览器中.使用JSoup,以下代码无法从原始URL检索链接. doc = Jsoup.connect(url).timeout(0).userAgent(USER_AGENT).va
..
有没有办法选择一个在另一个元素之后的元素? 例如,如果我有:
...
,我想选择我可以做的第一个: Elements select = Jsoup.parse(HTML_PAGE).
..
我正在使用 JSoup 来获取网站. 我用这一行进行提取: Document doc = Jsoup.connect(urlString).get(); 该代码在首次运行程序的每个实例时都可以正常运行.如果再进行另一次提取,最终会出现以下错误: javax.net.ssl.SSLHandshakeException: No subject alternati
..
如何使用JSoup从表行获取data-code值? 这是我尝试过的内容,但它什么也没打印出来: Document doc = Jsoup.connect("http://www.example.com").get(); Elements dataCodes = doc.select("table[class=team-list]"); for (Element dataCode :
..
如何使用JSoup以正确的顺序遍历html文本和属性. text child 1 own text 1 text child 2 own text 2 我想对每个属性/文本进行一些处理. 例如最终输出可能类似于以下内容:- 1) text child 1 (is a link) 2) own text 1 3) text
..
我在此处 进行了这个简单程序的编译 package com.stackoverflow.q2835505; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Test {
..
我是Java的新手,当然是jsoup的新手.在程序的此初步步骤中,我试图将基于Web的XML文件放入一个对象,我可以开始使用该文件输出内容. (这是一个巨大的XML文件,我希望最终能够添加过滤器) 这是一些示例XML. Acid Splash 0 C
..
我目前正在通过网站申请来提高编程技能.现在,我可以通过该应用程序登录该网页.现在,我的重点是让用户通过应用程序更改其个人资料并将其保存到网站.问题是网站上没有任何反应,我也没有收到任何错误代码或任何东西. 当我单击“保存"按钮以将最近的更改保存在网站上时,我收到以下标头消息(通过使用google chrome f12->网络): firstname: John lastname:Ran
..
我想比较标题中提到的三种实现的性能,我写了一个JAVA程序来帮助我做到这一点.主要方法包含三个测试块,每个块如下所示: nb=0; time=0; for (int i = 0; i 0){ nb+
..
System.setProperty("http.proxyHost", ""); // set proxy server System.setProperty("http.proxyPort", ""); //set proxy port Document doc = Jsoup.connect("http://your.url.here").ge
..