jsoup相关内容

Java如何找出URL是http还是https?

我正在用Java编写网络爬虫工具.当我输入网站名称时,如何在不定义协议的情况下使它以http或https连接到该网站? try { Jsoup.connect("google.com").get(); } catch (IOException ex) { Logger.getLogger(LinkGUI.class.getName()).log(Level.SEVERE, nul ..
发布时间:2020-04-24 10:01:01 Java开发

带有userAgent的JSoup防止重定向

我将JSoup用于我的Web爬网程序 Connection con = Jsoup.connect("http://t.co/uySIPVNfgP"); Document doc = con.get(); String u = doc.baseUri(); 上面的代码将重定向的网址作为基本uri 但是设置了以下用户代理: con.userAgent("Mozilla/5.0 ..
发布时间:2020-04-24 10:00:59 Java开发

JSOUP查找单词组

对于家庭作业,我必须编写一个程序,该程序从网站上抓取HTML,然后以某种方式在网站内查找短语.当我说短语时,是指以某种任意的方式组织文本,以便彼此接近的词放在同一组中.我知道这听起来确实不清楚,但是作业说明我们如何执行此操作取决于我们自己对如何找到“短语"的解释. 目前,我的代码如下: Document doc = Jsoup.connect("http://oracle.com/") ..
发布时间:2020-04-24 10:00:52 Java开发

如何使用带有多个类名元素的Jsoup解析html文件?

下面的Java代码对于带有css-sched-table-title之类的html文件可以很好地工作. 但是我有多个类名可以在html文件中找到,例如css-sched-waypoints,css-sched-times.如何在jsoup中使用getElementsByClass方法组合搜索.我不想多次编写代码,因为我想保留订单.我的意思是我想要 之类的东西 doc.getElement ..
发布时间:2020-04-24 10:00:48 Java开发

提取结构松散的Wikipedia文本. html

维基百科歧义消除页面上的某些html是模棱两可的,也就是说,连接到名为Corzine的特定人员的链接很难使用jsoup捕获,因为它们没有明确的结构化,也没有存在例如此示例中的特定部分.请参见此处的"Corzine"页面. 如何获得它们? jsoup是适合此任务的工具吗? 也许我应该使用正则表达式,但是我害怕这样做,因为我希望它可以通用. may refer to: ..
发布时间:2020-04-24 10:00:45 前端开发

如何在代码的异步部分中包装方法

如何围绕该代码的Async部分包装一个方法,以便可以获取作为返回值返回的变量"doc",从而可以重用此方法?我无法在此类内声明静态方法,并且当我尝试使用void方法时,无法返回变量"doc",并且代码中也存在错误. class JsoupParseTask extends AsyncTask { protected Docum ..
发布时间:2020-04-24 10:00:41 Java开发

从URL解析来自Pdf,txt或docx文件的文本,而无需在Java 8中下载文本

我需要能够使用给定的URL(即http://website.com/document.pdf)在线解析文件中包含的文本. 我正在制作一个搜索引擎,该引擎基本上可以告诉我所搜索的单词是否在线存在于某个文件中,并检索文件的URL,因此我不需要下载文件而只需要阅读它即可. 我一直在寻找一种方法,并且找到了InputStream和OpenConnection的东西,但是并没有真正做到这一点. ..
发布时间:2020-04-24 10:00:37 Java开发

在jsoup中使用正则表达式

我正在jsoup中尝试我的第一个认真的项目,但我在此问题上陷入了困境- 我正在尝试从网站获取邮政编码.有一个邮政编码列表. 以下是显示邮政编码的几行之一- 33011 所以我得到的想法是浏览页面,并从1- ..
发布时间:2020-04-24 10:00:35 Java开发

JSoup +链接提取+重定向URL

我的代码在大多数情况下都有效.当网站重定向到新URL时,它将失败.例如,URL: http://www.oil-india.com/ 重定向到 http://www.oil-india.com/oilnew/ 在浏览器中.使用JSoup,以下代码无法从原始URL检索链接. doc = Jsoup.connect(url).timeout(0).userAgent(USER_AGENT).va ..
发布时间:2020-04-24 10:00:32 其他开发

Jsoup-选择标签时出现问题

有没有办法选择一个在另一个元素之后的元素? 例如,如果我有: ... ,我想选择我可以做的第一个: Elements select = Jsoup.parse(HTML_PAGE). ..
发布时间:2020-04-24 10:00:29 Java开发

使用JSoup获取表的数据代码值

如何使用JSoup从表行获取data-code值? 这是我尝试过的内容,但它什么也没打印出来: Document doc = Jsoup.connect("http://www.example.com").get(); Elements dataCodes = doc.select("table[class=team-list]"); for (Element dataCode : ..
发布时间:2020-04-24 10:00:25 Java开发

用jsoup读取XML

我是Java的新手,当然是jsoup的新手.在程序的此初步步骤中,我试图将基于Web的XML文件放入一个对象,我可以开始使用该文件输出内容. (这是一个巨大的XML文件,我希望最终能够添加过滤器) 这是一些示例XML. Acid Splash 0 C ..
发布时间:2020-04-24 10:00:15 Java开发

JSOUP提交POST到表单

我目前正在通过网站申请来提高编程技能.现在,我可以通过该应用程序登录该网页.现在,我的重点是让用户通过应用程序更改其个人资料并将其保存到网站.问题是网站上没有任何反应,我也没有收到任何错误代码或任何东西. 当我单击“保存"按钮以将最近的更改保存在网站上时,我收到以下标头消息(通过使用google chrome f12->网络): firstname: John lastname:Ran ..
发布时间:2020-04-24 10:00:11 Java开发

通过代理与JSoup连接

System.setProperty("http.proxyHost", ""); // set proxy server System.setProperty("http.proxyPort", ""); //set proxy port Document doc = Jsoup.connect("http://your.url.here").ge ..
发布时间:2020-04-24 10:00:06 Java开发