html-parsing相关内容

用于存储HTML解析器规则文件格式

我使用Jsoup分析一个网页随着时间的推移其结构的变化。对于现在的分析配置是用Java编写的,所以我有每个规则被修改的时间来发布新的版本。结果 是否有某种我可以用它来解析配置存储在一个外部文件json-或基于XML的标记语言的? 解决方案 选项包括XPath和CSS选择器的语法。后者是由Jsoup支持 ..
发布时间:2016-03-15 21:28:23 Java开发

使用Jsoup解析HTML时出错

我要解析HTML网站,并获得一个字符串值。但我分析的div类时收到错误。 < D​​IV CLASS =“内容明确”> 我上面code写的,但我收到的错误。 {尝试 DOC = Jsoup.connect(“http://tvrehberi.hurriyet.com.tr/program-detay/308271/deli-deli-olma”)获得();清单&L ..
发布时间:2016-03-02 17:52:00 Java开发

非英语字符是德codeD错误在Android上HtlmCleaner

我用 HtmlCleaner 来刮 ISO-8859-1 连接codeD的网站中Android系统。 我在外部 JAR 文件,我导入我的Andr​​oid应用程序来实现这一点。 当我运行单元测试在Eclipse它所处理的挪威字母(æ,O,A )正确的(我可以确认,在调试器),但在Android应用这些字符看起来像倒置的问号。 如果我调试器附加到我的Andr​​oid应用程序,我可以看到,这些 ..
发布时间:2015-12-07 00:27:36 Java开发

我如何将字符串转换为UTF-8的Andr​​oid?

我使用的是HTML解析器叫Jsoup,加载和解析HTML文件。问题是,我刮的网页是EN $ C $光盘 ISO-8859-1 字符集而Android是使用 UTF-8 编码(?)。这是导致某些字符显示为问号。 所以,现在我想我应该将字符串转换为UTF-8格式。 现在我发现这个所谓的类 CharsetEn $ C在Android SDK,我想能不能帮我$ CR 。但我无法弄清楚如何实现它在实践中 ..
发布时间:2015-12-06 22:03:09 Java开发

JSoup解析HTML

我试图分析我检索与JSOUP一个InputStream的非结构良好的DTD HTML文件,并得到在TD领域的所有数据。 我怎样才能做到这一点与JSoup? 我已经看了看 http://jsoup.org/cookbook/ 但我应该需要SOM的例子来得到它开始了。 感谢你在前进。 我已经试过的SAXParser但我不能老是让DTD工作。 < D​​OCTYPE HTML PUBLIC“ ..
发布时间:2015-12-05 12:47:25 Java开发

使用HTTP POST方法与jsoup asp.NET登录

我最近试图建立一个Android应用程序供我上学的朋友,这样他们就不必使用Web浏览器,但一个简单的应用程序,以检查其更新的成绩和考试的时间表,但因为学校不会给予许可,使用其数据库的唯一的方法是做HTML解析。 所以我发现这个库Jsoup和示例,并开始写我自己的code,但它总是带给我的登录页面的页面源代码(它不登陆的话) 公开文件getHTMLsoure(){ 文档DOC = NULL; ..
发布时间:2015-12-04 10:28:05 C#/.NET

得到HTML解析器元素

我使用JSOUP,并试图获得其与特定的div标签的ID开始的元素。例如: < D​​IV ID =“test123”取代。 我需要检查的元素开头的字符串“测试”,并获得所有元素。 我看着 http://jsoup.org/cookbook/extracting-data/selector -syntax ,我尝试用多种变化: doc.select(“分区:火柴(测试(*) ..
发布时间:2015-12-03 16:06:09 Java开发

与jsoup如何解析图像

我找不到任何这种解决方案!我需要解析与jsoup一个HTML页面,我需要解析的形象太多,但我不能做到这一点!这是我的 MainActivity 公共类MainActivity延伸活动{ 公共静态最后弦乐TAG_TITOLI =“titoli”; 私有静态最后弦乐TAG_CONTENT =“内容”; ListView的LISTA; 静态最后弦乐BLOG_URL =“ ..
发布时间:2015-12-03 12:03:00 移动开发

TagSoup与Jsoup与HTML解析器与HotSax VS

HTML解析器的大量可供选择(并坚持)是超乎想象的: 我如何选择一个最适合下列要求: 成熟的(比其他错误较少) Live和呼吸(即感 维护) 快速和资源节约型 (打算在Android上运行) 根据你的经验,它的HTML解析器,你会推荐(满足上述要求),为什么 解决方案 嗯,我找到了答案,这是在给定的由@BalusC一个 如果您只是想使用一个基于XML 工具来遍历:把JTidy 如果你喜 ..
发布时间:2015-12-02 18:01:26 Java开发

HTML解析Android中

我有一个HTML响应了我的申请,我需要解析大势所趋。有没有什么办法来执行HTML解析在Android应用程序。我已搜查网上很多,但不能发现什么,我一直在寻找。 任何人都可以有一个线索做? 谢谢, 大卫 解决方案 大卫做检查的 HTML类 Html.fromHtml(“< A HREF = HTTP://saurabh-nigam.blogspot.com/> myblogt&LT ..
发布时间:2015-12-02 17:35:43 移动开发

JSOUP解析HTML进去类类

我正在开发使用JSOUP分析HTML Android应用程序。 我有HTML语法 < D​​IV CLASS ='包装'> <股利风格=“保证金:7px的;'> < D​​IV CLASS =“盒子”风格=“高度:595px'> < D​​IV CLASS ='boxtitlebox'> < ..
发布时间:2015-12-02 17:31:38 移动开发

Android的HTML解析器实例

我一直在寻找到许多HTML解析器为Android。我试过很多图书馆。任何人都可以请告诉我一个例子,如何做到这一点。我想提取每个标签的内容。请帮忙。我坚持这一点。 解决方案 看这个名单。我选择了 HtmlCleaner 。使用示例: 来源$ C ​​$ C: 公共类HtmlHelper的{ TagNode rootNode中; 公众的HtmlHelper(URL htm ..
发布时间:2015-12-01 23:56:37 移动开发

Android的ImageGetter图像重叠的文本

我试图加载HTML块到一个TextView,包括图像,使用 URLImageParser P =新URLImageParser(articleBody,这一点); 跨区htmlSpan = Html.fromHtml(parsedString,P,NULL); parsedString是HTML,顺便说一句。无论如何,它加载了,但图像没有创建任何空间,让他们坐,因此他们最终重叠在它们 ..
发布时间:2015-12-01 22:15:42 移动开发

如何解析的表的第三列的单元格?

我试图解析&LT的第三列的单元格;表> 使用Jsoup。 下面是HTML: < B><表标题=“Avgångar:”类=“tableMenuCell”CELLSPACING =“0”的cellpadding = “4”的边界=“0”ID =“GridViewForecasts”的风格=“颜色:#333333;宽度:470px;边界崩溃:崩溃;”> < TR类= ..
发布时间:2015-12-01 16:32:10 Java开发

Android的HTML ImageGetter为AsyncTask的

好了,我失去了我的脑海里这一个。我在我的程序中的方法,该方法解析HTML。我想包括内嵌图像,而我下,使用的Html.fromHtml(字符串,Html.ImageGetter,Html.TagHandler)的IM pression将允许这样的事情发生。 由于Html.ImageGetter没有实现,它给我写一个。然而,由于解析URL到可绘制需要访问网络,我不能在主线程中做到这一点,所以它必须是 ..
发布时间:2015-12-01 13:33:26 移动开发

的HTMl敏捷包错误解析和返回的XElement

我可以解析文档,并生成但是输出不能被解析成,因为AP标签的的XElement的输出,在字符串中的一切是正确的分析。 我的输入: VAR输入=“< P>不知道为什么是空的一些奇怪的原因< BR!>< BR>我已经实现了自动保存功能,但它100秒后,真功夫< BR>< / P>< P>< I>自动保存??< ..
发布时间:2015-11-27 21:55:16 C#/.NET

如何从净许多HTML文件中读取的XPath值?

我有一个文件夹中的大约5000 HTML文件。我需要通过这些循环,开放,抢说使用XPath,关闭,并存储在10个值(SQL Server)的数据库。 什么是做阅读使用.NET中的XPath值的最简单的方法? 的XPath应该是pretty的稳定。 请提供例如code读取一个值,说/ HTML /头/标题/文() 感谢 解决方案 我想你应该考虑的 HTML敏捷性包的。它是一个HTML解析 ..
发布时间:2015-11-27 15:23:25 C#/.NET

库来生成HTML标记汤.NET的XmlDocument

我在找一个.NET库,可以生成一个干净的XML树,最好System.Xml.XmlDocument,从无效的HTML code。 I.E.它应该做的那种尽力猜测,修理,而当这种情况面临换人的浏览器做的,并产生pretend的XmlDocument。库也应维护良好。 :) 我意识到这是很多(太多?)要问了,我会AP preciate任何有用的线索。似乎有这样的Java实现的一个公平的数字,但我宁愿 ..
发布时间:2015-11-26 19:38:51 C#/.NET

检查未开封的标签一个HTML字符串

我有一个字符串作为HTML源,我想检查是否HTML源代码是字符串中包含这是不打开的标签。 例如字符串下面包含< / U> 波形没有开通后< U> 波形< / U> YES,< U> EPIGASTRUM&LT的负听诊; / U>是, 我只是想检查这些类型的未开封的标签,然后我不得不打开标签附加到字符串的开始? 解决方案 有关,您 ..
发布时间:2015-11-26 18:15:46 C#/.NET