html-parsing相关内容

HtmlAgilityPack设置节点的InnerText

我想与其他文本替换HTML标签的内部文本。 我使用HtmlAgilityPack 结果我使用此代码提取所有文本 的HTMLDocument DOC =新的HTMLDocument(); doc.Load(“某些路径”) 的foreach(在doc.DocumentNode.SelectNodes HtmlNode节点(“//文字()[正常化空间(。)!=''] “)){ //如 ..
发布时间:2016-09-26 13:18:12 C#/.NET

解析表,电池使用HTML敏捷性在C#

我需要解析HTML代码。更具体地,分析所有表中的每一行中的每个单元。每一行代表一个单独的对象和每个小区表示不同的属性。欲分析这些能够写带内的每个数据的XML文件(没有无用的HTML代码)。我已成功能够从HTML文件解析每个列,但现在我不知道我的选择是写这到一个XML文件。我感到莫名其妙 HTML: < TR>< ; TR> < TD类=“statBox”的 ..
发布时间:2016-09-19 12:23:41 C#/.NET

什么是分析?

解析是我来到翻过很多的发展,但作为一个初级的那些事情,我想我会找到窍门在某些时候,它需要的人。在我目前的项目我已经被告知要找到并使用一个HTML解析器为特定的功能,我发现一对夫妇在网络上,但到底是什么一个HTML解析器实际上做?什么意思解析的对象?? 解决方案 的解析通常适用于文本 - 阅读文本,并将其转换成一个更有用的内存格式,其行为”理解“意味着什么,在一定程度上。因此,例如,XML解 ..
发布时间:2016-09-08 17:01:18 C#/.NET

这是最好的HTML整洁包?是否有HTML敏捷性包的任何选项,以使HTML网页整洁?

我使用的 HTML敏捷性包以解析HTML 表格信息即可。现在有一些HTML内容缺少结束标记,以及因数据丢失结束标记HTML敏捷性包不分析信息properly.So我想插入结束那里有等标签页面中缺少结束标记这样的html敏捷包解析信息正确。因此,要插入缺失的结束标记我该怎么办?我应该做我写的自己的code 为或使用 HTML整齐包,以做到这一点? 如果HTML整洁的包,然后这是最好的 HTML整齐 ..
发布时间:2016-08-29 14:13:15 C#/.NET

如何阅读HTML作为XML?

我想提取一对夫妇从从互联网上下载一个html页面的链接,我认为使用LINQ to XML将是我的情况很好的解决方案。结果 我的问题是,我不能创建从HTML一个XmlDocument,使用Load(字符串URL)没有工作,所以我用下载的HTML为一个字符串: 公共静态字符串readHTML(字符串URL) { HttpWebRequest的REQ =(HttpWebReq ..
发布时间:2016-08-29 12:36:53 C#/.NET

HTML敏捷性包带标签NOT IN白名单

我试图创建一个函数从而消除HTML标签,哪些不在白名单中的属性。 我有以下HTML: &LT; B&gt;首先文字&lt; / B&GT; &LT; B&gt;此处第二个文本 &LT; A&GT;一些文本此处&lt; / A&GT; &LT; A&GT;一些文本此处&lt; / A&GT; &LT; / B&GT; &LT; A&GT;有的twxt此处&lt; / A&GT; ..
发布时间:2016-08-26 15:25:03 C#/.NET

HTML敏捷包 - 解析表

我想使用的HTML敏捷包解析从复杂的网页表格,但我在对象模型我莫名其妙地丢失了。 我看了一下链接的例子,但没有发现任何表中的数据这条路。 我可以使用XPath来获取表?我已经加载的数据,如何让表后我基本丧失。我曾在Perl这样做过,这是一个有点笨拙,但工作。 ( HTML :: TableParser )。 我也很高兴,如果可以只流下合适的对象为使解析一盏灯。 解决方案 如何是这样的 ..
发布时间:2016-08-26 15:03:36 C#/.NET

如何知道焦油解析器里面的文件

我开发一个Visual C ++应用程序。我需要知道的文件类型(我的意思是它是否包含PNG文件or.html文件或.txt文件)tar文件(只是C ++ prgramming)内$​​ P $ psent什么也没有要处理的命令。 我有链接的一些知识如下─ 如何解析一个tar文件 在这里我有,在缓冲[512]我们有一个文件present的内容里面thge焦油file.My第一quesion是信 ..
发布时间:2016-08-25 09:16:02 C/C++开发

如何使用libcurl的登录到一个安全的网站,并在登录后的HTML得到

嗨,我想知道,如果你们能帮助我通过使用C和libcurl的访问登陆页面后面的HTML工作。 具体例子: 该网站我想访问 https://onlineservices.ubs .COM / olsauth / EX / PBL / ubso /分升 是否有可能做这样的事情? 问题是,我们有很多客户的每一个都有一个单独的登录。我们需要从每一天他们的每一个账户中获取数据。这将是非常漂亮的,如果我 ..
发布时间:2016-08-18 22:47:49 C/C++

解析HTML - 如何从一个标签的号码?

我正在开发一个Windows窗体应用程序,它与网站交互。 使用 web浏览器控制我控制的网站,我可以使用通过标签迭代: 的HTMLDocument webDoc1 = this.webBrowser1.Document; HtmlElementCollection aTags = webDoc1.GetElementsByTagName(“一”); 现在,我想从哪个低于标签的特定文本: ..
发布时间:2016-08-15 13:42:14 C#/.NET

如何解析器(例如,HTML)工作?

有关参数的缘故,让我们假设一个HTML解析器。 我读过它的 tokenizes 的一切,然后再分析它。 这是什么记号化意味着什么? 是否解析器读取每个字符每个,建立一个多维数组存储结构? 例如,它读取&LT; ,然后开始捕捉元素,然后一旦它遇到了一个闭合的&GT; (属性之外),将其推到一个数组栈的地方? 我感兴趣的知道(我很好奇)的缘故。 如果我是通过像 HTML净化器读取源,将是给 ..
发布时间:2016-08-15 13:20:48 前端开发

BeautifulSoup标签去除

我已经在找解析与Python HTML表格/ BeautifulSoup ... 这是我在Python编码什么的第一次尝试,所以它可能不是最有效的。 我抓住一个函数在这里另一篇文章(的伟大工程,在大多数情况下),但是我遇到了几个问题。 在code我运行的是在这里: DEF用strip_tags(HTML,invalid_tag​​s): BS2 = BeautifulSoup(S ..
发布时间:2016-08-05 19:21:59 Python

beautifulsoup:分析跨度标题

我试图解析HTML页面,我已经成功了的HTML DOM树的子区域,但我被困在那里有span标记的地方。 例如:我最初解析页面如下: user_url = BASE_URL + STR(user_ID的)+“/”+ DISPLAY_NAME user_page = urllib2.urlopen(user_url) souping_page = BS(user_ ..
发布时间:2016-08-05 19:20:22 Python

解析无效锚标记与BeautifulSoup正则表达式或

我想解析解析包含HTML锚标记的原始文件,但不幸的是它包含无效代码​​,如: &LT; A HREF =“A 4”驱动器托架“&gt;此处的一些文字&lt; / A&GT; 我知道的href 值可能不是一个实际的链接,但我们刚刚离开这种方式。现在我需要的是找回href值'A 4“驱动器托架和链接文本'这里一些文本。 我使用Python和我已经尝试了Python库“ BeautifulSoup ..
发布时间:2016-08-05 19:20:08 Python

内存错误 - 在非常大的HTML文件,使用BeautifulSoup?

Facebook的消息分析仪 - 我通过一个项目的工作学习Python的。我下载我的数据,其中包括我的所有消息的messages.htm文件。我想编写一个程序来分析这个文件和输出数据(消息#,最常见的词,等等。) 不过,我messages.htm文件是270MB。当创建在外壳进行测试BeautifulSoup对象,任何其他文件(全部&LT; 1MB)的作品就好了。但我不能创建messages. ..
发布时间:2016-08-05 19:19:34 前端开发