html-parsing 第37页 - IT屋-程序员软件开发技术分享社区

HtmlAgilityPack设置节点的InnerText

我想与其他文本替换HTML标签的内部文本。我使用HtmlAgilityPack 结果我使用此代码提取所有文本的HTMLDocument DOC =新的HTMLDocument（）; doc.Load（“某些路径”）的foreach（在doc.DocumentNode.SelectNodes HtmlNode节点（“//文字（）[正常化空间（。）！=''] “））{ //如 ..

发布时间：2016-09-26 13:18:12 c# parsing html-parsing html-agility-pack C#/.NET

创建字符串在C＃字典或列表（包括HTML标记）

一个有这样的字符串：字符串s = @“ < TR> < TD> 11< / TD>< TD> 12< / TD> < / TR> < TR> < TD> 21< / TD>< ; TD> 22℃; / TD> < / TR> < TR&G ..

发布时间：2016-09-26 13:01:49 c# html-parsing html-table C#/.NET

解析表，电池使用HTML敏捷性在C＃

我需要解析HTML代码。更具体地，分析所有表中的每一行中的每个单元。每一行代表一个单独的对象和每个小区表示不同的属性。欲分析这些能够写带内的每个数据的XML文件（没有无用的HTML代码）。我已成功能够从HTML文件解析每个列，但现在我不知道我的选择是写这到一个XML文件。我感到莫名其妙 HTML： < TR>< ; TR> < TD类=“statBox”的 ..

发布时间：2016-09-19 12:23:41 c# html-agility-pack xml-parsing html-parsing C#/.NET

什么是分析？

解析是我来到翻过很多的发展，但作为一个初级的那些事情，我想我会找到窍门在某些时候，它需要的人。在我目前的项目我已经被告知要找到并使用一个HTML解析器为特定的功能，我发现一对夫妇在网络上，但到底是什么一个HTML解析器实际上做？什么意思解析的对象?? 解决方案的解析通常适用于文本 - 阅读文本，并将其转换成一个更有用的内存格式，其行为”理解“意味着什么，在一定程度上。因此，例如，XML解 ..

发布时间：2016-09-08 17:01:18 c# parsing html-parsing C#/.NET

这是最好的HTML整洁包？是否有HTML敏捷性包的任何选项，以使HTML网页整洁？

我使用的 HTML敏捷性包以解析HTML 表格信息即可。现在有一些HTML内容缺少结束标记，以及因数据丢失结束标记HTML敏捷性包不分析信息properly.So我想插入结束那里有等标签页面中缺少结束标记这样的html敏捷包解析信息正确。因此，要插入缺失的结束标记我该怎么办？我应该做我写的自己的code 为或使用 HTML整齐包，以做到这一点？如果HTML整洁的包，然后这是最好的 HTML整齐 ..

发布时间：2016-08-29 14:13:15 c# winforms html-parsing html-agility-pack htmltidy C#/.NET

如何阅读HTML作为XML？

我想提取一对夫妇从从互联网上下载一个html页面的链接，我认为使用LINQ to XML将是我的情况很好的解决方案。结果我的问题是，我不能创建从HTML一个XmlDocument，使用Load（字符串URL）没有工作，所以我用下载的HTML为一个字符串：公共静态字符串readHTML（字符串URL） { HttpWebRequest的REQ =（HttpWebReq ..

发布时间：2016-08-29 12:36:53 c# html xml html-parsing C#/.NET

iTextSharp的上试图解析HTML的PDF转换错误

我用的iTextSharp的模块下面列出的HTML转换到一个PDF页面。＆LT; DIV的风格=“FONT-SIZE：18pt; FONT-重量：大胆;”＆GT; MMA＆LT; BR＆GT;＆MMAR LT; / DIV＆GT;＆LT; BR＆GT; ＆LT; BR＆GT; ＆LT; DIV的风格=“FONT-SIZE：14pt;”＆gt;点击查看价格＆LT ..

发布时间：2016-08-26 21:37:49 c# pdf-generation html-parsing itextsharp C#/.NET

HTML敏捷性包带标签NOT IN白名单

我试图创建一个函数从而消除HTML标签，哪些不在白名单中的属性。我有以下HTML：＆LT; B＆gt;首先文字＆lt; / B＆GT; ＆LT; B＆gt;此处第二个文本＆LT; A＆GT;一些文本此处＆lt; / A＆GT; ＆LT; A＆GT;一些文本此处＆lt; / A＆GT; ＆LT; / B＆GT; ＆LT; A＆GT;有的twxt此处＆lt; / A＆GT; ..

发布时间：2016-08-26 15:25:03 c# tags html-parsing html-agility-pack sanitize C#/.NET

HTML敏捷包 - 解析表

我想使用的HTML敏捷包解析从复杂的网页表格，但我在对象模型我莫名其妙地丢失了。我看了一下链接的例子，但没有发现任何表中的数据这条路。我可以使用XPath来获取表？我已经加载的数据，如何让表后我基本丧失。我曾在Perl这样做过，这是一个有点笨拙，但工作。（ HTML :: TableParser ）。我也很高兴，如果可以只流下合适的对象为使解析一盏灯。解决方案如何是这样的 ..

发布时间：2016-08-26 15:03:36 c# html html-parsing html-agility-pack C#/.NET

如何知道焦油解析器里面的文件

我开发一个Visual C ++应用程序。我需要知道的文件类型（我的意思是它是否包含PNG文件or.html文件或.txt文件）tar文件（只是C ++ prgramming）内$ P $ psent什么也没有要处理的命令。我有链接的一些知识如下─ 如何解析一个tar文件在这里我有，在缓冲[512]我们有一个文件present的内容里面thge焦油file.My第一quesion是信 ..

发布时间：2016-08-25 09:16:02 c++ c html-parsing tar C/C++开发

如何使用libcurl的登录到一个安全的网站，并在登录后的HTML得到

嗨，我想知道，如果你们能帮助我通过使用C和libcurl的访问登陆页面后面的HTML工作。具体例子：该网站我想访问 https://onlineservices.ubs .COM / olsauth / EX / PBL / ubso /分升是否有可能做这样的事情？问题是，我们有很多客户的每一个都有一个单独的登录。我们需要从每一天他们的每一个账户中获取数据。这将是非常漂亮的，如果我 ..

发布时间：2016-08-18 22:47:49 c html-parsing libcurl http-authentication C/C++

我可以通过Web客户端（我想外部HTML）读的iframe？

那么我的程序读取网页的目标是身体某处有，我想读的iframe。我的HTML源代码＆LT; HTML和GT; ... ＆LT; IFRAME SRC =“http://www.mysite.com”＆GT;＆LT; / IFRAME＆GT; ... ＆LT; / HTML＆GT; 在我的节目，我有一个返回源为一个字符串的方法公共静态字符串get_url_source（字符串URL） ..

发布时间：2016-08-15 15:30:08 c# browser html-parsing webclient C#/.NET

浏览器误间preting'和，而不是'在网址

显然，如果包含文本的URL ＆放;不要作为一个字段属性的一部分，许多浏览器将跨preT这为的 ..

发布时间：2016-08-15 14:50:31 html browser html-parsing 前端开发

解析HTML - 如何从一个标签的号码？

我正在开发一个Windows窗体应用程序，它与网站交互。使用 web浏览器控制我控制的网站，我可以使用通过标签迭代：的HTMLDocument webDoc1 = this.webBrowser1.Document; HtmlElementCollection aTags = webDoc1.GetElementsByTagName（“一”）; 现在，我想从哪个低于标签的特定文本： ..

发布时间：2016-08-15 13:42:14 c# browser html-parsing C#/.NET

如何解析器（例如，HTML）工作？

有关参数的缘故，让我们假设一个HTML解析器。我读过它的 tokenizes 的一切，然后再分析它。这是什么记号化意味着什么？是否解析器读取每个字符每个，建立一个多维数组存储结构？例如，它读取＆LT; ，然后开始捕捉元素，然后一旦它遇到了一个闭合的＆GT; （属性之外），将其推到一个数组栈的地方？我感兴趣的知道（我很好奇）的缘故。如果我是通过像 HTML净化器读取源，将是给 ..

发布时间：2016-08-15 13:20:48 html browser parsing html-parsing tokenize 前端开发

BeautifulSoup标签去除

我已经在找解析与Python HTML表格/ BeautifulSoup ... 这是我在Python编码什么的第一次尝试，所以它可能不是最有效的。我抓住一个函数在这里另一篇文章（的伟大工程，在大多数情况下），但是我遇到了几个问题。在code我运行的是在这里： DEF用strip_tags（HTML，invalid_tags）： BS2 = BeautifulSoup（S ..

发布时间：2016-08-05 19:21:59 python html-parsing beautifulsoup Python

beautifulsoup：分析跨度标题

我试图解析HTML页面，我已经成功了的HTML DOM树的子区域，但我被困在那里有span标记的地方。例如：我最初解析页面如下： user_url = BASE_URL + STR（user_ID的）+“/”+ DISPLAY_NAME user_page = urllib2.urlopen（user_url） souping_page = BS（user_ ..

发布时间：2016-08-05 19:20:22 python html-parsing beautifulsoup Python

解析无效锚标记与BeautifulSoup正则表达式或

我想解析解析包含HTML锚标记的原始文件，但不幸的是它包含无效代码，如：＆LT; A HREF =“A 4”驱动器托架“＆gt;此处的一些文字＆lt; / A＆GT; 我知道的href 值可能不是一个实际的链接，但我们刚刚离开这种方式。现在我需要的是找回href值'A 4“驱动器托架和链接文本'这里一些文本。我使用Python和我已经尝试了Python库“ BeautifulSoup ..

发布时间：2016-08-05 19:20:08 python regex parsing html-parsing beautifulsoup Python

内存错误 - 在非常大的HTML文件，使用BeautifulSoup？

Facebook的消息分析仪 - 我通过一个项目的工作学习Python的。我下载我的数据，其中包括我的所有消息的messages.htm文件。我想编写一个程序来分析这个文件和输出数据（消息＃，最常见的词，等等。）不过，我messages.htm文件是270MB。当创建在外壳进行测试BeautifulSoup对象，任何其他文件（全部＆LT; 1MB）的作品就好了。但我不能创建messages. ..

发布时间：2016-08-05 19:19:34 python html parsing beautifulsoup html-parsing 前端开发

牵制在HTML确切内容位置网页抓取的urllib2美味的汤

我是新来的网络刮，很少接触到HTML文件系统，并想知道是否有搜索的网页的HTML版本所需的内容更好更有效的方式。目前，我想刮这里产品评论： ..

发布时间：2016-08-05 19:19:04 python html html-parsing beautifulsoup urllib2 前端开发

html-parsing相关内容