html-parsing相关内容

使用jQuery从HTML创建JSON对象

问题概述 假设我有一批糖果.这批货物有很多盒子,每个盒子有很多独特的糖果类型.每个盒子都有唯一的ID,与其他每个盒子都不一样;糖果类型也是如此.此外,糖果还具有其他特征,例如颜色,风味和数量. 示例代码 以下面的HTML示例为例: ..
发布时间:2021-05-15 18:38:48 前端开发

解析网页

我对解析HTML页面,具体来说是论坛有疑问,我想解析包含某些发布条件的论坛或主题,但我尚未定义算法,因为我以前只有解析结构文本格式,用例可以是将每个线程手动复制并粘贴到程序中,或插入类似 http://www.forums.com/forum/showthread.php?t = 46875& page = 3 并让程序解析页面 给出所有我想知道的信息: 是否可以在HTML页面上解析论 ..
发布时间:2021-05-15 18:38:45 其他开发

从HTML表中获取数据到Access数据库中

如何从HTML表格(例如,从Market data S& P 500)动态填充数据库? 我有一个 Yahoo!的帐户.财务.在该帐户中,我可以查看HTML格式的财务数据. 我需要一个简单的工具来填充HTML表中的数据库(访问).在哪里可以找到这样的工具? 解决方案 您可以将Yahoo历史数据中的CSV格式导出为CSV,并直接将Access中的csv文件链接为MS Access表 ..
发布时间:2021-05-14 20:25:00 前端开发

如何删除< script></script>之间的文本标签

我想删除 标签之间的内容.我正在使用while循环手动检查模式和 iterating .但是,我在这行得到 StringOutOfBoundException : 字符串脚本= source.substring(startIndex,endIndex-startIndex); 下面是完整的方法: 公共静态字符串getHtmlWithoutScript(字 ..
发布时间:2021-05-14 20:18:04 Java开发

PHP提取身体标签的内容

我正在尝试应该很简单的方法,但是我无法使其正常工作.这让我想知道我是否使用了正确的工作流程. 我有一个简单的html页面,该页面作为帮助文件加载到桌面应用程序中.该页面没有菜单,仅包含内容.我想在我的网站上拥有一个更完善的帮助系统.因此,我想使用一个将显示菜单,面包屑以及页眉和页脚的php文件.为了不复制帮助内容,我想加载原始的HTML帮助文件并将其正文内容添加到增强的帮助页面中. 我 ..
发布时间:2021-05-14 20:17:30 PHP

JavaScript中严格的HTML解析

在Google Chrome(金丝雀)上,似乎没有字符串可以使DOM解析器失败.我正在尝试解析一些HTML,但是如果HTML并非完全100%有效,我希望它显示错误.我已经尝试了显而易见的方法: var newElement = document.createElement('div');newElement.innerHTML = someMarkup;//在IE上可能会失败,而在Chrome ..
发布时间:2021-05-14 20:05:01 前端开发

编写HTML解析器

我目前正在尝试(或计划尝试)编写一个简单(尽可能)的程序,以将html文档解析为树. 在谷歌搜索之后,我发现很多答案都说“不要做,它已经完成了"(或类似的词);以及对HTML解析器示例的引用;还有一篇相当强调的文章,介绍了为什么不应该使用正则表达式.但是,我还没有找到有关编写解析器的“正确"方法的任何指南.(顺便说一下,这是我作为学习运动所尝试的事情,而不是任何事情,因此我很想这样做,而不是 ..
发布时间:2021-05-14 19:35:37 前端开发

Web抓取具有可变长度的html表-构建数据框时,如何确保数据以正确的列结尾?

我(初级R用户到中级R用户)正在尝试对柏林大量(〜12,000)建筑物的数据进行网络抓取. 可以在柏林遗产机构的网页上找到该信息(每个建筑物每个建筑物,每个建筑物,每个建筑物12k),看起来像 虽然它很好地刮擦了数据,但是结果数据帧却是一团糟.由于一些html表具有比其他表更多的条目(请比较此和 ..
发布时间:2021-04-28 20:45:08 其他开发

是否可以在不使用python中使用第三方库的情况下抓取网页?

我试图了解美丽的汤在python中如何工作.我过去使用过漂亮的汤,lxml,但是现在尝试实现一个脚本,该脚本可以在没有任何第三方库的情况下从给定的网页读取数据,但是看起来xml模块没有太多选择,并且会引发很多错误.是否有其他图书馆提供了很好的文档,可以从网页中读取数据?我未在任何特定网站上使用这些脚本.我只是想从公共页面和新闻博客中阅读. 解决方案 第三方库可以使您的生活更轻松.是的,您当 ..
发布时间:2021-04-15 19:20:57 Python

美丽汤刮td&TR

我正在尝试从第3个表格(玉米)中提取价格数据(高价和低价).代码返回"None": 导入urllib2从bs4导入BeautifulSoup导入时间汇入start_urls = 4539nb_quotes = 10对于范围内的网址(start_urls,start_urls-nb_quotes,-1):start_time = time.time()#构造URL字符串url ='http://m ..
发布时间:2021-04-15 19:07:24 前端开发