html-parsing 第8页 - IT屋-程序员软件开发技术分享社区

从外壳中的HTML文档中按名称删除元素-Sed命令失败

我正在尝试从Linux Server(Red Hat 6.8)上的html文件中删除嵌入式CSS.例如文件1.htm如下: abc任何1个2个3定义我需要的是 abc定义我在下面尝试了sed命令 sed -i's#(.| \ n)* # ..

发布时间：2021-05-15 18:38:51 linux bash unix sed html-parsing 服务器开发

使用jQuery从HTML创建JSON对象

问题概述假设我有一批糖果.这批货物有很多盒子，每个盒子有很多独特的糖果类型.每个盒子都有唯一的ID，与其他每个盒子都不一样；糖果类型也是如此.此外，糖果还具有其他特征，例如颜色，风味和数量. 示例代码以下面的HTML示例为例: ..

发布时间：2021-05-15 18:38:48 javascript jquery json html-parsing scrape 前端开发

解析网页

我对解析HTML页面，具体来说是论坛有疑问，我想解析包含某些发布条件的论坛或主题，但我尚未定义算法，因为我以前只有解析结构文本格式，用例可以是将每个线程手动复制并粘贴到程序中，或插入类似 http://www.forums.com/forum/showthread.php?t = 46875& page = 3 并让程序解析页面给出所有我想知道的信息: 是否可以在HTML页面上解析论 ..

发布时间：2021-05-15 18:38:45 html-parsing 其他开发

从HTML表中获取数据到Access数据库中

如何从HTML表格(例如，从Market data S& P 500)动态填充数据库? 我有一个 Yahoo!的帐户.财务.在该帐户中，我可以查看HTML格式的财务数据. 我需要一个简单的工具来填充HTML表中的数据库(访问).在哪里可以找到这样的工具? 解决方案您可以将Yahoo历史数据中的CSV格式导出为CSV，并直接将Access中的csv文件链接为MS Access表 ..

发布时间：2021-05-14 20:25:00 html sql api ms-access html-parsing 前端开发

如何删除< script></script>之间的文本标签

我想删除标签之间的内容.我正在使用while循环手动检查模式和 iterating .但是，我在这行得到 StringOutOfBoundException : 字符串脚本= source.substring(startIndex，endIndex-startIndex); 下面是完整的方法: 公共静态字符串getHtmlWithoutScript(字 ..

发布时间：2021-05-14 20:18:04 java html html-parsing Java开发

PHP提取身体标签的内容

我正在尝试应该很简单的方法，但是我无法使其正常工作.这让我想知道我是否使用了正确的工作流程. 我有一个简单的html页面，该页面作为帮助文件加载到桌面应用程序中.该页面没有菜单，仅包含内容.我想在我的网站上拥有一个更完善的帮助系统.因此，我想使用一个将显示菜单，面包屑以及页眉和页脚的php文件.为了不复制帮助内容，我想加载原始的HTML帮助文件并将其正文内容添加到增强的帮助页面中. 我 ..

发布时间：2021-05-14 20:17:30 php html html-parsing PHP

如何从该标签中获取所有文本?

我正在尝试从此HTML标签中获取所有文本，并将其存储在变量 tag 中: Glenn Miller& amp;他的乐团结果应为“格伦·米勒与他的乐团" . 但是 print 打印 ..

发布时间：2021-05-14 20:15:51 python html beautifulsoup html-parsing 前端开发

在Google Chrome(金丝雀)上，似乎没有字符串可以使DOM解析器失败.我正在尝试解析一些HTML，但是如果HTML并非完全100％有效，我希望它显示错误.我已经尝试了显而易见的方法: var newElement = document.createElement('div');newElement.innerHTML = someMarkup;//在IE上可能会失败，而在Chrome ..

发布时间：2021-05-14 20:05:01 javascript html html-parsing 前端开发

编写HTML解析器

我目前正在尝试(或计划尝试)编写一个简单(尽可能)的程序，以将html文档解析为树. 在谷歌搜索之后，我发现很多答案都说“不要做，它已经完成了"(或类似的词)；以及对HTML解析器示例的引用；还有一篇相当强调的文章，介绍了为什么不应该使用正则表达式.但是，我还没有找到有关编写解析器的“正确"方法的任何指南.(顺便说一下，这是我作为学习运动所尝试的事情，而不是任何事情，因此我很想这样做，而不是 ..

发布时间：2021-05-14 19:35:37 html parsing html-parsing 前端开发

Django:将HTML(包含表单)解析为字典

我在服务器端创建了一个html表单. A B ..

发布时间：2021-05-01 18:36:55 python django html-parsing Python

Web抓取具有可变长度的html表-构建数据框时，如何确保数据以正确的列结尾?

我(初级R用户到中级R用户)正在尝试对柏林大量(〜12,000)建筑物的数据进行网络抓取. 可以在柏林遗产机构的网页上找到该信息(每个建筑物每个建筑物，每个建筑物，每个建筑物12k)，看起来像虽然它很好地刮擦了数据，但是结果数据帧却是一团糟.由于一些html表具有比其他表更多的条目(请比较此和 ..

发布时间：2021-04-28 20:45:08 r html-parsing data-cleaning rvest 其他开发

是否可以在不使用python中使用第三方库的情况下抓取网页?

我试图了解美丽的汤在python中如何工作.我过去使用过漂亮的汤，lxml，但是现在尝试实现一个脚本，该脚本可以在没有任何第三方库的情况下从给定的网页读取数据，但是看起来xml模块没有太多选择，并且会引发很多错误.是否有其他图书馆提供了很好的文档，可以从网页中读取数据?我未在任何特定网站上使用这些脚本.我只是想从公共页面和新闻博客中阅读. 解决方案第三方库可以使您的生活更轻松.是的，您当 ..

发布时间：2021-04-15 19:20:57 python xml-parsing web-scraping beautifulsoup html-parsing Python

beautifulsoup解析webscraping文件夹中的每个html文件

我的任务是从目录中读取每个html文件.条件是确定每个文件是否包含标签 (1) OO(2) QQ 然后解决方案 write 函数嵌套在 for 循环中，这就是为什么要在 index.txt ，只需将 write 移出循环，然后将您所有的parti文本放入变量 parti_names 中，如下所示: 参与者= ..

发布时间：2021-04-15 19:20:35 html python-2.7 beautifulsoup html-parsing 前端开发

美丽的汤返回“无"

我正在使用以下代码使用漂亮的汤提取数据: 导入请求导入bs4RES = requests.get( 'https://www.jmu.edu/cgi-bin/parking_sign_data.cgi?hash=53616c7465645f5f5c0bbd0eccccb6fe8dd7ed9a0445247e3c7dcb4f91927f7ccc933be780c6e558afb8ebf73620c ..

发布时间：2021-04-15 19:18:40 python html web-scraping beautifulsoup html-parsing 前端开发

BeautifulSoup无法正确提取div

BeautifulSoup没有正确提取我想要的div.我不确定自己在做什么错.这是html: text0 text1 text2 这是我的代码: div = soup.find("div"，{"cla ..

发布时间：2021-04-15 19:17:20 beautifulsoup html-parsing 其他开发

如何使用BeautifulSoup在

-能力 (在名词构成名词中): 能力//p ..

发布时间：2021-04-15 19:13:18 python beautifulsoup html-parsing Python

使用带有BeutifulSoup的CSS选择器获取属性值

我正在使用 Python 并使用 BeutifulSoup 库进行网络抓取我有这样的 HTML 标记: ..

发布时间：2021-04-15 19:09:25 python css python-3.x beautifulsoup html-parsing 前端开发

美丽汤刮td&TR

我正在尝试从第3个表格(玉米)中提取价格数据(高价和低价).代码返回"None": 导入urllib2从bs4导入BeautifulSoup导入时间汇入start_urls = 4539nb_quotes = 10对于范围内的网址(start_urls，start_urls-nb_quotes，-1):start_time = time.time()#构造URL字符串url ='http://m ..

发布时间：2021-04-15 19:07:24 python html html-parsing beautifulsoup 前端开发

如何使用beautifulsoup python在HTML列表中提取文本

我正在尝试编写一个python程序，该程序可以在html中的列表之间提取文本.我想提取诸如精装书和页数之类的信息.有人知道此操作的命令吗? 产品详细信息精装书:156页发布者:见解版；Har/Pstr版(2013年6月18日) b语言:英文 ..

发布时间：2021-04-15 19:07:12 python html parsing html-parsing beautifulsoup 前端开发

抓取:无法从网络访问信息

我正在从此网址中抓取一些信息: ..

发布时间：2021-04-15 19:06:40 python web-scraping beautifulsoup html-parsing Python

html-parsing相关内容