html-parsing 第9页 - IT屋-程序员软件开发技术分享社区

查找元素的先前出现

我有以下html: 测试测试 Test2 测试2 如果我在变量中引用了元素 Test2 ，如何找到 Testing ?在之前，而不是之后. 解决方案使用 .previous_sibling : element.previous_sibling 或者， .fi ..

发布时间：2021-04-15 19:04:35 python html beautifulsoup html-parsing 前端开发

BeautifulSoup4:选择属性不等于x的元素

我想做这样的事情: soup.find_all('td'，attrs！= {“" class“:" foo“}) 我想找到所有没有foo类的td. 显然上述方法不起作用，怎么办? 解决方案 BeautifulSoup 确实使“汤"漂亮且易于使用. 您可以在属性值中传递函数: soup.find_all('td'，class_ = lambda x:x！='foo') ..

发布时间：2021-04-15 19:04:22 python html python-2.7 beautifulsoup html-parsing 前端开发

Beautiful Soup 4:如何用文本和其他标签替换标签?

我想用另一个标签替换一个标签，并将旧标签的内容放在新标签之前.例如: 我要更改此内容这是 first段落这是 second段落 ..

发布时间：2021-04-15 19:03:57 python html replace beautifulsoup html-parsing 前端开发

解析HTML表格的最快，最简单和最佳方法?

我正在尝试获取此表 http://www.datamystic.com/timezone/time_zones.html转换成数组格式，这样我就可以做任何我想做的事情.最好使用PHP，Python或JavaScript. 这是一个经常出现的问题，因此，我正在寻找有关如何解决所有类似问题的想法，而不是寻求有关此特定问题的帮助. BeautifulSoup是我想到的第一件事.另一种可能性是 ..

发布时间：2021-04-15 19:01:59 python regex html-parsing beautifulsoup Python

发送未序列化的&使用bash脚本将未转义的HTML文件数据传输到API

我想创建一个bash脚本，该脚本需要一个HTML文件并将其发送到多个API. 我有一个 test.html 文件，其中包含未序列化的HTML数据，如下所示: ..

发布时间：2021-04-14 20:54:06 bash shell curl html-parsing 其他开发

剥离除src之外的所有HTML属性

我正在尝试删除除 src 属性之外的所有标记属性.例如: 这是带有图片我有一个删除所有属性的正则表 ..

发布时间：2021-04-12 19:26:18 php html regex attributes html-parsing PHP

在Android的JSOUP中使用正则表达式突出显示

我正在使用JSoup解析器查找html文档的特定部分(由regex定义)，并通过将找到的字符串包装在标记中来突出显示它.这是我执行突出显示的代码- public String highlightRegex() { Document doc = Jsoup.parse(htmlContent); NodeTraversor nd = new NodeTraver ..

发布时间：2021-02-14 18:45:58 android html-parsing jsoup 移动开发

使用Jsoup保留内部html时，HTML解析和除去锚标记

我必须解析一些html并删除锚标记，但是我需要保留锚标记的innerHTML 例如，如果我的html文本是: String html = " some text some link text " 现在，我可以解析上面的html并在jsoup中选择这样的标签， Document doc = Jsoup. ..

发布时间：2021-02-14 18:45:40 java html-parsing jsoup Java开发

如何使用python解析html文件并获取标签之间的文本?

..

发布时间：2020-11-24 21:16:35 python html-parsing Python

从HTML提取链接

我正在尝试从HTML中提取链接.我正在使用以下正则表达式 href=\"([^\"]*)\" 哪个正在提取不必要的链接.如何编写正则表达式以仅提取具有class ="l"之类的链接 ..

发布时间：2020-11-24 21:16:32 java regex html-parsing Java开发

获取内部HTML-PHP

我有以下代码: $data = file_get_contents('http://www.robotevents.com/robot-competitions/vex-robotics-competition?limit=all'); echo "Downloaded"; $dom = new domDocument; @$dom->loadHTML($data); $dom->pres ..

发布时间：2020-11-24 21:16:27 php html html-parsing PHP

从使用preg_replace创建的变量中删除字符

因此，我尝试从preg_replace函数获取的URL末尾砍掉几个字符.但是，它似乎不起作用.我对在preg_replace中使用这些变量不熟悉(这只是我发现“大部分"有效的功能). 这是我的尝试: function addlink_replace($string) { $pattern = '/ ..

发布时间：2020-11-24 21:16:23 php regex wordpress html-parsing preg-replace PHP

具有多个结果的正则表达式

我的正则表达式怎么了? "/Blabla$2$ :.*(.*).+/Uis" .... Blabla(1) : title1 ..

发布时间：2020-11-24 21:16:21 regex html-parsing 其他开发

硒网格会话未应用

我正在计算机上使用 Stannium stanalone + Chrome无头+ PHP + UwAmp服务器来解析一些数据(系统:WIN7_32bit，4GB RAM). 我需要同时启动22个Chrome会话，因此我使用具有以下设置的硒网格: java -jar selenium-server-standalone-2.53.1.jar -role hub java -jar sel ..

发布时间：2020-11-24 21:16:05 php selenium-webdriver html-parsing selenium-grid google-chrome-headless PHP

来自html的所有元素都没有被Python中的Requests和BeautifulSoup提取

我正在尝试从一个网站上刮取赔率，该站点显示来自不同代理机构的当前赔率，以分派市场竞争的影响.我正在使用Requests和BeautifulSoup提取相关数据.但是使用之后: import requests from bs4 import BeautifulSoup url = "https://www.bestodds.com.au/odds/cricket/ICC-World-Twen ..

发布时间：2020-11-24 21:15:01 python web-scraping beautifulsoup html-parsing Python

R中的Web Scraping与来自data.frame的循环

library(rvest) df ..

发布时间：2020-11-24 21:14:58 r web-scraping html-parsing rvest 其他开发

如何在Android中存储HTTP URL的响应

我正在构建一个Android应用程序，用户在其中输入名称，电子邮件ID，这些文件将解析为URL，并且所有用户数据都存储在其中. 现在，当用户发送此信息时，服务器上此时会生成一个ID，它会向我发送该唯一ID作为URL响应. 我如何获得此响应并将其存储.因此，我可以将其用于将来使用. 这是我的代码，用于将该值解析为该URL- private class DownloadJSON ..

发布时间：2020-11-24 21:14:54 android html-parsing httpresponse 移动开发

当我单击按钮并在javascript工作后，我想基于javascript和内容加载来解析HTML页面.我使用Jsoup库，Selenium在Java上的PC上创建我的应用程序.我希望它可以在android上运行.我将Selenium添加到新的Android应用程序项目中，并在gradle中添加了依赖项: compile 'org.seleniumhq.selenium:selenium-ht ..

发布时间：2020-11-24 21:14:50 android selenium html-parsing 移动开发

从R中的aspx网页下载文档

我正在尝试自动下载Oil& amp;的文档科罗拉多州油气保护委员会(COGCC)的气井使用R中的"rvest"和"downloader"软件包. 到包含特定孔的文档的表格/表单的链接是； http://ogccweblink.state.co.us/results.aspx?id=12337064 "id = 12337064"是孔的唯一标识符可以通过单击下载表单页面上的文档. ..

发布时间：2020-11-24 21:14:48 html r web-scraping html-parsing 前端开发

PHP Regex删除最后一段和内容

我在MySQL表中存储了以下内容: First paragraph Second paragraph Third paragraph Some paragraph here Specs: Weight: ..

发布时间：2020-11-24 21:14:46 php regex html-parsing PHP

html-parsing相关内容