html-parsing 第2页 - IT屋-程序员软件开发技术分享社区

使用 AWK/Grep/Bash 从 HTML 中提取数据

我正在尝试制作一个 Bash 脚本来从 HTML 页面中提取结果.我用Curl实现了获取页面的内容，但是下一步是解析输出，这是有问题的. 页面有趣的内容是这样的: ... ITEM 1... 项目描述 1... ..

发布时间：2022-01-06 14:11:07 bash awk grep html-parsing 其他开发

如何使用grep匹配具有属性的HTML特定标签之间的内容?

如果我想匹配标签中包含的文本，我应该将哪个正则表达式用于命令 grepHTML 文件中的结束标记 ? 解决方案这是使用 GNU grep 的一种方法: grep -oP '(?).*?(?= )' 文件如果您的标签跨越多行，请尝试: ..

发布时间：2022-01-06 13:54:09 regex grep html-parsing 其他开发

我找不到任何解决方案！！我需要用 jsoup 解析一个 html 页面，我也需要解析图像，但我做不到！这是我的 MainActivity public class MainActivity extends Activity {public static final String TAG_TITOLI = "titoli";私有静态最终字符串TAG_CONTENT =“内容"；列表视图列表；sta ..

发布时间：2022-01-05 23:33:25 android xml android-listview html-parsing jsoup 移动开发

NullPointerException 解析 Jsoup

我在使用 Jsoup 解析网站时收到 NullPointerException.解析的实际网页根据用户输入而变化.本质上，有时网页上有图像，有时没有. Document doc = Jsoup.connect("http://www.forbes.com/colleges/"+college+"/").get();元素照片 = doc.select("div[id=photos]");如果(照片 ..

发布时间：2022-01-05 21:13:04 java android nullpointerexception html-parsing jsoup Java开发

在 Python 2.7.3/Raspberry Pi 中使用特殊字符转义 HTML

我被困在这里试图对 HTML 特殊字符进行转义. 有问题的文字是基本的&埃梅利·桑德应该转换为基本的&埃梅莉·桑德文本通过WGET下载(python之外) 要对此进行测试，请使用此行保存一个 ANSI 文件并将其导入. 导入 HTMLParsertrackentry = open('import.txt', 'r').readlines()打印(跟踪条目)tr ..

发布时间：2022-01-05 11:00:12 python-2.7 character-encoding html-parsing raspberry-pi python-unicode 其他开发

即使我没有解析页面，在页面上多次使用相同的 id 也是不好的做法吗?

我知道在页面中多次使用相同的 id 会创建格式错误的 html.使用 jquery 选择器时，只会返回带有 id 的第一个元素，但在我的应用程序中，我不应该遇到这个问题. 我有一个项目视图列表，它们都有一个我需要引用的元素.由于每个项目只能访问它自己的 $el，因此传入一个 id 选择器不会产生任何冲突(即使页面上有多个). 我在小提琴中模拟了我的意思这里在这个项目中，我没有进 ..

发布时间：2021-12-29 09:15:17 html backbone.js html-parsing marionette backbone-views 前端开发

是否可以在使用 webView 时将数据从 HTML 表单获取到 android 中?

我正在用 HTML 制作一个非常简单的表单，使用 webview 在 android 中查看该表单，该表单使用文本框输入您的名字，当您单击按钮时，它会将其显示为一个段落，并且使用 html 和javascript.这是我的 html 代码: 写下您的名字并赢得您最喜欢的游戏机名称并赢得它！获胜者将在 4 天内公布. 在此处输入您的姓名: ..

发布时间：2021-12-28 15:41:17 javascript android webview html-parsing code-injection 移动开发

仅从 php 中使用的 preg_match_all 的 html 表中获取数据

我有一个这样的 html 表格: 细绳... 细绳... 细绳... 细绳... 细绳... 细绳... 细绳... 细绳... ..

发布时间：2021-12-28 11:37:48 php html-table html-parsing preg-match PHP

使用 rowspan 和 colspan 解析表

我有一张表格需要解析，具体来说是一个学校时间表，每周有 4 个时间段和 5 个时间段.我试图解析它，但老实说还没有走多远，因为我坚持如何处理 rowspan 和 colspan 属性，因为它们本质上意味着缺乏我需要继续的数据. 作为我想要做的一个例子，这是一个表格: #1 #2 ..

发布时间：2021-12-28 11:17:27 python html-parsing lxml html-table Python

美汤:访问
来自<ul>的元素没有身份证

我试图从这个维基百科页面这是现有的代码: hdr = {'User-Agent': 'Mozilla/5.0'}site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1"req = urllib2.Request(site,headers=hdr)页面 = urllib2.urlopen(req)汤 = BeautifulSoup( ..

发布时间：2021-12-23 20:57:04 python html-parsing web-scraping beautifulsoup Python

如何使用python从网站中提取带有匹配词的html链接

我有一个网址，比如 http://www.bbc.com/news/world/asia/.就在这个页面中，我想提取所有包含 India 或 INDIA 或 india(应该不区分大小写)的链接. 如果我点击任何输出链接，它应该带我到相应的页面，例如，这些是印度印度因多尼船退役而震惊和印度雾继续造成的几行混乱.如果我点击这些链接，我应该被重定向到 http://www.bbc.com/ne ..

发布时间：2021-12-23 20:55:19 python html python-3.x beautifulsoup html-parsing 前端开发

在使用 Python 和 Beautiful Soup 4 抓取 Twitter 的同时专注于特定结果?

这是我帖子的后续使用Python 在 Twitter 中抓取嵌套的 Div 和 Span?. 我没有使用 Twitter API，因为它不查看推文很久以前的标签.完整的代码和输出在示例之后如下. 我想从每条推文中抓取特定数据.name 和 handle 正在检索我正在寻找的内容，但我无法缩小其余元素的范围. 举个例子: link = soup('a', {'class': ' ..

发布时间：2021-12-23 20:54:22 python twitter web-scraping beautifulsoup html-parsing Python

使用 python 的 urllib2 和 Beautifulsoup 抓取维基百科时删除 html 标签

我正在尝试抓取维基百科以获取一些用于文本挖掘的数据.我正在使用 python 的 urllib2 和 Beautifulsoup.我的问题是:是否有一种简单的方法可以从我阅读的文本中去除不必要的标签(如链接“a"或“span"). 对于这种情况: 导入 urllib2从 BeautifulSoup 进口 *开瓶器 = urllib2.build_opener()opener.addhead ..

发布时间：2021-12-23 20:54:04 python html html-parsing beautifulsoup wikipedia 前端开发

BeautifulSoup HTML 获取 src 链接

我正在使用 python 3.5.1 和请求模块制作一个小型网络爬虫，它从特定网站下载所有漫画.我正在试验一个页面.我使用 BeautifulSoup4 解析页面，如下所示: 导入浏览器导入系统进口请求进口重新进口BS4res = requests.get('http://mangapark.me/manga/berserk/s5/c342')res.raise_for_status()汤 = ..

发布时间：2021-12-23 20:50:42 python html python-3.x beautifulsoup html-parsing 前端开发

使用 Beautiful Soup 将 CSS 属性转换为单个 HTML 属性?

我正在尝试编写一个程序，该程序将采用 HTML 文件并使其对电子邮件更友好.现在所有的转换都是手动完成的，因为没有一个在线转换器完全满足我们的需求. 这听起来像是一个很好的机会，可以突破我的编程知识的极限并实际编写一些有用的东西，所以我提出尝试在业余时间编写一个程序，以帮助使过程更加自动化. 我对 HTML 或 CSS 不太了解，所以我主要依靠我的兄弟(他知道 HTML 和 CSS)来 ..

发布时间：2021-12-23 20:50:33 python html css html-parsing beautifulsoup 前端开发

如何在<p>中查找所有文本使用 BeautifulSoup 的 HTML 页面中的元素

我需要在 Python 中使用 BeautifulSoup 找到 HTML 文件中段落元素内的所有可见标签. 例如，成百上千的命名芒果栽培品种存在. 应该返回: 存在数百种栽培品种. 附言某些文件包含需要提取的 Unicode 字符(印地语). 任何想法如何做到这一点? ..

发布时间：2021-12-23 20:50:26 python unicode html-parsing beautifulsoup Python

使用 BeautifulSoup 获取特定标签后的值

我很难让 BeautifulSoup 为我抓取一些数据.从此代码示例中访问日期(实际数字，2008 年)的最佳方式是什么?这是我第一次使用 Beautifulsoup，我已经想出了如何从页面上刮掉 url，但我不能完全缩小范围以只选择单词 Date，然后只返回后面的任何数字日期(在 dd括号).我问的可能吗? 日期2008年解决方案找到 dt 标签 ..

发布时间：2021-12-23 20:48:54 python web-scraping beautifulsoup html-parsing Python

从网站 [timeanddate.com] 抓取表格

我想从 https://www.timeanddate.com/ 获取历史每小时天气数据这是网站链接:https:///www.timeanddate.com/weather/usa/dayton/historic?month=2&year=2016 - 这里我选择二月和 2016 年，结果会出现在页面底部. 我使用了以下步骤:https://stackoverflow.com/a/ ..

发布时间：2021-12-23 20:46:41 python python-3.x web-scraping beautifulsoup html-parsing Python

如何将字符串转换为 BeautifulSoup 对象?

我正在尝试抓取一个新闻网站，我需要更改一个参数.我用下一个代码替换了它: while i 问题是“t"类型是字符串，带有属性的find只适用于类型.你知道如何将“t"转换成那种类型吗? 解决方案在解析前做替换: html = html.replace('class="row bigbox container mi-df-local locked-single"', 'class= ..

发布时间：2021-12-23 20:45:10 python beautifulsoup web-crawler html-parsing Python

Python美汤表单输入解析

我的目标是获取所有输入名称和值的列表.将它们配对并提交表单.名称和值是随机的. from bs4 import BeautifulSoup #解析html = """标题页 ..

发布时间：2021-12-23 20:43:53 python html parsing beautifulsoup html-parsing 前端开发

html-parsing相关内容