html-parsing相关内容

如何用jsoup解析图像

我找不到任何解决方案!!我需要用 jsoup 解析一个 html 页面,我也需要解析图像,但我做不到!这是我的 MainActivity public class MainActivity extends Activity {public static final String TAG_TITOLI = "titoli";私有静态最终字符串TAG_CONTENT =“内容";列表视图列表;sta ..
发布时间:2022-01-05 23:33:25 移动开发

在 Python 2.7.3/Raspberry Pi 中使用特殊字符转义 HTML

我被困在这里试图对 HTML 特殊字符进行转义. 有问题的文字是 基本的&埃梅利·桑德 应该转换为基本的&埃梅莉·桑德 文本通过WGET下载(python之外) 要对此进行测试,请使用此行保存一个 ANSI 文件并将其导入. 导入 HTMLParsertrackentry = open('import.txt', 'r').readlines()打印(跟踪条目)tr ..

即使我没有解析页面,在页面上多次使用相同的 id 也是不好的做法吗?

我知道在页面中多次使用相同的 id 会创建格式错误的 html.使用 jquery 选择器时,只会返回带有 id 的第一个元素,但在我的应用程序中,我不应该遇到这个问题. 我有一个项目视图列表,它们都有一个我需要引用的元素.由于每个项目只能访问它自己的 $el,因此传入一个 id 选择器不会产生任何冲突(即使页面上有多个). 我在小提琴中模拟了我的意思这里 在这个项目中,我没有进 ..
发布时间:2021-12-29 09:15:17 前端开发

是否可以在使用 webView 时将数据从 HTML 表单获取到 android 中?

我正在用 HTML 制作一个非常简单的表单,使用 webview 在 android 中查看该表单,该表单使用文本框输入您的名字,当您单击按钮时,它会将其显示为一个段落,并且使用 html 和javascript.这是我的 html 代码: 写下您的名字并赢得您最喜欢的游戏机名称并赢得它!获胜者将在 4 天内公布. 在此处输入您的姓名: ..
发布时间:2021-12-28 15:41:17 移动开发

使用 rowspan 和 colspan 解析表

我有一张表格需要解析,具体来说是一个学校时间表,每周有 4 个时间段和 5 个时间段.我试图解析它,但老实说还没有走多远,因为我坚持如何处理 rowspan 和 colspan 属性,因为它们本质上意味着缺乏我需要继续的数据. 作为我想要做的一个例子,这是一个表格: #1 #2 ..
发布时间:2021-12-28 11:17:27 Python

如何使用python从网站中提取带有匹配词的html链接

我有一个网址,比如 http://www.bbc.com/news/world/asia/.就在这个页面中,我想提取所有包含 India 或 INDIA 或 india(应该不区分大小写)的链接. 如果我点击任何输出链接,它应该带我到相应的页面,例如,这些是印度 印度因多尼船退役而震惊和印度雾继续造成的几行混乱.如果我点击这些链接,我应该被重定向到 http://www.bbc.com/ne ..
发布时间:2021-12-23 20:55:19 前端开发

在使用 Python 和 Beautiful Soup 4 抓取 Twitter 的同时专注于特定结果?

这是我帖子的后续使用Python 在 Twitter 中抓取嵌套的 Div 和 Span?. 我没有使用 Twitter API,因为它不查看推文很久以前的标签.完整的代码和输出在示例之后如下. 我想从每条推文中抓取特定数据.name 和 handle 正在检索我正在寻找的内容,但我无法缩小其余元素的范围. 举个例子: link = soup('a', {'class': ' ..
发布时间:2021-12-23 20:54:22 Python

使用 python 的 urllib2 和 Beautifulsoup 抓取维基百科时删除 html 标签

我正在尝试抓取维基百科以获取一些用于文本挖掘的数据.我正在使用 python 的 urllib2 和 Beautifulsoup.我的问题是:是否有一种简单的方法可以从我阅读的文本中去除不必要的标签(如链接“a"或“span"). 对于这种情况: 导入 urllib2从 BeautifulSoup 进口 *开瓶器 = urllib2.build_opener()opener.addhead ..
发布时间:2021-12-23 20:54:04 前端开发

BeautifulSoup HTML 获取 src 链接

我正在使用 python 3.5.1 和请求模块制作一个小型网络爬虫,它从特定网站下载所有漫画.我正在试验一个页面.我使用 BeautifulSoup4 解析页面,如下所示: 导入浏览器导入系统进口请求进口重新进口BS4res = requests.get('http://mangapark.me/manga/berserk/s5/c342')res.raise_for_status()汤 = ..
发布时间:2021-12-23 20:50:42 前端开发

使用 Beautiful Soup 将 CSS 属性转换为单个 HTML 属性?

我正在尝试编写一个程序,该程序将采用 HTML 文件并使其对电子邮件更友好.现在所有的转换都是手动完成的,因为没有一个在线转换器完全满足我们的需求. 这听起来像是一个很好的机会,可以突破我的编程知识的极限并实际编写一些有用的东西,所以我提出尝试在业余时间编写一个程序,以帮助使过程更加自动化. 我对 HTML 或 CSS 不太了解,所以我主要依靠我的兄弟(他知道 HTML 和 CSS)来 ..
发布时间:2021-12-23 20:50:33 前端开发

使用 BeautifulSoup 获取特定标签后的值

我很难让 BeautifulSoup 为我抓取一些数据.从此代码示例中访问日期(实际数字,2008 年)的最佳方式是什么?这是我第一次使用 Beautifulsoup,我已经想出了如何从页面上刮掉 url,但我不能完全缩小范围以只选择单词 Date,然后只返回后面的任何数字日期(在 dd括号).我问的可能吗? 日期2008年 解决方案 找到 dt 标签 ..
发布时间:2021-12-23 20:48:54 Python

如何将字符串转换为 BeautifulSoup 对象?

我正在尝试抓取一个新闻网站,我需要更改一个参数.我用下一个代码替换了它: while i 问题是“t"类型是字符串,带有属性的find只适用于类型.你知道如何将“t"转换成那种类型吗? 解决方案 在解析前做替换: html = html.replace('class="row bigbox container mi-df-local locked-single"', 'class= ..
发布时间:2021-12-23 20:45:10 Python