html-parsing相关内容
我正在尝试制作一个 Bash 脚本来从 HTML 页面中提取结果.我用Curl实现了获取页面的内容,但是下一步是解析输出,这是有问题的. 页面有趣的内容是这样的: ...
ITEM 1...
项目 描述 1...
..
如果我想匹配标签
中包含的文本,我应该将哪个正则表达式用于命令 grepHTML 文件中的结束标记 ? 解决方案 这是使用 GNU grep 的一种方法: grep -oP '(?).*?(?= )' 文件 如果您的标签跨越多行,请尝试:
..
我找不到任何解决方案!!我需要用 jsoup 解析一个 html 页面,我也需要解析图像,但我做不到!这是我的 MainActivity public class MainActivity extends Activity {public static final String TAG_TITOLI = "titoli";私有静态最终字符串TAG_CONTENT =“内容";列表视图列表;sta
..
我在使用 Jsoup 解析网站时收到 NullPointerException.解析的实际网页根据用户输入而变化.本质上,有时网页上有图像,有时没有. Document doc = Jsoup.connect("http://www.forbes.com/colleges/"+college+"/").get();元素照片 = doc.select("div[id=photos]");如果(照片
..
我被困在这里试图对 HTML 特殊字符进行转义. 有问题的文字是 基本的&埃梅利·桑德 应该转换为基本的&埃梅莉·桑德 文本通过WGET下载(python之外) 要对此进行测试,请使用此行保存一个 ANSI 文件并将其导入. 导入 HTMLParsertrackentry = open('import.txt', 'r').readlines()打印(跟踪条目)tr
..
我知道在页面中多次使用相同的 id 会创建格式错误的 html.使用 jquery 选择器时,只会返回带有 id 的第一个元素,但在我的应用程序中,我不应该遇到这个问题. 我有一个项目视图列表,它们都有一个我需要引用的元素.由于每个项目只能访问它自己的 $el,因此传入一个 id 选择器不会产生任何冲突(即使页面上有多个). 我在小提琴中模拟了我的意思这里 在这个项目中,我没有进
..
我正在用 HTML 制作一个非常简单的表单,使用 webview 在 android 中查看该表单,该表单使用文本框输入您的名字,当您单击按钮时,它会将其显示为一个段落,并且使用 html 和javascript.这是我的 html 代码:
写下您的名字并赢得您最喜欢的游戏机名称并赢得它!获胜者将在 4 天内公布.
在此处输入您的姓名:
..
我有一个这样的 html 表格: 细绳... 细绳... 细绳... 细绳... 细绳...
细绳... 细绳... 细绳...
..
我有一张表格需要解析,具体来说是一个学校时间表,每周有 4 个时间段和 5 个时间段.我试图解析它,但老实说还没有走多远,因为我坚持如何处理 rowspan 和 colspan 属性,因为它们本质上意味着缺乏我需要继续的数据. 作为我想要做的一个例子,这是一个表格: #1 #2
..
我试图从这个 维基百科页面 这是现有的代码: hdr = {'User-Agent': 'Mozilla/5.0'}site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1"req = urllib2.Request(site,headers=hdr)页面 = urllib2.urlopen(req)汤 = BeautifulSoup(
..
我有一个网址,比如 http://www.bbc.com/news/world/asia/.就在这个页面中,我想提取所有包含 India 或 INDIA 或 india(应该不区分大小写)的链接. 如果我点击任何输出链接,它应该带我到相应的页面,例如,这些是印度 印度因多尼船退役而震惊和印度雾继续造成的几行混乱.如果我点击这些链接,我应该被重定向到 http://www.bbc.com/ne
..
这是我帖子的后续使用Python 在 Twitter 中抓取嵌套的 Div 和 Span?. 我没有使用 Twitter API,因为它不查看推文很久以前的标签.完整的代码和输出在示例之后如下. 我想从每条推文中抓取特定数据.name 和 handle 正在检索我正在寻找的内容,但我无法缩小其余元素的范围. 举个例子: link = soup('a', {'class': '
..
我正在尝试抓取维基百科以获取一些用于文本挖掘的数据.我正在使用 python 的 urllib2 和 Beautifulsoup.我的问题是:是否有一种简单的方法可以从我阅读的文本中去除不必要的标签(如链接“a"或“span"). 对于这种情况: 导入 urllib2从 BeautifulSoup 进口 *开瓶器 = urllib2.build_opener()opener.addhead
..
我正在使用 python 3.5.1 和请求模块制作一个小型网络爬虫,它从特定网站下载所有漫画.我正在试验一个页面.我使用 BeautifulSoup4 解析页面,如下所示: 导入浏览器导入系统进口请求进口重新进口BS4res = requests.get('http://mangapark.me/manga/berserk/s5/c342')res.raise_for_status()汤 =
..
我正在尝试编写一个程序,该程序将采用 HTML 文件并使其对电子邮件更友好.现在所有的转换都是手动完成的,因为没有一个在线转换器完全满足我们的需求. 这听起来像是一个很好的机会,可以突破我的编程知识的极限并实际编写一些有用的东西,所以我提出尝试在业余时间编写一个程序,以帮助使过程更加自动化. 我对 HTML 或 CSS 不太了解,所以我主要依靠我的兄弟(他知道 HTML 和 CSS)来
..
我需要在 Python 中使用 BeautifulSoup 找到 HTML 文件中段落元素内的所有可见标签. 例如,
成百上千的命名芒果栽培品种存在.
应该返回: 存在数百种栽培品种. 附言某些文件包含需要提取的 Unicode 字符(印地语). 任何想法如何做到这一点?
..
我很难让 BeautifulSoup 为我抓取一些数据.从此代码示例中访问日期(实际数字,2008 年)的最佳方式是什么?这是我第一次使用 Beautifulsoup,我已经想出了如何从页面上刮掉 url,但我不能完全缩小范围以只选择单词 Date,然后只返回后面的任何数字日期(在 dd括号).我问的可能吗? 日期2008年 解决方案 找到 dt 标签
..
我想从 https://www.timeanddate.com/ 获取历史每小时天气数据 这是网站链接:https:///www.timeanddate.com/weather/usa/dayton/historic?month=2&year=2016 - 这里我选择二月和 2016 年,结果会出现在页面底部. 我使用了以下步骤:https://stackoverflow.com/a/
..
我正在尝试抓取一个新闻网站,我需要更改一个参数.我用下一个代码替换了它: while i 问题是“t"类型是字符串,带有属性的find只适用于类型.你知道如何将“t"转换成那种类型吗? 解决方案 在解析前做替换: html = html.replace('class="row bigbox container mi-df-local locked-single"', 'class=
..
我的目标是获取所有输入名称和值的列表.将它们配对并提交表单.名称和值是随机的. from bs4 import BeautifulSoup #解析html = """标题页
..