beautifulsoup相关内容

Python Webscraping Selenium 和 BeautifulSoup(模态窗口内容)

我正在尝试学习网页抓取(我是一个新手).我注意到在某些网站上(例如 Quora),当我单击一个按钮时,屏幕上会出现一个新元素.我似乎无法获取新元素的页面源.我希望能够获取新弹出窗口的页面源并获取所有元素.请注意,您需要拥有 Quora 帐户才能了解我的问题. 我有一段代码,您可以使用 beautifulsoup、selenium 和 chromedriver: from selenium ..

从机场网站抓取航班数据表失败

我一直在尝试从新德里国际机场的网站上抓取国内航班的到达和离开数据.我几乎尝试了所有方法,但无法提取数据.当我运行代码时,它什么都不返回.我在另一个机场网站上尝试了类似的代码,但它有效.这是我写的代码. res = requests.get("https://m.newdelhiairport.in/live-flight-information-all.aspx?FLMode=A&FLType= ..
发布时间:2021-12-23 20:56:04 Python

从使用 Python 使用 AJAX 分页的站点使用 BeautifulSoup 进行抓取

我对编码和 Python 还很陌生,所以如果这是一个愚蠢的问题,我深表歉意.我想要一个脚本,它遍历所有 19,000 个搜索结果页面并为所有 url 抓取每个页面.我已经完成了所有的抓取工作,但无法弄清楚如何处理页面使用 AJAX 进行分页的事实.通常我只是用 url 循环来捕获每个搜索结果,但这是不可能的.这是页面:http://www.heritage.org/research/all-res ..
发布时间:2021-12-23 20:55:44 前端开发

使用 Jinja 过滤器创建内容片段

我想为我的主页创建内容片段.一个示例帖子看起来像 你最喜欢的哈利波特角色进入权力的游戏宇宙,你永远猜不到会发生什么! ...他们都死了 在主页上,我只希望显示 之前的内容.我在想我可以在 Jinja 过滤器中使用 Beautiful Soup 来删除 readmore 和它之后的所有内容.如果不存在 ,它应该在第一个换行符或段落结尾处剪裁. 我该怎 ..
发布时间:2021-12-23 20:55:26 Python

如何使用python从网站中提取带有匹配词的html链接

我有一个网址,比如 http://www.bbc.com/news/world/asia/.就在这个页面中,我想提取所有包含 India 或 INDIA 或 india(应该不区分大小写)的链接. 如果我点击任何输出链接,它应该带我到相应的页面,例如,这些是印度 印度因多尼船退役而震惊和印度雾继续造成的几行混乱.如果我点击这些链接,我应该被重定向到 http://www.bbc.com/ne ..
发布时间:2021-12-23 20:55:19 前端开发

Python 3.4 中的 BeautifulSoup 无效语法(在 2to3.py 之后)

我正在尝试在 Python 3.4 中安装 Beautiful Soup 4.我从命令行安装了它(因为我没有转换它而得到无效的语法错误),将 2to3.py 转换脚本运行到 bs4,现在我得到一个新的无效语法错误. >>>从 bs4 导入 BeautifulSoup回溯(最近一次调用最后一次):文件“",第 1 行,在 中从 bs4 导入 Beautifu ..
发布时间:2021-12-23 20:54:51 Python

用beautifulsoup解析网站

我正在尝试学习如何使用 python 解析 html我目前坚持使用soup.findAll返回一个空数组,因此可以找到一些元素这是我的代码: 导入请求导入 urllib.request导入时间从 bs4 导入 BeautifulSoupheaders = {"User-Agent":'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTM ..
发布时间:2021-12-23 20:54:42 Python

BeautifulSoup 部分 div 类匹配

我需要通过抓取从 Github 获取里程碑信息.里程碑信息嵌入在两种类型的 div 类中:table-list-item 里程碑未到期 和 table-list-item 里程碑. 如何检索两个类中包含的信息? 我有:milestones = soup.find_all('div', {'class': 'table-list-item里程碑'})但这行返回 table-list-it ..
发布时间:2021-12-23 20:54:28 其他开发

在使用 Python 和 Beautiful Soup 4 抓取 Twitter 的同时专注于特定结果?

这是我帖子的后续使用Python 在 Twitter 中抓取嵌套的 Div 和 Span?. 我没有使用 Twitter API,因为它不查看推文很久以前的标签.完整的代码和输出在示例之后如下. 我想从每条推文中抓取特定数据.name 和 handle 正在检索我正在寻找的内容,但我无法缩小其余元素的范围. 举个例子: link = soup('a', {'class': ' ..
发布时间:2021-12-23 20:54:22 Python

比“尝试"更快的方法和“除外"?- Python

我经常写如下代码 尝试:self.title = item.title().content.string除了 AttributeError,e:self.title = 无 有没有更快的方法来解决这个问题?单线? 解决方案 item.title() 有哪些例外?光秃秃的 except(可怕的做法!)并没有告诉我们.如果是 AttributeError(例如,item 没有 title ..
发布时间:2021-12-23 20:54:13 Python

使用 python 的 urllib2 和 Beautifulsoup 抓取维基百科时删除 html 标签

我正在尝试抓取维基百科以获取一些用于文本挖掘的数据.我正在使用 python 的 urllib2 和 Beautifulsoup.我的问题是:是否有一种简单的方法可以从我阅读的文本中去除不必要的标签(如链接“a"或“span"). 对于这种情况: 导入 urllib2从 BeautifulSoup 进口 *开瓶器 = urllib2.build_opener()opener.addhead ..
发布时间:2021-12-23 20:54:04 前端开发