web-scraping 第6页 - IT屋-程序员软件开发技术分享社区

python requests.get() 返回一个空字符串

当我运行下面的代码时，它返回一个空字符串 url = 'http://www.allflicks.net/wp-content/themes/responsive/processing/processing_us.php?draw=5&columns[0][data]=box_art&columns[0][name]=&columns[0][searchable]=true&columns[0] ..

lxml/requests 可以选择下拉选项然后解析生成的ajax吗?

我有一个要测试的网站，虽然我可以在下拉列表中获得选项列表，但我不确定如何选择它?没有提交按钮，所以如果我选择它，那么它会在下面加载一个 ajax 表. 我只是不确定 lxml/requests 是否可以做到这一点，或者如何做到这一点?如果有人可以确认或知道可以执行此操作的功能，我将不胜感激? 编辑:我的网站是内部网站，无法访问，但这里有一个示例网站:https://www.tsx.co ..

发布时间：2021-12-31 20:16:43 python web-scraping python-requests lxml Python

如何使用 Puppeteer 单击网站上的按钮，而没有分配任何类、id、...?

所以我想点击网站上的一个按钮.该按钮没有 id、class、...所以我应该找到一种方法来单击上面带有名称的按钮.在这个例子中，我应该点击名称“Supreme®/TheNorth Face® 皮革单肩包" 这是我在 Node.js 中的代码 const puppeteer = require('puppeteer');让刮=异步()=>{const browser = await pupp ..

发布时间：2021-12-29 13:30:47 html node.js web-scraping automation puppeteer 前端开发

如何使用VBA获取谷歌搜索的第一个搜索结果链接?

在我的日常任务中，我目前必须搜索大量产品并收集有关这些产品的信息.所以我的想法是在 google 上搜索产品，并通过从产品标题部分提取数据来从第一个搜索结果中获取信息，并且几乎对许多产品进行循环. 到目前为止，这是我的代码: Sub SkuAutomation()变暗为对象'导航到谷歌Set ie = CreateObject("InternetExplorer.application") ..

发布时间：2021-12-29 13:27:53 excel vba web-scraping automation 其他开发

美汤:访问
来自<ul>的元素没有身份证

我试图从这个维基百科页面这是现有的代码: hdr = {'User-Agent': 'Mozilla/5.0'}site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1"req = urllib2.Request(site,headers=hdr)页面 = urllib2.urlopen(req)汤 = BeautifulSoup( ..

发布时间：2021-12-23 20:57:04 python html-parsing web-scraping beautifulsoup Python

从机场网站抓取航班数据表失败

我一直在尝试从新德里国际机场的网站上抓取国内航班的到达和离开数据.我几乎尝试了所有方法，但无法提取数据.当我运行代码时，它什么都不返回.我在另一个机场网站上尝试了类似的代码，但它有效.这是我写的代码. res = requests.get("https://m.newdelhiairport.in/live-flight-information-all.aspx?FLMode=A&FLType= ..

发布时间：2021-12-23 20:56:04 python web-scraping beautifulsoup Python

过滤掉具有“display:none"作为标签属性或在其 CSS 中的 HTML 元素

假设您有一些用 Selenium 抓取并用 BeautifulSoup 解析的 html 源代码: from selenium import webdriver从 bs4 导入 BeautifulSoup驱动程序 = webdriver.Firefox()driver.get(url)汤 = BeautifulSoup(driver.page_source) 有没有办法从 html 代码或汤对 ..

发布时间：2021-12-23 20:55:11 python selenium selenium-webdriver web-scraping beautifulsoup Python

在使用 Python 和 Beautiful Soup 4 抓取 Twitter 的同时专注于特定结果?

这是我帖子的后续使用Python 在 Twitter 中抓取嵌套的 Div 和 Span?. 我没有使用 Twitter API，因为它不查看推文很久以前的标签.完整的代码和输出在示例之后如下. 我想从每条推文中抓取特定数据.name 和 handle 正在检索我正在寻找的内容，但我无法缩小其余元素的范围. 举个例子: link = soup('a', {'class': ' ..

发布时间：2021-12-23 20:54:22 python twitter web-scraping beautifulsoup html-parsing Python

'NoneType' 对象在 BeautifulSoup 中没有属性 'text'

当我搜索“什么是 2+2"时，我试图抓取 Google 结果，但以下代码返回了 'NoneType' 对象没有属性 'text'.请帮助我实现所需的目标. text="什么是 2+2"search=text.replace(" ","+")链接="https://www.google.com/search?q="+searchheaders={'User-Agent':'Mozilla/5.0 ..

发布时间：2021-12-23 20:53:20 python web-scraping beautifulsoup Python

为什么我收到“UnicodeEncodeError: 'charmap' codec can't encode character '\u25b2' in position 84811: character maps to <undefined>"?错误?

我收到 UnicodeEncodeError: 'charmap' codec can't encode character '\u200b' in position 756: character maps to 在运行此代码时出错:: from bs4 import BeautifulSoup进口请求r = requests.get('https://stackoverflow.com').t ..

发布时间：2021-12-23 20:52:40 python-3.x web-scraping beautifulsoup encoding 其他开发

需要使用 RegEx 和 BeautifulSoup 查找文本

信息联播:无团体网站:否车站:没有详情坡道:是的 ..

发布时间：2021-12-23 20:52:09 python regex python-2.7 web-scraping beautifulsoup Python

使用 BeautifulSoup 在评论标签中抓取表格

我正在尝试使用 BeautifulSoup 从以下网页中抓取表格:https://www.pro-football-reference.com/boxscores/201702050atl.htm 导入请求从 bs4 导入 BeautifulSoupurl = 'https://www.pro-football-reference.com/boxscores/201702050atl.htm'页 ..

发布时间：2021-12-23 20:51:35 python web-scraping beautifulsoup Python

Beautiful Soup 不等到页面完全加载

因此，使用下面的代码，我想打开一个公寓网站 URL 并抓取网页.唯一的问题是 Beautiful Soup 不会等到整个网页都被呈现.公寓不会在 html 中呈现，直到它们加载到页面上，这需要几秒钟.我该如何解决这个问题? from urllib.request import urlopen as uReq从 bs4 导入 BeautifulSoup 作为汤my_url = 'https://x ..

发布时间：2021-12-23 20:51:28 python html web-scraping beautifulsoup 前端开发

熊猫 read_html - 没有找到表格

我正在尝试查看是否可以从 WU.com 读取数据表，但由于找不到表而出现类型错误.(这里也是第一次进行网络抓取)还有另一个人有一个非常相似的 stackoverflow 问题 here 使用 WU 数据表，但解决方案对我来说有点复杂. 将pandas导入为pddf_list = pd.read_html('https://www.wunderground.com/history/daily/us ..

发布时间：2021-12-23 20:51:21 python pandas web-scraping beautifulsoup Python

在 BeautifulSoup 中处理印度语言

我正在尝试抓取 NDTV 网站的新闻标题.这个是我用作 HTML 源的页面.我正在使用 BeautifulSoup (bs4) 来处理 HTML 代码，并且一切正常，除了当我在链接到的页面中遇到印地语标题时我的代码会中断. 到目前为止我的代码是: 导入 urllib2从 bs4 导入 BeautifulSouphtmlUrl = "http://archives.ndtv.com/arti ..

发布时间：2021-12-23 20:49:56 python web-scraping beautifulsoup Python

beautifulsoup“列表对象没有属性"错误

我正在尝试从天气中获取温度网站使用以下内容: 导入 urllib2从 BeautifulSoup 导入 BeautifulSoupf = open('airport_temp.tsv', 'w')f.write("位置" + "\t" + "高温 (F)" + "\t" + "低温 (F)" + "\t" + "平均湿度" + "\n" )最终从 http://www.wundergroun ..

发布时间：2021-12-23 20:49:22 python web-scraping beautifulsoup Python

在会话中发出后续 POST 请求不起作用 - 网络抓取

这就是我想要做的:去这里，然后点击“搜索".获取数据，然后点击“下一步"，并继续点击下一步，直到你用完页面.一切都到点击“下一步"工作.这是我的代码.r.content 的格式在我打印它的两次完全不同，表明即使我想要非常相似的行为，GET 和 POST 请求之间也发生了一些不同的事情.为什么会发生这种情况? 我觉得奇怪的是，即使在似乎返回错误内容的 POST 请求之后，我仍然可以解析我需要的 ..

发布时间：2021-12-23 20:49:12 python web-scraping beautifulsoup python-requests Python

使用 BeautifulSoup 获取特定标签后的值

我很难让 BeautifulSoup 为我抓取一些数据.从此代码示例中访问日期(实际数字，2008 年)的最佳方式是什么?这是我第一次使用 Beautifulsoup，我已经想出了如何从页面上刮掉 url，但我不能完全缩小范围以只选择单词 Date，然后只返回后面的任何数字日期(在 dd括号).我问的可能吗? 日期2008年解决方案找到 dt 标签 ..

发布时间：2021-12-23 20:48:54 python web-scraping beautifulsoup html-parsing Python

Python BeautifulSoup 提取特定 URL

是否可以只获取特定的 URL? 喜欢: next...下一步... ..

发布时间：2021-12-23 20:48:47 python python-2.7 web-scraping beautifulsoup Python

使用 Python 的 Google Scrape 中的结果数量错误

我正在尝试学习网络抓取，但遇到了一个奇怪的问题...我的任务是在 Google 上搜索特定日期范围内某个主题的新闻并计算结果数量. 我的简单代码是导入请求，bs4有效载荷 = {'as_epq': 'James Clark', 'tbs':'cdr:1,cd_min:1/01/2015,cd_max:1/01/2015','tbm':'nws'}r = requests.get("htt ..

发布时间：2021-12-23 20:47:08 python python-3.x web-scraping beautifulsoup python-requests Python

web-scraping相关内容