web-scraping相关内容
当我运行下面的代码时,它返回一个空字符串 url = 'http://www.allflicks.net/wp-content/themes/responsive/processing/processing_us.php?draw=5&columns[0][data]=box_art&columns[0][name]=&columns[0][searchable]=true&columns[0]
..
我有一个要测试的网站,虽然我可以在下拉列表中获得选项列表,但我不确定如何选择它?没有提交按钮,所以如果我选择它,那么它会在下面加载一个 ajax 表. 我只是不确定 lxml/requests 是否可以做到这一点,或者如何做到这一点?如果有人可以确认或知道可以执行此操作的功能,我将不胜感激? 编辑:我的网站是内部网站,无法访问,但这里有一个示例网站:https://www.tsx.co
..
所以我想点击网站上的一个按钮.该按钮没有 id、class、...所以我应该找到一种方法来单击上面带有名称的按钮.在这个例子中,我应该点击名称“Supreme®/TheNorth Face® 皮革单肩包" 这是我在 Node.js 中的代码 const puppeteer = require('puppeteer');让刮=异步()=>{const browser = await pupp
..
在我的日常任务中,我目前必须搜索大量产品并收集有关这些产品的信息.所以我的想法是在 google 上搜索产品,并通过从产品标题部分提取数据来从第一个搜索结果中获取信息,并且几乎对许多产品进行循环. 到目前为止,这是我的代码: Sub SkuAutomation()变暗为对象'导航到谷歌Set ie = CreateObject("InternetExplorer.application")
..
我试图从这个 维基百科页面 这是现有的代码: hdr = {'User-Agent': 'Mozilla/5.0'}site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1"req = urllib2.Request(site,headers=hdr)页面 = urllib2.urlopen(req)汤 = BeautifulSoup(
..
我一直在尝试从新德里国际机场的网站上抓取国内航班的到达和离开数据.我几乎尝试了所有方法,但无法提取数据.当我运行代码时,它什么都不返回.我在另一个机场网站上尝试了类似的代码,但它有效.这是我写的代码. res = requests.get("https://m.newdelhiairport.in/live-flight-information-all.aspx?FLMode=A&FLType=
..
假设您有一些用 Selenium 抓取并用 BeautifulSoup 解析的 html 源代码: from selenium import webdriver从 bs4 导入 BeautifulSoup驱动程序 = webdriver.Firefox()driver.get(url)汤 = BeautifulSoup(driver.page_source) 有没有办法从 html 代码或汤对
..
这是我帖子的后续使用Python 在 Twitter 中抓取嵌套的 Div 和 Span?. 我没有使用 Twitter API,因为它不查看推文很久以前的标签.完整的代码和输出在示例之后如下. 我想从每条推文中抓取特定数据.name 和 handle 正在检索我正在寻找的内容,但我无法缩小其余元素的范围. 举个例子: link = soup('a', {'class': '
..
当我搜索“什么是 2+2"时,我试图抓取 Google 结果,但以下代码返回了 'NoneType' 对象没有属性 'text'.请帮助我实现所需的目标. text="什么是 2+2"search=text.replace(" ","+")链接="https://www.google.com/search?q="+searchheaders={'User-Agent':'Mozilla/5.0
..
我收到 UnicodeEncodeError: 'charmap' codec can't encode character '\u200b' in position 756: character maps to 在运行此代码时出错:: from bs4 import BeautifulSoup进口请求r = requests.get('https://stackoverflow.com').t
..
信息联播:无团体网站:否车站:没有详情坡道:是的
..
我正在尝试使用 BeautifulSoup 从以下网页中抓取表格:https://www.pro-football-reference.com/boxscores/201702050atl.htm 导入请求从 bs4 导入 BeautifulSoupurl = 'https://www.pro-football-reference.com/boxscores/201702050atl.htm'页
..
因此,使用下面的代码,我想打开一个公寓网站 URL 并抓取网页.唯一的问题是 Beautiful Soup 不会等到整个网页都被呈现.公寓不会在 html 中呈现,直到它们加载到页面上,这需要几秒钟.我该如何解决这个问题? from urllib.request import urlopen as uReq从 bs4 导入 BeautifulSoup 作为汤my_url = 'https://x
..
我正在尝试查看是否可以从 WU.com 读取数据表,但由于找不到表而出现类型错误.(这里也是第一次进行网络抓取)还有另一个人有一个非常相似的 stackoverflow 问题 here 使用 WU 数据表,但解决方案对我来说有点复杂. 将pandas导入为pddf_list = pd.read_html('https://www.wunderground.com/history/daily/us
..
我正在尝试抓取 NDTV 网站的新闻标题.这个是我用作 HTML 源的页面.我正在使用 BeautifulSoup (bs4) 来处理 HTML 代码,并且一切正常,除了当我在链接到的页面中遇到印地语标题时我的代码会中断. 到目前为止我的代码是: 导入 urllib2从 bs4 导入 BeautifulSouphtmlUrl = "http://archives.ndtv.com/arti
..
我正在尝试从 天气中获取温度网站使用以下内容: 导入 urllib2从 BeautifulSoup 导入 BeautifulSoupf = open('airport_temp.tsv', 'w')f.write("位置" + "\t" + "高温 (F)" + "\t" + "低温 (F)" + "\t" + "平均湿度" + "\n" )最终从 http://www.wundergroun
..
这就是我想要做的:去这里,然后点击“搜索".获取数据,然后点击“下一步",并继续点击下一步,直到你用完页面.一切都到点击“下一步"工作.这是我的代码.r.content 的格式在我打印它的两次完全不同,表明即使我想要非常相似的行为,GET 和 POST 请求之间也发生了一些不同的事情.为什么会发生这种情况? 我觉得奇怪的是,即使在似乎返回错误内容的 POST 请求之后,我仍然可以解析我需要的
..
我很难让 BeautifulSoup 为我抓取一些数据.从此代码示例中访问日期(实际数字,2008 年)的最佳方式是什么?这是我第一次使用 Beautifulsoup,我已经想出了如何从页面上刮掉 url,但我不能完全缩小范围以只选择单词 Date,然后只返回后面的任何数字日期(在 dd括号).我问的可能吗? 日期2008年 解决方案 找到 dt 标签
..
是否可以只获取特定的 URL? 喜欢: next...下一步...
..
我正在尝试学习网络抓取,但遇到了一个奇怪的问题...我的任务是在 Google 上搜索特定日期范围内某个主题的新闻并计算结果数量. 我的简单代码是 导入请求,bs4有效载荷 = {'as_epq': 'James Clark', 'tbs':'cdr:1,cd_min:1/01/2015,cd_max:1/01/2015','tbm':'nws'}r = requests.get("htt
..