web-scraping相关内容
我有一个 csv 文件(“SomeSiteValidURLs.csv"),其中列出了我需要抓取的所有链接.该代码正在运行,并将通过 csv 中的 url,抓取信息并记录/保存在另一个 csv 文件(“Output.csv")中.但是,由于我计划为网站的大部分内容(> 10,000,000 页)执行此操作,因此速度很重要.对于每个链接,爬取信息并保存到csv中大约需要1s,这对于项目的规模来说太慢了
..
现在,我在except Exception: 子句中捕获异常,然后执行print(exception).结果不提供任何信息,因为它总是打印 .我知道这曾经在 python 2 中工作,但我如何在 python3 中做到这一点? 解决方案 我猜您需要将 Exception 分配给一个变量.正如在 Python 3 教程中所示: def failed():x = 1/0尝试:失败()除了例外
..
我想抓取一个没有 API 的流行网站(比如 Quora),并获取一些特定信息并将其转储到一个文件中 - 比如 csv、.txt 或 .html 格式很好:) 例如仅返回 Quora 用户的所有“简历"列表,这些用户在其公开信息中列出了“用户体验设计师"的职业. 我将如何在 Ruby 中做到这一点? 我对 Ruby &导轨工作.我刚刚完成了一个 Rails 应用程序——主要是我自己
..
我有一个网站,我想点击一个按钮,然后使用 python 抓取网站,按钮之间的 html 代码是: 测试 这可能吗
..
我正在创建一个带有输入框的网络应用程序,用户可以在其中输入任何内容,包括 URL.我想像 Facebook 和 LinkedIn 一样创建链接预览: 抓取给定的 URL 并显示其主图像和标题,无需服务器往返.有没有办法在浏览器中做到这一点? 解决方案 经过数小时的谷歌搜索后,我自己找到了答案..SO 是否有用于制作“链接预览"文本和图标的开源代码,例如在 facebook 中?.所以
..
我正在尝试使用python和beautiful soup来提取下面标签的内容部分: 我让 BeautifulSoup 加载页面并找到其他东西(这也从隐藏在源代码中的 id 标签中获取文章 id),但我不知道搜索 html
..
在我的项目中,我需要将 Google 缓存年龄作为重要信息添加.我尝试搜索 Google 缓存年龄的来源,即自 Google 上次重新索引列出的页面以来的天数. 在哪里可以获得 Google 缓存年龄? 解决方案 使用网址 https://webcache.googleusercontent.com/search?q=cache:
..
我想从 this 中提取所有 6 个表网站进入我的工作簿.(vs All、vs PG、vs SG、vs SF、vs PF、vs C)当我尝试在 excel 中使用 from web 选项并选择表格时,它只会拉入标题.这是为什么?目前我有一个立即粘贴按钮,我转到网站,复制它并单击我用宏创建的“粘贴"按钮以清除当前信息并粘贴新值.我想消除我必须手动转到网站并复制表格的情况.除了“来自网络"之外还有其他
..
页面上有一个全局变量,其中包含我想为其设置抓取工具的对象.使用 Node/Express/潜在的 Cheerio 执行此操作的最佳方法是什么? 我了解 Cheerio 在遍历 DOM 方面的好处,但我知道我想要抓取的全局变量的名称,只需要按设定的时间表提取其信息 解决方案 Cheerio 只是一个 dom 解析器,因此您无法访问任何 javascriot 或任何 javascript
..
我对 R 和网络抓取相对较新,因此对于任何固有的明显错误,我深表歉意. 我想从 URL 1 中抓取一个 CSV 文件,按日期递增到 URL 2,然后保存每个 CSV 文件. startdate 正在输出以下错误: read.csv(url("http://api.foo.com/charts/data?output=csv&data=close&startdate=",startda
..
我对 R 有所了解,但不是专业人士.我正在使用 R 进行文本挖掘项目. 我用关键字搜索了美联储网站,比如“通货膨胀".搜索结果的第二页有网址:(https://search.newyorkfed.org/board_public/search?start=10&Search=&number=10&text=inflation). 此页面有 10 个搜索结果(10 个网址).我想用 R
..
=Importhtml("https://app.neilpatel.com/en/ubersuggest/keyword_ideas?keyword=Food%20Chart&locId=2840&lang=en", "table", 3) =ImportXML("https://app.neilpatel.com/en/ubersuggest/keyword_ideas?keyword=Fo
..
嗨,我正在从网站导入整个表格到 excel 字符串: 将 fST 淡化为字符串fST = Doc.getElementsByTagName("table")(0).innerText 之后,我想在 excel 单元格中拆分表格,并使用 html 表格中的 标签进行拆分,或者至少这是我的选项认为可以这样做,因此导入的表格在导入后在 excel 中将相同,每个值都将位于单个单元格中.
..
我正在尝试抓取所有列表的 href.我对beautifulsoup相当陌生,以前做过一些刮擦,但以前也做过一些刮擦.但我不能为我的生活提取.请参阅下面我的代码.当我运行这个脚本时,容器的长度为零. 我也尝试选择价格 (soup.findAll("span", {"class":"amount"}) ,但它没有反映.欢迎任何建议:) import urllib.request导入 urlli
..
我正在学习 PhantomJS 进行抓取.我开始整合 CasperJS.当我运行 CasperJS 和文件名时,我会返回 CasperJS 需要 PhantomJS v1.x 如何更改 PhantomJS 版本以使用 CasperJS?有没有更简单的方法来抓取大量 javascript 的网站? 我使用了cheerio和require,但他们只得到静态html. 解决方案 如果您
..
这是表格 我想从网上爬到 R 当我运行以下代码时发生的事情是表格的第一行被截断 - 例如,表格以 Justin Tucker 而不是 Steven Gotskowski 开头. 库(XML)kicker_1
..
我正在尝试通过 Google 表格从页面中获取以下信息作为示例
..
我正在尝试通过 VBA 自动生成报告.我曾在 VBA 工作过,但无法通过代码登录 iTunes 网站.有人告诉我它是用 IFrame 编写的,但我不知道.即使我无法将我的用户名放在登录页面的输入框中. https://itunesconnect.apple.com/login 将 HTMLdoc 变暗为 HTMLDocumentDim MyBrowser 作为 InternetExplor
..
我正在尝试抓取表格并写入数据框中,他们向我显示了 typeerror.如何解决这些错误? from selenium.webdriver.support.ui import WebDriverWait从 selenium.webdriver.support.ui 导入 WebDriverWaitfrom selenium.webdriver.common.by import By从 seleni
..
这是我的代码: #!C:/Python27/python# -*- 编码:utf-8 -*-进口请求从 bs4 导入 BeautifulSoup导入 urllib2导入系统导入 urlparse导入 iourl = "http://www.dlib.org/dlib/november14/beel/11beel.html"#url = "http://eqa.unibo.it/article/v
..