web-scraping相关内容

Python/BeautifulSoup 抓取中的多线程根本没有加速

我有一个 csv 文件(“SomeSiteValidURLs.csv"),其中列出了我需要抓取的所有链接.该代码正在运行,并将通过 csv 中的 url,抓取信息并记录/保存在另一个 csv 文件(“Output.csv")中.但是,由于我计划为网站的大部分内容(> 10,000,000 页)执行此操作,因此速度很重要.对于每个链接,爬取信息并保存到csv中大约需要1s,这对于项目的规模来说太慢了 ..

如何在 Python 3 中打印异常?

现在,我在except Exception: 子句中捕获异常,然后执行print(exception).结果不提供任何信息,因为它总是打印 .我知道这曾经在 python 2 中工作,但我如何在 python3 中做到这一点? 解决方案 我猜您需要将 Exception 分配给一个变量.正如在 Python 3 教程中所示: def failed():x = 1/0尝试:失败()除了例外 ..
发布时间:2021-12-17 14:20:06 Python

如何在 Ruby 中编写网络爬虫?

我想抓取一个没有 API 的流行网站(比如 Quora),并获取一些特定信息并将其转储到一个文件中 - 比如 csv、.txt 或 .html 格式很好:) 例如仅返回 Quora 用户的所有“简历"列表,这些用户在其公开信息中列出了“用户体验设计师"的职业. 我将如何在 Ruby 中做到这一点? 我对 Ruby &导轨工作.我刚刚完成了一个 Rails 应用程序——主要是我自己 ..
发布时间:2021-12-17 14:18:43 其他开发

在客户端创建链接预览,如 Facebook/LinkedIn

我正在创建一个带有输入框的网络应用程序,用户可以在其中输入任何内容,包括 URL.我想像 Facebook 和 LinkedIn 一样创建链接预览: 抓取给定的 URL 并显示其主图像和标题,无需服务器往返.有没有办法在浏览器中做到这一点? 解决方案 经过数小时的谷歌搜索后,我自己找到了答案..SO 是否有用于制作“链接预览"文本和图标的开源代码,例如在 facebook 中?.所以 ..
发布时间:2021-12-17 14:18:17 前端开发

来自网页抓取的 Excel

我想从 this 中提取所有 6 个表网站进入我的工作簿.(vs All、vs PG、vs SG、vs SF、vs PF、vs C)当我尝试在 excel 中使用 from web 选项并选择表格时,它只会拉入标题.这是为什么?目前我有一个立即粘贴按钮,我转到网站,复制它并单击我用宏创建的“粘贴"按钮以清除当前信息并粘贴新值.我想消除我必须手动转到网站并复制表格的情况.除了“来自网络"之外还有其他 ..
发布时间:2021-12-17 14:17:33 其他开发

如何使用 Node/Cheerio(或其他东西)从站点中抓取全局变量?

页面上有一个全局变量,其中包含我想为其设置抓取工具的对象.使用 Node/Express/潜在的 Cheerio 执行此操作的最佳方法是什么? 我了解 Cheerio 在遍历 DOM 方面的好处,但我知道我想要抓取的全局变量的名称,只需要按设定的时间表提取其信息 解决方案 Cheerio 只是一个 dom 解析器,因此您无法访问任何 javascriot 或任何 javascript ..
发布时间:2021-12-17 14:17:19 其他开发

使用 R 从搜索结果 URL 中提取文本

我对 R 有所了解,但不是专业人士.我正在使用 R 进行文本挖掘项目. 我用关键字搜索了美联储网站,比如“通货膨胀".搜索结果的第二页有网址:(https://search.newyorkfed.org/board_public/search?start=10&Search=&number=10&text=inflation). 此页面有 10 个搜索结果(10 个网址).我想用 R ..
发布时间:2021-12-17 14:16:47 其他开发

VBA将html导入表中的结果拆分为excel

嗨,我正在从网站导入整个表格到 excel 字符串: 将 fST 淡化为字符串fST = Doc.getElementsByTagName("table")(0).innerText 之后,我想在 excel 单元格中拆分表格,并使用 html 表格中的 标签进行拆分,或者至少这是我的选项认为可以这样做,因此导入的表格在导入后在 excel 中将相同,每个值都将位于单个单元格中. ..
发布时间:2021-12-17 14:16:28 其他开发

BeautifulSoup 解析器无法访问 html 元素

我正在尝试抓取所有列表的 href.我对beautifulsoup相当陌生,以前做过一些刮擦,但以前也做过一些刮擦.但我不能为我的生活提取.请参阅下面我的代码.当我运行这个脚本时,容器的长度为零. 我也尝试选择价格 (soup.findAll("span", {"class":"amount"}) ,但它没有反映.欢迎任何建议:) import urllib.request导入 urlli ..
发布时间:2021-12-17 14:16:20 Python

如何更改 PhantomJS 版本

我正在学习 PhantomJS 进行抓取.我开始整合 CasperJS.当我运行 CasperJS 和文件名时,我会返回 CasperJS 需要 PhantomJS v1.x 如何更改 PhantomJS 版本以使用 CasperJS?有没有更简单的方法来抓取大量 javascript 的网站? 我使用了cheerio和require,但他们只得到静态html. 解决方案 如果您 ..
发布时间:2021-12-17 14:16:10 其他开发

iTunes 自动化连接 VBA

我正在尝试通过 VBA 自动生成报告.我曾在 VBA 工作过,但无法通过代码登录 iTunes 网站.有人告诉我它是用 IFrame 编写的,但我不知道.即使我无法将我的用户名放在登录页面的输入框中. https://itunesconnect.apple.com/login 将 HTMLdoc 变暗为 HTMLDocumentDim MyBrowser 作为 InternetExplor ..
发布时间:2021-12-17 14:15:45 前端开发