web-scraping 第8页 - IT屋-程序员软件开发技术分享社区

Python/BeautifulSoup 抓取中的多线程根本没有加速

我有一个 csv 文件(“SomeSiteValidURLs.csv")，其中列出了我需要抓取的所有链接.该代码正在运行，并将通过 csv 中的 url，抓取信息并记录/保存在另一个 csv 文件(“Output.csv")中.但是，由于我计划为网站的大部分内容(> 10,000,000 页)执行此操作，因此速度很重要.对于每个链接，爬取信息并保存到csv中大约需要1s，这对于项目的规模来说太慢了 ..

发布时间：2021-12-17 14:20:29 multithreading python-2.7 parallel-processing web-scraping beautifulsoup 其他开发

如何在 Python 3 中打印异常?

现在，我在except Exception: 子句中捕获异常，然后执行print(exception).结果不提供任何信息，因为它总是打印 .我知道这曾经在 python 2 中工作，但我如何在 python3 中做到这一点? 解决方案我猜您需要将 Exception 分配给一个变量.正如在 Python 3 教程中所示: def failed():x = 1/0尝试:失败()除了例外 ..

发布时间：2021-12-17 14:20:06 python python-3.x exception web-scraping Python

如何在 Ruby 中编写网络爬虫?

我想抓取一个没有 API 的流行网站(比如 Quora)，并获取一些特定信息并将其转储到一个文件中 - 比如 csv、.txt 或 .html 格式很好:) 例如仅返回 Quora 用户的所有“简历"列表，这些用户在其公开信息中列出了“用户体验设计师"的职业. 我将如何在 Ruby 中做到这一点? 我对 Ruby &导轨工作.我刚刚完成了一个 Rails 应用程序——主要是我自己 ..

发布时间：2021-12-17 14:18:43 ruby web-scraping 其他开发

单击网站上的按钮，然后抓取网页

我有一个网站，我想点击一个按钮，然后使用 python 抓取网站，按钮之间的 html 代码是: 测试这可能吗 ..

发布时间：2021-12-17 14:18:26 python onclick click web-scraping screen-scraping Python

在客户端创建链接预览，如 Facebook/LinkedIn

我正在创建一个带有输入框的网络应用程序，用户可以在其中输入任何内容，包括 URL.我想像 Facebook 和 LinkedIn 一样创建链接预览: 抓取给定的 URL 并显示其主图像和标题，无需服务器往返.有没有办法在浏览器中做到这一点? 解决方案经过数小时的谷歌搜索后，我自己找到了答案..SO 是否有用于制作“链接预览"文本和图标的开源代码，例如在 facebook 中?.所以 ..

发布时间：2021-12-17 14:18:17 javascript web-scraping 前端开发

使用 BeautifulSoup 和 Python 获取元标记内容属性

我正在尝试使用python和beautiful soup来提取下面标签的内容部分: 我让 BeautifulSoup 加载页面并找到其他东西(这也从隐藏在源代码中的 id 标签中获取文章 id)，但我不知道搜索 html ..

发布时间：2021-12-17 14:18:03 python html web-scraping beautifulsoup 前端开发

如何获取任何 URL 或网页的 Google 缓存年龄?

在我的项目中，我需要将 Google 缓存年龄作为重要信息添加.我尝试搜索 Google 缓存年龄的来源，即自 Google 上次重新索引列出的页面以来的天数. 在哪里可以获得 Google 缓存年龄? 解决方案使用网址 https://webcache.googleusercontent.com/search?q=cache: ..

发布时间：2021-12-17 14:17:44 html url hyperlink web-scraping 前端开发

来自网页抓取的 Excel

我想从 this 中提取所有 6 个表网站进入我的工作簿.(vs All、vs PG、vs SG、vs SF、vs PF、vs C)当我尝试在 excel 中使用 from web 选项并选择表格时，它只会拉入标题.这是为什么?目前我有一个立即粘贴按钮，我转到网站，复制它并单击我用宏创建的“粘贴"按钮以清除当前信息并粘贴新值.我想消除我必须手动转到网站并复制表格的情况.除了“来自网络"之外还有其他 ..

发布时间：2021-12-17 14:17:33 excel vba web-scraping 其他开发

如何使用 Node/Cheerio(或其他东西)从站点中抓取全局变量?

页面上有一个全局变量，其中包含我想为其设置抓取工具的对象.使用 Node/Express/潜在的 Cheerio 执行此操作的最佳方法是什么? 我了解 Cheerio 在遍历 DOM 方面的好处，但我知道我想要抓取的全局变量的名称，只需要按设定的时间表提取其信息解决方案 Cheerio 只是一个 dom 解析器，因此您无法访问任何 javascriot 或任何 javascript ..

发布时间：2021-12-17 14:17:19 node.js express web-scraping cheerio 其他开发

R:抓取站点，按 URL 中的日期循环递增，保存为 CSV

我对 R 和网络抓取相对较新，因此对于任何固有的明显错误，我深表歉意. 我想从 URL 1 中抓取一个 CSV 文件，按日期递增到 URL 2，然后保存每个 CSV 文件. startdate 正在输出以下错误: read.csv(url("http://api.foo.com/charts/data?output=csv&data=close&startdate=",startda ..

发布时间：2021-12-17 14:17:12 r csv web-scraping 其他开发

使用 R 从搜索结果 URL 中提取文本

我对 R 有所了解，但不是专业人士.我正在使用 R 进行文本挖掘项目. 我用关键字搜索了美联储网站，比如“通货膨胀".搜索结果的第二页有网址:(https://search.newyorkfed.org/board_public/search?start=10&Search=&number=10&text=inflation). 此页面有 10 个搜索结果(10 个网址).我想用 R ..

发布时间：2021-12-17 14:16:47 r web-scraping nlp text-mining 其他开发

为什么 importxml 和 importhtml 在这里不起作用?

=Importhtml("https://app.neilpatel.com/en/ubersuggest/keyword_ideas?keyword=Food%20Chart&locId=2840&lang=en", "table", 3) =ImportXML("https://app.neilpatel.com/en/ubersuggest/keyword_ideas?keyword=Fo ..

发布时间：2021-12-17 14:16:37 xpath web-scraping google-sheets google-sheets-formula google-sheets-importxml 其他开发

VBA将html导入表中的结果拆分为excel

嗨，我正在从网站导入整个表格到 excel 字符串: 将 fST 淡化为字符串fST = Doc.getElementsByTagName("table")(0).innerText 之后，我想在 excel 单元格中拆分表格，并使用 html 表格中的标签进行拆分，或者至少这是我的选项认为可以这样做，因此导入的表格在导入后在 excel 中将相同，每个值都将位于单个单元格中. ..

发布时间：2021-12-17 14:16:28 excel web-scraping vba 其他开发

BeautifulSoup 解析器无法访问 html 元素

我正在尝试抓取所有列表的 href.我对beautifulsoup相当陌生，以前做过一些刮擦，但以前也做过一些刮擦.但我不能为我的生活提取.请参阅下面我的代码.当我运行这个脚本时，容器的长度为零. 我也尝试选择价格 (soup.findAll("span", {"class":"amount"}) ，但它没有反映.欢迎任何建议:) import urllib.request导入 urlli ..

发布时间：2021-12-17 14:16:20 python python-3.x parsing web-scraping beautifulsoup Python

如何更改 PhantomJS 版本

我正在学习 PhantomJS 进行抓取.我开始整合 CasperJS.当我运行 CasperJS 和文件名时，我会返回 CasperJS 需要 PhantomJS v1.x 如何更改 PhantomJS 版本以使用 CasperJS?有没有更简单的方法来抓取大量 javascript 的网站? 我使用了cheerio和require，但他们只得到静态html. 解决方案如果您 ..

发布时间：2021-12-17 14:16:10 web-scraping phantomjs casperjs 其他开发

如何在不切断第一行的情况下使用 readHTMLTable

这是表格我想从网上爬到 R 当我运行以下代码时发生的事情是表格的第一行被截断 - 例如，表格以 Justin Tucker 而不是 Steven Gotskowski 开头. 库(XML)kicker_1 ..

发布时间：2021-12-17 14:16:03 html r web-scraping 前端开发

使用 ImportXML 和 XPath 捕获元素

我正在尝试通过 Google 表格从页面中获取以下信息作为示例 ..

发布时间：2021-12-17 14:15:52 html xpath web-scraping google-sheets 前端开发

iTunes 自动化连接 VBA

我正在尝试通过 VBA 自动生成报告.我曾在 VBA 工作过，但无法通过代码登录 iTunes 网站.有人告诉我它是用 IFrame 编写的，但我不知道.即使我无法将我的用户名放在登录页面的输入框中. https://itunesconnect.apple.com/login 将 HTMLdoc 变暗为 HTMLDocumentDim MyBrowser 作为 InternetExplor ..

发布时间：2021-12-17 14:15:45 javascript html vba web-scraping 前端开发

将表抓取并写入数据帧显示我 TypeError

我正在尝试抓取表格并写入数据框中，他们向我显示了 typeerror.如何解决这些错误? from selenium.webdriver.support.ui import WebDriverWait从 selenium.webdriver.support.ui 导入 WebDriverWaitfrom selenium.webdriver.common.by import By从 seleni ..

发布时间：2021-12-17 14:15:25 python pandas dataframe selenium web-scraping Python

如何删除python中的非Ascii字符

这是我的代码: #!C:/Python27/python# -*- 编码:utf-8 -*-进口请求从 bs4 导入 BeautifulSoup导入 urllib2导入系统导入 urlparse导入 iourl = "http://www.dlib.org/dlib/november14/beel/11beel.html"#url = "http://eqa.unibo.it/article/v ..

发布时间：2021-12-17 14:15:16 python html character-encoding web-scraping beautifulsoup 前端开发

web-scraping相关内容