web-scraping 第156页 - IT屋-程序员软件开发技术分享社区

如何使用无头网页抓取工具加载更多选项[Instagram]

我试图使用网址刮板从Instagram下载位置详情，但我无法使用加载更多选项从网址中刮取更多位置。我很感激有关如何修改代码的建议，或者需要使用哪个新代码块来获取特定网址中的所有可用位置。代码： import re 导入请求导入json 导入pandas作为pd 导入numpy作为np 从geopy.geocoders导入csv import Nominatim ..

发布时间：2018-04-23 17:14:28 python url web-scraping geolocation instagram Python

使用r中的选择器小工具从地图对象获取纬度和经度

我在R中使用selectorGadget扩展进行数据抓取（第一次），该扩展使用包“rvest” 是我在做的参考和这个网站我试图获取数据这是我的代码 p> ＃指定所需网站的网址被废弃网址 ..

发布时间：2018-04-23 17:13:47 r web-scraping geolocation 其他开发

美丽的汤 - 文章URL刮。无法抓取额外加载的文章的网址

我正在撰写一个程序，根据搜索字词从网站中提取文章的网址。目前，我只能从第一页中删除文章网址。我可以访问加载按钮并加载其他文章，但我无法刮取他们的网址。为了更清晰，我将整个代码分成了两个独立的模块。我试图将它们合并成一个模块，但输出是 - 只是第一页的文章URL反复显示。此代码根据搜索词从第一页中删除文章网址 from pprint import pprint i ..

发布时间：2018-04-17 19:18:48 python function selenium web-scraping beautifulsoup Python

scrapy，如何向表单发送多个请求

好的，我在这里有一个令人讨厌的代码，我向一个表单发送了一个请求，我收回了我需要的所有数据。代码： def start_requests（self）： nubmers =“12345” submitForm = FormRequest（“ https://domain.com/url“， formdata = {'address'：数字，'submit'：'搜索'}， callbac ..

发布时间：2018-03-13 19:52:58 python forms web-scraping scrapy Python

使用机械化（Python）填写表单

我想使用python mechanize填充此页面上的表单，然后记录响应。我应该怎么做？当我使用以下代码在此页面上搜索表单时，它仅显示用于搜索的表单。我应该如何找到其他表单的表单名称，如姓名，性别等？ http://aapmaharashtra.org/join-us 代码：进口机械化 br = mechanize.Browser（） br.open（“http://aap ..

发布时间：2018-03-05 13:58:50 python forms python-2.7 web-scraping mechanize Python

使用循环通过网页抓取创建表格

我正在试图通过网站tax-rates.org来得到德克萨斯州每个县的平均税率。我有一个csv文件中的255县的列表，我导入为“TX_counties”，它是一个单列表。我必须创建每个县作为一个字符串的URL，所以我设置d1到第一个单元格[i，1]，然后连接到一个URL字符串，执行刮，然后添加+1 [i]这使得它将转到下一个县名的第二个单元格，并且过程继续。问题是我无法弄清楚如何将刮擦结果存 ..

发布时间：2018-01-28 13:31:41 r for-loop web-scraping rvest 其他开发

R内存问题，同时网站搜索与REST

我正在使用 rvest 在R中进行webscrape，并且遇到内存问题。我有一个叫做 urls 的字符串的28,625 x 2的数据框，里面包含了我正在抓取的页面的链接。框架的一行包含两个相关的链接。我想用从链接中获取的信息生成一个28,625乘四个数据帧 Final 。一条信息来自第二条链接，另外三条来自第一条链接。三条信息的xpaths作为字符串存储在向量 xpaths 中。 data ..

发布时间：2018-01-28 13:18:05 r for-loop memory-management web-scraping rvest 其他开发

用BeautifulSoup和Requests刮掉多个分页链接

Python初学者在这里。我正在尝试从 dabs.com上的一个类别中删除所有产品。我已经设法在给定的页面上刮去所有产品，但是我在迭代所有分页链接时遇到了问题。现在，我尝试用span class ='page-list“来隔离所有的分页按钮，但即使这样也行不通，理想情况下，如何使抓取工具继续点击下一个，直到它抓住了所有页面上的所有产品。我该如何做到这一点？真的很感激任何输入 ..

发布时间：2018-01-28 13:06:11 python for-loop web-scraping beautifulsoup screen-scraping Python

使用“download.file”下载多个文件功能在R

我试图用R从网站下载PDF。我有一个PDF-URLs（pdfurls）矢量和一个目标文件名向量目的地）：例如 pdfurls [1]“ http：// website / name1.pdf “ [2]” http：// website / name2 .pdf “ ... 目的地： [ 1]“C：/username/name1.pdf” [2]“C ..

发布时间：2018-01-27 23:20:10 r for-loop web-scraping 其他开发

通过在PhantomJS中循环来刮取多个URL

我正在使用PhantomJS来刮取一些网站，因此用r提取信息。我正在遵循这个教程。一切工作正常单页，但我找不到任何简单的教程如何自动化多个页面。我到目前为止的实验： var countries = [“Albania”，“Afghanistan”]; var len = countries.length; var name1 =“.html”; var add1 =“htt ..

发布时间：2018-01-27 23:19:52 javascript for-loop web-scraping phantomjs 前端开发

CasperJS循环或遍历多个网页？

我有一个CasperJS脚本，可以从一个网页中删除评分和日期。现在我想从同一个网站下的多个页面上抓取相同的数据。我怎样才能通过给出这个代码循环不同的子页面： var ratings = []; var dates = []; var casper = require（'casper'）。create（{ pageSettings：{ loadImages：false， l ..

发布时间：2018-01-24 21:13:42 javascript loops foreach web-scraping casperjs 前端开发

在服务器上运行selenium浏览器（Flask / Python / Heroku）

我正在拼凑一些似乎对它有很好保护的网站。唯一的办法，我可以得到它的工作是使用Selenium加载页面，然后从中刮去的东西。目前这个工作在我的本地计算机上（当我访问我的页面时，一个Firefox窗口打开和关闭，而且HTML在我的脚本中进一步处理）。但是，我需要我的刮板可以在网上访问。刮板嵌入在Heroku的Flask应用程序中。有没有办法使Selenium浏览器在Heroku服务器上工作？或 ..

发布时间：2017-12-11 22:57:57 python heroku selenium web-scraping flask Python

“权限被拒绝”错误废墟硒刮

我一直在使用Selenium（Python Webdriver）来抓取一个网站。当我试图让它点击（）一个选项，我得到一个权限被拒绝的错误。完整的堆栈跟踪： Traceback（最近调用的最后一个）：文件“scrape.py”，第19行，在 subjectOptions [1] .click（）文件“/Library/Python/2.7/site-packages ..

发布时间：2017-11-16 21:09:40 python firefox selenium webdriver web-scraping Python

如何使用硒浏览整个网站？

是否可以使用 selenium 浏览给定URL（网站）的所有URI？我的目标是使用我选择的给定URL（我知道该怎么做，感谢这个网站）使用硒启动Firefox浏览器，然后让Firefox浏览所有的网址（网站）所拥有的网页。我感谢任何提示/帮助如何在Python中做到这一点。解决方案您可以在类中使用递归方法，如下面给出的是做这个的。 public class Recursi ..

发布时间：2017-11-15 21:05:50 python firefox selenium selenium-webdriver web-scraping Python

刮脸

我需要快速获取大约1000位用户的名字，我现在只拥有Facebook id并访问令牌。我不舒服的FB api，所以我正在考虑只是写一个刮刀从用户的FB页面中重新命名（因为我有用户的id）。这是否允许？我认为这不是“最佳实践”，但它有多严重？会让我被禁止吗？数据只会用于完成我们的用户数据库，所以没有广告替代方案：任何人都可以指出一个好的（和最新的）指南如何使用FB api获取用户信息 ..

发布时间：2017-10-20 23:27:03 facebook facebook-graph-api web-scraping 其他开发

Facebook刮板不加载动态元标记

我正在使用以下功能动态创建HTML元标记（GWT）。在DOM上需要1秒钟的时间。除了Facebook以外，它工作正常。当我从我的网页上分享一个链接时，刮刀会获取HTML中的元标记：none。如何解决这个问题？ / ** *包含HTML属性：标题，描述和关键字标签） * / private void createHTMLheader（MyClass thing）{ Strin ..

发布时间：2017-10-13 22:16:29 html facebook web-scraping meta-tags scraper 前端开发

graph.facebook.com/username不起作用

我尝试使用 https://graph.facebook.com/username 获取用户详细信息。但是它会抛出错误 “error”：{ “message”：“（＃803）无法查询用户通过用户名（ramesh.randika.56）“， ”type“：”OAuthException“， ”code“：803 } / pre> 有没有人可以解决这个问题。解决方案 ..

发布时间：2017-10-13 21:57:25 facebook facebook-graph-api web web-scraping 其他开发

硒偶尔UnreachableBrowserException

我正在使用Java中的Selenium来访问几个网站。偶尔，我得到一个 UnreachableBrowserException 。我已经阅读了许多关于这个错误的线程，但似乎有很多不同的错误原因。大约1％的时间，当我尝试访问一个新的页面，我找不到任何相似之间出现错误时，我收到错误。我目前正在使用Firefox，但是我也尝试过Internet Explorer并遇到类似的错误。我一次只打开一个页面，并 ..

发布时间：2017-10-01 16:13:51 java selenium exception-handling selenium-webdriver web-scraping Java开发

宏/ VBA从www.Eppraisal.com获取值

我需要使用Excel宏从www.Eppraisa.com获取一些值。但是我不知道PropID的价值是什么。这就是为什么宏适用于URL1但不适用于URL2，因为我认为URL2具有错误的propID Const URL1 As String = “ http：// www.eppraisal.com/home-values/property_lookup_eppraisal?a=112 ..

发布时间：2017-09-27 00:52:04 vba excel-vba web-scraping msxml xmlhttprequest Office

VBA Web Scrape（getelementsbyclassname）

我正在尝试在以下链接右侧窗格中列出的VBA课程列表“www.tutorialspoint.com/vba/index.htm” 但是由于一些错误，我无法清理该列表： Sub tutorailpointsscrap（） Dim ie As InternetExplorer Set ie = New InternetExplorer With ie .navigat ..

发布时间：2017-09-26 23:09:12 excel vba excel-vba web-scraping Office

web-scraping相关内容