web-scraping相关内容

如何使用无头网页抓取工具加载更多选项[Instagram]

我试图使用网址刮板从Instagram下载位置详情,但我无法使用加载更多选项从网址中刮取更多位置。 我很感激有关如何修改代码的建议,或者需要使用哪个新代码块来获取特定网址中的所有可用位置。 代码: import re 导入请求 导入json 导入pandas作为pd 导入numpy作为np 从geopy.geocoders导入csv import Nominatim ..
发布时间:2018-04-23 17:14:28 Python

美丽的汤 - 文章URL刮。无法抓取额外加载的文章的网址

我正在撰写一个程序,根据搜索字词从网站中提取文章的网址。目前,我只能从第一页中删除文章网址。 我可以访问加载按钮并加载其他文章,但我无法刮取他们的网址。 为了更清晰,我将整个代码分成了两个独立的模块。我试图将它们合并成一个模块,但输出是 - 只是第一页的文章URL反复显示。 此代码根据搜索词从第一页中删除文章网址 from pprint import pprint i ..
发布时间:2018-04-17 19:18:48 Python

scrapy,如何向表单发送多个请求

好的,我在这里有一个令人讨厌的代码,我向一个表单发送了一个请求,我收回了我需要的所有数据。代码: def start_requests(self): nubmers =“12345” submitForm = FormRequest(“ https://domain.com/url“, formdata = {'address':数字,'submit':'搜索'}, callbac ..
发布时间:2018-03-13 19:52:58 Python

使用机械化(Python)填写表单

我想使用python mechanize填充此页面上的表单,然后记录响应。我应该怎么做?当我使用以下代码在此页面上搜索表单时,它仅显示用于搜索的表单。我应该如何找到其他表单的表单名称,如姓名,性别等? http://aapmaharashtra.org/join-us 代码: 进口机械化 br = mechanize.Browser() br.open(“http://aap ..
发布时间:2018-03-05 13:58:50 Python

使用循环通过网页抓取创建表格

我正在试图通过网站tax-rates.org来得到德克萨斯州每个县的平均税率。我有一个csv文件中的255县的列表,我导入为“TX_counties”,它是一个单列表。我必须创建每个县作为一个字符串的URL,所以我设置d1到第一个单元格[i,1],然后连接到一个URL字符串,执行刮,然后添加+1 [i]这使得它将转到下一个县名的第二个单元格,并且过程继续。 问题是我无法弄清楚如何将刮擦结果存 ..
发布时间:2018-01-28 13:31:41 其他开发

R内存问题,同时网站搜索与REST

我正在使用 rvest 在R中进行webscrape,并且遇到内存问题。我有一个叫做 urls 的字符串的28,625 x 2的数据框,里面包含了我正在抓取的页面的链接。框架的一行包含两个相关的链接。我想用从链接中获取的信息生成一个28,625乘四个数据帧 Final 。一条信息来自第二条链接,另外三条来自第一条链接。三条信息的xpaths作为字符串存储在向量 xpaths 中。 data ..
发布时间:2018-01-28 13:18:05 其他开发

用BeautifulSoup和Requests刮掉多个分页链接

Python初学者在这里。我正在尝试从 dabs.com上的一个类别中删除所有产品。我已经设法在给定的页面上刮去所有产品,但是我在迭代所有分页链接时遇到了问题。 现在,我尝试用span class ='page-list“来隔离所有的分页按钮,但即使这样也行不通,理想情况下,如何使抓取工具继续点击下一个,直到它抓住了所有页面上的所有产品。我该如何做到这一点? 真的很感激任何输入 ..
发布时间:2018-01-28 13:06:11 Python

通过在PhantomJS中循环来刮取多个URL

我正在使用PhantomJS来刮取一些网站,因此用r提取信息。我正在遵循这个教程。一切工作正常单页,但我找不到任何简单的教程如何自动化多个页面。 我到目前为止的实验: var countries = [“Albania”,“Afghanistan”]; var len = countries.length; var name1 =“.html”; var add1 =“htt ..
发布时间:2018-01-27 23:19:52 前端开发

CasperJS循环或遍历多个网页?

我有一个CasperJS脚本,可以从一个网页中删除评分和日期。现在我想从同一个网站下的多个页面上抓取相同的数据。我怎样才能通过给出这个代码循环不同的子页面: var ratings = []; var dates = []; var casper = require('casper')。create({ pageSettings:{ loadImages:false, l ..
发布时间:2018-01-24 21:13:42 前端开发

在服务器上运行selenium浏览器(Flask / Python / Heroku)

我正在拼凑一些似乎对它有很好保护的网站。唯一的办法,我可以得到它的工作是使用Selenium加载页面,然后从中刮去的东西。 目前这个工作在我的本地计算机上(当我访问我的页面时,一个Firefox窗口打开和关闭,而且HTML在我的脚本中进一步处理)。但是,我需要我的刮板可以在网上访问。刮板嵌入在Heroku的Flask应用程序中。有没有办法使Selenium浏览器在Heroku服务器上工作?或 ..
发布时间:2017-12-11 22:57:57 Python

“权限被拒绝”错误废墟硒刮

我一直在使用Selenium(Python Webdriver)来抓取一个网站。当我试图让它点击()一个选项,我得到一个权限被拒绝的错误。完整的堆栈跟踪: Traceback(最近调用的最后一个): 文件“scrape.py”,第19行,在 subjectOptions [1] .click() 文件“/Library/Python/2.7/site-packages ..
发布时间:2017-11-16 21:09:40 Python

如何使用硒浏览整个网站?

是否可以使用 selenium 浏览给定URL(网站)的所有URI? 我的目标是使用我选择的给定URL(我知道该怎么做,感谢这个网站)使用硒启动Firefox浏览器,然后让Firefox浏览所有的网址(网站)所拥有的网页。我感谢任何提示/帮助如何在Python中做到这一点。 解决方案 您可以在类中使用递归方法,如下面给出的是做这个的。 public class Recursi ..
发布时间:2017-11-15 21:05:50 Python

刮脸

我需要快速获取大约1000位用户的名字,我现在只拥有Facebook id并访问令牌。我不舒服的FB api,所以我正在考虑只是写一个刮刀从用户的FB页面中重新命名(因为我有用户的id)。 这是否允许?我认为这不是“最佳实践”,但它有多严重?会让我被禁止吗?数据只会用于完成我们的用户数据库,所以没有广告 替代方案:任何人都可以指出一个好的(和最新的)指南如何使用FB api获取用户信息 ..
发布时间:2017-10-20 23:27:03 其他开发

Facebook刮板不加载动态元标记

我正在使用以下功能动态创建HTML元标记(GWT)。在DOM上需要1秒钟的时间。除了Facebook以外,它工作正常。当我从我的网页上分享一个链接时,刮刀会获取HTML中的元标记:none。如何解决这个问题? / ** *包含HTML属性:标题,描述和关键字标签) * / private void createHTMLheader(MyClass thing){ Strin ..
发布时间:2017-10-13 22:16:29 前端开发

graph.facebook.com/username不起作用

我尝试使用 https://graph.facebook.com/username 获取用户详细信息。但是它会抛出错误 “error”:{ “message”:“(#803)无法查询用户通过用户名(ramesh.randika.56)“, ”type“:”OAuthException“, ”code“:803 } / pre> 有没有人可以解决这个问题。 解决方案 ..
发布时间:2017-10-13 21:57:25 其他开发

硒偶尔UnreachableBrowserException

我正在使用Java中的Selenium来访问几个网站。偶尔,我得到一个 UnreachableBrowserException 。我已经阅读了许多关于这个错误的线程,但似乎有很多不同的错误原因。大约1%的时间,当我尝试访问一个新的页面,我找不到任何相似之间出现错误时,我收到错误。我目前正在使用Firefox,但是我也尝试过Internet Explorer并遇到类似的错误。我一次只打开一个页面,并 ..

宏/ VBA从www.Eppraisal.com获取值

我需要使用Excel宏从www.Eppraisa.com获取一些值。 但是我不知道PropID的价值是什么。这就是为什么宏适用于URL1但不适用于URL2,因为我认为URL2具有错误的propID Const URL1 As String = “ http:// www.eppraisal.com/home-values/property_lookup_eppraisal?a=112 ..
发布时间:2017-09-27 00:52:04 Office

VBA Web Scrape(getelementsbyclassname)

我正在尝试在以下链接右侧窗格中列出的VBA课程列表“www.tutorialspoint.com/vba/index.htm” 但是由于一些错误,我无法清理该列表: Sub tutorailpointsscrap() Dim ie As InternetExplorer Set ie = New InternetExplorer With ie .navigat ..
发布时间:2017-09-26 23:09:12 Office