mechanize相关内容

如何在Mechanize和Nokogiri中单击链接?

我正在使用Mechanize抓取Google电子钱包中的订单数据.我正在捕获第一页中的所有数据,但是,我需要自动链接到后续页面以获取更多信息. #purchaseOrderPager-pagerNextButton将移至下一页,因此我可以提取更多记录以进行捕获.元素看起来像这样.我需要单击它才能继续. ..
发布时间:2020-05-08 01:04:43 其他开发

寻找与机械化功能等效的请求

我感兴趣的是查看请求是否可以处理我主要在Mechanize中执行的某些任务. Mechanize可以轻松处理填写表格和提交表格的过程,而我在尝试在Requests中执行相同操作时遇到了困难. 例如, import mechanize br = mechanize.Browser() url = "https://www.euronext.com/en/data/download? ..
发布时间:2020-05-08 01:04:41 Python

如何打印机械化存储的Cookie?

我正在使用机械化功能登录网站,然后检索页面.我遇到了一些问题,我怀疑这是由于Cookie中的某些值引起的.当Mechanize登录到网站时,我假设它存储cookie. 如何通过Mechanize打印出存储在cookie中的所有数据? 解决方案 代理具有cookie方法. agent = Mechanize.new page = agent.get("http://www.goo ..
发布时间:2020-05-08 01:04:37 其他开发

尝试使用ruby机械化发布

我已经使用firefox插件LiveHTTPheaders捕获了登录HTTP标头. 我找到了以下网址和变量. POST /login email=myemail%40gmail.com&password=something&remember=1&loginSubmit=Login 这是我正在运行的代码: require 'rubygems' require 'mechaniz ..
发布时间:2020-05-08 01:04:25 其他开发

如何阅读别人的论坛

我的朋友有一个论坛,上面满是包含信息的帖子.有时她想查看论坛中的帖子并得出结论.目前,她通过单击自己的论坛来查看帖子,并生成(不一定是正确的)数据数据(在她的大脑中),并据此得出结论.我今天的想法是,我可能会敲出一个快速的Ruby脚本,该脚本将解析必要的HTML,以使她对数据在说什么有个真实的了解. 今天我第一次使用Ruby的net/http库,但是遇到了问题.虽然我的浏览器可以轻松浏览朋友 ..
发布时间:2020-05-08 01:04:21 其他开发

Scrapy或Selenium或Mechanize来抓取Web数据?

我想从网站上抓取一些数据. 基本上,该网站以表格形式显示,并显示约50条记录.对于更多记录,用户必须单击某个按钮,该按钮才能进行ajax调用get&.显示接下来的50条记录. 我以前有Selenium webdriver(Python)的知识.我可以在Selenium中非常快地完成此操作.但是,Selenium更像是一种自动化测试工具,而且速度很慢. 我做了一些研发,发现使用Sc ..
发布时间:2020-05-08 01:04:16 其他开发

在Python中使用Mechanize获取和捕获HTTP响应

我正在尝试从python中的Mechanize获取响应代码.虽然我能够获得200状态代码,但不会返回任何其他内容(404抛出异常,并且30x会被忽略).有没有办法获取原始状态码? 谢谢 解决方案 错误将引发异常,因此只需使用try:... except:...即可处理它们. 您的机械化浏览器对象具有set_handle_redirect()方法,可用于打开或关闭30倍重定向.将 ..
发布时间:2020-05-08 01:04:14 Python

CertificateError:主机名不匹配

我正在使用代理服务器(位于公司防火墙后)登录到https域. SSL握手似乎不太顺利: CertificateError: hostname 'ats.finra.org:443' doesn't match 'ats.finra.org' 我正在使用Python 2.7.9-Mechanize,并且已经超越了所有的登录名,密码,安全问题屏幕,但是它却挂在了证书上. 任何帮助都将 ..
发布时间:2020-05-08 01:04:11 Python

您如何查看机械化使用的请求标头?

我正在尝试以编程方式向表单提交一些数据.我遇到一个小问题,即服务器“不喜欢"我发送的内容.令人沮丧的是,没有错误消息,或者任何可以帮助诊断问题的东西,它所做的一切只是让我回到击中br.submit()时开始的同一页面. 当我在浏览器中手动单击“提交"按钮时,结果页面显示一个小的“成功!".信息.通过脚本提交时,不会出现此类消息.此外,实际上没有任何更改发布到服务器.这很奇怪,这是我第一次遇到 ..
发布时间:2020-05-08 01:04:07 Python

使用Python机械化下载文件

我正在尝试使用python从网站下载文件并进行机械化.我当前的代码成功登录到网站,并打开包含下载链接的页面. 下载链接为: https://www.lendingclub.com/browse/browseNotesRawDataV2.action 该链接的信息为: Link(base_url='https://www.lendingclub.com/browse/browse. ..
发布时间:2020-05-08 01:04:03 Python

网络抓取工具-忽略Robots.txt文件吗?

某些服务器具有robots.txt文件,以阻止Web爬网程序通过其网站进行爬网.有没有办法让网络抓取工具忽略robots.txt文件?我正在将Mechanize用于python. 解决方案 用于机械化的文档具有此示例代码: br = mechanize.Browser() .... # Ignore robots.txt. Do not do this without though ..
发布时间:2020-05-08 01:03:59 Python

机械化如何获取当前网址

我有这个代码 require 'mechanize' @agent = Mechanize.new page = @agent.get('http://something.com/?page=1') next_page = page.link_with(:href=>/^?page=2/).click 如您所见,此代码应转到下一页. next_page应具有URL http://s ..
发布时间:2020-05-08 01:03:57 其他开发