mechanize相关内容

无法使用 Ruby Mechanize 登录亚马逊

我正在尝试使用 Ruby gem Mechanize 登录 Amazon.我总是被踢回登录页面,没有任何错误消息.我想知道这是 Mechanize 的错误还是亚马逊阻止了这种访问.我有下面的代码,你可以用 irb 来测试. @mechanizer = Mechanize.new@mechanizer.user_agent_alias = 'Mac Safari'@page = @mechaniz ..
发布时间:2021-11-27 08:43:38 其他开发

机械化 - 如何关注或“点击"Meta 在 Rails 中刷新

我在 Mechanize 上有点问题. 当使用 Mechanize 提交表单时.我来到一个带有元刷新的页面,并且没有链接. 我的问题是如何关注元刷新? 我曾尝试允许元刷新,但随后出现套接字错误.示例代码 需要'机械化'代理 = WWW::Mechanize.newagent.get("http://euroads.dk")表单 = agent.page.forms.firstf ..
发布时间:2021-07-12 20:53:20 其他开发

给定一个引文表,如何反向查找每个引文的数字对象标识符?

我有一个引文表,其中包括第一作者的姓氏、标题、期刊、年份和每个引文的页码. 我已将表格的前几行发布到 Google Doc;它也以 CSV 文件的形式提供.(请注意,有些记录没有有 DOI.) 我希望能够查询每个引文的 DOI.对于标题,最好是查询能够处理某种形式的模糊匹配. 我该怎么做? 该表目前在 MySQL 中,但以 CSV 文件开始和结束就足够了,或者因为我主要使用 ..
发布时间:2021-06-02 19:20:45 其他开发

如果浏览器不支持框架+无法直接访问框架,如何自动获取框架的内容

我正在尝试从类似如果我使用漂亮的汤或机械化打开该URL,则会收到“您的浏览器不支持框架"的信息,如果在chrome开发工具中使用“复制为curl"功能,也会得到相同的结果. 使用机械化或精美的汤时,“您的浏览器不支持框架"的标准建议是跟踪每个框架的来源并加载该框架.但是,如果这样做,我会收到一条错误消息,指出该页面不是我该如何进行?我想我可以用僵尸或幻象来尝试这种方法,但是我不愿意使用那些工 ..
发布时间:2020-09-20 06:57:45 其他开发

python/beautifulsoup问题中的多处理

大家好,我是python的新手.我想做的是将旧代码移入多处理程序,但是我遇到了一些错误,希望有人能帮助我.我的代码用于检查以文本形式给出的几千个链接,以检查某些标签.一旦找到它将输出给我.由于我要检查数千个链接的原因,速度是一个问题,因此需要我转向多重处理. 更新:我的返回错误为HTTP 503错误.我发送的请求太多还是想念痛风的东西? 多处理代码: from mechanize ..
发布时间:2020-05-08 01:08:46 其他开发

获取链接的"href"使用机械化

我想获取具有特定类名的链接的href值(在这种情况下,类名包含单词fbxWelcomeBoxBlock) 我尝试了 @agent = Mechanize.new page=@agent.get("https://www.facebook.com/") mylinks=page.links_with(:class => 'fbxWelcomeBoxBlock _8o _8s lfloat ..
发布时间:2020-05-08 01:08:42 其他开发

ParseError:嵌套的窗体

Python机械化为此代码提供嵌套的FORMs错误: url = 'http://bis.zju.edu.cn/psi/' browse = mechanize.Browser() browse.set_handle_robots(False) browse.open(url) # print [n for n in browse.forms()] # ParseError: nested ..
发布时间:2020-05-08 01:08:36 其他开发

使用Ruby Mechanize刮取所有后续页面

我正在寻找最好的方法来循环浏览网站上的连续页面,同时从每个页面抓取相关数据. 例如,我想去一个特定站点(在下面的示例中为craigslist),从第一页抓取数据,转到下一页,抓取所有相关数据,依此类推,直到最后一页. 在我的脚本中,我正在使用while循环,因为它对我来说似乎最有意义.但是,它似乎工作不正常,仅从第一页抓取数据. 熟悉Ruby/Mechanize的人可以向我指出完 ..
发布时间:2020-05-08 01:08:34 其他开发

方法宽度和高度机械化

我使用Mechanize抓取图片网址,然后查看 http://mechanize.rubyforge.org/Mechanize/Page/Image.html 用于了解宽度和高度图像. 我在控制台中编写: url = "http://www.bbc.co.uk/" page = Mechanize.new.get(url) images_url = page.images.map{| ..
发布时间:2020-05-08 01:08:31 其他开发

机械化打印为pdf

可能重复: 如何获取许多网站的缩略图? /a> 我用perl机械化编写了一个脚本来登录和获取页面.如何直接从我的Perl脚本中将该页面“打印"为"pdf"?我想保存快照在浏览器中的外观. 我可以使用$mech->content(); 获取html. 解决方案 查看 wkhtmltopdf -有PDF和图像(PNG等)的变体.基本上,这是一个包装webkit html引擎的命令行 ..
发布时间:2020-05-08 01:08:27 其他开发

如何在Mechanize中获取重定向日志?

在ruby中,如果您使用机械化遵循以下301/302重定向 require 'mechanize' m = WWW::Mechanize.new m.get('http://google.com') 如何获取通过机械化重定向的页面列表? (例如 http://google.com => http://www.google.com => http://google. com.ua ) ..
发布时间:2020-05-08 01:08:25 其他开发

Ruby Mechanize无法正确返回Javascript构建页面

我正在尝试创建一个脚本来填写我必须每周填写的多页“表格"(实际上是失业表格),第4页最后为您提供一个Checkbox和2个单选按钮,所有这些均已构建通过Javascript.当我使用Mechanize导航到此页面时,我没有这3个控件就返回了html,因此在此过程中我无法走得更远. 这是常见问题吗? 我先填写表单,然后仅调用page = agent.submit(form, form.but ..
发布时间:2020-05-08 01:08:21 其他开发

Ruby Mechanize屏幕抓取帮助

我正在尝试在带有日期的表格中抓取一行.我只想抓取具有今天日期的第三行. 这是我的机械化代码.我试图选择今天有日期及其列的列女巫: agent.page.search("//td").map(&:text).map(&:strip) Output: "11-02-2011", "1", "1", "1", "1", "0", "0,00 DKK", "0,00", "0,00 DK ..
发布时间:2020-05-08 01:08:15 其他开发

使用机械化的Python自动登录

已修复!已更新为工作代码 我一直在努力使这种自动登录的东西对我有用. 请注意,目前我仍然是Python新手. 以下是我检查相关表格时发现的html代码: Intranet ..
发布时间:2020-05-08 01:08:13 其他开发

mechanize._mechanize.LinkNotFoundError

我尝试使用此脚本模仿链接点击: #!/usr/bin/env python import mechanize targetPage = 'http://example.com/' clickUrl="http://someurlinsideexample.com/" br = mechanize.Browser(factory=mechanize.RobustFactory()) b ..
发布时间:2020-05-08 01:08:11 其他开发

将Mechanize宝石与Nokogirl宝石一起使用?

我正在尝试抓取一个需要身份验证的网站,以获取ID为#cellTotal的页面上的元素. 现在,使用Mechanize,我已经登录到要访问的页面,但是使用了以下基本的Nokogiri功能: @selector = page.css("#cellTotal").text 给我这个错误: undefined method `css' for # ..
发布时间:2020-05-08 01:08:09 其他开发