mechanize相关内容
我正在连接到一个网站,正在登录. 该网站将我重定向到新页面,Mechanize 处理所有 cookie 和重定向作业,但是,我无法获取最后一页.我使用了 Firebug 并再次做了同样的工作,发现我不得不使用 Mechanize 传递另外两个页面. 我快速浏览了页面,看到有一些 JavaScript 和 HTML 代码,但无法理解,因为它看起来不像正常的页面代码.这些页面是做什么用的?
..
我正在尝试使用 Ruby gem Mechanize 登录 Amazon.我总是被踢回登录页面,没有任何错误消息.我想知道这是 Mechanize 的错误还是亚马逊阻止了这种访问.我有下面的代码,你可以用 irb 来测试. @mechanizer = Mechanize.new@mechanizer.user_agent_alias = 'Mac Safari'@page = @mechaniz
..
我在 Mechanize 上有点问题. 当使用 Mechanize 提交表单时.我来到一个带有元刷新的页面,并且没有链接. 我的问题是如何关注元刷新? 我曾尝试允许元刷新,但随后出现套接字错误.示例代码 需要'机械化'代理 = WWW::Mechanize.newagent.get("http://euroads.dk")表单 = agent.page.forms.firstf
..
我正在尝试使用请求在
..
我正在尝试从类似如果我使用漂亮的汤或机械化打开该URL,则会收到“您的浏览器不支持框架"的信息,如果在chrome开发工具中使用“复制为curl"功能,也会得到相同的结果. 使用机械化或精美的汤时,“您的浏览器不支持框架"的标准建议是跟踪每个框架的来源并加载该框架.但是,如果这样做,我会收到一条错误消息,指出该页面不是我该如何进行?我想我可以用僵尸或幻象来尝试这种方法,但是我不愿意使用那些工
..
大家好,我是python的新手.我想做的是将旧代码移入多处理程序,但是我遇到了一些错误,希望有人能帮助我.我的代码用于检查以文本形式给出的几千个链接,以检查某些标签.一旦找到它将输出给我.由于我要检查数千个链接的原因,速度是一个问题,因此需要我转向多重处理. 更新:我的返回错误为HTTP 503错误.我发送的请求太多还是想念痛风的东西? 多处理代码: from mechanize
..
我想获取具有特定类名的链接的href值(在这种情况下,类名包含单词fbxWelcomeBoxBlock) 我尝试了 @agent = Mechanize.new page=@agent.get("https://www.facebook.com/") mylinks=page.links_with(:class => 'fbxWelcomeBoxBlock _8o _8s lfloat
..
我正在从服务器收到以下响应 ctrlDateTime%24txtSpecifyFromDate=05%2F02%2F2015& ctrlDateTime%24rgApplicable=rdoApplicableFor& ctrlDateTime%24txtSpecifyToDate=05%2F02%2F2015& 我正在尝试 br["ctrlDateTime%24txtSpecif
..
Python机械化为此代码提供嵌套的FORMs错误: url = 'http://bis.zju.edu.cn/psi/' browse = mechanize.Browser() browse.set_handle_robots(False) browse.open(url) # print [n for n in browse.forms()] # ParseError: nested
..
我正在寻找最好的方法来循环浏览网站上的连续页面,同时从每个页面抓取相关数据. 例如,我想去一个特定站点(在下面的示例中为craigslist),从第一页抓取数据,转到下一页,抓取所有相关数据,依此类推,直到最后一页. 在我的脚本中,我正在使用while循环,因为它对我来说似乎最有意义.但是,它似乎工作不正常,仅从第一页抓取数据. 熟悉Ruby/Mechanize的人可以向我指出完
..
我使用Mechanize抓取图片网址,然后查看 http://mechanize.rubyforge.org/Mechanize/Page/Image.html 用于了解宽度和高度图像. 我在控制台中编写: url = "http://www.bbc.co.uk/" page = Mechanize.new.get(url) images_url = page.images.map{|
..
可能重复: 如何获取许多网站的缩略图? /a> 我用perl机械化编写了一个脚本来登录和获取页面.如何直接从我的Perl脚本中将该页面“打印"为"pdf"?我想保存快照在浏览器中的外观. 我可以使用$mech->content(); 获取html. 解决方案 查看 wkhtmltopdf -有PDF和图像(PNG等)的变体.基本上,这是一个包装webkit html引擎的命令行
..
在ruby中,如果您使用机械化遵循以下301/302重定向 require 'mechanize' m = WWW::Mechanize.new m.get('http://google.com') 如何获取通过机械化重定向的页面列表? (例如 http://google.com => http://www.google.com => http://google. com.ua )
..
所以我有这段代码收集了我需要的所有产品信息: # get main page page = agent.get "http://www.site.com.mx/tienda/index.php" search_form = page.forms.first search_result = agent.submit search_form doc = Nokogiri
..
如何从字符串中提取数字? 如果xpath是'td [5] p/@ title' HTML:
10
..
我正在尝试在带有日期的表格中抓取一行.我只想抓取具有今天日期的第三行. 这是我的机械化代码.我试图选择今天有日期及其列的列女巫: agent.page.search("//td").map(&:text).map(&:strip) Output: "11-02-2011", "1", "1", "1", "1", "0", "0,00 DKK", "0,00", "0,00 DK
..
已修复!已更新为工作代码 我一直在努力使这种自动登录的东西对我有用. 请注意,目前我仍然是Python新手. 以下是我检查相关表格时发现的html代码:
Intranet
..
我尝试使用此脚本模仿链接点击: #!/usr/bin/env python import mechanize targetPage = 'http://example.com/' clickUrl="http://someurlinsideexample.com/" br = mechanize.Browser(factory=mechanize.RobustFactory()) b
..
我正在尝试抓取一个需要身份验证的网站,以获取ID为#cellTotal的页面上的元素. 现在,使用Mechanize,我已经登录到要访问的页面,但是使用了以下基本的Nokogiri功能: @selector = page.css("#cellTotal").text 给我这个错误: undefined method `css' for #
..
基本上,我想使用机械化浏览该站点上a-z中的所有页面 http://www.tv.com/shows/sort/a_z/ 然后,对于每个字母,获取所有页面上字母"a"的每个节目的标题.目前,我只是想使其与字母"a"一起使用.这是我到目前为止所拥有的,但是不知道从这里去哪里? require 'mechanize' agent=Mechanize.new goog = agent.get
..