mechanize相关内容

如何使用 Mechanize 处理 JavaScript?

我正在连接到一个网站,正在登录. 该网站将我重定向到新页面,Mechanize 处理所有 cookie 和重定向作业,但是,我无法获取最后一页.我使用了 Firebug 并再次做了同样的工作,发现我不得不使用 Mechanize 传递另外两个页面. 我快速浏览了页面,看到有一些 JavaScript 和 HTML 代码,但无法理解,因为它看起来不像正常的页面代码.这些页面是做什么用的? ..
发布时间:2021-12-03 09:34:19 前端开发

无法使用 Ruby Mechanize 登录亚马逊

我正在尝试使用 Ruby gem Mechanize 登录 Amazon.我总是被踢回登录页面,没有任何错误消息.我想知道这是 Mechanize 的错误还是亚马逊阻止了这种访问.我有下面的代码,你可以用 irb 来测试. @mechanizer = Mechanize.new@mechanizer.user_agent_alias = 'Mac Safari'@page = @mechaniz ..
发布时间:2021-11-27 08:43:38 其他开发

如果浏览器不支持框架+无法直接访问框架,如何自动获取框架的内容

我正在尝试从类似如果我使用漂亮的汤或机械化打开该URL,则会收到“您的浏览器不支持框架"的信息,如果在chrome开发工具中使用“复制为curl"功能,也会得到相同的结果. 使用机械化或精美的汤时,“您的浏览器不支持框架"的标准建议是跟踪每个框架的来源并加载该框架.但是,如果这样做,我会收到一条错误消息,指出该页面不是我该如何进行?我想我可以用僵尸或幻象来尝试这种方法,但是我不愿意使用那些工 ..
发布时间:2020-09-20 06:57:45 Python

python/beautifulsoup问题中的多处理

大家好,我是python的新手.我想做的是将旧代码移入多处理程序,但是我遇到了一些错误,希望有人能帮助我.我的代码用于检查以文本形式给出的几千个链接,以检查某些标签.一旦找到它将输出给我.由于我要检查数千个链接的原因,速度是一个问题,因此需要我转向多重处理. 更新:我的返回错误为HTTP 503错误.我发送的请求太多还是想念痛风的东西? 多处理代码: from mechanize ..

获取链接的"href"使用机械化

我想获取具有特定类名的链接的href值(在这种情况下,类名包含单词fbxWelcomeBoxBlock) 我尝试了 @agent = Mechanize.new page=@agent.get("https://www.facebook.com/") mylinks=page.links_with(:class => 'fbxWelcomeBoxBlock _8o _8s lfloat ..
发布时间:2020-05-08 01:08:42 其他开发

ParseError:嵌套的窗体

Python机械化为此代码提供嵌套的FORMs错误: url = 'http://bis.zju.edu.cn/psi/' browse = mechanize.Browser() browse.set_handle_robots(False) browse.open(url) # print [n for n in browse.forms()] # ParseError: nested ..
发布时间:2020-05-08 01:08:36 Python

使用Ruby Mechanize刮取所有后续页面

我正在寻找最好的方法来循环浏览网站上的连续页面,同时从每个页面抓取相关数据. 例如,我想去一个特定站点(在下面的示例中为craigslist),从第一页抓取数据,转到下一页,抓取所有相关数据,依此类推,直到最后一页. 在我的脚本中,我正在使用while循环,因为它对我来说似乎最有意义.但是,它似乎工作不正常,仅从第一页抓取数据. 熟悉Ruby/Mechanize的人可以向我指出完 ..
发布时间:2020-05-08 01:08:34 其他开发

机械化打印为pdf

可能重复: 如何获取许多网站的缩略图? /a> 我用perl机械化编写了一个脚本来登录和获取页面.如何直接从我的Perl脚本中将该页面“打印"为"pdf"?我想保存快照在浏览器中的外观. 我可以使用$mech->content(); 获取html. 解决方案 查看 wkhtmltopdf -有PDF和图像(PNG等)的变体.基本上,这是一个包装webkit html引擎的命令行 ..
发布时间:2020-05-08 01:08:27 其他开发

如何在Mechanize中获取重定向日志?

在ruby中,如果您使用机械化遵循以下301/302重定向 require 'mechanize' m = WWW::Mechanize.new m.get('http://google.com') 如何获取通过机械化重定向的页面列表? (例如 http://google.com => http://www.google.com => http://google. com.ua ) ..
发布时间:2020-05-08 01:08:25 其他开发

Ruby Mechanize屏幕抓取帮助

我正在尝试在带有日期的表格中抓取一行.我只想抓取具有今天日期的第三行. 这是我的机械化代码.我试图选择今天有日期及其列的列女巫: agent.page.search("//td").map(&:text).map(&:strip) Output: "11-02-2011", "1", "1", "1", "1", "0", "0,00 DKK", "0,00", "0,00 DK ..
发布时间:2020-05-08 01:08:15 其他开发

mechanize._mechanize.LinkNotFoundError

我尝试使用此脚本模仿链接点击: #!/usr/bin/env python import mechanize targetPage = 'http://example.com/' clickUrl="http://someurlinsideexample.com/" br = mechanize.Browser(factory=mechanize.RobustFactory()) b ..
发布时间:2020-05-08 01:08:11 Python

使机械化通过x数量的链接并获得所有标题吗?

基本上,我想使用机械化浏览该站点上a-z中的所有页面 http://www.tv.com/shows/sort/a_z/ 然后,对于每个字母,获取所有页面上字母"a"的每个节目的标题.目前,我只是想使其与字母"a"一起使用.这是我到目前为止所拥有的,但是不知道从这里去哪里? require 'mechanize' agent=Mechanize.new goog = agent.get ..
发布时间:2020-05-08 01:08:07 其他开发