hpricot相关内容

XML =>带有Hpricot和Rails的HTML

我从未使用过Web服务和Rails,显然这是我需要学习的东西. 我选择使用hpricot,因为它看起来很棒. 无论如何,_why足以在 hpricot网站上提供以下示例: #!ruby require 'hpricot' require 'open-uri' # load the RedHanded home page doc = Hpricot(open("http://redh ..
发布时间:2020-06-18 19:14:53 其他开发

org.jruby.Main上的NoClassDefFoundError

我正在尝试使用JRuby 1.4.0RC1在Windows机器上安装hpricot gem.我正在尝试遵循有关问题的建议(请参阅-> 为JRuby安装hpricot ). 根据答案的建议,我拉开了hpricot的git头,并从其dir运行: jruby -S rake package_jruby cd pkg sudo jgem install ./hpricot-0.8.1-jrub ..
发布时间:2020-06-18 19:14:51 Java开发

如何从KML/XML中提取数据?

我有一些数据已从KML文件转换为XML,我很好奇如何使用PHP或Ruby来获取诸如邻域名称和坐标之类的信息.我知道他们周围有这样的标签. Gotham 但不幸的是,数据的格式为: Colgate Center ..
发布时间:2020-06-18 19:14:47 PHP

您如何知道何时使用XML解析器以及何时使用ActiveResource?

我尝试使用ActiveResource解析更像HTML文档的Web服务,但不断出现404错误. 我需要为此任务使用XML解析器而不是ActiveResource吗? 我的猜测是,ActiveResource仅在您使用另一个Rails应用程序中的数据并且XML数据可轻松转换为Rails模型时才有用.例如,如果Web服务是范围更广的XML(例如HTML文档或RSS feed),则您想使用诸 ..

未封闭的img标签存在问题

以HTML格式显示并提交给服务器的数据,需要进行一些预处理. 使用"img"标签的"src"属性进行操作. 经过预处理和保存后,所有经过预处理的"img"标签不会自动关闭. 例如,如果紧随其后的是"img"标签: 用Nokogiri或Hpricot进行预处理后,将是: ..
发布时间:2020-06-18 19:14:39 其他开发

使用< foo.bar>

我正在尝试在JRuby中使用一些具有此类元素的旧XML: content 我一直在使用Hpricot,但是Hpricot的面向HTML的快捷方式对我不利:doc.search("//with.dot")似乎正在寻找 ..
发布时间:2020-06-18 19:14:37 其他开发

XPath中的Tbody标签由Fire Bug产生

我正在尝试使用ruby hpricot库从在线html中提取一些数据.我使用firefox扩展名fire bug来获取所选项目的xpath. 在产生的xpath表达式中总是存在额外的tbody标签.在某些情况下,我必须从表达式中删除tbody标签以获取结果,而在其他情况下,我必须保留标签以获取结果. 我只是不知道何时保留tbody标签,什么时候不保留. 解决方案 为了考虑并避免 ..
发布时间:2020-06-18 19:14:34 其他开发

带有萤火虫的XPath的hpricot

我正在尝试使用hpricot从基于表的网站中提取一些信息.我得到了带有FireBug的XPath. /html/body/div/table/tbody/tr/td/table/tbody/tr[2]/td/table/tbody/tr/td[2]/table/tbody/tr[3]/td/table[3]/tbody/tr 这不起作用...显然,FireBug的XPath是呈现的HTM ..
发布时间:2020-06-18 19:14:31 其他开发

Nokogiri vs Hpricot?

您会选择哪一个?我的重要属性是(不按顺序排列): 支持和将来的增强功能. 社区和一般知识库(在Internet上). 全面(即,经证明可解析各种*.* ml页). 性能. 内存占用量(运行时,而不是代码库). 解决方案 选择Nokogiri,尤其是要点一:Hpricot是元答案:请参见 ruby​​-toolbox 了解不同类型的流行程度给定区域中的工具. ..
发布时间:2020-06-18 19:14:27 其他开发

删除XML标签及其内容之间的任何内容

我需要删除XML标记之间的所有内容,尤其是空格和换行符. 例如,从以下位置删除空格和新闻行: \ n 获得: 这不是要手动解析XML ,而是要在通过工具解析XML数据之前准备XML数据.更具体地说,我正在使用Hpricot(Ruby)解析XML,不幸的是,我 ..
发布时间:2020-06-18 19:14:24 其他开发

结合使用Ruby和Mechanize登录网站

我需要从网站上抓取数据,但是这需要我先登录.我一直在使用hpricot来成功地抓取其他站点,但是我对使用机械化是陌生的,而且我对如何使用它很困惑. 我看到这个例子通常被引用: require 'rubygems' require 'mechanize' a = Mechanize.new a.get('http://rubyforge.org/') do |page| # Cli ..
发布时间:2020-05-03 09:40:03 其他开发

使用Hpricot(Ruby on Rails)刮取隐藏的HTML(当可见= false时)

我遇到了一个不幸似乎无法超越的问题,不幸的是,我还只是一个Ruby on Rails的新生儿,因此不幸的是因此提出了很多问题。 我试图抓取如下网页: http://www.yellowpages.com.mt/ Malta / Grocers-Mini-Markets-Retail-In-Malta-Gozo.aspx 我想刮去下一页的地址,电话和URL,在这种情况 ..
发布时间:2018-06-26 10:29:02 前端开发

使用Ruby从HTML文档中剥离文本

有很多关于如何使用Ruby去除文档中HTML标签的例子,Hpricot和Nokogiri都有inner_text方法,可以方便快捷地为您移除所有的HTML。 我想要做的是相反的,从HTML文档中删除所有文本,只留下标签及其属性。 我考虑循环遍历文档设置inner_html为零,但然后真的,你必须做相反的事情,因为第一个元素(root)有一个inner_html的整个文档的其余部分,所以 ..
发布时间:2018-06-15 11:02:55 前端开发

Windows上的Rails Bundler拒绝安装hpricot(即使是手动安装gem也会得到错误:没有要加载的文件 - hpricot)

升级到rails 3,并使用Bundler作为宝石,在一个混合平台开发组中。我在Windows上。当我运行Bundle Install时,它会成功完成,但不会安装hpricot。 hpricot行是: gem“hpricot”,“0.8.3”,:platform => :mswin 也试过了 gem“hpricot”,:platform => :mswin ..
发布时间:2018-04-21 15:50:02 其他开发

open-uri不会将http重定向到https

我使用Hpricot和OpenURI解析网页并从中提取网址。 当我得到类似“http:rapidshare.com”的链接时,它不是重定向到https。 这是我得到的错误: /home/leonidus/.rvm/rubies/ruby-1.9.3 -p125 / lib / ruby​​ / 1.9.1 / open-uri.rb:216:在 中`open_loop':重定向被禁 ..
发布时间:2018-04-21 15:48:12 其他开发

为JRuby安装hpricot

我想看看黄瓜的Jruby在Rails。 我用hpricot安装了这个gem: gem install hpricot --source http://code.whytheluckystiff.net --version 0.6.1 --platform java 这将安装hpricot的java版本。我将hpricot_scan.jar添加到CLASSPATH,但是当我运行时: ..
发布时间:2017-03-01 22:23:38 软件测试

将HTML转换为纯文本和维护结构/格式化,红宝石

我想HTML转换为纯文本。我不想只去掉标签,虽然,我想聪明保留​​尽可能多的格式尽可能。插入换行符为&LT; BR&GT; 标记,检测段落和格式化它们的方式,等等。 输入是pretty简单,通常是格式良好的HTML(不是整个文件,只是一堆的内容,通常没有锚或图像)。 我可以放在一起一对夫妇regexs这让我80%,但有推测有可能是更智能一些现有的解决方案。 解决方案 首先,不要试图用正 ..
发布时间:2016-08-05 19:06:59 其他开发语言