html-content-extraction相关内容
我想创建一个页面,其中列出了我网站上的所有图像以及标题和替代表示. 我已经写了一个小程序来查找和加载所有 HTML 文件,但现在我被困在如何提取 src、title 和 alt 来自这个 HTML: 我想这应该用一些正则表达式来完
..
我正在抓取新闻网站,想提取新闻标题、新闻摘要(第一段)等 我插入了 webkit 解析器代码,以轻松地将网页作为树进行导航.为了消除导航和其他非新闻内容,我采用了文章的文本版本(减去 html 标签,webkit 提供了相同的 api).然后我运行 diff 算法比较来自同一网站的各种文章的文本,这导致相似的文本被消除.这给了我内容减去常见的导航内容等 尽管采用了上述方法,但我的最终文
..
我正在使用此代码查找页面中所有有趣的链接: soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+')) 而且它的工作做得很好.不幸的是,在 a 标签内有很多嵌套标签,比如 font、b 和不同的东西......我想得到只是文本内容,没有任何其他 html 标签. 链接示例:
..
基本上,我想使用 BeautifulSoup 来严格抓取网页上的可见文本.例如,这个网页就是我的测试案例.而且我主要只想获取正文(文章),甚至可能在这里和那里获取一些选项卡名称.我已经尝试了这个 SO question 中的建议返回许多我不想要的 标签和 html 注释.我无法弄清楚函数 findAll 所需的参数() 以便只获取网页上的可见文本. 那么,我应该如何找到除脚本、评论、CSS
..
我想解析一些 HTML 以找到一些属性/标签等的值. 您推荐哪些 HTML 解析器?有什么优点和缺点吗? 解决方案 NekoHTML,
..
我想知道在vb.net中是否有一种简单的方法来解析HTML.我知道 HTML 不是 XML 的严格子集,但如果可以这样处理它会很好.有什么东西可以让我在 VB.net 中以类似 XML 的方式解析 HTML? 解决方案 我喜欢 Html Agility pack - 它对开发人员非常友好,免费且源代码可用.
..
谁能推荐一个用于 HTML 解析的 C 或 Objective-C 库?它需要处理无法完全验证的杂乱 HTML 代码. 这样的库是否存在,还是我最好尝试使用正则表达式? 解决方案 看起来像 libxml2.2 自带在 SDK 中,libxml/HTMLparser.h 声明如下: 该模块实现了一个 HTML 4.0 非验证解析器,其 API 与 XML 解析器兼容.它应该能够解
..
我正在考虑尝试 Beautiful Soup,这是一个用于 HTML 抓取的 Python 包.我应该查看其他任何 HTML 抓取包吗?Python 不是必需的,我实际上也有兴趣了解其他语言. 到目前为止的故事: 蟒蛇 美汤 lxml HTQL Scrapy 机械化 红宝石 Nokogiri Hpricot 机械化 scrAPI scRUBYt! womba
..
我想使用 Python 从 HTML 文件中提取文本.如果我从浏览器复制文本并将其粘贴到记事本中,我想要的输出基本上相同. 我想要比使用可能在格式不佳的 HTML 上失败的正则表达式更健壮的东西.我看到很多人推荐 Beautiful Soup,但我在使用它时遇到了一些问题.一方面,它选择了不需要的文本,例如 JavaScript 源代码.此外,它不解释 HTML 实体.例如,我希望 '
..
我想创建一个页面,其中列出了驻留在我网站上的所有图像以及标题和替代表示. 我已经写了一个小程序来查找和加载所有 HTML 文件,但现在我被困在如何提取 src、title 和 alt 来自此 HTML: 我想这应该用一些正则表达式
..
我正在寻找一种库/方法来解析具有比通用 xml 解析库更多的 html 特定功能的 html 文件. 解决方案 Html Agility Pack 这是一个敏捷的 HTML 解析器,它构建了一个读/写 DOM 并支持普通的 XPATH 或 XSLT(你实际上不必了解 XPATH 或 XSLT 来使用它,别担心......).它是一个 .NET 代码库,允许您解析“网络之外"的代码.HTM
..
这是对 RCurl getURL与的后续问题循环-链接到PDF可以消除循环: 我有以下getURL命令: require(RCurl) #set a bunch of options for curl options(RCurlOptions = list(cainfo = system.file("CurlSSL", "cacert.pem", package = "RCurl"))
..
有没有一种方法可以使用可读性(文本提取算法)和python中的自定义算法从文本中提取链接? 我想找出一种提取文本正文中链接的方法. 1.)我在python中使用可读性 https://github.com/gfxmonk/python-readability 2.)我想以某种方式将提取的文本与原始html文本进行比较,以提取文章实际正文中的链接. 解决方案 好吧,看起来它
..
我正在继续从事一段时间的项目,而我一直在努力从网站上获取一些数据.该网站有一个iframe,可从未知来源提取一些数据.数据在iframe中的代码中是这样的:
9,000 上面有很多其他废话,但是这个div id/标签是完全唯一的,在代码中的其他任何地方都没有使用.
..
是否有一种方法可以从没有IDs和classes的不正确地编写的原始html中提取所需的数据?我的意思是,假设有一个保存的网页(配置文件)的html文件,并且我想提取诸如“爱好"之类的数据.可以使用PHP来做到这一点吗? 解决方案 使用最终,如果您需要从不是以语义方式构建的html页面中获取语义信息,则可能会以编程方式注定要失败,最好的选择是
..
我有一个提取2个字符串之间内容的函数.我用它来提取html标签之间的特定信息.但是,它目前只能提取第一个匹配项,因此我想知道是否有可能通过提取所有匹配项并将其提供给数组的方式进行改进.类似于preg_match_all函数. function get_between($content,$start,$end){ $r = explode($start, $content);
..
开始并以
..
我正在尝试下载网页的html内容并获得416状态.我找到了一种解决方案,可以正确地将状态代码提高为200,但仍然无法下载正确的内容.我非常亲密,但是缺少一些东西.请帮忙. 具有416状态的代码: public static void main(String[] args) { String URL="http://www.xyzzzzzzz.com.sg/";
..
Some text
..
这并不是真正的抓取,我只是想在网页中找到该类具有特定值的URL.例如: 我想获取href值.有关如何执行此操作的任何想法?也许正则表达式?您可以张贴一些示例代码吗? 我猜想HTML抓取类库(例如BeautifulSoup)就此而言有点矫kill过正...
..