从html页面提取内容 [英] extract content from html page

查看:92
本文介绍了从html页面提取内容的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试在HTML页面中使用 id job_title1 提取div标签中的内容。我正在使用 htmlagilitypack 来获取数据。这是我的代码

I'm trying to extract the content inside div tag with id job_title1 in a html page. I'm using htmlagilitypack to fetch the data. Here is my code

        var obj = new HtmlWeb();
        var document = obj.Load("url of website ");

        var bold = document.DocumentNode.SelectNodes("//div[@class='job_title1']");

        foreach (var i in document.DocumentNode.SelectNodes("//div[@class='job_title1']"))
        {
            Response.Write(i.InnerHtml);
        }

当我尝试运行此代码时,我在foreach上遇到错误,说你调用的对象是空的。请帮我解决这个问题。

When i tried to run this code i'm getting error at foreach saying the Object reference not set to an instance of an object. Please help me solving this.

推荐答案

检查是否为空像这样:

var nodes = document.DocumentNode.SelectNodes("//div[@class='job_title1']");

if(nodes != null)
    foreach (var i in document.DocumentNode.SelectNodes("//div[@class='job_title1']"
    ...

编辑:使用 \ 代替'

var obj = new HtmlWeb();
var document = obj.Load("url of website ");

var bold = document.DocumentNode.SelectNodes("//div[@class=\"job_title1\"]");

if(bold!= null)
    foreach (var i in bold)
    {
        Response.Write(i.InnerHtml);
    }

这篇关于从html页面提取内容的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆