从网站源代码中提取特定的变化元素 [英] Extracting a specific varying element from website source code

查看:60
本文介绍了从网站源代码中提取特定的变化元素的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试从网站中提取特定链接,但无法提取到字符串中.

I'm trying to extract a specific link from a website and I'm having trouble pulling into a String.

我必须从一个网站上搜索大约5000家公司,并且所有链接都不同.到示例公司(诺基亚)的源代码的链接是:view-source: http://finder.fi/yrityshaku/Nokia + oyj 这是我正在查看的部分:

I have to search about 5000 companies from a website and all of the links vary. A link to the source code of an example company (Nokia) is this: view-source:http://finder.fi/yrityshaku/Nokia+oyj this is the part I'm looking at:

<div class="itemName">

  <!-- Yritysnimi -->

    <!-- Aukeaa aina yhteystiedot-vÃ?lilehdelle -->
    <a href="/Tietoliikennepalveluja%2C+tietoliikennelaitteita/Nokia+Oyj/TAMPERE/yhteystiedot/159838" class="resultGray">

我想提取之间的子字符串

I want to extract the Substring between

  <!-- Yritysnimi -->

    <!-- Aukeaa aina yhteystiedot-vÃ?lilehdelle -->
    <a href="

" class="resultGray">

此子字符串会随我搜索的每个公司而有所不同,因此我只会知道我要提取的子字符串周围的字符串.

this substring will vary with each company I search and so I will only know what the strings are around the substring I'm trying to extract.

我尝试使用browserIE.Document.body.innerHTML

I've tried to use browserIE.Document.body.innerHTML

Sub Macro1()

Set browserIE = CreateObject("InternetExplorer.Application")
browserIE.Top = 0
browserIE.Left = 800
browserIE.Width = 800
browserIE.Height = 1200
browserIE.Visible = True




Set ws = ThisWorkbook.Worksheets("Sheet1")

browserIE.Navigate ("http://www.finder.fi/yrityshaku")
Do
DoEvents
Loop Until browserIE.ReadyState = 4

    browserIE.Document.getElementById("companysearchform_query_companySearchTypename").Click
    browserIE.Document.getElementById("SearchInput").Value = "nokia oyj"
    browserIE.Document.getElementById("SearchSubmit").Click
    Application.Wait (Now + TimeValue("0:00:4"))
    codeArea = Mid(V, InStr(V, "<div class=""itemName""> <!-- Yritysnimi --> <!-- Aukeaa aina yhteystiedot-vÃ?lilehdelle --> <a href="""), Len(V))
    Debug.Print codeArea
    theLink = Mid(codeArea, 117, InStr(codeArea, """ class=""resultGray"">" - 1))

End Sub

但是我收到无效的过程调用或参数

but I get an invalid procedure call or argument

我已经研究了一些,但是还没有找到合适的解决方案.有些人建议仅从源代码中提取一个元素,而其他人则建议将整个源代码复制到字符串变量中.作为一个不太精通vba的人,我宁愿将整个代码放入一个字符串中,因为我认为这种方式会更容易理解.

I've researched some but I haven't found a suitable solution yet. Some have suggested pulling just an element from the source code and others copying the whole source code into a string variable. As a person who's not too expert in vba I'd prefer pulling the whole code into a string as I think this way would be easier to understand.

原始网站(芬兰语) http://finder.fi/yrityshaku/nokia+oyj

推荐答案

您需要找到所有 itemName 类别的< div> 元素.遍历那些元素以找到< a> 元素,然后使用第一个元素获得 href 属性.

You need to locate all of the <div> elements with a classname of itemName. Loop through those to find the <a> element(s) and use the first one to get the href property.

Sub Macro1()
    Dim browserIE As Object, ws As Worksheet
    Set browserIE = CreateObject("InternetExplorer.Application")
    browserIE.Top = 0
    browserIE.Left = 800
    browserIE.Width = 800
    browserIE.Height = 1200
    browserIE.Visible = True




    Set ws = ThisWorkbook.Worksheets("Sheet1")

    browserIE.Navigate ("http://www.finder.fi/yrityshaku")
    Do While browserIE.ReadyState <> 4 And browserIE.Busy: DoEvents: Loop

    browserIE.Document.getElementById("companysearchform_query_companySearchTypename").Click
    browserIE.Document.getElementById("SearchInput").Value = "nokia oyj"
    browserIE.Document.getElementById("SearchSubmit").Click
    Do While browserIE.ReadyState <> 4 And browserIE.Busy: DoEvents: Loop
    'Application.Wait (Now + TimeValue("0:00:4"))

    Dim iDIV As Long
    With browserIE.Document.body
        If CBool(.getelementsbyclassname("itemName").Length) Then
            'there is at least one div with the itemName class
            For iDIV = 0 To .getelementsbyclassname("itemName").Length - 1
                With .getelementsbyclassname("itemName")(iDIV)
                    If CBool(.getelementsbytagname("a").Length) Then
                        'there is at least one anchor element inside this div
                        Debug.Print .getelementsbytagname("a")(0).href
                    End If
                End With
            Next iDIV
        End If
    End With

End Sub

我通过VBE的工具►引用向项目添加了 Microsoft HTML对象库 Microsoft Internet控件.

即时窗口中的结果.

http://www.finder.fi/Televiestint%C3%A4laitteita+ja+palveluja/Nokia+Oyj/ESPOO/yhteystiedot/159843
http://www.finder.fi/Tietoliikennepalveluja%2C+tietoliikennelaitteita/Nokia/SALO/yhteystiedot/960395
http://www.finder.fi/Tietoliikennepalveluja%2C+tietoliikennelaitteita/Nokia/TAMPERE/yhteystiedot/853264
http://www.finder.fi/Tietoliikennepalveluja%2C+tietoliikennelaitteita/Nokia/ESPOO/yhteystiedot/2931747
http://www.finder.fi/Tietoliikennepalveluja%2C+tietoliikennelaitteita/Nokia/ESPOO/yhteystiedot/2931748
http://www.finder.fi/Tietoliikennepalveluja%2C+tietoliikennelaitteita/Nokia/TAMPERE/yhteystiedot/835172
http://www.finder.fi/Tietoliikennepalveluja%2C+tietoliikennelaitteita/Nokia+Oyj/TAMPERE/yhteystiedot/159838
http://www.finder.fi/Tietoliikennepalveluja%2C+tietoliikennelaitteita/Nokia+Oyj/SALO/yhteystiedot/159839
http://www.finder.fi/Tietoliikennepalveluja%2C+tietoliikennelaitteita/Nokia+Oyj/TAMPERE/yhteystiedot/159850
http://www.finder.fi/Tietoliikennepalveluja%2C+tietoliikennelaitteita/Nokia+Oyj/TAMPERE/yhteystiedot/159857

这篇关于从网站源代码中提取特定的变化元素的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆