VBA爬蟲輕松搞定網頁數據提取

隨著互聯網的高速發展，獲取網頁上的數據已經成為了一項非常重要的工作。在這個過程中，VBA爬蟲技術可以讓我們輕松獲取到所需的數據。本文將為大家詳細介紹如何使用VBA爬蟲獲取網頁數據。

一、什么是VBA爬蟲？

VBA（Visual Basic for Applications）是微軟公司開發的一種編程語言，它主要用于Office系列軟件的開發。而“爬蟲”則是指通過程序自動抓取互聯網上的信息。因此，VBA爬蟲就是使用VBA語言編寫程序來實現自動抓取互聯網信息的技術。

二、使用VBA爬蟲需要掌握哪些基礎知識？

1. HTML基礎知識：了解HTML標簽及其屬性，能夠正確地分析一個HTML頁面的結構；

2. VBA基礎知識：熟悉VBA語言的基本語法和常用對象，能夠編寫簡單的程序；

3. HTTP協議基礎知識：了解HTTP協議的基本原理和常用請求方法。

三、如何使用VBA爬蟲獲取網頁數據？

1.獲取HTML源碼

使用VBA中提供的HTTP請求對象，向目標網站發送HTTP請求，并獲取到網頁的HTML源碼。以下是示例代碼：

Sub GetHtmlSource()
    Dim http As Object
    Set http=CreateObject("MSXML2.XMLHTTP")
    http.Open "GET",";, False
    http.send
    Debug.Print http.responseText
End Sub

2.解析HTML源碼

使用VBA中提供的HTML解析對象，對獲取到的HTML源碼進行解析。以下是示例代碼：

Sub ParseHtmlSource()
    Dim html As Object
    Set html=CreateObject("htmlfile")
    html.body.innerHTML="<p>這是一個段落</p>"
    Debug.Print html.getElementsByTagName("p")(0).innerText
End Sub

3.提取目標數據

通過分析HTML頁面的結構，使用VBA中提供的DOM操作對象，提取出所需的目標數據。以下是示例代碼：

Sub ExtractTargetData()
    Dim html As Object, targetElement As Object
    Set html=CreateObject("htmlfile")
    html.body.innerHTML="<p>這是一個段落</p>"
    Set targetElement=html.getElementsByTagName("p")(0)
    Debug.Print targetElement.innerText
End Sub

四、VBA爬蟲的優缺點分析

1.優點：

（1）使用簡單，只需要掌握VBA語言和HTTP協議基礎知識即可；

（2）靈活性高，可以根據需求自由定制程序；

（3）速度快，可以快速地抓取大量數據。

2.缺點：

（1）需要對目標網站進行分析，才能正確地獲取所需數據；

（2）容易被目標網站識別為爬蟲，從而導致IP被封禁等問題；

（3）存在法律風險，需要遵守相關法律法規。

五、VBA爬蟲的應用場景

1.數據采集：可以用于獲取各類網站上的數據，如新聞、股票、電商等；

2.網站監測：可以用于監測目標網站上的變化，如價格變動、評論數量變化等；

3.自動化操作：可以用于實現自動化操作，如自動登錄、填寫表單等。

六、VBA爬蟲的注意事項

1.尊重他人隱私和知識產權，不得非法獲取他人信息或侵犯他人知識產權；

2.遵守相關法律法規，不得利用VBA爬蟲從事違法活動；

3.合理使用VBA爬蟲技術，不得對目標網站造成過大的負擔。

七、總結

本文詳細介紹了VBA爬蟲技術的基礎知識、使用方法和注意事項，并給出了具體的代碼示例。通過學習本文，相信讀者已經掌握了VBA爬蟲技術的基本知識，可以輕松地獲取所需的網頁數據。

#34;VBA信息獲取與處理"教程中第八個專題"VBA與HTML文檔"的第七節"HTML DOM的對象事件及關聯"太枯燥了，希望想掌握這方面知識的朋友能參考我的教程學習。我們今天開始第九個專題的學習"利用IE抓取網絡數據"。

我們的網抓部分在講解了XMLHTTP方法后，利用兩個專題的進度進行了一些和VBA關系不是很大的有關網絡知識的講解，這兩個專題對于我們重新認識網抓數據有著非常重要的意義，雖然我的講解還不能面面俱到，但對于我經常倡導的VBA定位來說，是足夠的，再者，學習是個不斷積累前進的過程，要掌握的是一些基本的理論，然后把這些應用到自己的實際中去，這才是關鍵。從這個專題開始我們繼續網抓的學習。這個專題是利用IE抓取網絡數據。其實就是利用控件來完成我們的工作。

第一節利用IE法提取網頁數據基礎

為了獲取網頁的數據，我們可以通過創建IE控件或webbrowser控件，結合htmlfile對象的方法和屬性，模擬瀏覽器操作，獲取瀏覽器頁面的數據。

這種方法可以模擬大部分的瀏覽器操作。瀏覽器能看到的數據就能用代碼獲取，但是有個致命的缺點：除去各種彈窗相當煩人外，兼容性也確實是個很傷腦筋的問題。在我自己的實踐中感覺這種方法不是很穩定（僅僅是感覺）。

1 IE模型的創建

我們在實際工作中遇到網站和網頁相關問題，例如：如何下載網頁數據？網頁之間的通訊是怎么實現的、它們能不能被控制等等。如果你是用VB/VBA/腳本或其它支持自動化對象（AUTOMATION）的語言編程，有一個值得了解的方法是掌握對象模型：將網頁視為對象來控制，這個方法需要了解的是IE的自動化對象(InternetExplorer.Application)或IE控件（Microsoft Internet Controls），以及標準的文檔對象模型（Document）。相關的知識我在前兩個專題中做了大量的講解，這里就不再詳細的說明了。

我給出下面的代碼：

Set ie=CreateObject("InternetExplorer.Application") '創建對象

ie.Visible=True '使IE頁面可見，做完這一步，在VBA之外可以看到一個新的IE

ie.navigate "about:blank" '建立一個空白頁

上面這幾行代碼的作用是創建一個IE應用程序對象，并打開一個空白的網頁。這個網頁獨立于VBA的應用程序（WORD或EXCEL）之外，事實上，你必須自已關掉它，或者用ie.Quit下令退出——注意一下，單純的關閉VBA或SET ie=nothing是不會退出這個網頁的。我們經常用的是將第3行的字符串替換成一個網站的名字，或者替換成一個你主機中的文檔名，也可以是一個圖片名，都是可以的。和你在IE地址欄輸入名稱瀏覽這些文檔是一樣效果。

如果僅僅是創建了一個空的模型是沒有任何利用的價值的，我們需要真正的網頁，這時就需要我們在VBA的應用程序外打開一個完整的網頁了，直到網頁完全加載我們的操作才能向下進行。

2 IE網頁頁面的加載

我們修正一下上面的那段打開空網頁的代碼：

Sub mynz()

Set ie=CreateObject("InternetExplorer.Application") '創建對象

ie.Visible=True '使IE頁面可見，做完這一步，在VBA之外可以看到一個新的IE

ie.navigate " https://baijiahao.baidu.com" '建立一個空白頁

Do Until .ReadyState=4 '檢查網頁是否加載完畢（4表示完全加載）

DoEvents '循環中交回工作權限給系統，以免"軟死機"

Loop

End sub

在上面的代碼中增加了幾行：

Do Until .ReadyState=4 '檢查網頁是否加載完畢（4表示完全加載）

DoEvents '循環中交回工作權限給系統，以免"軟死機"

Loop

這幾行代碼可以保證網頁的加載完成，這是根據ie.ReadyState的返回值來判斷的。

readyState一共有5中狀態：

狀態含義說明

0 未初始化對象已建立，但是尚未初始化（尚未調用open方法）

1 初始化對象已建立，尚未調用send方法

2 發送數據 send()方法已調用，但是當前的狀態及http頭未知

3 數據傳送中已接收部分數據，因為響應及http頭不全，這時通過responseBody和responseText獲取部分數據會出現錯誤

4 數據接收完畢此時可以通過通過responseBody和responseText獲取完整的回應數據

通過以上的分析，我們可以看出，只用當.ReadyState=4時網頁的數據才是有效的數據。

3 IE頁面數據的獲得

當網頁加載完畢，剩下的工作就是從網頁中抓取數據了，數據的抓取主要是利用控件對象的屬性和方法。

1）用Set doc=ie.Document 取得網頁的文檔對象

從文檔對象（Document）以下展開的對象模型，它代表網頁的內容，和前面那個IE的應用程序不是同一個體系.

Documnet（文檔）是文檔對象模型，相當于OFFICE對象中的APPLICATION，取得Document之后，不論修改網頁還是讀寫網頁，還是觸發事件，一切都好說，每個URL都對應有一個Documnet（這是假如定成功導航Navigate到那個URL完成，因此之前要求確定IE對象READSTATE，以確定對應URL的Document打開了）

2) 在Documnet之下可以取得documentElement和body兩個節點。

可以用下面的語句：

set xbody=doc.Body '取得body對象

set xDoc=doc. documentElement '取得根節點

body前面已經說過，相當于標記的對象，根節點相當于網頁中的標記元素的對象，MHTML的類型庫定義里，它們都屬于HTMLHtmlElement類型的對象，下面我把這種類型的對象稱為一個"節點"，不過要注意的是文檔對象不是節點對象，它是HTMLDocument類型。根節點和body節點不同的是根節點包括整個網頁，在HTML的文檔對象模型中，這類對象有幾種屬性可以取得其中的內容：

對象.innerHtml '對象內部的HTML文本

對象.OuterHtml '對象中的HTML文本，包括對象本身的HTML標記在內

對象.innerText '對象內部的TEXT，不包括HTML標記

對象.OuterText '同上，包括對象本身的文本

所以，如果我們要抓取某個網站的所有HTML內容，代碼可以這樣寫：

set doc=ie.Document

set xDoc=doc. documentElement '取得根節點

strX=xDoc.OuterHtml '取得所有的HTML內容

3) 每一個標記節點對象之下都有一個名為ChildNodes的集合，它包含了"直屬于本節點下的標記"，就象是文件目錄，根目錄下的子目錄.

我們可以看到：HTML標記是文檔的根節點，是Document的Childnodes集合中的一個成員（Document不是節點，是另一種類型對象，上一級文檔，但它可以有下級節點集合，正如磁盤可以有下級目錄，但它本身不是目錄），BODY是根節點的ChildNodes集合中的一個成員，而DIV和P兩個節點則是BODY的ChildNodes集合中的兩個成員，同樣也有自已的Childnoes集合。

我們要注意：文檔對象模型中，集合與OFFICE的集合有所不同，集合是從0開始計數的，計數屬性是Length而不是Count。

4）除了ChildNodes集合，大家在網頁文檔對象中還常見到的就是很大氣的一種集合：All集合，這是"最糊涂"的一種集合，文檔和各級節點都帶有這個集合，正如這個名字所示，它是不分層次的，但用起來也很方便：

Set doc=ie.Document

Set xCols=doc.All '取得文檔中的所有節點集合

Set xbCols=doc.body.All '取得body節點下所有的節點集合

雖然任何標記節點都有ALL集合，但我們還是喜歡用DOCUMENT的ALL，原因無它，文檔最大，一鍋燴的ALL找起來也最合適。ALL查找是有條件的：如果這個標記沒有ID，你無法查到它的名字。

不過，ALL集合有一個很方便的特性：ID可以掛到ALL集合之下：

strX=doc.All.mytag.innerhtml

5）獲得文檔對象的getElementsByName集合，可以利用下面的方法：

set mydivs=doc. getElementsByName("div") '取得所有DIV標記，注意還是集合

6) 文檔對象的FORMS集合，因為大部分網頁的數據提交都是通過FORM標記提交的：

Set myForms=doc.Forms '取得所有的FORM標記

Set frmX=myForms.item(0) '第1個FORM

FORM標記節點代表的對象是很多朋友關心的內容——在網頁對象中，它可以發送數據到服務器，使服務器刷新網頁（實際上是服務器按某個格式約定發回數據），我們可以把網頁的FORM看成是一個遠程的函數調用接口，FORM標記中的ACTION指向的URL地址就是函數入口，而FORM標記內的各個INPUT標記節點就是函數的參數，當發出FORM.Submit方法時，就是遠程調用函數了，在服務器端，諸如ASP，PHP就是老老實實找FORM的參數，不管你是用GET還是POST：

frmX.submit '相當于用戶在頁面上按下FORM的發送按鍵

上面我羅列了獲取網頁數據的一般的方法，并沒有什么特別的使用要求，大家可以根據自己的習慣來利用，這個專題之后的內容就是靈活運用這些知識點來解決實際問題了。

本節知識點回向：

如何提交表單？如何下載圖片的地址？如何獲得表的數據？

積木編程的思路內涵：

在我的系列書籍中一直在強調"搭積木"的編程思路，這也是學習利用VBA的主要方法，特別是職場人員，更是要采用這種方案。其主要的內涵：

1 代碼不要自己全部的錄入。你要做的是把積木放在合適的位置然后去修正代碼，一定要拷貝，從你的積木庫中去拷貝，然后修正代碼，把時間利用到高效的思考上。

2 建立自己的"積木庫"。平時在學習過程中，把自己認為有用的代碼放在一起，多積累，在用到的時候，可以隨時拿來。你的積木庫資料越多，你做程序的思路就會越廣。

VBA的應用界定

VBA是利用Office實現個人小型辦公自動化的有效手段（工具）。這是我對VBA的應用界定。在取代OFFICE新的辦公軟件沒有到來之前，誰能在數據處理方面做到極致，誰就是王者。其中登峰至極的技能非VBA莫屬！

我記得20年前自己初學VBA時，那時的資料甚少，只能看源碼自己琢磨,真的很難。20年過去了，為了不讓學習VBA的朋友重復我之前的經歷，我根據自己多年VBA實際利用經驗，推出了六部VBA專門教程：

第一套：VBA代碼解決方案 是VBA中各個知識點的講解，教程共147講，覆蓋絕大多數的VBA知識點，初學必備；

第二套：VBA數據庫解決方案 數據庫是數據處理的專業利器，教程中詳細介紹了利用ADO連接ACCDB和EXCEL的方法和實例操作，適合中級人員的學習。

第三套：VBA數組與字典解決方案 數組和字典是VBA的精華，字典是VBA代碼水平提高的有效手段，值得深入的學習，是初級及中級人員代碼精進的手段。

第四套：VBA代碼解決方案之視頻 是專門面向初學者的視頻講解，可以快速入門，更快的掌握這門技能。這套教程是第一套教程的視頻講解，聽元音更易接受。

第五套：VBA中類的解讀和利用這是一部高級教程，講解類的虛無與肉身的度化，類的利用雖然較少，但仔細的學習可以促進自己VBA理論的提高。這套教程的領會主要是讀者的領悟了，領悟一種佛學的哲理。

第六套教程：《VBA信息獲取與處理》，這是一部高級教程，涉及范圍更廣，實用性更強，面向中高級人員。教程共二十個專題，包括：跨應用程序信息獲得、隨機信息的利用、電子郵件的發送、VBA互聯網數據抓取、VBA延時操作，剪切板應用、Split函數擴展、工作表信息與其他應用交互，FSO對象的利用、工作表及文件夾信息的獲取、圖形信息的獲取以及定制工作表信息函數等等內容。

大家可以根據以上資料1→3→2→6→5或者是4→3→2→6→5的順序逐漸深入的逐漸學習。教程提供講解的同時提供了大量的積木，如需要可以WeChat: NZ9668

學習VBA是個過程，也需要經歷一種枯燥的感覺

如太白詩云：眾鳥高飛盡，孤云獨去閑。相看兩不厭，只有敬亭山。學習的過程也是修心的過程，修一個平靜的心。在代碼的世界中，心平靜了，心情好了，身體自然而然就好。心靜則正，內心里沒有那么多邪知邪見，也就沒有那么多妄想。利人就是利己。這些教程也是為幫助大家起航，助上我自己之力，我的上述教程是我多的經驗的傳遞，

"水善利萬物而不爭"，綿綿密密，微則無聲，巨則洶涌。學習亦如此，知道什么是自己所需要的，不要蜷縮在一小塊自認為天堂的世界里，待到暮年時再去做自欺欺人的言論。要努力提高自己，用一顆充滿生機的心靈，把握現在，這才是進取。越是有意義的事情，困難會越多。愿力決定始終，智慧決定成敗。不管遇到什么，都是風景。看淡紛爭，看輕得失。茶，滿也好，少也好，不要計較；濃也好，淡也好，其中自有值得品的味道。去感悟真實的時間，靜下心，多學習，積累福報。而不是天天混日子，也不是天天熬日子。在后疫情更加嚴峻的存量殘殺世界中，為自己的生存進行知識的儲備，特別是新知識的儲備。學習時微而無聲，利用時則巨則洶涌。

每一分收獲都是成長的記錄，怎無憑，正是這種執著，成就了朝霞的燦爛。最后將一闕詞送給致力于VBA學習的朋友,讓大家感受一下學習過程的枯燥與執著：

浮云掠過，暗語無聲，

唯有清風，驚了夢中啼鶯。

望星，疏移北斗，

奈將往事雁同行。

阡陌人，昏燈明暗，

忍顧長亭。

多少VBA人，

暗夜中，悄聲尋夢，盼卻天明。

怎無憑！

回向學習利用VBA的歷歷往事，不勝感慨，謹以這些文字給大家，分享我多年工作實際經驗的成果，隨喜這些有用的東西，給確實需要利用VBA的同路人。

分享成果，隨喜正能量

家好，有好多小伙伴私信我，說VBA能不能抓取網頁的數據并進行處理，答案是肯定的。現在有這樣一份用VBA做的網頁數據抓取工具，我們一起來看看吧！

Step-01 這個表格打開以后，我們看到的是有4個選項卡，我們依次點擊藍色字體即可跳轉相關頁面，我們看看動畫的操作吧！

Step-02 我們一起看看第一功能吧！全景表自動生成工具，或許有的同學不知道這個的原理和數據處理方式什么樣的，但是你看到結果就會發現其實網頁抓取數據如此簡單。程序執行完成以后的結果如下所示：

動畫的操作如下，請記住，此數據的抓取需要連接網絡哦！我們可以在藍色區域修改代碼，這個是支持修改的。可支持持續生產圖表分析工具，當然這個數據是實時的。

Step-03 數據收集工具，注意是提供資產負債表、利潤表、現金流量表的100多項財務數據，提供年度和季度數據；一起看看動畫的操作吧！如下所示：

Step-04 本福特測試, 本工具可以根據新浪或網易提供的上市公司財務報表數據，自動計算公司各報告期的財務數字的首字分布，并計算和標準本福特分布的相關系數，供參考。動畫如下：這個的代碼和期數，數據來源都可以更改的。

Step-05 自選數據實時進行抓取和更新，我們可以看到如下所示，我們需要手動在A列輸入代碼，C列輸入持有數量，D列輸入單價，然后點擊刷新按鈕即可更新數據。

操作動畫如下所示：

怎么樣，小伙伴們，有沒發現其實vba也可以實現網頁的數據抓取工作的？有需要源代碼的可以私信我“Tool”，謝謝支持！

如果有不明白的或者不懂的可以在下方留言，我們會一一解答的。

在線咨詢

上一篇：前端復習 html(一)
下一篇：5分鐘上手FineBI，教你如何快速分析數據，一學就

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商