VBA網(wǎng)抓數(shù)據(jù)結(jié)果的鏈接

分享成果，隨喜正能量】人的一生，肯定會遭遇各種挫折與挑戰(zhàn)，莫大的壓力會讓你喘不過氣。可是，只有真正懂得適時彎腰的人才能得以克服危機，贏得勝利。這不是懦弱，也不是沒骨氣，而是一種大智慧。強干、蠻干，只會帶來不可必要的損失。

《VBA信息獲取與處理》教程是我推出第六套教程，目前已經(jīng)是第一版修訂了。這套教程定位于最高級，是學(xué)完初級，中級后的教程。這部教程給大家講解的內(nèi)容有：跨應(yīng)用程序信息獲得、隨機信息的利用、電子郵件的發(fā)送、VBA互聯(lián)網(wǎng)數(shù)據(jù)抓取、VBA延時操作，剪貼板應(yīng)用、Split函數(shù)擴(kuò)展、工作表信息與其他應(yīng)用交互，F(xiàn)SO對象的利用、工作表及文件夾信息的獲取、圖形信息的獲取以及定制工作表信息函數(shù)等等內(nèi)容。程序文件通過32位和64位兩種OFFICE系統(tǒng)測試。是非常抽象的，更具研究的價值。

教程共兩冊，八十四講。今日的內(nèi)容是專題六“VBA中利用XMLHTTP完成網(wǎng)抓數(shù)據(jù)”的第3講：VBA網(wǎng)抓數(shù)據(jù)結(jié)果的鏈接

第三節(jié) 利用XMLHTTP抓取百度搜索數(shù)據(jù)結(jié)果，給出打開鏈接

在上一講中我們實現(xiàn)了利用XMLHTTP的方法抓取了搜索關(guān)鍵詞的數(shù)據(jù)，但是我們在網(wǎng)絡(luò)查詢的時候，往往不僅需要總的數(shù)據(jù)支持，還需要一些具體的數(shù)據(jù)，比如：查找到了哪些網(wǎng)址，標(biāo)題是什么？如果我需要進(jìn)一步的查看往往要需要打開的鏈接。這種數(shù)據(jù)如何抓取呢？這講我就來實現(xiàn)這個問題。

實現(xiàn)的場景：如下圖當(dāng)我們點擊右側(cè)的按鈕“利用VBA提取搜索關(guān)鍵詞的數(shù)據(jù)，并給出下載的鏈接”時能夠在下面的數(shù)據(jù)區(qū)域給出查詢到的結(jié)果。

其實，這種處理也是工作中經(jīng)常遇到的，可以對于我們?yōu)g覽的網(wǎng)頁進(jìn)行適當(dāng)?shù)谋４妫谛枰臅r候再詳細(xì)的查詢。特別是把這些數(shù)據(jù)保存在EXCEL表格中，更讓管理條理清晰。那么如何實現(xiàn)這個場景呢？我們?nèi)允抢肵MLHTTP來完成我們的工作。

1 應(yīng)用XMLHTTP實現(xiàn)數(shù)據(jù)查詢并提取網(wǎng)頁鏈接的思路分析

我們先模擬一下直接在網(wǎng)頁上查詢數(shù)據(jù)，當(dāng)我們輸入一個數(shù)據(jù)點擊回車的時候，服務(wù)器會反饋回數(shù)據(jù)在我們的瀏覽器上，我們需要對網(wǎng)頁的源代碼進(jìn)行分析，

上面的截圖就是我錄入“VBA語言專家”點擊回車后的在后臺看到的源代碼，你會發(fā)現(xiàn)，所有我們要寫入EXCEL表格的信息都出現(xiàn)在了這里。

其中“標(biāo)題”可以用innerText屬性來獲得，鏈接可以用href的屬性來獲得，真的非常容易，下面我們就要實現(xiàn)把多頁查詢的結(jié)果填到excel表格中，這個時候我們利用發(fā)送給服務(wù)器時要求頭部檢查一下查詢的時間即可如下代碼：.setRequestHeader "If-Modified-Since", "0"

這樣就可以實現(xiàn)我們的要求了。

2 應(yīng)用XMLHTTP實現(xiàn)數(shù)據(jù)查詢并提取網(wǎng)頁鏈接的代碼實現(xiàn)過程

下面我們把上面的思路轉(zhuǎn)換為代碼，如下所示:

Sub myNZA() '利用VBA提取搜索關(guān)鍵詞的數(shù)據(jù)，并給出下載的鏈接

【具體見教程】

End Sub

代碼截圖：

代碼講解：

1） Set objXMLHTTP = CreateObject("MSXML2.XMLHTTP")

Set objDOM = CreateObject("htmlfile")

上述代碼建立了兩個引用，一個是XMLHTTP ，一個是htmlfile ，之后將利用這兩個引用完成我們的工作。

2）UU = Range("B1").Value 這是我們要查詢的關(guān)鍵數(shù)據(jù)

3）For i = 0 To 50 Step 10 '五頁這是要查詢5次利用i作為查詢的頁碼

4) strURL = "https://www.baidu.com/s?"

strURL = strURL & "wd=" & UU

strURL = strURL & "&pn=" & i

上述代碼是完成了我們要查詢的請求URL。

5） .Open "GET", strURL, False 使用OPEN 方法

6） .setRequestHeader "If-Modified-Since", "0" 請求頭部把瀏覽器端緩存頁面的最后修改時間一起發(fā)到服務(wù)器去，服務(wù)器會把這個時間與服務(wù)器上實際文件的最后修改時間進(jìn)行比較，以保障我們每次請求到的數(shù)據(jù)是沒有重復(fù)的。

7） .send 注意請求頭部的提交要在此命令之前完成

8）objDOM.body.innerHTML = .responseText '將.responseText內(nèi)容寫入新objDOM對象的body

9） For Each objTitle In objDOM.getElementsByTagName("h3") 在每個H3標(biāo)簽即標(biāo)題進(jìn)行遍歷操作。注意<h1> 到 <h6>是標(biāo)簽標(biāo)題。<h1> 定義最大的標(biāo)題。<h6> 定義最小的標(biāo)題。

10）With objTitle.getElementsByTagName("a")(0) 對于每個屬性名稱為為“a”的元素

11）Cells(k, 2) = .innerText

Cells(k, 3) = .href

提取標(biāo)簽之間的純文本信息和鏈接

12）Set objXMLHTTP = Nothing

Set objDOM = Nothing

Set objTitle = Nothing

回收內(nèi)存。

3 應(yīng)用XMLHTTP實現(xiàn)數(shù)據(jù)查詢并提取網(wǎng)頁鏈接的實現(xiàn)效果

我們先來看看當(dāng)我們點擊運行按鈕后的實現(xiàn)效果：

此時我們?nèi)我恻c擊一個單元格的鏈接,就會轉(zhuǎn)跳到下面的頁面：

從而實現(xiàn)了我們最初的課題要求。

本節(jié)知識點回向：如何利用XMLHTTP反饋網(wǎng)頁中的關(guān)鍵詞的搜索結(jié)果和網(wǎng)頁的鏈接？

本講參考程序文件：006工作表.XLSM

我20多年的VBA實踐經(jīng)驗，全部濃縮在下面的各個教程中，教程學(xué)習(xí)順序：

ebSight是由Hugging Face機構(gòu)開發(fā)的一個網(wǎng)頁截圖轉(zhuǎn)換為HTML代碼的合成數(shù)據(jù)集。該數(shù)據(jù)集包含200萬對HTML代碼及其對應(yīng)的截圖，是開源社區(qū)中首次嘗試將網(wǎng)頁截圖轉(zhuǎn)換為可用HTML代碼的重要資源。在構(gòu)建過程中，研究人員首先使用一個小型語言模型來生成多樣化的網(wǎng)站主題和設(shè)計，然后把這些網(wǎng)站主題和設(shè)計輸入到一個代碼大模型中生成最終的HTML代碼，最后采用Playwright工具來可視化并捕獲生成的HTML代碼的輸出。該數(shù)據(jù)集可用于訓(xùn)練視覺語言模型，使其能夠基于網(wǎng)頁截圖生成對應(yīng)的HTML代碼，這對于無代碼開發(fā)和提高UI開發(fā)效率具有重要意義。

詳情請參見五號雷達(dá)：https://www.5radar.com/result?key=WebSight

文共1589字，預(yù)計學(xué)習(xí)時長10分鐘

圖源：unsplash

有人說，數(shù)據(jù)會取代石油的地位，成為未來最珍稀的資源之一。無論這個命題是否成立，毫無疑問，數(shù)據(jù)或信息（任意形式）已然成為21世紀(jì)最寶貴的無形資產(chǎn)之一。

數(shù)據(jù)極其強大，用途頗廣：可以預(yù)測銷售的未來趨勢以獲利，可以在醫(yī)療保健行業(yè)中用于診斷早期結(jié)核病，從而挽救患者的生命……而數(shù)據(jù)科學(xué)家要做的是，如何從各種資源中提取有價值的數(shù)據(jù)。

本文將幫助你掌握這個數(shù)據(jù)時代的必備技能——如何使用python中的庫從網(wǎng)站提取數(shù)據(jù)。筆者將演示從inshorts網(wǎng)站提取與板球、羽毛球和網(wǎng)球等不同運動有關(guān)的新聞報道。

步驟1：導(dǎo)入相關(guān)庫

import requests
             from bs4 importBeautifulSoup
             import pandas as pd

步驟2：發(fā)出Web請求并使用BeautifulSoup進(jìn)行解析

先要查看特定新聞類別的源代碼。進(jìn)入網(wǎng)頁后將看到不同種類的新聞，關(guān)注某一特定的新聞，使用Beautiful Soup提取源代碼。在右側(cè)可以看到新聞文章及相應(yīng)的源代碼。

圖源：unsplash

使用請求庫，并在URL上使用.get（）從網(wǎng)頁訪問HTML腳本。然后，使用beautiful soup庫在python中解析此HTML語言。根據(jù)要提取的信息類型，可以使用.find（）函數(shù)從不同的html標(biāo)簽（例如<div>，<span>）中過濾該信息。

dummy_url="https://inshorts.com/en/read/badminton"                                                                  data_dummy=requests.get(dummy_url)
                                                                    soup=BeautifulSoup(data_dummy.content,'html.parser')
                                                                    soup

完成上述步驟并解析HTML語言后，此特定新聞的部分解析如下所示：

我們看到該文章的標(biāo)題位于-<div class =“ news-card-title news-right-box”>類別下，進(jìn)一步可以看到標(biāo)題位于<span>標(biāo)記中，并且屬性為“ itemprop”和“ headline”，可以使用.find（）函數(shù)進(jìn)行訪問。

news1=soup.find_all('div',class_=["news-card-title news-right-box"])[0]
title=news1.find('span',attrs={'itemprop':"headline"}).string
print(title)
We get the following outputgiven below-
Shuttler Jayaram wins Dutch OpenGrand Prix

同樣，如果要訪問新聞內(nèi)容，則將該新聞設(shè)置為<div class =“ news-card-contentnews-right-box”>類別。我們還可以看到新聞的正文位于<div>標(biāo)記中，該標(biāo)記的屬性為“ itemprop”和“ articleBody”，可以使用.find（）函數(shù)進(jìn)行訪問。

news1=soup.find_all('div',class_=["news-card-content news-right-box"])[0]
content=news1.find('div',attrs={'itemprop':"articleBody"}).string
print(content)
Indian Shuttler Ajay Jayaramclinched $50k Dutch Open Grand Prix at Almere in Netherlands on Sunday,becoming the first Indian to win badminton Grand Prix tournament under a newscoring system. Jayaram defeated Indonesia's Ihsan Maulana Mustofa 10-11, 11-6,11-7, 1-11, 11-9 in an exciting final clash. The 27-year-old returned to thecircuit in August after a seven-month injury layoff.

以類似的方式，我們可以提取圖像、作者姓名、時間等任何信息。

步驟3：建立資料集

接下來，我們對3種新聞類別實施此操作，然后將所有文章相應(yīng)的內(nèi)容和類別存儲在數(shù)據(jù)框中。筆者將使用三個不同的Urls，對每個URL實施相同的步驟，并將所有文章及其內(nèi)容設(shè)置類別存儲為列表形式。

urls=["https://inshorts.com/en/read/cricket","https://inshorts.com/en/read/tennis",
     "https://inshorts.com/en/read/badminton"]
                                                                      news_data_content,news_data_title,news_data_category=[],[],[]
                                                                      for url in urls:
                                                                        category=url.split('/')[-1]
                                                                      data=requests.get(url)
 soup=BeautifulSoup(data.content,'html.parser')
                                                                        news_title=[]
                                                                        news_content=[]
                                                                        news_category=[]
                                                                        for headline,article inzip(soup.find_all('div', class_=["news-card-titlenews-right-box"]),
                                                                                                  soup.find_all('div',class_=["news-card-contentnews-right-box"])):
                                                                          news_title.append(headline.find('span',attrs={'itemprop':"headline"}).string)
                  news_content.append(article.find('div',attrs={'itemprop':"articleBody"}).string)
                                                                          news_category.append(category)
                                                                        news_data_title.extend(news_title)
                                                                        news_data_content.extend(news_content)
 news_data_category.extend(news_category) 
              df1=pd.DataFrame(news_data_title,columns=["Title"])
                                                                      df2=pd.DataFrame(news_data_content,columns=["Content"])
                                                                      df3=pd.DataFrame(news_data_category,columns=["Category"])
                                                                      df=pd.concat([df1,df2,df3],axis=1)
                                                                      df.sample(10)

輸出為：

你可以看到，使用beautiful soup 庫在python中抓取網(wǎng)頁信息是多么容易，你可以輕松地為任何數(shù)據(jù)科學(xué)項目收集有用數(shù)據(jù)。從此之后自備“慧眼”，在網(wǎng)頁中飛速提取有價值的信息。

留言點贊關(guān)注

我們一起分享AI學(xué)習(xí)與發(fā)展的干貨

如轉(zhuǎn)載，請后臺留言，遵守轉(zhuǎn)載規(guī)范

在線咨詢

上一篇：HTML常用標(biāo)簽、特殊字符、路徑
下一篇：JavaScript 返回頂部實例

您的項目需求

*請認(rèn)真填寫需求信息，我們會在24小時內(nèi)與您取得聯(lián)系。