位小伙伴,今天我們廣州藍景實訓(xùn)部,和大家普及一下前端技術(shù)-瀏覽器渲染流程,希望能幫助大家更深入地了解這方面的知識。
前言
瀏覽器的內(nèi)核是指支持瀏覽器運行的最核心的程序,分為兩個部分的,一是渲染引擎,另一個是JS引擎。渲染引擎在不同的瀏覽器中也不是都相同的。目前市面上常見的瀏覽器內(nèi)核可以分為這四種:Trident(IE)、Gecko(火狐)、Blink(Chrome、Opera)、Webkit(Safari)。這里面大家最耳熟能詳?shù)目赡芫褪?Webkit 內(nèi)核了,Webkit 內(nèi)核是當(dāng)下瀏覽器世界真正的霸主。
本文我們就以 Webkit 為例,對現(xiàn)代瀏覽器的渲染過程進行一個深度的剖析。
頁面加載過程
在介紹瀏覽器渲染過程之前,我們簡明扼要介紹下頁面的加載過程,有助于更好理解后續(xù)渲染過程。
要點如下:
例如在瀏覽器輸入https://www.baidu.com,然后經(jīng)過 DNS 解析,www.baidu.com對應(yīng)的 IP 14.215.177.38(不同時間、地點對應(yīng)的 IP 可能會不同)。然后瀏覽器向該 IP 發(fā)送 HTTP 請求。
服務(wù)端接收到 HTTP 請求,然后經(jīng)過計算(向不同的用戶推送不同的內(nèi)容),返回 HTTP 請求,返回的內(nèi)容如下:
其實就是一堆 HMTL 格式的字符串,因為只有 HTML 格式瀏覽器才能正確解析,這是 W3C 標(biāo)準(zhǔn)的要求。接下來就是瀏覽器的渲染過程。
瀏覽器渲染過程
從上面這個圖上,我們可以看到,瀏覽器渲染過程如下:
解析HTML,生成DOM樹,解析CSS,生成CSSOM樹
將DOM樹和CSSOM樹結(jié)合,生成渲染樹(Render Tree)
Layout(回流):根據(jù)生成的渲染樹,進行回流(Layout),得到節(jié)點的幾何信息(位置,大小)
Painting(重繪):根據(jù)渲染樹以及回流得到的幾何信息,得到節(jié)點的絕對像素
Display: 將像素發(fā)送給GPU,最后通過調(diào)用操作系統(tǒng)Native GUI的API繪制,展示在頁面上。(這一步其實還有很多內(nèi)容,比如會在GPU將多個合成層合并為同一個層,并展示在頁面中。而css3硬件加速的原理則是新建合成層,這里我們不展開,之后有機會再寫一篇博客來介紹)
渲染過程看起來也不復(fù)雜,讓我們來具體了解下每一步具體做了什么。
構(gòu)建DOM詳細流程
瀏覽器會遵守一套步驟將HTML文件轉(zhuǎn)換為DOM樹。宏觀上,可以分為幾個步驟:
瀏覽器從磁盤或網(wǎng)絡(luò)讀取HTML的原始字節(jié)(字節(jié)數(shù)據(jù)),并根據(jù)文件的指定編碼(例如 UTF-8)將它們轉(zhuǎn)換成字符串。
在網(wǎng)絡(luò)中傳輸?shù)膬?nèi)容其實都是 0 和 1 這些字節(jié)數(shù)據(jù)。當(dāng)瀏覽器接收到這些字節(jié)數(shù)據(jù)以后,它會將這些字節(jié)數(shù)據(jù)轉(zhuǎn)換為字符串,也就是我們寫的代碼。
將字符串轉(zhuǎn)換成Token,例如:、等。Token中會標(biāo)識出當(dāng)前Token是“開始標(biāo)簽”或是“結(jié)束標(biāo)簽”或著是“文本”等信息。
這時候你一定會有疑問,節(jié)點與節(jié)點之間的關(guān)系如何維護?
事實上,這就是Token要標(biāo)識“起始標(biāo)簽”和“結(jié)束標(biāo)簽”等標(biāo)識的作用。
例如“title”Token的起始標(biāo)簽和結(jié)束標(biāo)簽之間的節(jié)點肯定是屬于“head”的子節(jié)點。
上圖給出了節(jié)點之間的關(guān)系,例如:“Hello”Token位于“title”開始標(biāo)簽與“title”結(jié)束標(biāo)簽之間,表明“Hello”Token是“title”Token的子節(jié)點。同理“title”Token是“head”Token的子節(jié)點。
生成節(jié)點對象并構(gòu)建DOM
事實上,構(gòu)建DOM的過程中,不是等所有Token都轉(zhuǎn)換完成后再去生成節(jié)點對象,而是一邊生成Token一邊消耗Token來生成節(jié)點對象。換句話說,每個Token被生成后,會立刻消耗這個Token創(chuàng)建出節(jié)點對象。注意:帶有結(jié)束標(biāo)簽標(biāo)識的Token不會創(chuàng)建節(jié)點對象。
接下來我們舉個例子,假設(shè)有段HTML文本:
<html>
<head>
<title>Web page parsing</title>
</head>
<body>
<div>
<h1>Web page parsing</h1>
<p>This is an example Web page.</p>
</div>
</body>
</html>
上面這段HTML會解析成這樣:
構(gòu)建CSSOM詳細流程
DOM會捕獲頁面的內(nèi)容,但瀏覽器還需要知道頁面如何展示,所以需要構(gòu)建CSSOM。
構(gòu)建CSSOM的過程與構(gòu)建DOM的過程非常相似,當(dāng)瀏覽器接收到一段CSS,瀏覽器首先要做的是識別出Token,然后構(gòu)建節(jié)點并生成CSSOM。
在這一過程中,瀏覽器會確定下每一個節(jié)點的樣式到底是什么,并且這一過程其實是很消耗資源的。因為樣式你可以自行設(shè)置給某個節(jié)點,也可以通過繼承獲得。在這一過程中,瀏覽器得遞歸 CSSOM 樹,然后確定具體的元素到底是什么樣式。
注意:CSS匹配HTML元素是一個相當(dāng)復(fù)雜和有性能問題的事情。所以,DOM樹要小,CSS盡量用id和class,千萬不要過渡層疊下去。
構(gòu)建渲染樹
當(dāng)我們生成 DOM 樹和 CSSOM 樹以后,就需要將這兩棵樹組合為渲染樹。
在這一過程中,不是簡單地將兩者合并就行了。渲染樹只會包括需要顯示的節(jié)點和這些節(jié)點的樣式信息,如果某個節(jié)點是 display: none 的,那么就不會在渲染樹中顯示。
注意:渲染樹只包含可見的節(jié)點
我們或許有個疑惑:瀏覽器如果渲染過程中遇到JS文件怎么處理?
渲染過程中,如果遇到<script>就停止渲染,執(zhí)行 JS 代碼。因為瀏覽器有GUI渲染線程與JS引擎線程,為了防止渲染出現(xiàn)不可預(yù)期的結(jié)果,這兩個線程是互斥的關(guān)系。JavaScript的加載、解析與執(zhí)行會阻塞DOM的構(gòu)建,也就是說,在構(gòu)建DOM時,HTML解析器若遇到了JavaScript,那么它會暫停構(gòu)建DOM,將控制權(quán)移交給JavaScript引擎,等JavaScript引擎運行完畢,瀏覽器再從中斷的地方恢復(fù)DOM構(gòu)建。
也就是說,如果你想首屏渲染得越快,就越不應(yīng)該在首屏就加載 JS 文件,這也是建議將 script 標(biāo)簽放在 body 標(biāo)簽底部的原因。當(dāng)然在當(dāng)下,并不是說 script 標(biāo)簽必須放在底部,因為你可以給 script 標(biāo)簽添加 defer(延遲) 或者 async(異步) 屬性(下文會介紹這兩者的區(qū)別)。
JS文件不只是阻塞DOM的構(gòu)建,它會導(dǎo)致CSSOM也阻塞DOM的構(gòu)建。
原本DOM和CSSOM的構(gòu)建是互不影響,井水不犯河水,但是一旦引入了JavaScript,CSSOM也開始阻塞DOM的構(gòu)建,只有CSSOM構(gòu)建完畢后,DOM再恢復(fù)DOM構(gòu)建。
這是什么情況呢?
這是因為JavaScript不只是可以改DOM,它還可以更改樣式,也就是它可以更改CSSOM。因為不完整的CSSOM是無法使用的,如果JavaScript想訪問CSSOM并更改它,那么在執(zhí)行JavaScript時,必須要能拿到完整的CSSOM。
所以就導(dǎo)致了一個現(xiàn)象,如果瀏覽器尚未完成CSSOM的下載和構(gòu)建,而我們卻想在此時運行腳本,那么瀏覽器將延遲腳本執(zhí)行和DOM構(gòu)建,直至其完成CSSOM的下載和構(gòu)建。也就是說,在這種情況下,瀏覽器會先下載和構(gòu)建CSSOM,然后再執(zhí)行JavaScript,最后在繼續(xù)構(gòu)建DOM。
布局與繪制
當(dāng)瀏覽器生成渲染樹以后,就會根據(jù)渲染樹來進行布局(也可以叫做回流)。這一階段瀏覽器要做的事情是要弄清楚各個節(jié)點在頁面中的確切位置和大小。通常這一行為也被稱為“自動重排”。
布局流程的輸出是一個“盒模型”,它會精確地捕獲每個元素在視口內(nèi)的確切位置和尺寸,所有相對測量值都將轉(zhuǎn)換為屏幕上的絕對像素。
布局完成后,瀏覽器會立即發(fā)出“Paint Setup”和“Paint”事件,將渲染樹轉(zhuǎn)換成屏幕上的像素。
回流
前面我們通過構(gòu)造渲染樹,我們將可見DOM節(jié)點以及它對應(yīng)的樣式結(jié)合起來,可是我們還需要計算它們在設(shè)備視口(viewport)內(nèi)的確切位置和大小,這個計算的階段就是回流。
為了弄清每個對象在網(wǎng)站上的確切大小和位置,瀏覽器從渲染樹的根節(jié)點開始遍歷,我們可以以下面這個實例來表示:
<!DOCTYPE html>
<html>
<head>
<meta name="viewport" content="width=device-width,initial-scale=1">
<title>Critial Path: Hello world!</title>
</head>
<body>
<div style="width: 50%">
<div style="width: 50%">Hello world!</div>
</div>
</body>
</html>
我們可以看到,第一個div將節(jié)點的顯示尺寸設(shè)置為視口寬度的50%,第二個div將其尺寸設(shè)置為父節(jié)點的50%。而在回流這個階段,我們就需要根據(jù)視口具體的寬度,將其轉(zhuǎn)為實際的像素值。(如下圖)
重繪
最終,我們通過構(gòu)造渲染樹和回流階段,我們知道了哪些節(jié)點是可見的,以及可見節(jié)點的樣式和具體的幾何信息(位置、大小),那么我們就可以將渲染樹的每個節(jié)點都轉(zhuǎn)換為屏幕上的實際像素,這個階段就叫做重繪節(jié)點。
既然知道了瀏覽器的渲染過程后,我們就來探討下,何時會發(fā)生回流重繪。
何時發(fā)生回流重繪
我們前面知道了,回流這一階段主要是計算節(jié)點的位置和幾何信息,那么當(dāng)頁面布局和幾何信息發(fā)生變化的時候,就需要回流。
比如以下情況發(fā)生回流:
根據(jù)改變的范圍和程度,渲染樹中或大或小的部分需要重新計算,有些改變會觸發(fā)整個頁面的重排,比如,滾動條出現(xiàn)的時候或者修改了根節(jié)點。
一些常用且會導(dǎo)致回流的屬性和方法:
clientWidth、clientHeight、clientTop、clientLeft
offsetWidth、offsetHeight、offsetTop、offsetLeft
scrollWidth、scrollHeight、scrollTop、scrollLeft
scrollIntoView()、scrollIntoViewIfNeeded()
getComputedStyle()
getBoundingClientRect()
scrollTo()
以下情況發(fā)生重繪而不回流
當(dāng)頁面中元素樣式的改變并不影響它在文檔流中的位置時(例如:color、background-color、visibility等),瀏覽器會將新樣式賦予給元素并重新繪制它,這個過程重繪而不回流。
注意:回流一定會觸發(fā)重繪,而重繪不一定會回流
性能影響
回流比重繪的代價要更高。
有時即使僅僅回流一個單一的元素,它的父元素以及任何跟隨它的元素也會產(chǎn)生回流。
瀏覽器優(yōu)化機制
現(xiàn)代瀏覽器會對頻繁的回流或重繪操作進行優(yōu)化:
瀏覽器會維護一個隊列,把所有引起回流和重繪的操作放入隊列中,如果隊列中的任務(wù)數(shù)量或者時間間隔達到一個閾值的,瀏覽器就會將隊列清空,進行一次批處理,這樣可以把多次回流和重繪變成一次。
當(dāng)你訪問以下屬性或方法時,瀏覽器會立刻清空隊列:
clientWidth、clientHeight、clientTop、clientLeft
offsetWidth、offsetHeight、offsetTop、offsetLeft
scrollWidth、scrollHeight、scrollTop、scrollLeft
width、height
getComputedStyle()
getBoundingClientRect()
因為隊列中可能會有影響到這些屬性或方法返回值的操作,即使你希望獲取的信息與隊列中操作引發(fā)的改變無關(guān),瀏覽器也會強行清空隊列,確保你拿到的值是最精確的。
以上屬性和方法都需要返回最新的布局信息,因此瀏覽器不得不清空隊列,觸發(fā)回流重繪來返回正確的值。因此,我們在修改樣式的時候,最好避免使用上面列出的屬性,他們都會刷新渲染隊列。如果要使用它們,最好將值緩存起來。
減少回流和重繪
最小化回流和重繪
由于回流和重繪可能代價比較昂貴,因此最好就是可以減少它的發(fā)生次數(shù)。為了減少發(fā)生次數(shù),我們可以合并多次對DOM和樣式的修改,然后一次處理掉。考慮這個例子
const el = document.getElementById('test');
el.style.padding = '5px';
el.style.borderLeft = '1px';
el.style.borderRight = '2px';
例子中,有三個樣式屬性被修改了,每一個都會影響元素的幾何結(jié)構(gòu),引起回流。當(dāng)然,大部分現(xiàn)代瀏覽器都對其做了優(yōu)化,因此,只會觸發(fā)一次重排。但是如果在舊版的瀏覽器或者在上面代碼執(zhí)行的時候,有其他代碼訪問了布局信息(上文中的會觸發(fā)回流的布局信息),那么就會導(dǎo)致三次重排。
因此,我們可以合并所有的改變?nèi)缓笠来翁幚恚热缥覀兛梢圆扇∫韵碌姆绞剑?/p>
const el = document.getElementById('test');
el.style.cssText += 'border-left: 1px; border-right: 2px; padding: 5px;';
const el = document.getElementById('test');
el.className += ' active';
批量修改DOM
當(dāng)我們需要對DOM對一系列修改的時候,可以通過以下步驟減少回流重繪次數(shù):
該過程的第一步和第三步可能會引起回流,但是經(jīng)過第一步之后,對DOM的所有修改都不會引起回流,因為它已經(jīng)不在渲染樹了。
有三種方式可以讓DOM脫離文檔流:
下面來個例子演示下
我們要執(zhí)行一段批量插入節(jié)點的代碼:
function appendDataToElement(appendToElement, data) {
let li;
for (let i = 0; i < data.length; i++) {
li = document.createElement('li');
li.textContent = 'text';
appendToElement.appendChild(li);
}
}
const ul = document.getElementById('list');
appendDataToElement(ul, data);
如果我們直接這樣執(zhí)行的話,由于每次循環(huán)都會插入一個新的節(jié)點,會導(dǎo)致瀏覽器回流一次。
我們可以使用這三種方式進行優(yōu)化:
隱藏元素,應(yīng)用修改,重新顯示
第一種方法:隱藏元素,這個會在展示和隱藏節(jié)點的時候,產(chǎn)生兩次重繪
function appendDataToElement(appendToElement, data) {
let li;
for (let i = 0; i < data.length; i++) {
li = document.createElement('li');
li.textContent = 'text';
appendToElement.appendChild(li);
}
}
const ul = document.getElementById('list');
ul.style.display = 'none';
appendDataToElement(ul, data);
ul.style.display = 'block';
第二種:使用文檔片段(document fragment)在當(dāng)前DOM之外構(gòu)建一個子樹,再把它拷貝回文檔
const ul = document.getElementById('list');
const fragment = document.createDocumentFragment();
appendDataToElement(fragment, data);
ul.appendChild(fragment);
第三種:將原始元素拷貝到一個脫離文檔的節(jié)點中,修改節(jié)點后,再替換原始的元素。
const ul = document.getElementById('list');
const clone = ul.cloneNode(true);
appendDataToElement(clone, data);
ul.parentNode.replaceChild(clone, ul);
避免觸發(fā)同步布局事件
上文我們說過,當(dāng)我們訪問元素的一些屬性的時候,會導(dǎo)致瀏覽器強制清空隊列,進行強制同步布局。舉個例子,比如說我們想將一個p標(biāo)簽數(shù)組的寬度賦值為一個元素的寬度,我們可能寫出這樣的代碼:
function initP() {
for (let i = 0; i < paragraphs.length; i++) {
paragraphs[i].style.width = box.offsetWidth + 'px';
}
}
這段代碼看上去是沒有什么問題,可是其實會造成很大的性能問題。在每次循環(huán)的時候,都讀取了box的一個offsetWidth屬性值,然后利用它來更新p標(biāo)簽的width屬性。這就導(dǎo)致了每一次循環(huán)的時候,瀏覽器都必須先使上一次循環(huán)中的樣式更新操作生效,才能響應(yīng)本次循環(huán)的樣式讀取操作。每一次循環(huán)都會強制瀏覽器刷新隊列。我們可以優(yōu)化為:
const width = box.offsetWidth;
function initP() {
for (let i = 0; i < paragraphs.length; i++) {
paragraphs[i].style.width = width + 'px';
}
}
對于復(fù)雜動畫效果,使用絕對定位讓其脫離文檔流
對于復(fù)雜動畫效果,由于會經(jīng)常的引起回流重繪,因此,我們可以使用絕對定位,讓它脫離文檔流。否則會引起父元素以及后續(xù)元素頻繁的回流。這個我們就直接上個例子。
打開這個例子后,我們可以打開控制臺,控制臺上會輸出當(dāng)前的幀數(shù)(雖然不準(zhǔn))。
從例子中,我們可以看到,幀數(shù)一直都沒到60。這個時候,只要我們點擊一下那個按鈕,把這個元素設(shè)置為絕對定位,幀數(shù)就可以穩(wěn)定60。
css3硬件加速(GPU加速)
比起考慮如何減少回流重繪,我們更期望的是,根本不要回流重繪。這個時候,css3硬件加速就閃亮登場啦!!
劃重點:使用css3硬件加速,可以讓transform、opacity、filters這些動畫不會引起回流重繪 。但是對于動畫的其它屬性,比如background-color這些,還是會引起回流重繪的,不過它還是可以提升這些動畫的性能。
如何使用css3硬件加速(GPU加速)
常見的觸發(fā)硬件加速的css3屬性:
css3硬件加速的坑
幾點補充說明
1.async和defer的作用是什么?有什么區(qū)別?
接下來我們對比下 defer 和 async 屬性的區(qū)別:
其中藍色線代表JavaScript加載;紅色線代表JavaScript執(zhí)行;綠色線代表 HTML 解析。
1)情況1<script src="script.js"></script>
沒有 defer 或 async,瀏覽器會立即加載并執(zhí)行指定的腳本,也就是說不等待后續(xù)載入的文檔元素,讀到就加載并執(zhí)行。
2)情況2 <script defer src="script.js"></script>(延遲執(zhí)行)
defer 屬性表示延遲執(zhí)行引入的 JavaScript,即這段 JavaScript 加載時 HTML 并未停止解析,這兩個過程是并行的。整個 document 解析完畢且 defer-script 也加載完成之后(這兩件事情的順序無關(guān)),會執(zhí)行所有由 defer-script 加載的 JavaScript 代碼,然后觸發(fā) DOMContentLoaded 事件。
3)情況3<script async src="script.js"></script> (異步下載)
async 屬性表示異步執(zhí)行引入的 JavaScript,與 defer 的區(qū)別在于,如果已經(jīng)加載好,就會開始執(zhí)行——無論此刻是 HTML 解析階段還是 DOMContentLoaded 觸發(fā)之后。需要注意的是,這種方式加載的 JavaScript 依然會阻塞 load 事件。換句話說,async-script 可能在 DOMContentLoaded 觸發(fā)之前或之后執(zhí)行,但一定在 load 觸發(fā)之前執(zhí)行。
defer 與相比普通 script,有兩點區(qū)別:載入 JavaScript 文件時不阻塞 HTML 的解析,執(zhí)行階段被放到 HTML 標(biāo)簽解析完成之后。 在加載多個JS腳本的時候,async是無順序的加載,而defer是有順序的加載。
2.為什么操作DOM慢
把 DOM 和 JavaScript 各自想象成一個島嶼,它們之間用收費橋梁連接。——《高性能 JavaScript》
JS是很快的,在JS中修改DOM對象也是很快的。在JS的世界里,一切是簡單的、迅速的。但DOM操作并非JS一個人的獨舞,而是兩個模塊之間的協(xié)作。
因為DOM是屬于渲染引擎中的東西,而 JS 又是JS引擎中的東西。當(dāng)我們用JS去操作DOM時,本質(zhì)上是JS引擎和渲染引擎之間進行了“跨界交流”。這個“跨界交流”的實現(xiàn)并不簡單,它依賴了橋接接口作為“橋梁”(如下圖)。
過“橋”要收費——這個開銷本身就是不可忽略的。我們每操作一次DOM(不管是為了修改還是僅僅為了訪問其值),都要過一次“橋”。過“橋”的次數(shù)一多,就會產(chǎn)生比較明顯的性能問題。因此“減少 DOM 操作”的建議,并非空穴來風(fēng)。
性能優(yōu)化策略
基于上面介紹的瀏覽器渲染原理,DOM 和 CSSOM 結(jié)構(gòu)構(gòu)建順序,初始化可以對頁面渲染做些優(yōu)化,提升頁面性能。
總結(jié)
綜上所述,我們得出這樣的結(jié)論:
做 Web 自動化時,最根本的就是操作頁面上的元素,首先要能找到這些元素,然后才能操作這些元素。工具或代碼無法像測試人員一樣用肉眼來分辨頁面上的元素。那么要如何定位到這些元素,本章會介紹各種定位元素的方法。
Selenium 自帶 id 定位,可以通過元素的 id 屬性進行定位,比如下面的代碼:
driver.find_element_by_id('kw')
driver.findElement(By.id("kw"));
Selenium 自帶 name 定位,可以通過元素的 name 屬性進行定位,比如下面的代碼:
driver.find_element_by_name('wd')
driver.findElement(By.name("wd"));
注意:通常來說 name 屬性與 id 屬性在頁面中唯一,推薦使用這兩個屬性進行定位。
XPath 是一個定位語言,英文全稱為:XML Path Language,用來對 XML 上的元素進行定位,但也適用于 HTML。下面來看一個例子:
要定位的元素是百度首頁的搜索輸入框
首先尋找 id 為 form 的 form 元素,然后再尋找它的子元素 span,span 的 class 屬性為 bg s_ipt_wr quickdelete-wrap,最后找 span 的子元素 input:
driver.find_element_by_xpath\
("//form[@id='form']/span[@class='bg s_ipt_wr quickdelete-wrap']/input")
driver.findElement(By.xpath("//form[@id='form']/span[@class='bg s_ipt_wr quickdelete-wrap']/input"));
下面的定位也可以找到這個 input,請注意,這里使用了雙斜杠//,它可以找到子孫節(jié)點,而但斜杠/只能找到子節(jié)點:
driver.find_element_by_xpath("//form[@id='form']//input[@id='kw']")
driver.findElement(By.xpath("//form[@id='form']//input[@id='kw']"));
XPath 表達式更多內(nèi)容可參考下面表格:
如何檢驗 XPath 定位是否正確?可以使用 chrome 的檢查模式 → Console,輸入$x(‘XPath 表達式’)即可,例如:
XPath 可以定位絕大多數(shù)元素,但是XPath采用從上到下的遍歷模式,速度并不快,而 css_selector 采用樣式定位,速度要優(yōu)于 XPath,而且語法更簡潔:
下面是 Selenium 使用 css_selector 的例子:
css_selector 找到 class 屬性為 active 的元素,然后 > 表示找 class 屬性為 active 的元素的子節(jié)點
driver.find_element_by_css_selector('.logo-big')
driver.findElement(By.cssSelector(".logo-big"));
下表列出了常用的 css_selector 表達式的用法:
使用 Chrome 的檢查模式 → Console 也可以在當(dāng)前頁面檢測 css_selector 是否正確,輸入$(‘css selector 表達式’)即可:
元素中會出現(xiàn)文字,比如下面的分類,可以利用這段文字進行定位:
driver.find_element_by_link_text('歡迎光臨霍格沃茲測試學(xué)院')
driver.findElement(By.linkText("歡迎光臨霍格沃茲測試學(xué)院"));
也可以采用部分匹配方式,不必寫全:“歡迎光臨”、“歡迎光臨霍格沃茲測試學(xué)院”、“霍格沃茲”
driver.find_element_by_partial_link_text('霍格沃茲測試學(xué)院')
driver.findElement(By.partialLinkText("霍格沃茲測試學(xué)院"));
注意:partial_link_text 與 link_text 的區(qū)別:
partial_link_text 不用寫全,只需寫部分即可,比如上面使用“霍格沃茲”即可匹配到“歡迎光臨霍格沃茲測試學(xué)院”。
DOM 結(jié)構(gòu)中,元素都有自己的 tag,比如 input tag, button tag, anchor tag 等等,每一個 tag 擁有多個屬性,比如 id, name, value class,等等。下面的高亮部分就是 tag:
可以使用 tag 進行定位:
driver.find_element_by_tag_name('input')
driver.findElement(By.tagName("input"));
注意:盡量避免使用 tag_name 定位元素,因為有大量重復(fù)的元素!
可以通過元素的 class 屬性值進行定位:
這里的 active 用的就是上圖 class 的值
driver.find_element_by_class_name('active')
driver.findElement(By.className("active"));
Selenium 常見操作有:
輸入、點擊、清除在 Selenium 中對應(yīng)的方法分別是 send_keys、click、clear
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('http"//www.baidu.com')
driver.find_element_by_name('wd').send_keys('霍格沃茲測試學(xué)院')
driver.find_element_by_id('su').click()
driver.find_element_by_name('wd').clear()
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
public class AiceTest {
public static void main(String[] args) {
WebDriver driver = new ChromeDriver();
driver.get("http://www.baidu.com");
driver.findElement(By.id("kw")).sendKeys("霍格沃茲測試學(xué)院");
driver.findElement(By.id("su")).click();
driver.findElement(By.name("wd")).clear();
try {
Thread.sleep(2000);
} catch (InterruptedException e) {
e.printStackTrace();
}
String title = driver.getTitle();
System.out.println(title);
driver.close();
}
}
關(guān)閉當(dāng)前句柄窗口(不關(guān)閉進程)close(),關(guān)閉整個瀏覽器進程 quit()
#導(dǎo)入對應(yīng)的依賴
from selenium import webdriver
#初始化webdriver
driver = webdriver.Chrome()
#訪問網(wǎng)站
driver.get('http"//www.baidu.com')
#關(guān)閉當(dāng)前窗口
driver.close()
#關(guān)閉瀏覽器
driver.quit()
//導(dǎo)入對應(yīng)的依賴
import org.openqa.selenium.WebDriver;
//初始化webdriver
WebDriver driver = new ChromeDriver();
//訪問網(wǎng)站
driver.get("http://www.baidu.com");
//關(guān)閉當(dāng)前窗口
driver.close();
//關(guān)閉瀏覽器
driver.quit();
獲取元素標(biāo)簽上的屬性 get_attribute(‘value’),元素的坐標(biāo) location,元素的大小 size
import logging
from selenium import webdriver
def test_baidu():
driver = webdriver.Chrome()
driver.get('https://www.baidu.com')
search = driver.find_element_by_id('su')
logging.basicConfig(level=logging.INFO)
logging.info(search.get_attribute('value'))
#獲取search的value屬性值并打印
logging.info(search.get_attribute('value'))
#打印search的位置坐標(biāo)
logging.info(search.location)
#打印search的元素大小
logging.info(search.size)
輸出結(jié)果為:
INFO:root:百度一下
INFO:root:百度一下
INFO:root:{'x': 844, 'y': 188}
INFO:root:{'height': 44, 'width': 108}
@Test
void baiduTest(){
webDriver = new ChromeDriver();
webDriver.get("https://www.baidu.com/");
WebElement search = webDriver.findElement(By.id("su"));
//獲取search的value屬性值并打印
System.out.println(search.getAttribute("value"));
//打印search的位置坐標(biāo)
System.out.println(search.getLocation());
//打印search的元素大小
System.out.println(search.getSize());
}
輸出結(jié)果為:
百度一下
(902, 188)
(108, 44)
網(wǎng)頁源代碼 page_source,刷新頁面 refresh()
import logging
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('http"//www.baidu.com')
#刷新頁面
driver.refresh()
logging.basicConfig(level=logging.INFO)
#打印當(dāng)前頁面的源代碼
logging.info(driver.page_source)
WebDriver webDriver = new ChromeDriver();
webDriver.get("https://www.baidu.com/");
//刷新頁面
webDriver.navigate().refresh();
System.out.println(webDriver.getPageSource());
設(shè)置窗口大小主要有最小化、最大化和自定義設(shè)置窗口具體的大小。
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('http"//www.baidu.com')
#最小化窗口
driver.minimize_window()
#最大化窗口
driver.maximize_window()
#將瀏覽器設(shè)置為1000*1000的大小
driver.set_window_size(1000, 1000)
import org.openqa.selenium.Dimension;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import static java.lang.Thread.sleep;
public class AiceTest {
public static void main(String[] args) throws InterruptedException {
WebDriver driver = new ChromeDriver();
driver.get("http://www.baidu.com");
//設(shè)置窗口最大化
driver.manage().window().maximize();
//瀏覽器的設(shè)定大小
sleep(2000);
Dimension dimension = new Dimension(800, 600);
driver.manage().window().setSize(dimension);
sleep(2000);
//瀏覽器全屏
driver.manage().window().fullscreen();
sleep(2000);
driver.close();
}
}
大家是不是對web控件的定位有了進一步的了解了呀?來跟著示例一起練習(xí)起來吧~
動學(xué)習(xí)(Active Learning)綜述以及在文本分類和序列標(biāo)注應(yīng)用項目鏈接fork一下,含實踐程序,因篇幅有限就沒放在本博客中,如有需求請自行fork https://aistudio.baidu.com/aistudio/projectdetail/4897371?contributionType=1
在機器學(xué)習(xí)(Machine learning)領(lǐng)域,監(jiān)督學(xué)習(xí)(Supervised learning)、非監(jiān)督學(xué)習(xí)(Unsupervised learning)以及半監(jiān)督學(xué)習(xí)(Semi-supervised learning)是三類研究比較多,應(yīng)用比較廣的學(xué)習(xí)技術(shù),wiki上對這三種學(xué)習(xí)的簡單描述如下:
其實很多機器學(xué)習(xí)都是在解決類別歸屬的問題,即給定一些數(shù)據(jù),判斷每條數(shù)據(jù)屬于哪些類,或者和其他哪些數(shù)據(jù)屬于同一類等等。這樣,如果我們上來就對這一堆數(shù)據(jù)進行某種劃分(聚類),通過數(shù)據(jù)內(nèi)在的一些屬性和聯(lián)系,將數(shù)據(jù)自動整理為某幾類,這就屬于非監(jiān)督學(xué)習(xí)。 如果我們一開始就知道了這些數(shù)據(jù)包含的類別,并且有一部分?jǐn)?shù)據(jù)(訓(xùn)練數(shù)據(jù))已經(jīng)標(biāo)上了類標(biāo),我們通過對這些已經(jīng)標(biāo)好類標(biāo)的數(shù)據(jù)進行歸納總結(jié),得出一個 “數(shù)據(jù)-->類別” 的映射函數(shù),來對剩余的數(shù)據(jù)進行分類,這就屬于監(jiān)督學(xué)習(xí)。 而半監(jiān)督學(xué)習(xí)指的是在訓(xùn)練數(shù)據(jù)十分稀少的情況下,通過利用一些沒有類標(biāo)的數(shù)據(jù),提高學(xué)習(xí)準(zhǔn)確率的方法。
我們使用一些傳統(tǒng)的監(jiān)督學(xué)習(xí)方法做分類的時候,往往是訓(xùn)練樣本規(guī)模越大,分類的效果就越好。但是在現(xiàn)實生活的很多場景中,標(biāo)記樣本地獲取是比較困難的,這需要領(lǐng)域內(nèi)的專家來進行人工標(biāo)注,所花費的時間成本和經(jīng)濟成本都是很大的。而且,如果訓(xùn)練樣本的規(guī)模過于龐大,訓(xùn)練的時間花費也會比較多。那么有沒有辦法,能夠使用較少的訓(xùn)練樣本來獲得性能較好的分類器呢?主動學(xué)習(xí)(Active Learning)為我們提供了這種可能。主動學(xué)習(xí)通過一定的算法查詢最有用的未標(biāo)記樣本,并交由專家進行標(biāo)記,然后用查詢到的樣本訓(xùn)練分類模型來提高模型的精確度。
主動學(xué)習(xí)是一種策略/算法,是對現(xiàn)有模型的增強。而不是新模型架構(gòu)。主動學(xué)習(xí)背后的關(guān)鍵思想是,如果允許機器學(xué)習(xí)算法選擇它學(xué)習(xí)的數(shù)據(jù),這樣就可以用更少的訓(xùn)練標(biāo)簽實現(xiàn)更高的準(zhǔn)確性。——Active Learning Literature Survey, Burr Settles。通過為專家的標(biāo)記工作進行優(yōu)先級排序可以大大減少訓(xùn)練模型所需的標(biāo)記數(shù)據(jù)量。降低成本,同時提高準(zhǔn)確性。
主動學(xué)習(xí)不是一次為所有的數(shù)據(jù)收集所有的標(biāo)簽,而是對模型理解最困難的數(shù)據(jù)進行優(yōu)先級排序,并僅對那些數(shù)據(jù)要求標(biāo)注標(biāo)簽。然后模型對少量已標(biāo)記的數(shù)據(jù)進行訓(xùn)練,訓(xùn)練完成后再次要求對最不確定數(shù)據(jù)進行更多的標(biāo)記。
通過對不確定的樣本進行優(yōu)先排序,模型可以讓專家(人工)集中精力提供最有用的信息。這有助于模型更快地學(xué)習(xí),并讓專家跳過對模型沒有太大幫助的數(shù)據(jù)。這樣在某些情況下,可以大大減少需要從專家那里收集的標(biāo)簽數(shù)量,并且仍然可以得到一個很好的模型。這樣可以為機器學(xué)習(xí)項目節(jié)省時間和金錢!
主動學(xué)習(xí)的模型如下:
A=(C,Q,S,L,U),
其中 C 為一組或者一個分類器,L是用于訓(xùn)練已標(biāo)注的樣本。Q 是查詢函數(shù),用于從未標(biāo)注樣本池U中查詢信息量大的信息,S是督導(dǎo)者,可以為U中樣本標(biāo)注正確的標(biāo)簽。學(xué)習(xí)者通過少量初始標(biāo)記樣本L開始學(xué)習(xí),通過一定的查詢函數(shù)Q選擇出一個或一批最有用的樣本,并向督導(dǎo)者詢問標(biāo)簽,然后利用獲得的新知識來訓(xùn)練分類器和進行下一輪查詢。主動學(xué)習(xí)是一個循環(huán)的過程,直至達到某一停止準(zhǔn)則為止。 這個準(zhǔn)則可以是迭代次數(shù),也可以是準(zhǔn)確率等指標(biāo)達到設(shè)定值
在各種主動學(xué)習(xí)方法中,查詢函數(shù)的設(shè)計最常用的策略是:不確定性準(zhǔn)則(uncertainty)和差異性準(zhǔn)則(diversity)。 不確定性越大代表信息熵越大,包含的信息越豐富;而差異性越大代表選擇的樣本能夠更全面地代表整個數(shù)據(jù)集。
對于不確定性,我們可以借助信息熵的概念來進行理解。我們知道信息熵是衡量信息量的概念,也是衡量不確定性的概念。信息熵越大,就代表不確定性越大,包含的信息量也就越豐富。事實上,有些基于不確定性的主動學(xué)習(xí)查詢函數(shù)就是使用了信息熵來設(shè)計的,比如熵值裝袋查詢(Entropy query-by-bagging)。所以,不確定性策略就是要想方設(shè)法地找出不確定性高的樣本,因為這些樣本所包含的豐富信息量,對我們訓(xùn)練模型來說就是有用的。
那么差異性怎么來理解呢?之前說到或查詢函數(shù)每次迭代中查詢一個或者一批樣本。我們當(dāng)然希望所查詢的樣本提供的信息是全面的,各個樣本提供的信息不重復(fù)不冗余,即樣本之間具有一定的差異性。在每輪迭代抽取單個信息量最大的樣本加入訓(xùn)練集的情況下,每一輪迭代中模型都被重新訓(xùn)練,以新獲得的知識去參與對樣本不確定性的評估可以有效地避免數(shù)據(jù)冗余。但是如果每次迭代查詢一批樣本,那么就應(yīng)該想辦法來保證樣本的差異性,避免數(shù)據(jù)冗余。
從上圖也可以看出來,在相同數(shù)目的標(biāo)注數(shù)據(jù)中,主動學(xué)習(xí)算法比監(jiān)督學(xué)習(xí)算法的分類誤差要低。這里注意橫軸是標(biāo)注數(shù)據(jù)的數(shù)目,對于主動學(xué)習(xí)而言,相同的標(biāo)注數(shù)據(jù)下,主動學(xué)習(xí)的樣本數(shù)>監(jiān)督學(xué)習(xí),這個對比主要是為了說明兩者對于訓(xùn)練樣本的使用效率不同:主動學(xué)習(xí)訓(xùn)練使用的樣本都是經(jīng)過算法篩選出來對于模型訓(xùn)練有幫助的數(shù)據(jù),所以效率高。但是如果是相同樣本的數(shù)量下去對比兩者的誤差,那肯定是監(jiān)督學(xué)習(xí)占優(yōu),這是毋庸置疑的。
很多人認(rèn)為主動學(xué)習(xí)也屬于半監(jiān)督學(xué)習(xí)的范疇了,但實際上是不一樣的,半監(jiān)督學(xué)習(xí)和直推學(xué)習(xí)(transductive learning)以及主動學(xué)習(xí),都屬于利用未標(biāo)記數(shù)據(jù)的學(xué)習(xí)技術(shù),但基本思想還是有區(qū)別的。
如上所述,主動學(xué)習(xí)的“主動”,指的是主動提出標(biāo)注請求,也就是說,還是需要一個外在的能夠?qū)ζ湔埱筮M行標(biāo)注的實體(通常就是相關(guān)領(lǐng)域人員),即主動學(xué)習(xí)是交互進行的。
而半監(jiān)督學(xué)習(xí),特指的是學(xué)習(xí)算法不需要人工的干預(yù),基于自身對未標(biāo)記數(shù)據(jù)加以利用。
在未標(biāo)記的數(shù)據(jù)集上使用主動學(xué)習(xí)的步驟是:
基于流(stream-based)的主動學(xué)習(xí)中,未標(biāo)記的樣例按先后順序逐個提交給選擇引擎,由選擇引擎決定是否標(biāo)注當(dāng)前提交的樣例,如果不標(biāo)注,則將其丟棄。
在基于流的主動學(xué)習(xí)中,所有訓(xùn)練樣本的集合以流的形式呈現(xiàn)給算法。每個樣本都被單獨發(fā)送給算法。算法必須立即決定是否標(biāo)記這個示例。從這個池中選擇的訓(xùn)練樣本由oracle(人工的行業(yè)專家)標(biāo)記,在顯示下一個樣本之前,該標(biāo)記立即由算法接收。
于基于流的算法不能對未標(biāo)注樣例逐一比較,需要對樣例的相應(yīng)評價指標(biāo)設(shè)定閾值,當(dāng)提交給選擇引擎的樣例評價指標(biāo)超過閾值,則進行標(biāo)注,但這種方法需要針對不同的任務(wù)進行調(diào)整,所以難以作為一種成熟的方法投入使用。
基于池(pool-based)的主動學(xué)習(xí)中則維護一個未標(biāo)注樣例的集合,由選擇引擎在該集合中選擇當(dāng)前要標(biāo)注的樣例。
在基于池的抽樣中,訓(xùn)練樣本從一個大的未標(biāo)記數(shù)據(jù)池中選擇。從這個池中選擇的訓(xùn)練樣本由oracle標(biāo)記。
這種基于委員會查詢的方法使用多個模型而不是一個模型。
委員會查詢(Query by Committee),它維護一個模型集合(集合被稱為委員會),通過查詢(投票)選擇最“有爭議”的數(shù)據(jù)點作為下一個需要標(biāo)記的數(shù)據(jù)點。通過這種委員會可的模式以克服一個單一模型所能表達的限制性假設(shè)(并且在任務(wù)開始時我們也不知道應(yīng)該使用什么假設(shè))。
有兩個假設(shè)前提:
識別接下來需要標(biāo)記的最有價值的樣本的過程被稱為“抽樣策略”或“查詢策略”。在該過程中的評分函數(shù)稱為“acquisition function”。該分?jǐn)?shù)的含義是:得分越高的數(shù)據(jù)點被標(biāo)記后,對模型訓(xùn)練后的產(chǎn)生價值就越高。有很多中不同的采樣策略,例如不確定性抽樣,多樣性采樣等,在本節(jié)中,我們將僅關(guān)注最常用策略的不確定性度量。
不確定性抽樣是一組技術(shù),可以用于識別當(dāng)前機器學(xué)習(xí)模型中的決策邊界附近的未標(biāo)記樣本。這里信息最豐富的例子是分類器最不確定的例子。模型最不確定性的樣本可能是在分類邊界附近的數(shù)據(jù)。而我們模型學(xué)習(xí)的算法將通過觀察這些分類最困難的樣本來獲得有關(guān)類邊界的更多的信息。
讓我們以一個具體的例子,假設(shè)正在嘗試建立一個多類分類,以區(qū)分3類貓,狗,馬。該模型可能會給我們以下預(yù)測:
{
"Prediction": {
"Label": "Cat",
"Prob": {
"Cat": 0.9352784428596497,
"Horse": 0.05409964170306921,
"Dog": 0.038225741147994995,
}
}
}
這個輸出很可能來自softmax,它使用指數(shù)將對數(shù)轉(zhuǎn)換為0-1范圍的分?jǐn)?shù)。
最小置信度=1(100%置信度)和每個項目的最自信的標(biāo)簽之間的差異。
雖然可以單獨按置信度的順序進行排名,但將不確定性得分轉(zhuǎn)換為0-1范圍,其中1是最不確定的分?jǐn)?shù)可能很有用。因為在這種情況下,我們必須將分?jǐn)?shù)標(biāo)準(zhǔn)化。我們從1中減去該值,將結(jié)果乘以N/(1-N),n為標(biāo)簽數(shù)。這時因為最低置信度永遠不會小于標(biāo)簽數(shù)量(所有標(biāo)簽都具有相同的預(yù)測置信度的時候)。
讓我們將其應(yīng)用到上面的示例中,不確定性分?jǐn)?shù)將是:(1-0.9352) *(3/2)= 0.0972。
最小置信度是最簡單,最常用的方法,它提供預(yù)測順序的排名,這樣可以以最低的置信度對其預(yù)測標(biāo)簽進行采樣。
不確定性抽樣的最直觀形式是兩個置信度做高的預(yù)測之間的差值。也就是說,對于該模型預(yù)測的標(biāo)簽對比第二高的標(biāo)簽的差異有多大?這被定義為:
不確定性抽樣的最直觀形式是兩個置信度做高的預(yù)測之間的差值。也就是說,對于該模型預(yù)測的標(biāo)簽對比第二高的標(biāo)簽的差異有多大?這被定義為:
同樣我們可以將其轉(zhuǎn)換為0-1范圍,必須再次使用1減去該值,但是最大可能的分?jǐn)?shù)已經(jīng)為1了,所以不需要再進行其他操作。
讓我們將置信度抽樣間距應(yīng)用于上面的示例數(shù)據(jù)。“貓”和“馬”是前兩個。使用我們的示例,這種不確定性得分將為1.0 - (0.9352–0.0540)= 0.1188。
置信度比是置信度邊緣的變化,是兩個分?jǐn)?shù)之間的差異比率而不是間距的差異的絕對值。
應(yīng)用于概率分布的熵包括將每個概率乘以其自身的對數(shù),然后求和取負數(shù):
讓我們在示例數(shù)據(jù)上計算熵:
得到 0 - sum(–0.0705,–0.0903,–0.2273)= 0.3881
除以標(biāo)簽數(shù)的log得到0.3881/ log2(3)= 0.6151
基于不確定性的主動學(xué)習(xí)方法將最小化條件熵作為尋找判定函數(shù)的依據(jù)。
Bayesian Active Learning for Classification and Preference Learning(論文 2011年)通過貪婪地找到一個能使當(dāng)前模型熵最大程度減少的數(shù)據(jù)點x,但由于模型參數(shù)維度很高,直接求解困難,因此在給定數(shù)據(jù)D和新增數(shù)據(jù)點x條件下,模型預(yù)測和模型參數(shù)之間的互信息。
Deep Bayesian Active Learning with Image Data(論文,代碼 2017年)中實現(xiàn)了這一思路,過程如下:
(1)從整體的數(shù)據(jù)中選一個子集作為初始訓(xùn)練集,來訓(xùn)練任務(wù)模型(分類,分割等等)
(2)用訓(xùn)好的模型在剩余未標(biāo)注的圖像上以train模式跑多組預(yù)測,記錄對每個樣本的輸出。
(3)計算對每個樣本的熵作為不確定性分?jǐn)?shù)。
(4)從大到小依次選擇下一組數(shù)據(jù)標(biāo)注好后加入訓(xùn)練集,更新訓(xùn)練模型(在上一代模型上fine-tuning),直到滿足停止條件。
考慮到深度學(xué)習(xí)中,不能每次選一個數(shù)據(jù)樣本就重新訓(xùn)練一次模型,而是以批數(shù)據(jù)的形式進行訓(xùn)練,BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning(論文 2019年)中,把原來的一個樣本變成了一批樣本。
基于不確定性的主動學(xué)習(xí)方法依賴模型預(yù)測的分類概率來確定模型對該樣本的不確定性,但這個概率并不可靠,因為使用softmax分類器的神經(jīng)網(wǎng)絡(luò)并不能識別分布外樣本,且很容易對OOD樣本做出過度自信的預(yù)測。
OOD(Out of Distribution(OOD) detection指的是模型能夠檢測出 OOD 樣本,而 OOD 樣本是相對于 In Distribution(ID) 樣本來說的。傳統(tǒng)的機器學(xué)習(xí)方法通常的假設(shè)是模型訓(xùn)練和測試的數(shù)據(jù)是獨立同分布的(IID, Independent Identical Distribution),這里訓(xùn)練和測試的數(shù)據(jù)都可以說是 In Distribution(ID) 。在實際應(yīng)用當(dāng)中,模型部署上線后得到的數(shù)據(jù)往往不能被完全控制的,也就是說模型接收的數(shù)據(jù)有可能是 OOD樣本,也可以叫異常樣本(outlier, abnormal)。
基于深度模型的Out of Distribution(OOD)檢測相關(guān)方法介紹
在主動學(xué)習(xí)中,初始階段使用非常少的標(biāo)注樣本訓(xùn)練模型,意味著大量的未標(biāo)注樣本可能都是OOD樣本,若模型過早的給這部分樣本一個過度自信的預(yù)測概率,就可能使我們錯失一些有價值的OOD樣本。如圖所示,初始訓(xùn)練階段,模型缺乏虛線框以外的區(qū)域的訓(xùn)練數(shù)據(jù),但softmax分類器仍然會對這些區(qū)域給出很自信的預(yù)測,導(dǎo)致選擇新的待標(biāo)注樣本時,圖中的q點會被忽略,而若q點正好不是class B,則會影響主動學(xué)習(xí)的性能。
針對這個問題NNclassifier中設(shè)計了一個基于最近鄰和支持向量的分類器來取代softmax, 使模型能對遠離已有訓(xùn)練數(shù)據(jù)的區(qū)域產(chǎn)生較高的不確定性。
具體而言,每類訓(xùn)練學(xué)習(xí)N個支持向量,基于樣本特征與各類的支持向量之間的距離,就可以定義分類概率為與這N個支持向量的核函數(shù)的最大距離:
$pc\left(fx\right)=\max n \delta\left(-d\left(fx, m_{c, n}\right)\right)$
定義了新的可以意識到OOD樣本的分類器之后,作者給出了對應(yīng)的主動學(xué)習(xí)策略:
Rejection confidence,用于度量遠離所有支持向量的樣本,如圖(b)所示; confusion confidence,用于度量遠離支持向量以及同時靠近多個不同類支持向量的樣本,如圖?所示。
$\begin{aligned} &M{\text {rejection }}(x)=\sumc\left(1-pc\left(fx\right)\right) \ &M{\text {confusion }}(x)=\sumc\left(1+pc\left(fx\right)-\max c pc\left(f_x\right)\right) \end{aligned}$
Amersfoort用RBF神經(jīng)網(wǎng)絡(luò)來促使網(wǎng)絡(luò)具有良好的OOD樣本不確定性,同時給出了基于梯度范數(shù)的雙邊正則來削弱特征崩潰(feature collapse)的問題。與NNClassifier相同,本文的作者也定義了一個與各類特征距離的函數(shù)K來幫助檢測OOD樣本,損失函數(shù)同樣定義成逐類的二值交叉熵。不同于NNClassifier的是,這里的距離是每個樣本與該類樣本的指數(shù)滑動平均得到的。 $Kc\left(f\theta(x), ec\right)=\exp \left(-\left|Wc f\theta(x)-ec\right|_2^2 /\left(2 n \sigma^2\right)\right)$
另一個不同點在于本文加入了一個雙邊梯度正則項。 $\max \left(0,\left|\operatorname{grad}z \sumc K{\mathrm{c}}\right|F^2-1\right)$
這個正則項的作用有兩個,一個是保證平滑性,也就是相似的輸入有相似的輸出,這個是由max()中的梯度部分保證的,而梯度-1則起到避免特征崩潰的作用,也就是相比單純的使用特征范數(shù)正則,-1能夠避免模型將很多不同的輸入映射到完全相同的特征,也就是feature collapse。
接下來主要介紹基于特征空間覆蓋的主動學(xué)習(xí)代表性工作:coreset。coreset的主要貢獻:給出了基于特征空間覆蓋的主動學(xué)習(xí)算法的近似損失上界;證明了新添加的樣本在能夠縮小標(biāo)注樣本對剩余樣本的覆蓋半徑時,才能提高近似效果。
coreset認(rèn)為主動學(xué)習(xí)目標(biāo)就是縮小核心集誤差,即主動學(xué)習(xí)選出的樣本損失與全體樣本損失之間的差別。
我們在主動學(xué)習(xí)挑選新樣本時,并不知道樣本的標(biāo)簽,也就沒法直接求核心集損失。作者把核心集損失的上界轉(zhuǎn)換做剩余訓(xùn)練樣本與挑選出的標(biāo)注樣本間的最大距離。因此,主動學(xué)習(xí)問題等價于選擇添加一組標(biāo)注樣本,使得其他樣本對標(biāo)注樣本集的最大距離$\delta_s$ 最小,也就是k-center集覆蓋問題。如圖所示,藍色為挑選出的標(biāo)注樣本,紅色為其他樣本。
Variational Adversarial Active Learning(地址 2019年)描述了一種基于池的半監(jiān)督主動學(xué)習(xí)算法,它以對抗的方式(關(guān)于對抗學(xué)習(xí)的詳細介紹參見這里)隱式地學(xué)習(xí)了這種采樣機制。與傳統(tǒng)的主動學(xué)習(xí)算法不同,VAAL與任務(wù)無關(guān),也就是說,它不依賴于試圖獲取標(biāo)注數(shù)據(jù)的任務(wù)的性能。VAAL使用變分自編碼器(VAE)和訓(xùn)練好的對抗網(wǎng)絡(luò)來學(xué)習(xí)潛在空間,以區(qū)分未標(biāo)注和標(biāo)注的數(shù)據(jù)。
核心思想 本文的出發(fā)點可以理解如下:之前很多方法的uncertainty都是基于模型的,也就是說需要有個分割/分類等模型計算預(yù)測結(jié)果,然后從結(jié)果的好壞去分析相應(yīng)的被預(yù)測樣本的價值。而本文的uncertainty是基于數(shù)據(jù)本身的,也就是說并非基于預(yù)測結(jié)果本身去分析,而是直接基于樣本自身的特征去處理。
核心思想:利用VAE對已標(biāo)注的數(shù)據(jù)和未標(biāo)注的數(shù)據(jù)進行編碼。因此,對于一個未標(biāo)注的數(shù)據(jù),如果其編碼向量與潛在空間中向量的差異足夠大,那么我們就認(rèn)為該樣本是有價值的。
而對于樣本的選擇,是通過一個對抗網(wǎng)絡(luò)來實現(xiàn)的,該對抗網(wǎng)絡(luò)被用來區(qū)分一個樣本是已標(biāo)注還是未標(biāo)注。因此上文的VAE還有一個額外的任務(wù),即他的編碼要讓判別器難以區(qū)分已經(jīng)標(biāo)注還是沒有標(biāo)注。
網(wǎng)絡(luò)結(jié)構(gòu) VAE和對抗網(wǎng)絡(luò)之間的最大最小博弈是這樣進行的:VAE試圖欺騙對抗網(wǎng)絡(luò)去預(yù)測,所有的數(shù)據(jù)點都來自已標(biāo)注池;對抗網(wǎng)絡(luò)則學(xué)習(xí)如何區(qū)分潛在空間中的不相似性。其結(jié)構(gòu)如下:
VAE和對抗網(wǎng)絡(luò)之間的最大最小博弈是這樣進行的:VAE試圖欺騙對抗網(wǎng)絡(luò)去預(yù)測,所有的數(shù)據(jù)點都來自已標(biāo)注池;對抗網(wǎng)絡(luò)則學(xué)習(xí)如何區(qū)分潛在空間中的不相似性。其結(jié)構(gòu)如下:
主動學(xué)習(xí)策略
模型特點 本文的強化學(xué)習(xí)有點"離線"的味道,即最后選取出的50%數(shù)據(jù)可以很輕松的遷移至其他模型中,選擇的過程只依賴VAE與判別器,而與具體的任務(wù)無關(guān)。
此外該模型訓(xùn)練十分耗時——從10%逐步提升5%至50%,相當(dāng)于順序訓(xùn)練了9個相同的模型,再考慮訓(xùn)練VAE與判別器的耗時,訓(xùn)練該主動學(xué)習(xí)框架的所需時間可能高達原有基礎(chǔ)網(wǎng)絡(luò)的10倍。
SRAAL(論文 https://openaccess.thecvf.com/contentCVPR2020/html/ZhangState-RelabelingAdversarialActiveLearningCVPR2020_paper.html)是VAAL的一個改進版。在VAAL中,判別器的訓(xùn)練的時候只有兩種狀態(tài),標(biāo)注/未標(biāo)注。SRAAL的作者認(rèn)為這樣忽略了一些信息,有時候任務(wù)模型已經(jīng)能很確信的對某個未標(biāo)注樣本做預(yù)測了,就應(yīng)該降低選擇這個樣本的優(yōu)先級。
為了實現(xiàn)這個思路,作者給出了一個任務(wù)模型預(yù)測不確定度的計算函數(shù),用這個函數(shù)的輸出結(jié)果作為生成對抗網(wǎng)絡(luò)的判別器訓(xùn)練過程中,無標(biāo)注樣本的標(biāo)簽,而不用簡單的個一個二值變量。
VAAL有效的一個關(guān)鍵的因素實際上是同時利用標(biāo)注/無標(biāo)注的樣本共同訓(xùn)練產(chǎn)生特征映射,而不像之前基于特征的coreset等主動學(xué)習(xí)方法,僅用標(biāo)注數(shù)據(jù)訓(xùn)練產(chǎn)生特征。
ARAL(https://arxiv.org/abs/1912.09720 2019.11)更進一步,也用這些個無標(biāo)注樣本來訓(xùn)練任務(wù)模型(如分類器)本身,整體仍然是在VAAL基礎(chǔ)上做的,只是增加了cgan的判別器來實現(xiàn)半監(jiān)督訓(xùn)練任務(wù)模型。整體來說,基于池的主動學(xué)習(xí)用標(biāo)注樣本來訓(xùn)練任務(wù)模型,合成的主動學(xué)習(xí)標(biāo)注合成的樣本來訓(xùn)練任務(wù)模型。
相比之下,VAAL用標(biāo)注數(shù)據(jù)訓(xùn)練任務(wù)模型,用所有數(shù)據(jù)來訓(xùn)練產(chǎn)生特征;ARAL用所有的訓(xùn)練數(shù)據(jù),合成數(shù)據(jù)來訓(xùn)練任務(wù)模型、產(chǎn)生特征映射。相當(dāng)于使用了半監(jiān)督的學(xué)習(xí)方法,與和之前純基于監(jiān)督訓(xùn)練的主動學(xué)習(xí)方法比較自然有所提升。
之前介紹了基于不確定性的方法,以及基于多樣性的方法。接下來我們來看看融合兩者的方法。就動機而言,如果只用不確定性標(biāo)準(zhǔn)來選樣本,在批量選擇的場景中,很容易出現(xiàn)選到冗余樣本的問題。而在深度學(xué)習(xí)中,由于訓(xùn)練開銷的緣故,通常都采用批主動學(xué)習(xí),所以為了提高主動學(xué)習(xí)的效率,就得考慮批量選擇高不確定性樣本時的多樣性問題。而從多樣性樣本選擇方法的角度來說,單純的特征空間覆蓋算法不能區(qū)分模型是否已經(jīng)能很好預(yù)測某部分樣本,會限制這類方法所能達到的上限。
融合不確定性和多樣性的思路主要有三種:
第一種從理論上來看很優(yōu)雅,從信息論的角度推出怎么在批量選擇的場景里選到對模型參數(shù)改善最有效的一組樣本。但計算復(fù)雜度很高,可能并不是很實用,該論文中的實驗部分也都是在很小的數(shù)據(jù)集上完成的。
這類方法實現(xiàn)起來最簡單,非常啟發(fā)式。整個主動學(xué)習(xí)分兩步來做,第一步先用不確定性(熵,BALD等)選超出主動學(xué)習(xí)budget size的候選樣本集,在用多樣性的方法,選擇能最好覆蓋這個候選集的一組樣本。
SA 2017 用Bootstrapping訓(xùn)練若干個模型,用這些模型預(yù)測的variance來表示不確定性,之后再用候選集中樣本特征相似度來選取與已經(jīng)選到的樣本差異最大的樣本,就類似coreset-greedy的做法。
CoreLog 2021 基于Proper Scoring Rules給了表示不確定性的度量,先選出不確定性大的前k%個樣本,再用kmeans聚類來選擇多樣的樣本。
這種結(jié)合的方式?jīng)]毛病,但有個小的問題,很難說清咋確定這個候選集大小,到底多大能算作高不確定性,能丟到候選集里。
badge:https://arxiv.org/abs/1906.03671 2020 和第二類方法的思路很像,不確定性的用模型參數(shù)就某個樣本的梯度大小來表示,多樣性用kmeans++來保證。但這個方法很巧妙的地方在于,通過把這個問題丟到梯度嵌入空間來做(而不像第二類方法在樣本的特征空間保證多樣性),使樣本的多樣性和不確定性能同時得到保證。
梯度范數(shù)大小表示不確定性很好理解,和之前用熵之類的指標(biāo)來表示不確定性類似,模型預(yù)測的概率小,意味著熵大,也意味著如果把這樣本標(biāo)了,模型要有較大的變化才能擬合好這個樣本,也就是求出來的梯度大。梯度表示多樣性,是這類方法的獨特之處,用梯度向量來聚類,選到的差異大的樣本就變成:讓模型參數(shù)的更新方向不同的樣本,而不是樣本特征本身不同。
在用梯度表示了不確定性和多樣性之后,怎么來選一批既有高不確定性,又不同的樣本呢?badge的做法是Kmeans++聚類,第一個樣本選梯度范數(shù)最大的樣本,之后依據(jù)每個樣本梯度與選到的樣本梯度的差的范數(shù)來采樣新的樣本。這里注意這個差是兩個向量的差,所以自然的避免了重復(fù)的選到梯度方向接近且范數(shù)都比較大的一組樣本。
這一類方法核心的觀點是,不管不確定性或多樣性,而是希望選出的樣本能使模型產(chǎn)生的變化最大。變化最大可以著眼于loss最大,也可以關(guān)注梯度的情況,比如梯度范數(shù)大小。
learning loss 2019 在任務(wù)模型上加一個小的附屬子網(wǎng)絡(luò)用來學(xué)習(xí)預(yù)測樣本的損失值。訓(xùn)練任務(wù)模型的時候,也同時訓(xùn)練這個預(yù)測損失模塊,之后就用這個模塊來預(yù)測對哪個未標(biāo)注樣本的損失大,就選他。整個算法的流程圖如下
損失預(yù)測模塊的結(jié)構(gòu)和損失計算方法如下:
主動學(xué)習(xí)(Active Learning)綜述以及在文本分類和序列標(biāo)注應(yīng)用項目鏈接fork一下,含實踐程序,因篇幅有限就沒放在本博客中,如有需求請自行fork https://aistudio.baidu.com/aistudio/projectdetail/4897371?contributionType=1
獲得有用是標(biāo)注數(shù)據(jù)在訓(xùn)練時是非常重要的,但是標(biāo)注數(shù)據(jù)可能很非常的費事費力,并且如果標(biāo)注的質(zhì)量不佳也會對訓(xùn)練產(chǎn)生很大的影響。主動學(xué)習(xí)是解決這個問題的一個方向,并且是一個非常好的方向。
*請認(rèn)真填寫需求信息,我們會在24小時內(nèi)與您取得聯(lián)系。