廣州藍(lán)景技術(shù)分享—瀏覽器渲染原理流程

位小伙伴，今天我們廣州藍(lán)景實(shí)訓(xùn)部，和大家普及一下前端技術(shù)-瀏覽器渲染流程，希望能幫助大家更深入地了解這方面的知識(shí)。

前言

瀏覽器的內(nèi)核是指支持瀏覽器運(yùn)行的最核心的程序，分為兩個(gè)部分的，一是渲染引擎，另一個(gè)是JS引擎。渲染引擎在不同的瀏覽器中也不是都相同的。目前市面上常見的瀏覽器內(nèi)核可以分為這四種：Trident（IE）、Gecko（火狐）、Blink（Chrome、Opera）、Webkit（Safari）。這里面大家最耳熟能詳?shù)目赡芫褪?Webkit 內(nèi)核了，Webkit 內(nèi)核是當(dāng)下瀏覽器世界真正的霸主。

本文我們就以 Webkit 為例，對現(xiàn)代瀏覽器的渲染過程進(jìn)行一個(gè)深度的剖析。

頁面加載過程

在介紹瀏覽器渲染過程之前，我們簡明扼要介紹下頁面的加載過程，有助于更好理解后續(xù)渲染過程。

要點(diǎn)如下：

向?yàn)g覽器輸入網(wǎng)址
瀏覽器根據(jù) DNS 服務(wù)器得到域名的 IP 地址
向這個(gè) IP 的機(jī)器發(fā)送 HTTP 請求
服務(wù)器收到、處理并返回 HTTP 請求
瀏覽器接收到服務(wù)器返回的內(nèi)容

例如在瀏覽器輸入https://www.baidu.com，然后經(jīng)過 DNS 解析，www.baidu.com對應(yīng)的 IP 14.215.177.38（不同時(shí)間、地點(diǎn)對應(yīng)的 IP 可能會(huì)不同）。然后瀏覽器向該 IP 發(fā)送 HTTP 請求。

服務(wù)端接收到 HTTP 請求，然后經(jīng)過計(jì)算（向不同的用戶推送不同的內(nèi)容），返回 HTTP 請求，返回的內(nèi)容如下：

其實(shí)就是一堆 HMTL 格式的字符串，因?yàn)橹挥?HTML 格式瀏覽器才能正確解析，這是 W3C 標(biāo)準(zhǔn)的要求。接下來就是瀏覽器的渲染過程。

瀏覽器渲染過程

從上面這個(gè)圖上，我們可以看到，瀏覽器渲染過程如下：

解析HTML，生成DOM樹，解析CSS，生成CSSOM樹

將DOM樹和CSSOM樹結(jié)合，生成渲染樹(Render Tree)

Layout(回流):根據(jù)生成的渲染樹，進(jìn)行回流(Layout)，得到節(jié)點(diǎn)的幾何信息（位置，大小）

Painting(重繪):根據(jù)渲染樹以及回流得到的幾何信息，得到節(jié)點(diǎn)的絕對像素

Display: 將像素發(fā)送給GPU，最后通過調(diào)用操作系統(tǒng)Native GUI的API繪制，展示在頁面上。（這一步其實(shí)還有很多內(nèi)容，比如會(huì)在GPU將多個(gè)合成層合并為同一個(gè)層，并展示在頁面中。而css3硬件加速的原理則是新建合成層，這里我們不展開，之后有機(jī)會(huì)再寫一篇博客來介紹）

渲染過程看起來也不復(fù)雜，讓我們來具體了解下每一步具體做了什么。

構(gòu)建DOM詳細(xì)流程

瀏覽器會(huì)遵守一套步驟將HTML文件轉(zhuǎn)換為DOM樹。宏觀上，可以分為幾個(gè)步驟：

瀏覽器從磁盤或網(wǎng)絡(luò)讀取HTML的原始字節(jié)(字節(jié)數(shù)據(jù))，并根據(jù)文件的指定編碼（例如 UTF-8）將它們轉(zhuǎn)換成字符串。

在網(wǎng)絡(luò)中傳輸?shù)膬?nèi)容其實(shí)都是 0 和 1 這些字節(jié)數(shù)據(jù)。當(dāng)瀏覽器接收到這些字節(jié)數(shù)據(jù)以后，它會(huì)將這些字節(jié)數(shù)據(jù)轉(zhuǎn)換為字符串，也就是我們寫的代碼。

將字符串轉(zhuǎn)換成Token，例如：、等。Token中會(huì)標(biāo)識(shí)出當(dāng)前Token是“開始標(biāo)簽”或是“結(jié)束標(biāo)簽”或著是“文本”等信息。

這時(shí)候你一定會(huì)有疑問，節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系如何維護(hù)？

事實(shí)上，這就是Token要標(biāo)識(shí)“起始標(biāo)簽”和“結(jié)束標(biāo)簽”等標(biāo)識(shí)的作用。

例如“title”Token的起始標(biāo)簽和結(jié)束標(biāo)簽之間的節(jié)點(diǎn)肯定是屬于“head”的子節(jié)點(diǎn)。

上圖給出了節(jié)點(diǎn)之間的關(guān)系，例如：“Hello”Token位于“title”開始標(biāo)簽與“title”結(jié)束標(biāo)簽之間，表明“Hello”Token是“title”Token的子節(jié)點(diǎn)。同理“title”Token是“head”Token的子節(jié)點(diǎn)。

生成節(jié)點(diǎn)對象并構(gòu)建DOM

事實(shí)上，構(gòu)建DOM的過程中，不是等所有Token都轉(zhuǎn)換完成后再去生成節(jié)點(diǎn)對象，而是一邊生成Token一邊消耗Token來生成節(jié)點(diǎn)對象。換句話說，每個(gè)Token被生成后，會(huì)立刻消耗這個(gè)Token創(chuàng)建出節(jié)點(diǎn)對象。注意：帶有結(jié)束標(biāo)簽標(biāo)識(shí)的Token不會(huì)創(chuàng)建節(jié)點(diǎn)對象。

接下來我們舉個(gè)例子，假設(shè)有段HTML文本：

<html>
<head>
    <title>Web page parsing</title>
</head>
<body>
    <div>
        <h1>Web page parsing</h1>
        <p>This is an example Web page.</p>
    </div>
</body>
</html>

上面這段HTML會(huì)解析成這樣：

構(gòu)建CSSOM詳細(xì)流程

DOM會(huì)捕獲頁面的內(nèi)容，但瀏覽器還需要知道頁面如何展示，所以需要構(gòu)建CSSOM。

構(gòu)建CSSOM的過程與構(gòu)建DOM的過程非常相似，當(dāng)瀏覽器接收到一段CSS，瀏覽器首先要做的是識(shí)別出Token，然后構(gòu)建節(jié)點(diǎn)并生成CSSOM。

在這一過程中，瀏覽器會(huì)確定下每一個(gè)節(jié)點(diǎn)的樣式到底是什么，并且這一過程其實(shí)是很消耗資源的。因?yàn)闃邮侥憧梢宰孕性O(shè)置給某個(gè)節(jié)點(diǎn)，也可以通過繼承獲得。在這一過程中，瀏覽器得遞歸 CSSOM 樹，然后確定具體的元素到底是什么樣式。

注意：CSS匹配HTML元素是一個(gè)相當(dāng)復(fù)雜和有性能問題的事情。所以，DOM樹要小，CSS盡量用id和class，千萬不要過渡層疊下去。

構(gòu)建渲染樹

當(dāng)我們生成 DOM 樹和 CSSOM 樹以后，就需要將這兩棵樹組合為渲染樹。

在這一過程中，不是簡單地將兩者合并就行了。渲染樹只會(huì)包括需要顯示的節(jié)點(diǎn)和這些節(jié)點(diǎn)的樣式信息，如果某個(gè)節(jié)點(diǎn)是 display: none 的，那么就不會(huì)在渲染樹中顯示。

注意：渲染樹只包含可見的節(jié)點(diǎn)

我們或許有個(gè)疑惑：瀏覽器如果渲染過程中遇到JS文件怎么處理？

渲染過程中，如果遇到<script>就停止渲染，執(zhí)行 JS 代碼。因?yàn)闉g覽器有GUI渲染線程與JS引擎線程，為了防止渲染出現(xiàn)不可預(yù)期的結(jié)果，這兩個(gè)線程是互斥的關(guān)系。JavaScript的加載、解析與執(zhí)行會(huì)阻塞DOM的構(gòu)建，也就是說，在構(gòu)建DOM時(shí)，HTML解析器若遇到了JavaScript，那么它會(huì)暫停構(gòu)建DOM，將控制權(quán)移交給JavaScript引擎，等JavaScript引擎運(yùn)行完畢，瀏覽器再從中斷的地方恢復(fù)DOM構(gòu)建。

也就是說，如果你想首屏渲染得越快，就越不應(yīng)該在首屏就加載 JS 文件，這也是建議將 script 標(biāo)簽放在 body 標(biāo)簽底部的原因。當(dāng)然在當(dāng)下，并不是說 script 標(biāo)簽必須放在底部，因?yàn)槟憧梢越o script 標(biāo)簽添加 defer(延遲) 或者 async(異步) 屬性（下文會(huì)介紹這兩者的區(qū)別）。

JS文件不只是阻塞DOM的構(gòu)建，它會(huì)導(dǎo)致CSSOM也阻塞DOM的構(gòu)建。

原本DOM和CSSOM的構(gòu)建是互不影響，井水不犯河水，但是一旦引入了JavaScript，CSSOM也開始阻塞DOM的構(gòu)建，只有CSSOM構(gòu)建完畢后，DOM再恢復(fù)DOM構(gòu)建。

這是什么情況呢？

這是因?yàn)镴avaScript不只是可以改DOM，它還可以更改樣式，也就是它可以更改CSSOM。因?yàn)椴煌暾腃SSOM是無法使用的，如果JavaScript想訪問CSSOM并更改它，那么在執(zhí)行JavaScript時(shí)，必須要能拿到完整的CSSOM。

所以就導(dǎo)致了一個(gè)現(xiàn)象，如果瀏覽器尚未完成CSSOM的下載和構(gòu)建，而我們卻想在此時(shí)運(yùn)行腳本，那么瀏覽器將延遲腳本執(zhí)行和DOM構(gòu)建，直至其完成CSSOM的下載和構(gòu)建。也就是說，在這種情況下，瀏覽器會(huì)先下載和構(gòu)建CSSOM，然后再執(zhí)行JavaScript，最后在繼續(xù)構(gòu)建DOM。

布局與繪制

當(dāng)瀏覽器生成渲染樹以后，就會(huì)根據(jù)渲染樹來進(jìn)行布局（也可以叫做回流）。這一階段瀏覽器要做的事情是要弄清楚各個(gè)節(jié)點(diǎn)在頁面中的確切位置和大小。通常這一行為也被稱為“自動(dòng)重排”。

布局流程的輸出是一個(gè)“盒模型”，它會(huì)精確地捕獲每個(gè)元素在視口內(nèi)的確切位置和尺寸，所有相對測量值都將轉(zhuǎn)換為屏幕上的絕對像素。

布局完成后，瀏覽器會(huì)立即發(fā)出“Paint Setup”和“Paint”事件，將渲染樹轉(zhuǎn)換成屏幕上的像素。

回流

前面我們通過構(gòu)造渲染樹，我們將可見DOM節(jié)點(diǎn)以及它對應(yīng)的樣式結(jié)合起來，可是我們還需要計(jì)算它們在設(shè)備視口(viewport)內(nèi)的確切位置和大小，這個(gè)計(jì)算的階段就是回流。

為了弄清每個(gè)對象在網(wǎng)站上的確切大小和位置，瀏覽器從渲染樹的根節(jié)點(diǎn)開始遍歷，我們可以以下面這個(gè)實(shí)例來表示：

<!DOCTYPE html>
<html>
  <head>
    <meta name="viewport" content="width=device-width,initial-scale=1">
    <title>Critial Path: Hello world!</title>
  </head>
  <body>
    <div style="width: 50%">
      <div style="width: 50%">Hello world!</div>
    </div>
  </body>
</html>

我們可以看到，第一個(gè)div將節(jié)點(diǎn)的顯示尺寸設(shè)置為視口寬度的50%，第二個(gè)div將其尺寸設(shè)置為父節(jié)點(diǎn)的50%。而在回流這個(gè)階段，我們就需要根據(jù)視口具體的寬度，將其轉(zhuǎn)為實(shí)際的像素值。（如下圖）

重繪

最終，我們通過構(gòu)造渲染樹和回流階段，我們知道了哪些節(jié)點(diǎn)是可見的，以及可見節(jié)點(diǎn)的樣式和具體的幾何信息(位置、大小)，那么我們就可以將渲染樹的每個(gè)節(jié)點(diǎn)都轉(zhuǎn)換為屏幕上的實(shí)際像素，這個(gè)階段就叫做重繪節(jié)點(diǎn)。

既然知道了瀏覽器的渲染過程后，我們就來探討下，何時(shí)會(huì)發(fā)生回流重繪。

何時(shí)發(fā)生回流重繪

我們前面知道了，回流這一階段主要是計(jì)算節(jié)點(diǎn)的位置和幾何信息，那么當(dāng)頁面布局和幾何信息發(fā)生變化的時(shí)候，就需要回流。

比如以下情況發(fā)生回流：

根據(jù)改變的范圍和程度，渲染樹中或大或小的部分需要重新計(jì)算，有些改變會(huì)觸發(fā)整個(gè)頁面的重排，比如，滾動(dòng)條出現(xiàn)的時(shí)候或者修改了根節(jié)點(diǎn)。

頁面一開始渲染的時(shí)候（這肯定避免不了）
瀏覽器的窗口尺寸變化（因?yàn)榛亓魇歉鶕?jù)視口的大小來計(jì)算元素的位置和大小的）
添加或刪除可見的DOM元素
元素的位置發(fā)生變化
元素的尺寸發(fā)生變化（包括外邊距、內(nèi)邊框、邊框大小、高度和寬度等）
內(nèi)容發(fā)生變化，比如文本變化或圖片被另一個(gè)不同尺寸的圖片所替代。
元素字體大小變化
激活CSS偽類（例如：:hover）

一些常用且會(huì)導(dǎo)致回流的屬性和方法：

clientWidth、clientHeight、clientTop、clientLeft
offsetWidth、offsetHeight、offsetTop、offsetLeft
scrollWidth、scrollHeight、scrollTop、scrollLeft
scrollIntoView()、scrollIntoViewIfNeeded()
getComputedStyle()
getBoundingClientRect()
scrollTo()

以下情況發(fā)生重繪而不回流

當(dāng)頁面中元素樣式的改變并不影響它在文檔流中的位置時(shí)（例如：color、background-color、visibility等），瀏覽器會(huì)將新樣式賦予給元素并重新繪制它，這個(gè)過程重繪而不回流。

注意：回流一定會(huì)觸發(fā)重繪，而重繪不一定會(huì)回流

性能影響

回流比重繪的代價(jià)要更高。

有時(shí)即使僅僅回流一個(gè)單一的元素，它的父元素以及任何跟隨它的元素也會(huì)產(chǎn)生回流。

瀏覽器優(yōu)化機(jī)制

現(xiàn)代瀏覽器會(huì)對頻繁的回流或重繪操作進(jìn)行優(yōu)化：

瀏覽器會(huì)維護(hù)一個(gè)隊(duì)列，把所有引起回流和重繪的操作放入隊(duì)列中，如果隊(duì)列中的任務(wù)數(shù)量或者時(shí)間間隔達(dá)到一個(gè)閾值的，瀏覽器就會(huì)將隊(duì)列清空，進(jìn)行一次批處理，這樣可以把多次回流和重繪變成一次。

當(dāng)你訪問以下屬性或方法時(shí)，瀏覽器會(huì)立刻清空隊(duì)列：

clientWidth、clientHeight、clientTop、clientLeft
offsetWidth、offsetHeight、offsetTop、offsetLeft
scrollWidth、scrollHeight、scrollTop、scrollLeft
width、height
getComputedStyle()
getBoundingClientRect()

因為隊(duì)列中可能會(huì)有影響到這些屬性或方法返回值的操作，即使你希望獲取的信息與隊(duì)列中操作引發(fā)的改變無關(guān)，瀏覽器也會(huì)強(qiáng)行清空隊(duì)列，確保你拿到的值是最精確的。

以上屬性和方法都需要返回最新的布局信息，因此瀏覽器不得不清空隊(duì)列，觸發(fā)回流重繪來返回正確的值。因此，我們在修改樣式的時(shí)候，最好避免使用上面列出的屬性，他們都會(huì)刷新渲染隊(duì)列。如果要使用它們，最好將值緩存起來。

減少回流和重繪

使用 transform 替代 top
使用 visibility 替換 display: none ，因?yàn)榍罢咧粫?huì)引起重繪，后者會(huì)引發(fā)回流（改變了布局）
不要把節(jié)點(diǎn)的屬性值放在一個(gè)循環(huán)里當(dāng)成循環(huán)里的變量。
不要使用 table 布局，可能很小的一個(gè)小改動(dòng)會(huì)造成整個(gè) table 的重新布局
動(dòng)畫實(shí)現(xiàn)的速度的選擇，動(dòng)畫速度越快，回流次數(shù)越多，也可以選擇使用 requestAnimationFrame
CSS 選擇符從右往左匹配查找，避免節(jié)點(diǎn)層級(jí)過多
將頻繁重繪或者回流的節(jié)點(diǎn)設(shè)置為圖層，圖層能夠阻止該節(jié)點(diǎn)的渲染行為影響別的節(jié)點(diǎn)。比如對于 video 標(biāo)簽來說，瀏覽器會(huì)自動(dòng)將該節(jié)點(diǎn)變?yōu)閳D層。

最小化回流和重繪

由于回流和重繪可能代價(jià)比較昂貴，因此最好就是可以減少它的發(fā)生次數(shù)。為了減少發(fā)生次數(shù)，我們可以合并多次對DOM和樣式的修改，然后一次處理掉。考慮這個(gè)例子

const el = document.getElementById('test');
el.style.padding = '5px';
el.style.borderLeft = '1px';
el.style.borderRight = '2px';

例子中，有三個(gè)樣式屬性被修改了，每一個(gè)都會(huì)影響元素的幾何結(jié)構(gòu)，引起回流。當(dāng)然，大部分現(xiàn)代瀏覽器都對其做了優(yōu)化，因此，只會(huì)觸發(fā)一次重排。但是如果在舊版的瀏覽器或者在上面代碼執(zhí)行的時(shí)候，有其他代碼訪問了布局信息(上文中的會(huì)觸發(fā)回流的布局信息)，那么就會(huì)導(dǎo)致三次重排。

因此，我們可以合并所有的改變?nèi)缓笠来翁幚恚热缥覀兛梢圆扇∫韵碌姆绞剑?/p>

1.使用cssText

const el = document.getElementById('test');
el.style.cssText += 'border-left: 1px; border-right: 2px; padding: 5px;';

2.使用class, 把css樣式用個(gè)class包住，修改CSS的class.active{ border-left: 1px; border-right: 2px; padding: 5px; }

const el = document.getElementById('test');
el.className += ' active';

批量修改DOM

當(dāng)我們需要對DOM對一系列修改的時(shí)候，可以通過以下步驟減少回流重繪次數(shù)：

使元素脫離文檔流
對其進(jìn)行多次修改
將元素帶回到文檔中。

該過程的第一步和第三步可能會(huì)引起回流，但是經(jīng)過第一步之后，對DOM的所有修改都不會(huì)引起回流，因?yàn)樗呀?jīng)不在渲染樹了。

有三種方式可以讓DOM脫離文檔流：

隱藏元素，應(yīng)用修改，重新顯示
使用文檔片段(document fragment)在當(dāng)前DOM之外構(gòu)建一個(gè)子樹，再把它拷貝回文檔。
將原始元素拷貝到一個(gè)脫離文檔的節(jié)點(diǎn)中，修改節(jié)點(diǎn)后，再替換原始的元素。

下面來個(gè)例子演示下

我們要執(zhí)行一段批量插入節(jié)點(diǎn)的代碼：

function appendDataToElement(appendToElement, data) {
    let li;
    for (let i = 0; i < data.length; i++) {
        li = document.createElement('li');
        li.textContent = 'text';
        appendToElement.appendChild(li);
    }
}

const ul = document.getElementById('list');
appendDataToElement(ul, data);

如果我們直接這樣執(zhí)行的話，由于每次循環(huán)都會(huì)插入一個(gè)新的節(jié)點(diǎn)，會(huì)導(dǎo)致瀏覽器回流一次。

我們可以使用這三種方式進(jìn)行優(yōu)化:

隱藏元素，應(yīng)用修改，重新顯示

第一種方法：隱藏元素，這個(gè)會(huì)在展示和隱藏節(jié)點(diǎn)的時(shí)候，產(chǎn)生兩次重繪

function appendDataToElement(appendToElement, data) {
    let li;
    for (let i = 0; i < data.length; i++) {
        li = document.createElement('li');
        li.textContent = 'text';
        appendToElement.appendChild(li);
    }
}
const ul = document.getElementById('list');
ul.style.display = 'none';
appendDataToElement(ul, data);
ul.style.display = 'block';

第二種：使用文檔片段(document fragment)在當(dāng)前DOM之外構(gòu)建一個(gè)子樹，再把它拷貝回文檔

const ul = document.getElementById('list');
const fragment = document.createDocumentFragment();
appendDataToElement(fragment, data);
ul.appendChild(fragment);

第三種：將原始元素拷貝到一個(gè)脫離文檔的節(jié)點(diǎn)中，修改節(jié)點(diǎn)后，再替換原始的元素。

const ul = document.getElementById('list');
const clone = ul.cloneNode(true);
appendDataToElement(clone, data);
ul.parentNode.replaceChild(clone, ul);

避免觸發(fā)同步布局事件

上文我們說過，當(dāng)我們訪問元素的一些屬性的時(shí)候，會(huì)導(dǎo)致瀏覽器強(qiáng)制清空隊(duì)列，進(jìn)行強(qiáng)制同步布局。舉個(gè)例子，比如說我們想將一個(gè)p標(biāo)簽數(shù)組的寬度賦值為一個(gè)元素的寬度，我們可能寫出這樣的代碼：

function initP() {
    for (let i = 0; i < paragraphs.length; i++) {
        paragraphs[i].style.width = box.offsetWidth + 'px';
    }
}

這段代碼看上去是沒有什么問題，可是其實(shí)會(huì)造成很大的性能問題。在每次循環(huán)的時(shí)候，都讀取了box的一個(gè)offsetWidth屬性值，然后利用它來更新p標(biāo)簽的width屬性。這就導(dǎo)致了每一次循環(huán)的時(shí)候，瀏覽器都必須先使上一次循環(huán)中的樣式更新操作生效，才能響應(yīng)本次循環(huán)的樣式讀取操作。每一次循環(huán)都會(huì)強(qiáng)制瀏覽器刷新隊(duì)列。我們可以優(yōu)化為:

const width = box.offsetWidth;
function initP() {
    for (let i = 0; i < paragraphs.length; i++) {
        paragraphs[i].style.width = width + 'px';
    }
}

對于復(fù)雜動(dòng)畫效果,使用絕對定位讓其脫離文檔流

對于復(fù)雜動(dòng)畫效果，由于會(huì)經(jīng)常的引起回流重繪，因此，我們可以使用絕對定位，讓它脫離文檔流。否則會(huì)引起父元素以及后續(xù)元素頻繁的回流。這個(gè)我們就直接上個(gè)例子。

打開這個(gè)例子后，我們可以打開控制臺(tái)，控制臺(tái)上會(huì)輸出當(dāng)前的幀數(shù)(雖然不準(zhǔn))。

從例子中，我們可以看到，幀數(shù)一直都沒到60。這個(gè)時(shí)候，只要我們點(diǎn)擊一下那個(gè)按鈕，把這個(gè)元素設(shè)置為絕對定位，幀數(shù)就可以穩(wěn)定60。

css3硬件加速（GPU加速）

比起考慮如何減少回流重繪，我們更期望的是，根本不要回流重繪。這個(gè)時(shí)候，css3硬件加速就閃亮登場啦！！

劃重點(diǎn)：使用css3硬件加速，可以讓transform、opacity、filters這些動(dòng)畫不會(huì)引起回流重繪。但是對于動(dòng)畫的其它屬性，比如background-color這些，還是會(huì)引起回流重繪的，不過它還是可以提升這些動(dòng)畫的性能。

如何使用css3硬件加速（GPU加速）

常見的觸發(fā)硬件加速的css3屬性：

transform
opacity
filters
Will-change

css3硬件加速的坑

如果你為太多元素使用css3硬件加速，會(huì)導(dǎo)致內(nèi)存占用較大，會(huì)有性能問題。
在GPU渲染字體會(huì)導(dǎo)致抗鋸齒無效。這是因?yàn)镚PU和CPU的算法不同。因此如果你不在動(dòng)畫結(jié)束的時(shí)候關(guān)閉硬件加速，會(huì)產(chǎn)生字體模糊。

幾點(diǎn)補(bǔ)充說明

1.async和defer的作用是什么？有什么區(qū)別?

接下來我們對比下 defer 和 async 屬性的區(qū)別：

其中藍(lán)色線代表JavaScript加載；紅色線代表JavaScript執(zhí)行；綠色線代表 HTML 解析。

1）情況1<script src="script.js"></script>

沒有 defer 或 async，瀏覽器會(huì)立即加載并執(zhí)行指定的腳本，也就是說不等待后續(xù)載入的文檔元素，讀到就加載并執(zhí)行。

2）情況2 <script defer src="script.js"></script>(延遲執(zhí)行)

defer 屬性表示延遲執(zhí)行引入的 JavaScript，即這段 JavaScript 加載時(shí) HTML 并未停止解析，這兩個(gè)過程是并行的。整個(gè) document 解析完畢且 defer-script 也加載完成之后（這兩件事情的順序無關(guān)），會(huì)執(zhí)行所有由 defer-script 加載的 JavaScript 代碼，然后觸發(fā) DOMContentLoaded 事件。

3）情況3<script async src="script.js"></script> (異步下載)

async 屬性表示異步執(zhí)行引入的 JavaScript，與 defer 的區(qū)別在于，如果已經(jīng)加載好，就會(huì)開始執(zhí)行——無論此刻是 HTML 解析階段還是 DOMContentLoaded 觸發(fā)之后。需要注意的是，這種方式加載的 JavaScript 依然會(huì)阻塞 load 事件。換句話說，async-script 可能在 DOMContentLoaded 觸發(fā)之前或之后執(zhí)行，但一定在 load 觸發(fā)之前執(zhí)行。

defer 與相比普通 script，有兩點(diǎn)區(qū)別：載入 JavaScript 文件時(shí)不阻塞 HTML 的解析，執(zhí)行階段被放到 HTML 標(biāo)簽解析完成之后。在加載多個(gè)JS腳本的時(shí)候，async是無順序的加載，而defer是有順序的加載。

2.為什么操作DOM慢

把 DOM 和 JavaScript 各自想象成一個(gè)島嶼，它們之間用收費(fèi)橋梁連接。——《高性能 JavaScript》

JS是很快的，在JS中修改DOM對象也是很快的。在JS的世界里，一切是簡單的、迅速的。但DOM操作并非JS一個(gè)人的獨(dú)舞，而是兩個(gè)模塊之間的協(xié)作。

因?yàn)镈OM是屬于渲染引擎中的東西，而 JS 又是JS引擎中的東西。當(dāng)我們用JS去操作DOM時(shí)，本質(zhì)上是JS引擎和渲染引擎之間進(jìn)行了“跨界交流”。這個(gè)“跨界交流”的實(shí)現(xiàn)并不簡單，它依賴了橋接接口作為“橋梁”（如下圖）。

過“橋”要收費(fèi)——這個(gè)開銷本身就是不可忽略的。我們每操作一次DOM（不管是為了修改還是僅僅為了訪問其值），都要過一次“橋”。過“橋”的次數(shù)一多，就會(huì)產(chǎn)生比較明顯的性能問題。因此“減少 DOM 操作”的建議，并非空穴來風(fēng)。

性能優(yōu)化策略

基于上面介紹的瀏覽器渲染原理，DOM 和 CSSOM 結(jié)構(gòu)構(gòu)建順序，初始化可以對頁面渲染做些優(yōu)化，提升頁面性能。

JS優(yōu)化： <script> 標(biāo)簽加上 defer屬性和 async屬性用于在不阻塞頁面文檔解析的前提下，控制腳本的下載和執(zhí)行。 defer屬性：用于開啟新的線程下載腳本文件，并使腳本在文檔解析完成后執(zhí)行。 async屬性： HTML5新增屬性，用于異步下載腳本文件，下載完畢立即解釋執(zhí)行代碼。
CSS優(yōu)化：<link>標(biāo)簽的 rel屬性中的屬性值設(shè)置為 preload 能夠讓你在你的HTML頁面中可以指明哪些資源是在頁面加載完成后即刻需要的,最優(yōu)的配置加載順序，提高渲染性能

總結(jié)

綜上所述，我們得出這樣的結(jié)論：

瀏覽器工作流程：構(gòu)建DOM -> 構(gòu)建CSSOM -> 構(gòu)建渲染樹 -> 布局 -> 繪制。
CSSOM會(huì)阻塞渲染，只有當(dāng)CSSOM構(gòu)建完畢后才會(huì)進(jìn)入下一個(gè)階段構(gòu)建渲染樹。
通常情況下DOM和CSSOM是并行構(gòu)建的，但是當(dāng)瀏覽器遇到一個(gè)不帶defer或async屬性的script標(biāo)簽時(shí)，DOM構(gòu)建將暫停，如果此時(shí)又恰巧瀏覽器尚未完成CSSOM的下載和構(gòu)建，由于JavaScript可以修改CSSOM，所以需要等CSSOM構(gòu)建完畢后再執(zhí)行JS，最后才重新DOM構(gòu)建。

做 Web 自動(dòng)化時(shí)，最根本的就是操作頁面上的元素，首先要能找到這些元素，然后才能操作這些元素。工具或代碼無法像測試人員一樣用肉眼來分辨頁面上的元素。那么要如何定位到這些元素，本章會(huì)介紹各種定位元素的方法。

實(shí)戰(zhàn)演示

Selenium 自帶 id 定位，可以通過元素的 id 屬性進(jìn)行定位，比如下面的代碼：

Python 版本

driver.find_element_by_id('kw')

Java 版本

driver.findElement(By.id("kw"));

Selenium 自帶 name 定位，可以通過元素的 name 屬性進(jìn)行定位，比如下面的代碼：

Python 版本

driver.find_element_by_name('wd')

Java 版本

driver.findElement(By.name("wd"));

注意：通常來說 name 屬性與 id 屬性在頁面中唯一，推薦使用這兩個(gè)屬性進(jìn)行定位。

XPath 是一個(gè)定位語言，英文全稱為：XML Path Language，用來對 XML 上的元素進(jìn)行定位，但也適用于 HTML。下面來看一個(gè)例子：

要定位的元素是百度首頁的搜索輸入框

首先尋找 id 為 form 的 form 元素，然后再尋找它的子元素 span，span 的 class 屬性為 bg s_ipt_wr quickdelete-wrap，最后找 span 的子元素 input：

Python 版本

driver.find_element_by_xpath\
    ("//form[@id='form']/span[@class='bg s_ipt_wr quickdelete-wrap']/input")

Java 版本

driver.findElement(By.xpath("//form[@id='form']/span[@class='bg s_ipt_wr quickdelete-wrap']/input"));

下面的定位也可以找到這個(gè) input，請注意，這里使用了雙斜杠//，它可以找到子孫節(jié)點(diǎn)，而但斜杠/只能找到子節(jié)點(diǎn)：

Python 版本

driver.find_element_by_xpath("//form[@id='form']//input[@id='kw']")

Java 版本

driver.findElement(By.xpath("//form[@id='form']//input[@id='kw']"));

XPath 表達(dá)式更多內(nèi)容可參考下面表格：

如何檢驗(yàn) XPath 定位是否正確？可以使用 chrome 的檢查模式 → Console，輸入$x(‘XPath 表達(dá)式’)即可，例如：

XPath 可以定位絕大多數(shù)元素，但是XPath采用從上到下的遍歷模式，速度并不快，而 css_selector 采用樣式定位，速度要優(yōu)于 XPath，而且語法更簡潔：

下面是 Selenium 使用 css_selector 的例子：

css_selector 找到 class 屬性為 active 的元素，然后 > 表示找 class 屬性為 active 的元素的子節(jié)點(diǎn)

Python 版本

driver.find_element_by_css_selector('.logo-big')

Java 版本

driver.findElement(By.cssSelector(".logo-big"));

下表列出了常用的 css_selector 表達(dá)式的用法：

使用 Chrome 的檢查模式 → Console 也可以在當(dāng)前頁面檢測 css_selector 是否正確，輸入$(‘css selector 表達(dá)式’)即可：

元素中會(huì)出現(xiàn)文字，比如下面的分類，可以利用這段文字進(jìn)行定位：

Python 版本

driver.find_element_by_link_text('歡迎光臨霍格沃茲測試學(xué)院')

Java 版本

driver.findElement(By.linkText("歡迎光臨霍格沃茲測試學(xué)院"));

也可以采用部分匹配方式，不必寫全：“歡迎光臨”、“歡迎光臨霍格沃茲測試學(xué)院”、“霍格沃茲”

Python 版本

driver.find_element_by_partial_link_text('霍格沃茲測試學(xué)院')

Java 版本

driver.findElement(By.partialLinkText("霍格沃茲測試學(xué)院"));

注意：partial_link_text 與 link_text 的區(qū)別：

partial_link_text 不用寫全，只需寫部分即可，比如上面使用“霍格沃茲”即可匹配到“歡迎光臨霍格沃茲測試學(xué)院”。

DOM 結(jié)構(gòu)中，元素都有自己的 tag，比如 input tag, button tag, anchor tag 等等，每一個(gè) tag 擁有多個(gè)屬性，比如 id, name, value class,等等。下面的高亮部分就是 tag：

可以使用 tag 進(jìn)行定位:

Python 版本

driver.find_element_by_tag_name('input')

Java 版本

driver.findElement(By.tagName("input"));

注意：盡量避免使用 tag_name 定位元素，因?yàn)橛写罅恐貜?fù)的元素！

可以通過元素的 class 屬性值進(jìn)行定位：

這里的 active 用的就是上圖 class 的值

Python 版本

driver.find_element_by_class_name('active')

Java 版本

driver.findElement(By.className("active"));

ID/Name 是最安全的定位選項(xiàng)。根據(jù) W3C 標(biāo)準(zhǔn)，它在頁面中是唯一的，ID 在樹結(jié)構(gòu)中也是唯一的。
CSS Selector 語法簡潔，搜索速度快于 XPath。
XPath 定位功能強(qiáng)大，采用遍歷搜索，速度略慢。
link，class name， tag name：不推薦使用，無法精準(zhǔn)定位。

常見操作

Selenium 常見操作有：

輸入、點(diǎn)擊、清除
關(guān)閉窗口、瀏覽器
獲取元素屬性
獲取網(wǎng)頁源代碼、刷新頁面
設(shè)置窗口大小

輸入、點(diǎn)擊、清除在 Selenium 中對應(yīng)的方法分別是 send_keys、click、clear

Python 版本

from selenium import webdriver

driver = webdriver.Chrome()
driver.get('http"//www.baidu.com')
driver.find_element_by_name('wd').send_keys('霍格沃茲測試學(xué)院')
driver.find_element_by_id('su').click()
driver.find_element_by_name('wd').clear()

Java 版本

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;

public class AiceTest {
    public static void main(String[] args) {

        WebDriver driver = new ChromeDriver();
        driver.get("http://www.baidu.com");
        driver.findElement(By.id("kw")).sendKeys("霍格沃茲測試學(xué)院");
        driver.findElement(By.id("su")).click();
        driver.findElement(By.name("wd")).clear();
        try {
            Thread.sleep(2000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        String title = driver.getTitle();
        System.out.println(title);
        driver.close();
    }
}

關(guān)閉當(dāng)前句柄窗口（不關(guān)閉進(jìn)程）close()，關(guān)閉整個(gè)瀏覽器進(jìn)程 quit()

Python 版本

#導(dǎo)入對應(yīng)的依賴
from selenium import webdriver
#初始化webdriver
driver = webdriver.Chrome()
#訪問網(wǎng)站
driver.get('http"//www.baidu.com')
#關(guān)閉當(dāng)前窗口
driver.close()
#關(guān)閉瀏覽器
driver.quit()

Java 版本

//導(dǎo)入對應(yīng)的依賴
import org.openqa.selenium.WebDriver;
//初始化webdriver
WebDriver driver = new ChromeDriver();
//訪問網(wǎng)站
driver.get("http://www.baidu.com");
//關(guān)閉當(dāng)前窗口
driver.close();
//關(guān)閉瀏覽器
driver.quit();

獲取元素標(biāo)簽上的屬性 get_attribute(‘value’)，元素的坐標(biāo) location，元素的大小 size

Python 版本

import logging
from selenium import webdriver

def test_baidu():
    driver = webdriver.Chrome()
    driver.get('https://www.baidu.com')
    search = driver.find_element_by_id('su')
    logging.basicConfig(level=logging.INFO)
    logging.info(search.get_attribute('value'))
    #獲取search的value屬性值并打印
    logging.info(search.get_attribute('value'))
    #打印search的位置坐標(biāo)
    logging.info(search.location)
    #打印search的元素大小
    logging.info(search.size)

輸出結(jié)果為：

INFO:root:百度一下
INFO:root:百度一下
INFO:root:{'x': 844, 'y': 188}
INFO:root:{'height': 44, 'width': 108}

Java 版本

@Test
    void baiduTest(){
        webDriver = new ChromeDriver();
        webDriver.get("https://www.baidu.com/");
        WebElement search = webDriver.findElement(By.id("su"));
        //獲取search的value屬性值并打印
        System.out.println(search.getAttribute("value"));
        //打印search的位置坐標(biāo)
        System.out.println(search.getLocation());
        //打印search的元素大小
        System.out.println(search.getSize());
    }

輸出結(jié)果為：

百度一下
(902, 188)
(108, 44)

Python 版本

網(wǎng)頁源代碼 page_source，刷新頁面 refresh()

import logging
from selenium import webdriver

driver = webdriver.Chrome()
driver.get('http"//www.baidu.com')
#刷新頁面
driver.refresh()
logging.basicConfig(level=logging.INFO)
#打印當(dāng)前頁面的源代碼
logging.info(driver.page_source)

Java 版本

WebDriver webDriver = new ChromeDriver();
webDriver.get("https://www.baidu.com/");
//刷新頁面
webDriver.navigate().refresh();
System.out.println(webDriver.getPageSource());

設(shè)置窗口大小主要有最小化、最大化和自定義設(shè)置窗口具體的大小。

Python版本

from selenium import webdriver

driver = webdriver.Chrome()
driver.get('http"//www.baidu.com')
#最小化窗口
driver.minimize_window()
#最大化窗口
driver.maximize_window()
#將瀏覽器設(shè)置為1000*1000的大小
driver.set_window_size(1000, 1000)

Java版本

import org.openqa.selenium.Dimension;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;

import static java.lang.Thread.sleep;

public class AiceTest {
    public static void main(String[] args) throws InterruptedException {
        WebDriver driver = new ChromeDriver();
        driver.get("http://www.baidu.com");
        //設(shè)置窗口最大化
        driver.manage().window().maximize();
        //瀏覽器的設(shè)定大小
        sleep(2000);
        Dimension dimension = new Dimension(800, 600);
        driver.manage().window().setSize(dimension);
        sleep(2000);
        //瀏覽器全屏
        driver.manage().window().fullscreen();
        sleep(2000);
        driver.close();

    }
}

大家是不是對web控件的定位有了進(jìn)一步的了解了呀？來跟著示例一起練習(xí)起來吧~

動(dòng)學(xué)習(xí)(Active Learning)綜述以及在文本分類和序列標(biāo)注應(yīng)用項(xiàng)目鏈接fork一下，含實(shí)踐程序，因篇幅有限就沒放在本博客中，如有需求請自行fork https://aistudio.baidu.com/aistudio/projectdetail/4897371?contributionType=1

0.引言

在機(jī)器學(xué)習(xí)(Machine learning)領(lǐng)域，監(jiān)督學(xué)習(xí)(Supervised learning)、非監(jiān)督學(xué)習(xí)(Unsupervised learning)以及半監(jiān)督學(xué)習(xí)(Semi-supervised learning)是三類研究比較多，應(yīng)用比較廣的學(xué)習(xí)技術(shù)，wiki上對這三種學(xué)習(xí)的簡單描述如下：

監(jiān)督學(xué)習(xí)：通過已有的一部分輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的對應(yīng)關(guān)系，生成一個(gè)函數(shù)，將輸入映射到合適的輸出，例如分類。
非監(jiān)督學(xué)習(xí)：直接對輸入數(shù)據(jù)集進(jìn)行建模，例如聚類。
半監(jiān)督學(xué)習(xí)：綜合利用有類標(biāo)的數(shù)據(jù)和沒有類標(biāo)的數(shù)據(jù)，來生成合適的分類函數(shù)。

其實(shí)很多機(jī)器學(xué)習(xí)都是在解決類別歸屬的問題，即給定一些數(shù)據(jù)，判斷每條數(shù)據(jù)屬于哪些類，或者和其他哪些數(shù)據(jù)屬于同一類等等。這樣，如果我們上來就對這一堆數(shù)據(jù)進(jìn)行某種劃分(聚類)，通過數(shù)據(jù)內(nèi)在的一些屬性和聯(lián)系，將數(shù)據(jù)自動(dòng)整理為某幾類，這就屬于非監(jiān)督學(xué)習(xí)。如果我們一開始就知道了這些數(shù)據(jù)包含的類別，并且有一部分?jǐn)?shù)據(jù)(訓(xùn)練數(shù)據(jù))已經(jīng)標(biāo)上了類標(biāo)，我們通過對這些已經(jīng)標(biāo)好類標(biāo)的數(shù)據(jù)進(jìn)行歸納總結(jié)，得出一個(gè) “數(shù)據(jù)-->類別” 的映射函數(shù)，來對剩余的數(shù)據(jù)進(jìn)行分類，這就屬于監(jiān)督學(xué)習(xí)。而半監(jiān)督學(xué)習(xí)指的是在訓(xùn)練數(shù)據(jù)十分稀少的情況下，通過利用一些沒有類標(biāo)的數(shù)據(jù)，提高學(xué)習(xí)準(zhǔn)確率的方法。

我們使用一些傳統(tǒng)的監(jiān)督學(xué)習(xí)方法做分類的時(shí)候，往往是訓(xùn)練樣本規(guī)模越大，分類的效果就越好。但是在現(xiàn)實(shí)生活的很多場景中，標(biāo)記樣本地獲取是比較困難的，這需要領(lǐng)域內(nèi)的專家來進(jìn)行人工標(biāo)注，所花費(fèi)的時(shí)間成本和經(jīng)濟(jì)成本都是很大的。而且，如果訓(xùn)練樣本的規(guī)模過于龐大，訓(xùn)練的時(shí)間花費(fèi)也會(huì)比較多。那么有沒有辦法，能夠使用較少的訓(xùn)練樣本來獲得性能較好的分類器呢？主動(dòng)學(xué)習(xí)(Active Learning)為我們提供了這種可能。主動(dòng)學(xué)習(xí)通過一定的算法查詢最有用的未標(biāo)記樣本，并交由專家進(jìn)行標(biāo)記，然后用查詢到的樣本訓(xùn)練分類模型來提高模型的精確度。

1.主動(dòng)學(xué)習(xí)簡介

主動(dòng)學(xué)習(xí)是指對需要標(biāo)記的數(shù)據(jù)進(jìn)行優(yōu)先排序的過程，這樣可以確定哪些數(shù)據(jù)對訓(xùn)練監(jiān)督模型產(chǎn)生最大的影響。
主動(dòng)學(xué)習(xí)是一種學(xué)習(xí)算法可以交互式查詢用戶(teacher 或 oracle)，用真實(shí)標(biāo)簽標(biāo)注新數(shù)據(jù)點(diǎn)的策略。主動(dòng)學(xué)習(xí)的過程也被稱為優(yōu)化實(shí)驗(yàn)設(shè)計(jì)。
主動(dòng)學(xué)習(xí)的動(dòng)機(jī)在于認(rèn)識(shí)到并非所有標(biāo)有標(biāo)簽的樣本都同等重要。

主動(dòng)學(xué)習(xí)是一種策略/算法，是對現(xiàn)有模型的增強(qiáng)。而不是新模型架構(gòu)。主動(dòng)學(xué)習(xí)背后的關(guān)鍵思想是，如果允許機(jī)器學(xué)習(xí)算法選擇它學(xué)習(xí)的數(shù)據(jù)，這樣就可以用更少的訓(xùn)練標(biāo)簽實(shí)現(xiàn)更高的準(zhǔn)確性。——Active Learning Literature Survey, Burr Settles。通過為專家的標(biāo)記工作進(jìn)行優(yōu)先級(jí)排序可以大大減少訓(xùn)練模型所需的標(biāo)記數(shù)據(jù)量。降低成本，同時(shí)提高準(zhǔn)確性。

主動(dòng)學(xué)習(xí)不是一次為所有的數(shù)據(jù)收集所有的標(biāo)簽，而是對模型理解最困難的數(shù)據(jù)進(jìn)行優(yōu)先級(jí)排序，并僅對那些數(shù)據(jù)要求標(biāo)注標(biāo)簽。然后模型對少量已標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練，訓(xùn)練完成后再次要求對最不確定數(shù)據(jù)進(jìn)行更多的標(biāo)記。

通過對不確定的樣本進(jìn)行優(yōu)先排序，模型可以讓專家（人工）集中精力提供最有用的信息。這有助于模型更快地學(xué)習(xí)，并讓專家跳過對模型沒有太大幫助的數(shù)據(jù)。這樣在某些情況下，可以大大減少需要從專家那里收集的標(biāo)簽數(shù)量，并且仍然可以得到一個(gè)很好的模型。這樣可以為機(jī)器學(xué)習(xí)項(xiàng)目節(jié)省時(shí)間和金錢!

1.1 active learning的基本思想

主動(dòng)學(xué)習(xí)的模型如下:

A=(C,Q,S,L,U)，

其中 C 為一組或者一個(gè)分類器，L是用于訓(xùn)練已標(biāo)注的樣本。Q 是查詢函數(shù)，用于從未標(biāo)注樣本池U中查詢信息量大的信息，S是督導(dǎo)者，可以為U中樣本標(biāo)注正確的標(biāo)簽。學(xué)習(xí)者通過少量初始標(biāo)記樣本L開始學(xué)習(xí)，通過一定的查詢函數(shù)Q選擇出一個(gè)或一批最有用的樣本，并向督導(dǎo)者詢問標(biāo)簽，然后利用獲得的新知識(shí)來訓(xùn)練分類器和進(jìn)行下一輪查詢。主動(dòng)學(xué)習(xí)是一個(gè)循環(huán)的過程，直至達(dá)到某一停止準(zhǔn)則為止。 這個(gè)準(zhǔn)則可以是迭代次數(shù)，也可以是準(zhǔn)確率等指標(biāo)達(dá)到設(shè)定值

在各種主動(dòng)學(xué)習(xí)方法中，查詢函數(shù)的設(shè)計(jì)最常用的策略是：不確定性準(zhǔn)則（uncertainty）和差異性準(zhǔn)則（diversity）。 不確定性越大代表信息熵越大，包含的信息越豐富；而差異性越大代表選擇的樣本能夠更全面地代表整個(gè)數(shù)據(jù)集。

對于不確定性，我們可以借助信息熵的概念來進(jìn)行理解。我們知道信息熵是衡量信息量的概念，也是衡量不確定性的概念。信息熵越大，就代表不確定性越大，包含的信息量也就越豐富。事實(shí)上，有些基于不確定性的主動(dòng)學(xué)習(xí)查詢函數(shù)就是使用了信息熵來設(shè)計(jì)的，比如熵值裝袋查詢（Entropy query-by-bagging）。所以，不確定性策略就是要想方設(shè)法地找出不確定性高的樣本，因?yàn)檫@些樣本所包含的豐富信息量，對我們訓(xùn)練模型來說就是有用的。

那么差異性怎么來理解呢？之前說到或查詢函數(shù)每次迭代中查詢一個(gè)或者一批樣本。我們當(dāng)然希望所查詢的樣本提供的信息是全面的，各個(gè)樣本提供的信息不重復(fù)不冗余，即樣本之間具有一定的差異性。在每輪迭代抽取單個(gè)信息量最大的樣本加入訓(xùn)練集的情況下，每一輪迭代中模型都被重新訓(xùn)練，以新獲得的知識(shí)去參與對樣本不確定性的評估可以有效地避免數(shù)據(jù)冗余。但是如果每次迭代查詢一批樣本，那么就應(yīng)該想辦法來保證樣本的差異性，避免數(shù)據(jù)冗余。

從上圖也可以看出來，在相同數(shù)目的標(biāo)注數(shù)據(jù)中，主動(dòng)學(xué)習(xí)算法比監(jiān)督學(xué)習(xí)算法的分類誤差要低。這里注意橫軸是標(biāo)注數(shù)據(jù)的數(shù)目，對于主動(dòng)學(xué)習(xí)而言，相同的標(biāo)注數(shù)據(jù)下，主動(dòng)學(xué)習(xí)的樣本數(shù)>監(jiān)督學(xué)習(xí)，這個(gè)對比主要是為了說明兩者對于訓(xùn)練樣本的使用效率不同：主動(dòng)學(xué)習(xí)訓(xùn)練使用的樣本都是經(jīng)過算法篩選出來對于模型訓(xùn)練有幫助的數(shù)據(jù)，所以效率高。但是如果是相同樣本的數(shù)量下去對比兩者的誤差，那肯定是監(jiān)督學(xué)習(xí)占優(yōu)，這是毋庸置疑的。

1.2active learning與半監(jiān)督學(xué)習(xí)的不同

　　很多人認(rèn)為主動(dòng)學(xué)習(xí)也屬于半監(jiān)督學(xué)習(xí)的范疇了，但實(shí)際上是不一樣的，半監(jiān)督學(xué)習(xí)和直推學(xué)習(xí)(transductive learning)以及主動(dòng)學(xué)習(xí)，都屬于利用未標(biāo)記數(shù)據(jù)的學(xué)習(xí)技術(shù)，但基本思想還是有區(qū)別的。

　　如上所述，主動(dòng)學(xué)習(xí)的“主動(dòng)”，指的是主動(dòng)提出標(biāo)注請求，也就是說，還是需要一個(gè)外在的能夠?qū)ζ湔埱筮M(jìn)行標(biāo)注的實(shí)體(通常就是相關(guān)領(lǐng)域人員)，即主動(dòng)學(xué)習(xí)是交互進(jìn)行的。

　　而半監(jiān)督學(xué)習(xí)，特指的是學(xué)習(xí)算法不需要人工的干預(yù)，基于自身對未標(biāo)記數(shù)據(jù)加以利用。

2.主動(dòng)學(xué)習(xí)基礎(chǔ)策略(小試牛刀)

2.1常見主動(dòng)學(xué)習(xí)策略

在未標(biāo)記的數(shù)據(jù)集上使用主動(dòng)學(xué)習(xí)的步驟是：

首先需要做的是需要手動(dòng)標(biāo)記該數(shù)據(jù)的一個(gè)非常小的子樣本。
一旦有少量的標(biāo)記數(shù)據(jù)，就需要對其進(jìn)行訓(xùn)練。該模型當(dāng)然不會(huì)很棒，但是將幫助我們了解參數(shù)空間的哪些領(lǐng)域需要首標(biāo)記。
訓(xùn)練模型后，該模型用于預(yù)測每個(gè)剩余的未標(biāo)記數(shù)據(jù)點(diǎn)的類別。
根據(jù)模型的預(yù)測，在每個(gè)未標(biāo)記的數(shù)據(jù)點(diǎn)上選擇分?jǐn)?shù)
一旦選擇了對標(biāo)簽進(jìn)行優(yōu)先排序的最佳方法，這個(gè)過程就可以進(jìn)行迭代重復(fù):在基于優(yōu)先級(jí)分?jǐn)?shù)進(jìn)行標(biāo)記的新標(biāo)簽數(shù)據(jù)集上訓(xùn)練新模型。一旦在數(shù)據(jù)子集上訓(xùn)練完新模型，未標(biāo)記的數(shù)據(jù)點(diǎn)就可以在模型中運(yùn)行并更新優(yōu)先級(jí)分值，繼續(xù)標(biāo)記。
通過這種方式，隨著模型變得越來越好，我們可以不斷優(yōu)化標(biāo)簽策略。

2.1.1基于數(shù)據(jù)流的主動(dòng)學(xué)習(xí)方法

基于流(stream-based)的主動(dòng)學(xué)習(xí)中，未標(biāo)記的樣例按先后順序逐個(gè)提交給選擇引擎，由選擇引擎決定是否標(biāo)注當(dāng)前提交的樣例，如果不標(biāo)注，則將其丟棄。

在基于流的主動(dòng)學(xué)習(xí)中，所有訓(xùn)練樣本的集合以流的形式呈現(xiàn)給算法。每個(gè)樣本都被單獨(dú)發(fā)送給算法。算法必須立即決定是否標(biāo)記這個(gè)示例。從這個(gè)池中選擇的訓(xùn)練樣本由oracle（人工的行業(yè)專家）標(biāo)記，在顯示下一個(gè)樣本之前，該標(biāo)記立即由算法接收。

于基于流的算法不能對未標(biāo)注樣例逐一比較，需要對樣例的相應(yīng)評價(jià)指標(biāo)設(shè)定閾值，當(dāng)提交給選擇引擎的樣例評價(jià)指標(biāo)超過閾值，則進(jìn)行標(biāo)注，但這種方法需要針對不同的任務(wù)進(jìn)行調(diào)整，所以難以作為一種成熟的方法投入使用。

2.1.2基于數(shù)據(jù)池的主動(dòng)學(xué)習(xí)方法

基于池(pool-based)的主動(dòng)學(xué)習(xí)中則維護(hù)一個(gè)未標(biāo)注樣例的集合，由選擇引擎在該集合中選擇當(dāng)前要標(biāo)注的樣例。

在基于池的抽樣中，訓(xùn)練樣本從一個(gè)大的未標(biāo)記數(shù)據(jù)池中選擇。從這個(gè)池中選擇的訓(xùn)練樣本由oracle標(biāo)記。

2.1.3 基于查詢的主動(dòng)學(xué)習(xí)方法

這種基于委員會(huì)查詢的方法使用多個(gè)模型而不是一個(gè)模型。

委員會(huì)查詢(Query by Committee)，它維護(hù)一個(gè)模型集合(集合被稱為委員會(huì))，通過查詢（投票）選擇最“有爭議”的數(shù)據(jù)點(diǎn)作為下一個(gè)需要標(biāo)記的數(shù)據(jù)點(diǎn)。通過這種委員會(huì)可的模式以克服一個(gè)單一模型所能表達(dá)的限制性假設(shè)（并且在任務(wù)開始時(shí)我們也不知道應(yīng)該使用什么假設(shè)）。

有兩個(gè)假設(shè)前提：

所有模型在已標(biāo)注數(shù)據(jù)上結(jié)果一致
所有模型對于未標(biāo)注結(jié)果樣本集存在部分分歧

2.2 不確定性度量

識(shí)別接下來需要標(biāo)記的最有價(jià)值的樣本的過程被稱為“抽樣策略”或“查詢策略”。在該過程中的評分函數(shù)稱為“acquisition function”。該分?jǐn)?shù)的含義是：得分越高的數(shù)據(jù)點(diǎn)被標(biāo)記后，對模型訓(xùn)練后的產(chǎn)生價(jià)值就越高。有很多中不同的采樣策略，例如不確定性抽樣，多樣性采樣等，在本節(jié)中，我們將僅關(guān)注最常用策略的不確定性度量。

不確定性抽樣是一組技術(shù)，可以用于識(shí)別當(dāng)前機(jī)器學(xué)習(xí)模型中的決策邊界附近的未標(biāo)記樣本。這里信息最豐富的例子是分類器最不確定的例子。模型最不確定性的樣本可能是在分類邊界附近的數(shù)據(jù)。而我們模型學(xué)習(xí)的算法將通過觀察這些分類最困難的樣本來獲得有關(guān)類邊界的更多的信息。

讓我們以一個(gè)具體的例子，假設(shè)正在嘗試建立一個(gè)多類分類，以區(qū)分3類貓，狗，馬。該模型可能會(huì)給我們以下預(yù)測：

{
    "Prediction": {
        "Label": "Cat",
        "Prob": {
            "Cat": 0.9352784428596497,
            "Horse": 0.05409964170306921,
            "Dog": 0.038225741147994995,
        }
    }
}

這個(gè)輸出很可能來自softmax，它使用指數(shù)將對數(shù)轉(zhuǎn)換為0-1范圍的分?jǐn)?shù)。

2.2.1最小置信度：（Least confidence)

最小置信度=1（100％置信度）和每個(gè)項(xiàng)目的最自信的標(biāo)簽之間的差異。

雖然可以單獨(dú)按置信度的順序進(jìn)行排名，但將不確定性得分轉(zhuǎn)換為0-1范圍，其中1是最不確定的分?jǐn)?shù)可能很有用。因?yàn)樵谶@種情況下，我們必須將分?jǐn)?shù)標(biāo)準(zhǔn)化。我們從1中減去該值，將結(jié)果乘以N/（1-N），n為標(biāo)簽數(shù)。這時(shí)因?yàn)樽畹椭眯哦扔肋h(yuǎn)不會(huì)小于標(biāo)簽數(shù)量（所有標(biāo)簽都具有相同的預(yù)測置信度的時(shí)候)。

讓我們將其應(yīng)用到上面的示例中，不確定性分?jǐn)?shù)將是：（1-0.9352） *（3/2）= 0.0972。

最小置信度是最簡單，最常用的方法，它提供預(yù)測順序的排名，這樣可以以最低的置信度對其預(yù)測標(biāo)簽進(jìn)行采樣。

2.2.2置信度抽樣間距（margin of confidence sampling）

不確定性抽樣的最直觀形式是兩個(gè)置信度做高的預(yù)測之間的差值。也就是說，對于該模型預(yù)測的標(biāo)簽對比第二高的標(biāo)簽的差異有多大？這被定義為：

同樣我們可以將其轉(zhuǎn)換為0-1范圍，必須再次使用1減去該值，但是最大可能的分?jǐn)?shù)已經(jīng)為1了，所以不需要再進(jìn)行其他操作。

讓我們將置信度抽樣間距應(yīng)用于上面的示例數(shù)據(jù)。“貓”和“馬”是前兩個(gè)。使用我們的示例，這種不確定性得分將為1.0 - （0.9352–0.0540）= 0.1188。

2.2.3抽樣比率（Ratio sampling）

置信度比是置信度邊緣的變化，是兩個(gè)分?jǐn)?shù)之間的差異比率而不是間距的差異的絕對值。

2.2.4 熵抽樣（Entropy Sampling）

應(yīng)用于概率分布的熵包括將每個(gè)概率乘以其自身的對數(shù)，然后求和取負(fù)數(shù):

讓我們在示例數(shù)據(jù)上計(jì)算熵：

得到 0 - sum（–0.0705，–0.0903，–0.2273）= 0.3881

除以標(biāo)簽數(shù)的log得到0.3881/ log2（3）= 0.6151

3.主動(dòng)學(xué)習(xí)方法歸類

3.1 基于不確定性的主動(dòng)學(xué)習(xí)方法

基于不確定性的主動(dòng)學(xué)習(xí)方法將最小化條件熵作為尋找判定函數(shù)的依據(jù)。

Bayesian Active Learning for Classification and Preference Learning（論文 2011年）通過貪婪地找到一個(gè)能使當(dāng)前模型熵最大程度減少的數(shù)據(jù)點(diǎn)x，但由于模型參數(shù)維度很高，直接求解困難，因此在給定數(shù)據(jù)D和新增數(shù)據(jù)點(diǎn)x條件下，模型預(yù)測和模型參數(shù)之間的互信息。

Deep Bayesian Active Learning with Image Data（論文，代碼 2017年）中實(shí)現(xiàn)了這一思路，過程如下：

（1）從整體的數(shù)據(jù)中選一個(gè)子集作為初始訓(xùn)練集，來訓(xùn)練任務(wù)模型（分類，分割等等）

（2）用訓(xùn)好的模型在剩余未標(biāo)注的圖像上以train模式跑多組預(yù)測，記錄對每個(gè)樣本的輸出。

（3）計(jì)算對每個(gè)樣本的熵作為不確定性分?jǐn)?shù)。

（4）從大到小依次選擇下一組數(shù)據(jù)標(biāo)注好后加入訓(xùn)練集，更新訓(xùn)練模型（在上一代模型上fine-tuning），直到滿足停止條件。

考慮到深度學(xué)習(xí)中，不能每次選一個(gè)數(shù)據(jù)樣本就重新訓(xùn)練一次模型，而是以批數(shù)據(jù)的形式進(jìn)行訓(xùn)練，BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning（論文 2019年）中，把原來的一個(gè)樣本變成了一批樣本。

3.2基于最近鄰和支持向量的分類器的方法

基于不確定性的主動(dòng)學(xué)習(xí)方法依賴模型預(yù)測的分類概率來確定模型對該樣本的不確定性，但這個(gè)概率并不可靠，因?yàn)槭褂胹oftmax分類器的神經(jīng)網(wǎng)絡(luò)并不能識(shí)別分布外樣本，且很容易對OOD樣本做出過度自信的預(yù)測。

OOD（Out of Distribution(OOD) detection指的是模型能夠檢測出 OOD 樣本，而 OOD 樣本是相對于 In Distribution(ID) 樣本來說的。傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常的假設(shè)是模型訓(xùn)練和測試的數(shù)據(jù)是獨(dú)立同分布的(IID, Independent Identical Distribution)，這里訓(xùn)練和測試的數(shù)據(jù)都可以說是 In Distribution(ID) 。在實(shí)際應(yīng)用當(dāng)中，模型部署上線后得到的數(shù)據(jù)往往不能被完全控制的，也就是說模型接收的數(shù)據(jù)有可能是 OOD樣本，也可以叫異常樣本(outlier, abnormal)。

基于深度模型的Out of Distribution(OOD)檢測相關(guān)方法介紹

在主動(dòng)學(xué)習(xí)中，初始階段使用非常少的標(biāo)注樣本訓(xùn)練模型，意味著大量的未標(biāo)注樣本可能都是OOD樣本，若模型過早的給這部分樣本一個(gè)過度自信的預(yù)測概率，就可能使我們錯(cuò)失一些有價(jià)值的OOD樣本。如圖所示，初始訓(xùn)練階段，模型缺乏虛線框以外的區(qū)域的訓(xùn)練數(shù)據(jù)，但softmax分類器仍然會(huì)對這些區(qū)域給出很自信的預(yù)測，導(dǎo)致選擇新的待標(biāo)注樣本時(shí)，圖中的q點(diǎn)會(huì)被忽略，而若q點(diǎn)正好不是class B，則會(huì)影響主動(dòng)學(xué)習(xí)的性能。

3.2.1 NNClassifier

針對這個(gè)問題NNclassifier中設(shè)計(jì)了一個(gè)基于最近鄰和支持向量的分類器來取代softmax, 使模型能對遠(yuǎn)離已有訓(xùn)練數(shù)據(jù)的區(qū)域產(chǎn)生較高的不確定性。

具體而言，每類訓(xùn)練學(xué)習(xí)N個(gè)支持向量，基于樣本特征與各類的支持向量之間的距離，就可以定義分類概率為與這N個(gè)支持向量的核函數(shù)的最大距離：

$pc\left(fx\right)=\max n \delta\left(-d\left(fx, m_{c, n}\right)\right)$

定義了新的可以意識(shí)到OOD樣本的分類器之后，作者給出了對應(yīng)的主動(dòng)學(xué)習(xí)策略：

Rejection confidence，用于度量遠(yuǎn)離所有支持向量的樣本，如圖(b)所示; confusion confidence，用于度量遠(yuǎn)離支持向量以及同時(shí)靠近多個(gè)不同類支持向量的樣本，如圖?所示。

$\begin{aligned} &M{\text {rejection }}(x)=\sumc\left(1-pc\left(fx\right)\right) \ &M{\text {confusion }}(x)=\sumc\left(1+pc\left(fx\right)-\max c pc\left(f_x\right)\right) \end{aligned}$

3.2.2 RBF network + Gradient Penalty

Amersfoort用RBF神經(jīng)網(wǎng)絡(luò)來促使網(wǎng)絡(luò)具有良好的OOD樣本不確定性，同時(shí)給出了基于梯度范數(shù)的雙邊正則來削弱特征崩潰(feature collapse)的問題。與NNClassifier相同，本文的作者也定義了一個(gè)與各類特征距離的函數(shù)K來幫助檢測OOD樣本，損失函數(shù)同樣定義成逐類的二值交叉熵。不同于NNClassifier的是，這里的距離是每個(gè)樣本與該類樣本的指數(shù)滑動(dòng)平均得到的。 $Kc\left(f\theta(x), ec\right)=\exp \left(-\left|Wc f\theta(x)-ec\right|_2^2 /\left(2 n \sigma^2\right)\right)$

另一個(gè)不同點(diǎn)在于本文加入了一個(gè)雙邊梯度正則項(xiàng)。 $\max \left(0,\left|\operatorname{grad}z \sumc K{\mathrm{c}}\right|F^2-1\right)$

這個(gè)正則項(xiàng)的作用有兩個(gè)，一個(gè)是保證平滑性，也就是相似的輸入有相似的輸出，這個(gè)是由max()中的梯度部分保證的，而梯度-1則起到避免特征崩潰的作用，也就是相比單純的使用特征范數(shù)正則，-1能夠避免模型將很多不同的輸入映射到完全相同的特征，也就是feature collapse。

3.3基于特征空間覆蓋的方法

接下來主要介紹基于特征空間覆蓋的主動(dòng)學(xué)習(xí)代表性工作：coreset。coreset的主要貢獻(xiàn)：給出了基于特征空間覆蓋的主動(dòng)學(xué)習(xí)算法的近似損失上界；證明了新添加的樣本在能夠縮小標(biāo)注樣本對剩余樣本的覆蓋半徑時(shí)，才能提高近似效果。

coreset認(rèn)為主動(dòng)學(xué)習(xí)目標(biāo)就是縮小核心集誤差，即主動(dòng)學(xué)習(xí)選出的樣本損失與全體樣本損失之間的差別。

我們在主動(dòng)學(xué)習(xí)挑選新樣本時(shí)，并不知道樣本的標(biāo)簽，也就沒法直接求核心集損失。作者把核心集損失的上界轉(zhuǎn)換做剩余訓(xùn)練樣本與挑選出的標(biāo)注樣本間的最大距離。因此，主動(dòng)學(xué)習(xí)問題等價(jià)于選擇添加一組標(biāo)注樣本，使得其他樣本對標(biāo)注樣本集的最大距離$\delta_s$ 最小，也就是k-center集覆蓋問題。如圖所示，藍(lán)色為挑選出的標(biāo)注樣本，紅色為其他樣本。

3.4 基于對抗學(xué)習(xí)的方法

3.4.1VAAL

Variational Adversarial Active Learning（地址 2019年）描述了一種基于池的半監(jiān)督主動(dòng)學(xué)習(xí)算法，它以對抗的方式（關(guān)于對抗學(xué)習(xí)的詳細(xì)介紹參見這里）隱式地學(xué)習(xí)了這種采樣機(jī)制。與傳統(tǒng)的主動(dòng)學(xué)習(xí)算法不同，VAAL與任務(wù)無關(guān)，也就是說，它不依賴于試圖獲取標(biāo)注數(shù)據(jù)的任務(wù)的性能。VAAL使用變分自編碼器(VAE)和訓(xùn)練好的對抗網(wǎng)絡(luò)來學(xué)習(xí)潛在空間，以區(qū)分未標(biāo)注和標(biāo)注的數(shù)據(jù)。

核心思想 本文的出發(fā)點(diǎn)可以理解如下：之前很多方法的uncertainty都是基于模型的，也就是說需要有個(gè)分割/分類等模型計(jì)算預(yù)測結(jié)果，然后從結(jié)果的好壞去分析相應(yīng)的被預(yù)測樣本的價(jià)值。而本文的uncertainty是基于數(shù)據(jù)本身的，也就是說并非基于預(yù)測結(jié)果本身去分析，而是直接基于樣本自身的特征去處理。

核心思想：利用VAE對已標(biāo)注的數(shù)據(jù)和未標(biāo)注的數(shù)據(jù)進(jìn)行編碼。因此，對于一個(gè)未標(biāo)注的數(shù)據(jù)，如果其編碼向量與潛在空間中向量的差異足夠大，那么我們就認(rèn)為該樣本是有價(jià)值的。

而對于樣本的選擇，是通過一個(gè)對抗網(wǎng)絡(luò)來實(shí)現(xiàn)的，該對抗網(wǎng)絡(luò)被用來區(qū)分一個(gè)樣本是已標(biāo)注還是未標(biāo)注。因此上文的VAE還有一個(gè)額外的任務(wù)，即他的編碼要讓判別器難以區(qū)分已經(jīng)標(biāo)注還是沒有標(biāo)注。

網(wǎng)絡(luò)結(jié)構(gòu) VAE和對抗網(wǎng)絡(luò)之間的最大最小博弈是這樣進(jìn)行的：VAE試圖欺騙對抗網(wǎng)絡(luò)去預(yù)測，所有的數(shù)據(jù)點(diǎn)都來自已標(biāo)注池；對抗網(wǎng)絡(luò)則學(xué)習(xí)如何區(qū)分潛在空間中的不相似性。其結(jié)構(gòu)如下：

VAE和對抗網(wǎng)絡(luò)之間的最大最小博弈是這樣進(jìn)行的：VAE試圖欺騙對抗網(wǎng)絡(luò)去預(yù)測，所有的數(shù)據(jù)點(diǎn)都來自已標(biāo)注池；對抗網(wǎng)絡(luò)則學(xué)習(xí)如何區(qū)分潛在空間中的不相似性。其結(jié)構(gòu)如下：

主動(dòng)學(xué)習(xí)策略

一開始隨機(jī)選擇10%的圖像開始訓(xùn)練，此時(shí)記訓(xùn)練的網(wǎng)絡(luò)為版本1。對于版本1，訓(xùn)練會(huì)迭代max_iterations次，與一般網(wǎng)絡(luò)訓(xùn)練過程的差別在于每個(gè)iteration除了訓(xùn)練"任務(wù)模型"外，還得去訓(xùn)練VAE與判別器。而當(dāng)?shù)Y(jié)束后，訓(xùn)練得到的"任務(wù)模型"其實(shí)與直接隨機(jī)抽取10%的圖像訓(xùn)練沒有區(qū)別，因?yàn)閂AE與判別器只對下一個(gè)網(wǎng)絡(luò)版本有貢獻(xiàn)。
利用VAE與判別器內(nèi)包含的經(jīng)驗(yàn)，一次性抽取5%的新數(shù)據(jù)加入訓(xùn)練集，此時(shí)開始訓(xùn)練網(wǎng)絡(luò)版本2。而這里特別關(guān)鍵的一點(diǎn)是，版本2仍然是從預(yù)訓(xùn)練VGG開始從頭訓(xùn)練的(而非在版本1的基礎(chǔ)上繼續(xù)finetune)。至此一直迭代到選取50%的數(shù)據(jù)結(jié)束。

模型特點(diǎn) 本文的強(qiáng)化學(xué)習(xí)有點(diǎn)"離線"的味道，即最后選取出的50%數(shù)據(jù)可以很輕松的遷移至其他模型中，選擇的過程只依賴VAE與判別器，而與具體的任務(wù)無關(guān)。

此外該模型訓(xùn)練十分耗時(shí)——從10%逐步提升5%至50%，相當(dāng)于順序訓(xùn)練了9個(gè)相同的模型，再考慮訓(xùn)練VAE與判別器的耗時(shí)，訓(xùn)練該主動(dòng)學(xué)習(xí)框架的所需時(shí)間可能高達(dá)原有基礎(chǔ)網(wǎng)絡(luò)的10倍。

3.4.2SRAAL

SRAAL（論文 https://openaccess.thecvf.com/contentCVPR2020/html/ZhangState-RelabelingAdversarialActiveLearningCVPR2020_paper.html）是VAAL的一個(gè)改進(jìn)版。在VAAL中，判別器的訓(xùn)練的時(shí)候只有兩種狀態(tài)，標(biāo)注/未標(biāo)注。SRAAL的作者認(rèn)為這樣忽略了一些信息，有時(shí)候任務(wù)模型已經(jīng)能很確信的對某個(gè)未標(biāo)注樣本做預(yù)測了，就應(yīng)該降低選擇這個(gè)樣本的優(yōu)先級(jí)。

為了實(shí)現(xiàn)這個(gè)思路，作者給出了一個(gè)任務(wù)模型預(yù)測不確定度的計(jì)算函數(shù)，用這個(gè)函數(shù)的輸出結(jié)果作為生成對抗網(wǎng)絡(luò)的判別器訓(xùn)練過程中，無標(biāo)注樣本的標(biāo)簽，而不用簡單的個(gè)一個(gè)二值變量。

3.4.3ARAL

VAAL有效的一個(gè)關(guān)鍵的因素實(shí)際上是同時(shí)利用標(biāo)注/無標(biāo)注的樣本共同訓(xùn)練產(chǎn)生特征映射，而不像之前基于特征的coreset等主動(dòng)學(xué)習(xí)方法，僅用標(biāo)注數(shù)據(jù)訓(xùn)練產(chǎn)生特征。

ARAL（https://arxiv.org/abs/1912.09720 2019.11）更進(jìn)一步，也用這些個(gè)無標(biāo)注樣本來訓(xùn)練任務(wù)模型(如分類器)本身，整體仍然是在VAAL基礎(chǔ)上做的，只是增加了cgan的判別器來實(shí)現(xiàn)半監(jiān)督訓(xùn)練任務(wù)模型。整體來說，基于池的主動(dòng)學(xué)習(xí)用標(biāo)注樣本來訓(xùn)練任務(wù)模型，合成的主動(dòng)學(xué)習(xí)標(biāo)注合成的樣本來訓(xùn)練任務(wù)模型。

相比之下，VAAL用標(biāo)注數(shù)據(jù)訓(xùn)練任務(wù)模型，用所有數(shù)據(jù)來訓(xùn)練產(chǎn)生特征；ARAL用所有的訓(xùn)練數(shù)據(jù)，合成數(shù)據(jù)來訓(xùn)練任務(wù)模型、產(chǎn)生特征映射。相當(dāng)于使用了半監(jiān)督的學(xué)習(xí)方法，與和之前純基于監(jiān)督訓(xùn)練的主動(dòng)學(xué)習(xí)方法比較自然有所提升。

4.融合不確定性和多樣性的學(xué)習(xí)方法☆

之前介紹了基于不確定性的方法，以及基于多樣性的方法。接下來我們來看看融合兩者的方法。就動(dòng)機(jī)而言，如果只用不確定性標(biāo)準(zhǔn)來選樣本，在批量選擇的場景中，很容易出現(xiàn)選到冗余樣本的問題。而在深度學(xué)習(xí)中，由于訓(xùn)練開銷的緣故，通常都采用批主動(dòng)學(xué)習(xí)，所以為了提高主動(dòng)學(xué)習(xí)的效率，就得考慮批量選擇高不確定性樣本時(shí)的多樣性問題。而從多樣性樣本選擇方法的角度來說，單純的特征空間覆蓋算法不能區(qū)分模型是否已經(jīng)能很好預(yù)測某部分樣本，會(huì)限制這類方法所能達(dá)到的上限。

融合不確定性和多樣性的思路主要有三種：

完全延續(xù)信息論的分析思路，也就是batchBALD，在批量選擇的過程中不采取每個(gè)樣本互信息直接相加，而用求并的方法來避免選到冗余樣本;
先用不確定性標(biāo)準(zhǔn)選出大于budget size的候選集，再用集覆蓋的思路來選擇特征差異大的樣本；
是2的擴(kuò)展，通過在梯度嵌入空間聚類來選樣本，從而避開人工給定候選樣本集大小的問題。

4.1信息論思路

第一種從理論上來看很優(yōu)雅，從信息論的角度推出怎么在批量選擇的場景里選到對模型參數(shù)改善最有效的一組樣本。但計(jì)算復(fù)雜度很高，可能并不是很實(shí)用，該論文中的實(shí)驗(yàn)部分也都是在很小的數(shù)據(jù)集上完成的。

4.2 構(gòu)建候選集+大差異樣本——SA

這類方法實(shí)現(xiàn)起來最簡單，非常啟發(fā)式。整個(gè)主動(dòng)學(xué)習(xí)分兩步來做，第一步先用不確定性(熵，BALD等)選超出主動(dòng)學(xué)習(xí)budget size的候選樣本集，在用多樣性的方法，選擇能最好覆蓋這個(gè)候選集的一組樣本。

SA 2017 用Bootstrapping訓(xùn)練若干個(gè)模型，用這些模型預(yù)測的variance來表示不確定性，之后再用候選集中樣本特征相似度來選取與已經(jīng)選到的樣本差異最大的樣本，就類似coreset-greedy的做法。

CoreLog 2021 基于Proper Scoring Rules給了表示不確定性的度量，先選出不確定性大的前k%個(gè)樣本，再用kmeans聚類來選擇多樣的樣本。

這種結(jié)合的方式?jīng)]毛病，但有個(gè)小的問題，很難說清咋確定這個(gè)候選集大小，到底多大能算作高不確定性，能丟到候選集里。

4.3 梯度嵌入空間——badge☆

badge：https://arxiv.org/abs/1906.03671 2020 和第二類方法的思路很像，不確定性的用模型參數(shù)就某個(gè)樣本的梯度大小來表示，多樣性用kmeans++來保證。但這個(gè)方法很巧妙的地方在于，通過把這個(gè)問題丟到梯度嵌入空間來做（而不像第二類方法在樣本的特征空間保證多樣性），使樣本的多樣性和不確定性能同時(shí)得到保證。

梯度范數(shù)大小表示不確定性很好理解，和之前用熵之類的指標(biāo)來表示不確定性類似，模型預(yù)測的概率小，意味著熵大，也意味著如果把這樣本標(biāo)了，模型要有較大的變化才能擬合好這個(gè)樣本，也就是求出來的梯度大。梯度表示多樣性，是這類方法的獨(dú)特之處，用梯度向量來聚類，選到的差異大的樣本就變成：讓模型參數(shù)的更新方向不同的樣本，而不是樣本特征本身不同。

在用梯度表示了不確定性和多樣性之后，怎么來選一批既有高不確定性，又不同的樣本呢？badge的做法是Kmeans++聚類，第一個(gè)樣本選梯度范數(shù)最大的樣本，之后依據(jù)每個(gè)樣本梯度與選到的樣本梯度的差的范數(shù)來采樣新的樣本。這里注意這個(gè)差是兩個(gè)向量的差，所以自然的避免了重復(fù)的選到梯度方向接近且范數(shù)都比較大的一組樣本。

5. 基于變化最大的方法

這一類方法核心的觀點(diǎn)是，不管不確定性或多樣性，而是希望選出的樣本能使模型產(chǎn)生的變化最大。變化最大可以著眼于loss最大，也可以關(guān)注梯度的情況，比如梯度范數(shù)大小。

learning loss 2019 在任務(wù)模型上加一個(gè)小的附屬子網(wǎng)絡(luò)用來學(xué)習(xí)預(yù)測樣本的損失值。訓(xùn)練任務(wù)模型的時(shí)候，也同時(shí)訓(xùn)練這個(gè)預(yù)測損失模塊，之后就用這個(gè)模塊來預(yù)測對哪個(gè)未標(biāo)注樣本的損失大，就選他。整個(gè)算法的流程圖如下

損失預(yù)測模塊的結(jié)構(gòu)和損失計(jì)算方法如下：

6.總結(jié)

主動(dòng)學(xué)習(xí)(Active Learning)綜述以及在文本分類和序列標(biāo)注應(yīng)用項(xiàng)目鏈接fork一下，含實(shí)踐程序，因篇幅有限就沒放在本博客中，如有需求請自行fork https://aistudio.baidu.com/aistudio/projectdetail/4897371?contributionType=1

獲得有用是標(biāo)注數(shù)據(jù)在訓(xùn)練時(shí)是非常重要的，但是標(biāo)注數(shù)據(jù)可能很非常的費(fèi)事費(fèi)力，并且如果標(biāo)注的質(zhì)量不佳也會(huì)對訓(xùn)練產(chǎn)生很大的影響。主動(dòng)學(xué)習(xí)是解決這個(gè)問題的一個(gè)方向，并且是一個(gè)非常好的方向。

在線咨詢

上一篇：HTML5編程基礎(chǔ)知識(shí)普及：快速認(rèn)識(shí)HTML5
下一篇：企業(yè)網(wǎng)頁推廣出現(xiàn)移動(dòng)端兼容問題怎么解決?分享幾個(gè)實(shí)用的css代碼

您的項(xiàng)目需求

*請認(rèn)真填寫需求信息，我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。

整合營銷服務(wù)商