Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 国产精品视频一区二区三区w,中文字幕一级毛片,欧美日韩成人在线视频

          整合營銷服務(wù)商

          電腦端+手機(jī)端+微信端=數(shù)據(jù)同步管理

          免費(fèi)咨詢熱線:

          廣州藍(lán)景技術(shù)分享—瀏覽器渲染原理流程

          位小伙伴,今天我們廣州藍(lán)景實(shí)訓(xùn)部,和大家普及一下前端技術(shù)-瀏覽器渲染流程,希望能幫助大家更深入地了解這方面的知識(shí)。

          前言

          瀏覽器的內(nèi)核是指支持瀏覽器運(yùn)行的最核心的程序,分為兩個(gè)部分的,一是渲染引擎,另一個(gè)是JS引擎。渲染引擎在不同的瀏覽器中也不是都相同的。目前市面上常見的瀏覽器內(nèi)核可以分為這四種:Trident(IE)、Gecko(火狐)、Blink(Chrome、Opera)、Webkit(Safari)。這里面大家最耳熟能詳?shù)目赡芫褪?Webkit 內(nèi)核了,Webkit 內(nèi)核是當(dāng)下瀏覽器世界真正的霸主。

          本文我們就以 Webkit 為例,對現(xiàn)代瀏覽器的渲染過程進(jìn)行一個(gè)深度的剖析。

          頁面加載過程

          在介紹瀏覽器渲染過程之前,我們簡明扼要介紹下頁面的加載過程,有助于更好理解后續(xù)渲染過程。

          要點(diǎn)如下:

          • 向?yàn)g覽器輸入網(wǎng)址
          • 瀏覽器根據(jù) DNS 服務(wù)器得到域名的 IP 地址
          • 向這個(gè) IP 的機(jī)器發(fā)送 HTTP 請求
          • 服務(wù)器收到、處理并返回 HTTP 請求
          • 瀏覽器接收到服務(wù)器返回的內(nèi)容

          例如在瀏覽器輸入https://www.baidu.com,然后經(jīng)過 DNS 解析,www.baidu.com對應(yīng)的 IP 14.215.177.38(不同時(shí)間、地點(diǎn)對應(yīng)的 IP 可能會(huì)不同)。然后瀏覽器向該 IP 發(fā)送 HTTP 請求。

          服務(wù)端接收到 HTTP 請求,然后經(jīng)過計(jì)算(向不同的用戶推送不同的內(nèi)容),返回 HTTP 請求,返回的內(nèi)容如下:

          其實(shí)就是一堆 HMTL 格式的字符串,因?yàn)橹挥?HTML 格式瀏覽器才能正確解析,這是 W3C 標(biāo)準(zhǔn)的要求。接下來就是瀏覽器的渲染過程。

          瀏覽器渲染過程



          從上面這個(gè)圖上,我們可以看到,瀏覽器渲染過程如下:

          解析HTML,生成DOM樹,解析CSS,生成CSSOM樹

          將DOM樹和CSSOM樹結(jié)合,生成渲染樹(Render Tree)

          Layout(回流):根據(jù)生成的渲染樹,進(jìn)行回流(Layout),得到節(jié)點(diǎn)的幾何信息(位置,大小)

          Painting(重繪):根據(jù)渲染樹以及回流得到的幾何信息,得到節(jié)點(diǎn)的絕對像素

          Display: 將像素發(fā)送給GPU,最后通過調(diào)用操作系統(tǒng)Native GUI的API繪制,展示在頁面上。(這一步其實(shí)還有很多內(nèi)容,比如會(huì)在GPU將多個(gè)合成層合并為同一個(gè)層,并展示在頁面中。而css3硬件加速的原理則是新建合成層,這里我們不展開,之后有機(jī)會(huì)再寫一篇博客來介紹)

          渲染過程看起來也不復(fù)雜,讓我們來具體了解下每一步具體做了什么。

          構(gòu)建DOM詳細(xì)流程

          瀏覽器會(huì)遵守一套步驟將HTML文件轉(zhuǎn)換為DOM樹。宏觀上,可以分為幾個(gè)步驟:



          瀏覽器從磁盤或網(wǎng)絡(luò)讀取HTML的原始字節(jié)(字節(jié)數(shù)據(jù)),并根據(jù)文件的指定編碼(例如 UTF-8)將它們轉(zhuǎn)換成字符串。

          在網(wǎng)絡(luò)中傳輸?shù)膬?nèi)容其實(shí)都是 0 和 1 這些字節(jié)數(shù)據(jù)。當(dāng)瀏覽器接收到這些字節(jié)數(shù)據(jù)以后,它會(huì)將這些字節(jié)數(shù)據(jù)轉(zhuǎn)換為字符串,也就是我們寫的代碼。

          將字符串轉(zhuǎn)換成Token,例如:、等。Token中會(huì)標(biāo)識(shí)出當(dāng)前Token是“開始標(biāo)簽”或是“結(jié)束標(biāo)簽”或著是“文本”等信息。

          這時(shí)候你一定會(huì)有疑問,節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系如何維護(hù)?

          事實(shí)上,這就是Token要標(biāo)識(shí)“起始標(biāo)簽”和“結(jié)束標(biāo)簽”等標(biāo)識(shí)的作用。

          例如“title”Token的起始標(biāo)簽和結(jié)束標(biāo)簽之間的節(jié)點(diǎn)肯定是屬于“head”的子節(jié)點(diǎn)。



          上圖給出了節(jié)點(diǎn)之間的關(guān)系,例如:“Hello”Token位于“title”開始標(biāo)簽與“title”結(jié)束標(biāo)簽之間,表明“Hello”Token是“title”Token的子節(jié)點(diǎn)。同理“title”Token是“head”Token的子節(jié)點(diǎn)。

          生成節(jié)點(diǎn)對象并構(gòu)建DOM

          事實(shí)上,構(gòu)建DOM的過程中,不是等所有Token都轉(zhuǎn)換完成后再去生成節(jié)點(diǎn)對象,而是一邊生成Token一邊消耗Token來生成節(jié)點(diǎn)對象。換句話說,每個(gè)Token被生成后,會(huì)立刻消耗這個(gè)Token創(chuàng)建出節(jié)點(diǎn)對象。注意:帶有結(jié)束標(biāo)簽標(biāo)識(shí)的Token不會(huì)創(chuàng)建節(jié)點(diǎn)對象

          接下來我們舉個(gè)例子,假設(shè)有段HTML文本:

          <html>
          <head>
              <title>Web page parsing</title>
          </head>
          <body>
              <div>
                  <h1>Web page parsing</h1>
                  <p>This is an example Web page.</p>
              </div>
          </body>
          </html>

          上面這段HTML會(huì)解析成這樣:



          構(gòu)建CSSOM詳細(xì)流程

          DOM會(huì)捕獲頁面的內(nèi)容,但瀏覽器還需要知道頁面如何展示,所以需要構(gòu)建CSSOM。

          構(gòu)建CSSOM的過程與構(gòu)建DOM的過程非常相似,當(dāng)瀏覽器接收到一段CSS,瀏覽器首先要做的是識(shí)別出Token,然后構(gòu)建節(jié)點(diǎn)并生成CSSOM。



          在這一過程中,瀏覽器會(huì)確定下每一個(gè)節(jié)點(diǎn)的樣式到底是什么,并且這一過程其實(shí)是很消耗資源的。因?yàn)闃邮侥憧梢宰孕性O(shè)置給某個(gè)節(jié)點(diǎn),也可以通過繼承獲得。在這一過程中,瀏覽器得遞歸 CSSOM 樹,然后確定具體的元素到底是什么樣式。

          注意:CSS匹配HTML元素是一個(gè)相當(dāng)復(fù)雜和有性能問題的事情。所以,DOM樹要小,CSS盡量用id和class,千萬不要過渡層疊下去。

          構(gòu)建渲染樹

          當(dāng)我們生成 DOM 樹和 CSSOM 樹以后,就需要將這兩棵樹組合為渲染樹。



          在這一過程中,不是簡單地將兩者合并就行了。渲染樹只會(huì)包括需要顯示的節(jié)點(diǎn)和這些節(jié)點(diǎn)的樣式信息,如果某個(gè)節(jié)點(diǎn)是 display: none 的,那么就不會(huì)在渲染樹中顯示。

          注意:渲染樹只包含可見的節(jié)點(diǎn)

          我們或許有個(gè)疑惑:瀏覽器如果渲染過程中遇到JS文件怎么處理?

          渲染過程中,如果遇到<script>就停止渲染,執(zhí)行 JS 代碼。因?yàn)闉g覽器有GUI渲染線程JS引擎線程,為了防止渲染出現(xiàn)不可預(yù)期的結(jié)果,這兩個(gè)線程是互斥的關(guān)系。JavaScript的加載、解析與執(zhí)行會(huì)阻塞DOM的構(gòu)建,也就是說,在構(gòu)建DOM時(shí),HTML解析器若遇到了JavaScript,那么它會(huì)暫停構(gòu)建DOM,將控制權(quán)移交給JavaScript引擎,等JavaScript引擎運(yùn)行完畢,瀏覽器再從中斷的地方恢復(fù)DOM構(gòu)建。

          也就是說,如果你想首屏渲染得越快,就越不應(yīng)該在首屏就加載 JS 文件,這也是建議將 script 標(biāo)簽放在 body 標(biāo)簽底部的原因。當(dāng)然在當(dāng)下,并不是說 script 標(biāo)簽必須放在底部,因?yàn)槟憧梢越o script 標(biāo)簽添加 defer(延遲) 或者 async(異步) 屬性(下文會(huì)介紹這兩者的區(qū)別)。

          JS文件不只是阻塞DOM的構(gòu)建,它會(huì)導(dǎo)致CSSOM也阻塞DOM的構(gòu)建。

          原本DOM和CSSOM的構(gòu)建是互不影響,井水不犯河水,但是一旦引入了JavaScript,CSSOM也開始阻塞DOM的構(gòu)建,只有CSSOM構(gòu)建完畢后,DOM再恢復(fù)DOM構(gòu)建。

          這是什么情況呢?

          這是因?yàn)镴avaScript不只是可以改DOM,它還可以更改樣式,也就是它可以更改CSSOM。因?yàn)椴煌暾腃SSOM是無法使用的,如果JavaScript想訪問CSSOM并更改它,那么在執(zhí)行JavaScript時(shí),必須要能拿到完整的CSSOM。

          所以就導(dǎo)致了一個(gè)現(xiàn)象,如果瀏覽器尚未完成CSSOM的下載和構(gòu)建,而我們卻想在此時(shí)運(yùn)行腳本,那么瀏覽器將延遲腳本執(zhí)行和DOM構(gòu)建,直至其完成CSSOM的下載和構(gòu)建。也就是說,在這種情況下,瀏覽器會(huì)先下載和構(gòu)建CSSOM,然后再執(zhí)行JavaScript,最后在繼續(xù)構(gòu)建DOM。


          布局與繪制

          當(dāng)瀏覽器生成渲染樹以后,就會(huì)根據(jù)渲染樹來進(jìn)行布局(也可以叫做回流)。這一階段瀏覽器要做的事情是要弄清楚各個(gè)節(jié)點(diǎn)在頁面中的確切位置和大小。通常這一行為也被稱為“自動(dòng)重排”。

          布局流程的輸出是一個(gè)“盒模型”,它會(huì)精確地捕獲每個(gè)元素在視口內(nèi)的確切位置和尺寸,所有相對測量值都將轉(zhuǎn)換為屏幕上的絕對像素。

          布局完成后,瀏覽器會(huì)立即發(fā)出“Paint Setup”和“Paint”事件,將渲染樹轉(zhuǎn)換成屏幕上的像素。

          回流

          前面我們通過構(gòu)造渲染樹,我們將可見DOM節(jié)點(diǎn)以及它對應(yīng)的樣式結(jié)合起來,可是我們還需要計(jì)算它們在設(shè)備視口(viewport)內(nèi)的確切位置和大小,這個(gè)計(jì)算的階段就是回流。

          為了弄清每個(gè)對象在網(wǎng)站上的確切大小和位置,瀏覽器從渲染樹的根節(jié)點(diǎn)開始遍歷,我們可以以下面這個(gè)實(shí)例來表示:

          <!DOCTYPE html>
          <html>
            <head>
              <meta name="viewport" content="width=device-width,initial-scale=1">
              <title>Critial Path: Hello world!</title>
            </head>
            <body>
              <div style="width: 50%">
                <div style="width: 50%">Hello world!</div>
              </div>
            </body>
          </html>

          我們可以看到,第一個(gè)div將節(jié)點(diǎn)的顯示尺寸設(shè)置為視口寬度的50%,第二個(gè)div將其尺寸設(shè)置為父節(jié)點(diǎn)的50%。而在回流這個(gè)階段,我們就需要根據(jù)視口具體的寬度,將其轉(zhuǎn)為實(shí)際的像素值。(如下圖)


          重繪

          最終,我們通過構(gòu)造渲染樹和回流階段,我們知道了哪些節(jié)點(diǎn)是可見的,以及可見節(jié)點(diǎn)的樣式和具體的幾何信息(位置、大小),那么我們就可以將渲染樹的每個(gè)節(jié)點(diǎn)都轉(zhuǎn)換為屏幕上的實(shí)際像素,這個(gè)階段就叫做重繪節(jié)點(diǎn)

          既然知道了瀏覽器的渲染過程后,我們就來探討下,何時(shí)會(huì)發(fā)生回流重繪。

          何時(shí)發(fā)生回流重繪

          我們前面知道了,回流這一階段主要是計(jì)算節(jié)點(diǎn)的位置和幾何信息,那么當(dāng)頁面布局和幾何信息發(fā)生變化的時(shí)候,就需要回流。

          比如以下情況發(fā)生回流:

          根據(jù)改變的范圍和程度,渲染樹中或大或小的部分需要重新計(jì)算,有些改變會(huì)觸發(fā)整個(gè)頁面的重排,比如,滾動(dòng)條出現(xiàn)的時(shí)候或者修改了根節(jié)點(diǎn)。

          • 頁面一開始渲染的時(shí)候(這肯定避免不了)
          • 瀏覽器的窗口尺寸變化(因?yàn)榛亓魇歉鶕?jù)視口的大小來計(jì)算元素的位置和大小的)
          • 添加或刪除可見的DOM元素
          • 元素的位置發(fā)生變化
          • 元素的尺寸發(fā)生變化(包括外邊距、內(nèi)邊框、邊框大小、高度和寬度等)
          • 內(nèi)容發(fā)生變化,比如文本變化或圖片被另一個(gè)不同尺寸的圖片所替代。
          • 元素字體大小變化
          • 激活CSS偽類(例如::hover)

          一些常用且會(huì)導(dǎo)致回流的屬性和方法:

          clientWidth、clientHeight、clientTop、clientLeft
          offsetWidth、offsetHeight、offsetTop、offsetLeft
          scrollWidth、scrollHeight、scrollTop、scrollLeft
          scrollIntoView()、scrollIntoViewIfNeeded()
          getComputedStyle()
          getBoundingClientRect()
          scrollTo()
          

          以下情況發(fā)生重繪而不回流

          當(dāng)頁面中元素樣式的改變并不影響它在文檔流中的位置時(shí)(例如:color、background-color、visibility等),瀏覽器會(huì)將新樣式賦予給元素并重新繪制它,這個(gè)過程重繪而不回流。

          注意:回流一定會(huì)觸發(fā)重繪,而重繪不一定會(huì)回流

          性能影響

          回流比重繪的代價(jià)要更高。

          有時(shí)即使僅僅回流一個(gè)單一的元素,它的父元素以及任何跟隨它的元素也會(huì)產(chǎn)生回流。

          瀏覽器優(yōu)化機(jī)制

          現(xiàn)代瀏覽器會(huì)對頻繁的回流或重繪操作進(jìn)行優(yōu)化:

          瀏覽器會(huì)維護(hù)一個(gè)隊(duì)列,把所有引起回流和重繪的操作放入隊(duì)列中,如果隊(duì)列中的任務(wù)數(shù)量或者時(shí)間間隔達(dá)到一個(gè)閾值的,瀏覽器就會(huì)將隊(duì)列清空,進(jìn)行一次批處理,這樣可以把多次回流和重繪變成一次

          當(dāng)你訪問以下屬性或方法時(shí),瀏覽器會(huì)立刻清空隊(duì)列:

          clientWidth、clientHeight、clientTop、clientLeft
          offsetWidth、offsetHeight、offsetTop、offsetLeft
          scrollWidth、scrollHeight、scrollTop、scrollLeft
          width、height
          getComputedStyle()
          getBoundingClientRect()
          

          為隊(duì)列中可能會(huì)有影響到這些屬性或方法返回值的操作,即使你希望獲取的信息與隊(duì)列中操作引發(fā)的改變無關(guān),瀏覽器也會(huì)強(qiáng)行清空隊(duì)列,確保你拿到的值是最精確的。

          以上屬性和方法都需要返回最新的布局信息,因此瀏覽器不得不清空隊(duì)列,觸發(fā)回流重繪來返回正確的值。因此,我們在修改樣式的時(shí)候,最好避免使用上面列出的屬性,他們都會(huì)刷新渲染隊(duì)列。如果要使用它們,最好將值緩存起來。

          減少回流和重繪

          • 使用 transform 替代 top
          • 使用 visibility 替換 display: none ,因?yàn)榍罢咧粫?huì)引起重繪,后者會(huì)引發(fā)回流(改變了布局)
          • 不要把節(jié)點(diǎn)的屬性值放在一個(gè)循環(huán)里當(dāng)成循環(huán)里的變量。
          • 不要使用 table 布局,可能很小的一個(gè)小改動(dòng)會(huì)造成整個(gè) table 的重新布局
          • 動(dòng)畫實(shí)現(xiàn)的速度的選擇,動(dòng)畫速度越快,回流次數(shù)越多,也可以選擇使用 requestAnimationFrame
          • CSS 選擇符從右往左匹配查找,避免節(jié)點(diǎn)層級(jí)過多
          • 將頻繁重繪或者回流的節(jié)點(diǎn)設(shè)置為圖層,圖層能夠阻止該節(jié)點(diǎn)的渲染行為影響別的節(jié)點(diǎn)。比如對于 video 標(biāo)簽來說,瀏覽器會(huì)自動(dòng)將該節(jié)點(diǎn)變?yōu)閳D層。

          最小化回流和重繪

          由于回流和重繪可能代價(jià)比較昂貴,因此最好就是可以減少它的發(fā)生次數(shù)。為了減少發(fā)生次數(shù),我們可以合并多次對DOM和樣式的修改,然后一次處理掉。考慮這個(gè)例子

          const el = document.getElementById('test');
          el.style.padding = '5px';
          el.style.borderLeft = '1px';
          el.style.borderRight = '2px';
          

          例子中,有三個(gè)樣式屬性被修改了,每一個(gè)都會(huì)影響元素的幾何結(jié)構(gòu),引起回流。當(dāng)然,大部分現(xiàn)代瀏覽器都對其做了優(yōu)化,因此,只會(huì)觸發(fā)一次重排。但是如果在舊版的瀏覽器或者在上面代碼執(zhí)行的時(shí)候,有其他代碼訪問了布局信息(上文中的會(huì)觸發(fā)回流的布局信息),那么就會(huì)導(dǎo)致三次重排。

          因此,我們可以合并所有的改變?nèi)缓笠来翁幚恚热缥覀兛梢圆扇∫韵碌姆绞剑?/p>

          • 1.使用cssText
          const el = document.getElementById('test');
          el.style.cssText += 'border-left: 1px; border-right: 2px; padding: 5px;';
          • 2.使用class, 把css樣式用個(gè)class包住,修改CSS的class.active{ border-left: 1px; border-right: 2px; padding: 5px; }
          const el = document.getElementById('test');
          el.className += ' active';
          

          批量修改DOM

          當(dāng)我們需要對DOM對一系列修改的時(shí)候,可以通過以下步驟減少回流重繪次數(shù):

          • 使元素脫離文檔流
          • 對其進(jìn)行多次修改
          • 將元素帶回到文檔中。

          該過程的第一步和第三步可能會(huì)引起回流,但是經(jīng)過第一步之后,對DOM的所有修改都不會(huì)引起回流,因?yàn)樗呀?jīng)不在渲染樹了。

          有三種方式可以讓DOM脫離文檔流:

          • 隱藏元素,應(yīng)用修改,重新顯示
          • 使用文檔片段(document fragment)在當(dāng)前DOM之外構(gòu)建一個(gè)子樹,再把它拷貝回文檔。
          • 將原始元素拷貝到一個(gè)脫離文檔的節(jié)點(diǎn)中,修改節(jié)點(diǎn)后,再替換原始的元素。

          下面來個(gè)例子演示下

          我們要執(zhí)行一段批量插入節(jié)點(diǎn)的代碼:

          function appendDataToElement(appendToElement, data) {
              let li;
              for (let i = 0; i < data.length; i++) {
                  li = document.createElement('li');
                  li.textContent = 'text';
                  appendToElement.appendChild(li);
              }
          }
          
          const ul = document.getElementById('list');
          appendDataToElement(ul, data);
          

          如果我們直接這樣執(zhí)行的話,由于每次循環(huán)都會(huì)插入一個(gè)新的節(jié)點(diǎn),會(huì)導(dǎo)致瀏覽器回流一次。

          我們可以使用這三種方式進(jìn)行優(yōu)化:

          隱藏元素,應(yīng)用修改,重新顯示

          第一種方法:隱藏元素,這個(gè)會(huì)在展示和隱藏節(jié)點(diǎn)的時(shí)候,產(chǎn)生兩次重繪

          function appendDataToElement(appendToElement, data) {
              let li;
              for (let i = 0; i < data.length; i++) {
                  li = document.createElement('li');
                  li.textContent = 'text';
                  appendToElement.appendChild(li);
              }
          }
          const ul = document.getElementById('list');
          ul.style.display = 'none';
          appendDataToElement(ul, data);
          ul.style.display = 'block';
          

          第二種:使用文檔片段(document fragment)在當(dāng)前DOM之外構(gòu)建一個(gè)子樹,再把它拷貝回文檔

          const ul = document.getElementById('list');
          const fragment = document.createDocumentFragment();
          appendDataToElement(fragment, data);
          ul.appendChild(fragment);
          

          第三種:將原始元素拷貝到一個(gè)脫離文檔的節(jié)點(diǎn)中,修改節(jié)點(diǎn)后,再替換原始的元素。

          const ul = document.getElementById('list');
          const clone = ul.cloneNode(true);
          appendDataToElement(clone, data);
          ul.parentNode.replaceChild(clone, ul);
          

          避免觸發(fā)同步布局事件

          上文我們說過,當(dāng)我們訪問元素的一些屬性的時(shí)候,會(huì)導(dǎo)致瀏覽器強(qiáng)制清空隊(duì)列,進(jìn)行強(qiáng)制同步布局。舉個(gè)例子,比如說我們想將一個(gè)p標(biāo)簽數(shù)組的寬度賦值為一個(gè)元素的寬度,我們可能寫出這樣的代碼:

          function initP() {
              for (let i = 0; i < paragraphs.length; i++) {
                  paragraphs[i].style.width = box.offsetWidth + 'px';
              }
          }
          

          這段代碼看上去是沒有什么問題,可是其實(shí)會(huì)造成很大的性能問題。在每次循環(huán)的時(shí)候,都讀取了box的一個(gè)offsetWidth屬性值,然后利用它來更新p標(biāo)簽的width屬性。這就導(dǎo)致了每一次循環(huán)的時(shí)候,瀏覽器都必須先使上一次循環(huán)中的樣式更新操作生效,才能響應(yīng)本次循環(huán)的樣式讀取操作。每一次循環(huán)都會(huì)強(qiáng)制瀏覽器刷新隊(duì)列。我們可以優(yōu)化為:

          const width = box.offsetWidth;
          function initP() {
              for (let i = 0; i < paragraphs.length; i++) {
                  paragraphs[i].style.width = width + 'px';
              }
          }
          

          對于復(fù)雜動(dòng)畫效果,使用絕對定位讓其脫離文檔流

          對于復(fù)雜動(dòng)畫效果,由于會(huì)經(jīng)常的引起回流重繪,因此,我們可以使用絕對定位,讓它脫離文檔流。否則會(huì)引起父元素以及后續(xù)元素頻繁的回流。這個(gè)我們就直接上個(gè)例子。

          打開這個(gè)例子后,我們可以打開控制臺(tái),控制臺(tái)上會(huì)輸出當(dāng)前的幀數(shù)(雖然不準(zhǔn))。

          從例子中,我們可以看到,幀數(shù)一直都沒到60。這個(gè)時(shí)候,只要我們點(diǎn)擊一下那個(gè)按鈕,把這個(gè)元素設(shè)置為絕對定位,幀數(shù)就可以穩(wěn)定60。

          css3硬件加速(GPU加速)

          比起考慮如何減少回流重繪,我們更期望的是,根本不要回流重繪。這個(gè)時(shí)候,css3硬件加速就閃亮登場啦!!

          劃重點(diǎn):使用css3硬件加速,可以讓transform、opacity、filters這些動(dòng)畫不會(huì)引起回流重繪 。但是對于動(dòng)畫的其它屬性,比如background-color這些,還是會(huì)引起回流重繪的,不過它還是可以提升這些動(dòng)畫的性能。

          如何使用css3硬件加速(GPU加速)

          常見的觸發(fā)硬件加速的css3屬性:

          • transform
          • opacity
          • filters
          • Will-change

          css3硬件加速的坑

          • 如果你為太多元素使用css3硬件加速,會(huì)導(dǎo)致內(nèi)存占用較大,會(huì)有性能問題。
          • 在GPU渲染字體會(huì)導(dǎo)致抗鋸齒無效。這是因?yàn)镚PU和CPU的算法不同。因此如果你不在動(dòng)畫結(jié)束的時(shí)候關(guān)閉硬件加速,會(huì)產(chǎn)生字體模糊。

          幾點(diǎn)補(bǔ)充說明

          1.async和defer的作用是什么?有什么區(qū)別?

          接下來我們對比下 defer 和 async 屬性的區(qū)別:



          其中藍(lán)色線代表JavaScript加載;紅色線代表JavaScript執(zhí)行;綠色線代表 HTML 解析。

          1)情況1<script src="script.js"></script>

          沒有 defer 或 async,瀏覽器會(huì)立即加載并執(zhí)行指定的腳本,也就是說不等待后續(xù)載入的文檔元素,讀到就加載并執(zhí)行。

          2)情況2 <script defer src="script.js"></script>(延遲執(zhí)行)

          defer 屬性表示延遲執(zhí)行引入的 JavaScript,即這段 JavaScript 加載時(shí) HTML 并未停止解析,這兩個(gè)過程是并行的。整個(gè) document 解析完畢且 defer-script 也加載完成之后(這兩件事情的順序無關(guān)),會(huì)執(zhí)行所有由 defer-script 加載的 JavaScript 代碼,然后觸發(fā) DOMContentLoaded 事件。

          3)情況3<script async src="script.js"></script> (異步下載)

          async 屬性表示異步執(zhí)行引入的 JavaScript,與 defer 的區(qū)別在于,如果已經(jīng)加載好,就會(huì)開始執(zhí)行——無論此刻是 HTML 解析階段還是 DOMContentLoaded 觸發(fā)之后。需要注意的是,這種方式加載的 JavaScript 依然會(huì)阻塞 load 事件。換句話說,async-script 可能在 DOMContentLoaded 觸發(fā)之前或之后執(zhí)行,但一定在 load 觸發(fā)之前執(zhí)行。

          defer 與相比普通 script,有兩點(diǎn)區(qū)別:載入 JavaScript 文件時(shí)不阻塞 HTML 的解析,執(zhí)行階段被放到 HTML 標(biāo)簽解析完成之后。 在加載多個(gè)JS腳本的時(shí)候,async是無順序的加載,而defer是有順序的加載。

          2.為什么操作DOM慢

          把 DOM 和 JavaScript 各自想象成一個(gè)島嶼,它們之間用收費(fèi)橋梁連接。——《高性能 JavaScript》

          JS是很快的,在JS中修改DOM對象也是很快的。在JS的世界里,一切是簡單的、迅速的。但DOM操作并非JS一個(gè)人的獨(dú)舞,而是兩個(gè)模塊之間的協(xié)作。

          因?yàn)镈OM是屬于渲染引擎中的東西,而 JS 又是JS引擎中的東西。當(dāng)我們用JS去操作DOM時(shí),本質(zhì)上是JS引擎和渲染引擎之間進(jìn)行了“跨界交流”。這個(gè)“跨界交流”的實(shí)現(xiàn)并不簡單,它依賴了橋接接口作為“橋梁”(如下圖)。



          過“橋”要收費(fèi)——這個(gè)開銷本身就是不可忽略的。我們每操作一次DOM(不管是為了修改還是僅僅為了訪問其值),都要過一次“橋”。過“橋”的次數(shù)一多,就會(huì)產(chǎn)生比較明顯的性能問題。因此“減少 DOM 操作”的建議,并非空穴來風(fēng)。


          性能優(yōu)化策略

          基于上面介紹的瀏覽器渲染原理,DOM 和 CSSOM 結(jié)構(gòu)構(gòu)建順序,初始化可以對頁面渲染做些優(yōu)化,提升頁面性能。

          • JS優(yōu)化: <script> 標(biāo)簽加上 defer屬性 和 async屬性 用于在不阻塞頁面文檔解析的前提下,控制腳本的下載和執(zhí)行。 defer屬性: 用于開啟新的線程下載腳本文件,并使腳本在文檔解析完成后執(zhí)行。 async屬性: HTML5新增屬性,用于異步下載腳本文件,下載完畢立即解釋執(zhí)行代碼。
          • CSS優(yōu)化:<link>標(biāo)簽的 rel屬性 中的屬性值設(shè)置為 preload 能夠讓你在你的HTML頁面中可以指明哪些資源是在頁面加載完成后即刻需要的,最優(yōu)的配置加載順序,提高渲染性能


          總結(jié)

          綜上所述,我們得出這樣的結(jié)論:

          • 瀏覽器工作流程:構(gòu)建DOM -> 構(gòu)建CSSOM -> 構(gòu)建渲染樹 -> 布局 -> 繪制。
          • CSSOM會(huì)阻塞渲染,只有當(dāng)CSSOM構(gòu)建完畢后才會(huì)進(jìn)入下一個(gè)階段構(gòu)建渲染樹。
          • 通常情況下DOM和CSSOM是并行構(gòu)建的,但是當(dāng)瀏覽器遇到一個(gè)不帶defer或async屬性的script標(biāo)簽時(shí),DOM構(gòu)建將暫停,如果此時(shí)又恰巧瀏覽器尚未完成CSSOM的下載和構(gòu)建,由于JavaScript可以修改CSSOM,所以需要等CSSOM構(gòu)建完畢后再執(zhí)行JS,最后才重新DOM構(gòu)建。

          做 Web 自動(dòng)化時(shí),最根本的就是操作頁面上的元素,首先要能找到這些元素,然后才能操作這些元素。工具或代碼無法像測試人員一樣用肉眼來分辨頁面上的元素。那么要如何定位到這些元素,本章會(huì)介紹各種定位元素的方法。

          實(shí)戰(zhàn)演示

          Selenium 自帶 id 定位,可以通過元素的 id 屬性進(jìn)行定位,比如下面的代碼:

          • Python 版本
          driver.find_element_by_id('kw')
          • Java 版本
          driver.findElement(By.id("kw"));

          Selenium 自帶 name 定位,可以通過元素的 name 屬性進(jìn)行定位,比如下面的代碼:

          • Python 版本
          driver.find_element_by_name('wd')
          • Java 版本
          driver.findElement(By.name("wd"));


          注意:通常來說 name 屬性與 id 屬性在頁面中唯一,推薦使用這兩個(gè)屬性進(jìn)行定位。

          XPath 是一個(gè)定位語言,英文全稱為:XML Path Language,用來對 XML 上的元素進(jìn)行定位,但也適用于 HTML。下面來看一個(gè)例子:

          要定位的元素是百度首頁的搜索輸入框

          首先尋找 id 為 form 的 form 元素,然后再尋找它的子元素 span,span 的 class 屬性為 bg s_ipt_wr quickdelete-wrap,最后找 span 的子元素 input:

          • Python 版本
          driver.find_element_by_xpath\
              ("//form[@id='form']/span[@class='bg s_ipt_wr quickdelete-wrap']/input")
          • Java 版本
          driver.findElement(By.xpath("//form[@id='form']/span[@class='bg s_ipt_wr quickdelete-wrap']/input"));

          下面的定位也可以找到這個(gè) input,請注意,這里使用了雙斜杠//,它可以找到子孫節(jié)點(diǎn),而但斜杠/只能找到子節(jié)點(diǎn):

          • Python 版本
          driver.find_element_by_xpath("//form[@id='form']//input[@id='kw']")
          • Java 版本
          driver.findElement(By.xpath("//form[@id='form']//input[@id='kw']"));

          XPath 表達(dá)式更多內(nèi)容可參考下面表格:

          如何檢驗(yàn) XPath 定位是否正確?可以使用 chrome 的檢查模式 → Console,輸入$x(‘XPath 表達(dá)式’)即可,例如:

          XPath 可以定位絕大多數(shù)元素,但是XPath采用從上到下的遍歷模式,速度并不快,而 css_selector 采用樣式定位,速度要優(yōu)于 XPath,而且語法更簡潔:

          下面是 Selenium 使用 css_selector 的例子:

          css_selector 找到 class 屬性為 active 的元素,然后 > 表示找 class 屬性為 active 的元素的子節(jié)點(diǎn)

          • Python 版本
          driver.find_element_by_css_selector('.logo-big')
          • Java 版本
          driver.findElement(By.cssSelector(".logo-big"));

          下表列出了常用的 css_selector 表達(dá)式的用法:

          使用 Chrome 的檢查模式 → Console 也可以在當(dāng)前頁面檢測 css_selector 是否正確,輸入$(‘css selector 表達(dá)式’)即可:

          元素中會(huì)出現(xiàn)文字,比如下面的分類,可以利用這段文字進(jìn)行定位:

          • Python 版本
          driver.find_element_by_link_text('歡迎光臨霍格沃茲測試學(xué)院')
          • Java 版本
          driver.findElement(By.linkText("歡迎光臨霍格沃茲測試學(xué)院"));

          也可以采用部分匹配方式,不必寫全:“歡迎光臨”、“歡迎光臨霍格沃茲測試學(xué)院”、“霍格沃茲”

          • Python 版本
          driver.find_element_by_partial_link_text('霍格沃茲測試學(xué)院')
          • Java 版本
          driver.findElement(By.partialLinkText("霍格沃茲測試學(xué)院"));

          注意:partial_link_text 與 link_text 的區(qū)別:

          partial_link_text 不用寫全,只需寫部分即可,比如上面使用“霍格沃茲”即可匹配到“歡迎光臨霍格沃茲測試學(xué)院”。

          DOM 結(jié)構(gòu)中,元素都有自己的 tag,比如 input tag, button tag, anchor tag 等等,每一個(gè) tag 擁有多個(gè)屬性,比如 id, name, value class,等等。下面的高亮部分就是 tag:

          可以使用 tag 進(jìn)行定位:

          • Python 版本
          driver.find_element_by_tag_name('input')
          • Java 版本
          driver.findElement(By.tagName("input"));

          注意:盡量避免使用 tag_name 定位元素,因?yàn)橛写罅恐貜?fù)的元素!

          可以通過元素的 class 屬性值進(jìn)行定位:

          這里的 active 用的就是上圖 class 的值

          • Python 版本
          driver.find_element_by_class_name('active')
          • Java 版本
          driver.findElement(By.className("active"));

          • ID/Name 是最安全的定位選項(xiàng)。根據(jù) W3C 標(biāo)準(zhǔn),它在頁面中是唯一的,ID 在樹結(jié)構(gòu)中也是唯一的。
          • CSS Selector 語法簡潔,搜索速度快于 XPath。
          • XPath 定位功能強(qiáng)大,采用遍歷搜索,速度略慢。
          • link,class name, tag name:不推薦使用,無法精準(zhǔn)定位。

          常見操作

          Selenium 常見操作有:

          • 輸入、點(diǎn)擊、清除
          • 關(guān)閉窗口、瀏覽器
          • 獲取元素屬性
          • 獲取網(wǎng)頁源代碼、刷新頁面
          • 設(shè)置窗口大小

          輸入、點(diǎn)擊、清除在 Selenium 中對應(yīng)的方法分別是 send_keys、click、clear

          • Python 版本
          from selenium import webdriver
          
          driver = webdriver.Chrome()
          driver.get('http"//www.baidu.com')
          driver.find_element_by_name('wd').send_keys('霍格沃茲測試學(xué)院')
          driver.find_element_by_id('su').click()
          driver.find_element_by_name('wd').clear()
          • Java 版本
          import org.openqa.selenium.By;
          import org.openqa.selenium.WebDriver;
          import org.openqa.selenium.chrome.ChromeDriver;
          
          public class AiceTest {
              public static void main(String[] args) {
          
                  WebDriver driver = new ChromeDriver();
                  driver.get("http://www.baidu.com");
                  driver.findElement(By.id("kw")).sendKeys("霍格沃茲測試學(xué)院");
                  driver.findElement(By.id("su")).click();
                  driver.findElement(By.name("wd")).clear();
                  try {
                      Thread.sleep(2000);
                  } catch (InterruptedException e) {
                      e.printStackTrace();
                  }
                  String title = driver.getTitle();
                  System.out.println(title);
                  driver.close();
              }
          }

          關(guān)閉當(dāng)前句柄窗口(不關(guān)閉進(jìn)程)close(),關(guān)閉整個(gè)瀏覽器進(jìn)程 quit()

          • Python 版本
          #導(dǎo)入對應(yīng)的依賴
          from selenium import webdriver
          #初始化webdriver
          driver = webdriver.Chrome()
          #訪問網(wǎng)站
          driver.get('http"//www.baidu.com')
          #關(guān)閉當(dāng)前窗口
          driver.close()
          #關(guān)閉瀏覽器
          driver.quit()
          • Java 版本
          //導(dǎo)入對應(yīng)的依賴
          import org.openqa.selenium.WebDriver;
          //初始化webdriver
          WebDriver driver = new ChromeDriver();
          //訪問網(wǎng)站
          driver.get("http://www.baidu.com");
          //關(guān)閉當(dāng)前窗口
          driver.close();
          //關(guān)閉瀏覽器
          driver.quit();

          獲取元素標(biāo)簽上的屬性 get_attribute(‘value’),元素的坐標(biāo) location,元素的大小 size

          • Python 版本
          import logging
          from selenium import webdriver
          
          def test_baidu():
              driver = webdriver.Chrome()
              driver.get('https://www.baidu.com')
              search = driver.find_element_by_id('su')
              logging.basicConfig(level=logging.INFO)
              logging.info(search.get_attribute('value'))
              #獲取search的value屬性值并打印
              logging.info(search.get_attribute('value'))
              #打印search的位置坐標(biāo)
              logging.info(search.location)
              #打印search的元素大小
              logging.info(search.size)

          輸出結(jié)果為:

          INFO:root:百度一下
          INFO:root:百度一下
          INFO:root:{'x': 844, 'y': 188}
          INFO:root:{'height': 44, 'width': 108}
          • Java 版本
          @Test
              void baiduTest(){
                  webDriver = new ChromeDriver();
                  webDriver.get("https://www.baidu.com/");
                  WebElement search = webDriver.findElement(By.id("su"));
                  //獲取search的value屬性值并打印
                  System.out.println(search.getAttribute("value"));
                  //打印search的位置坐標(biāo)
                  System.out.println(search.getLocation());
                  //打印search的元素大小
                  System.out.println(search.getSize());
              }

          輸出結(jié)果為:

          百度一下
          (902, 188)
          (108, 44)
          • Python 版本

          網(wǎng)頁源代碼 page_source,刷新頁面 refresh()

          import logging
          from selenium import webdriver
          
          driver = webdriver.Chrome()
          driver.get('http"//www.baidu.com')
          #刷新頁面
          driver.refresh()
          logging.basicConfig(level=logging.INFO)
          #打印當(dāng)前頁面的源代碼
          logging.info(driver.page_source)
          • Java 版本
          WebDriver webDriver = new ChromeDriver();
          webDriver.get("https://www.baidu.com/");
          //刷新頁面
          webDriver.navigate().refresh();
          System.out.println(webDriver.getPageSource());

          設(shè)置窗口大小主要有最小化、最大化和自定義設(shè)置窗口具體的大小。

          • Python版本
          from selenium import webdriver
          
          driver = webdriver.Chrome()
          driver.get('http"//www.baidu.com')
          #最小化窗口
          driver.minimize_window()
          #最大化窗口
          driver.maximize_window()
          #將瀏覽器設(shè)置為1000*1000的大小
          driver.set_window_size(1000, 1000)
          • Java版本
          import org.openqa.selenium.Dimension;
          import org.openqa.selenium.WebDriver;
          import org.openqa.selenium.chrome.ChromeDriver;
          
          import static java.lang.Thread.sleep;
          
          public class AiceTest {
              public static void main(String[] args) throws InterruptedException {
                  WebDriver driver = new ChromeDriver();
                  driver.get("http://www.baidu.com");
                  //設(shè)置窗口最大化
                  driver.manage().window().maximize();
                  //瀏覽器的設(shè)定大小
                  sleep(2000);
                  Dimension dimension = new Dimension(800, 600);
                  driver.manage().window().setSize(dimension);
                  sleep(2000);
                  //瀏覽器全屏
                  driver.manage().window().fullscreen();
                  sleep(2000);
                  driver.close();
          
              }
          }

          大家是不是對web控件的定位有了進(jìn)一步的了解了呀?來跟著示例一起練習(xí)起來吧~

          動(dòng)學(xué)習(xí)(Active Learning)綜述以及在文本分類和序列標(biāo)注應(yīng)用項(xiàng)目鏈接fork一下,含實(shí)踐程序,因篇幅有限就沒放在本博客中,如有需求請自行fork https://aistudio.baidu.com/aistudio/projectdetail/4897371?contributionType=1

          0.引言

          在機(jī)器學(xué)習(xí)(Machine learning)領(lǐng)域,監(jiān)督學(xué)習(xí)(Supervised learning)、非監(jiān)督學(xué)習(xí)(Unsupervised learning)以及半監(jiān)督學(xué)習(xí)(Semi-supervised learning)是三類研究比較多,應(yīng)用比較廣的學(xué)習(xí)技術(shù),wiki上對這三種學(xué)習(xí)的簡單描述如下:

          • 監(jiān)督學(xué)習(xí):通過已有的一部分輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的對應(yīng)關(guān)系,生成一個(gè)函數(shù),將輸入映射到合適的輸出,例如分類。
          • 非監(jiān)督學(xué)習(xí):直接對輸入數(shù)據(jù)集進(jìn)行建模,例如聚類。
          • 半監(jiān)督學(xué)習(xí):綜合利用有類標(biāo)的數(shù)據(jù)和沒有類標(biāo)的數(shù)據(jù),來生成合適的分類函數(shù)。

          其實(shí)很多機(jī)器學(xué)習(xí)都是在解決類別歸屬的問題,即給定一些數(shù)據(jù),判斷每條數(shù)據(jù)屬于哪些類,或者和其他哪些數(shù)據(jù)屬于同一類等等。這樣,如果我們上來就對這一堆數(shù)據(jù)進(jìn)行某種劃分(聚類),通過數(shù)據(jù)內(nèi)在的一些屬性和聯(lián)系,將數(shù)據(jù)自動(dòng)整理為某幾類,這就屬于非監(jiān)督學(xué)習(xí)。 如果我們一開始就知道了這些數(shù)據(jù)包含的類別,并且有一部分?jǐn)?shù)據(jù)(訓(xùn)練數(shù)據(jù))已經(jīng)標(biāo)上了類標(biāo),我們通過對這些已經(jīng)標(biāo)好類標(biāo)的數(shù)據(jù)進(jìn)行歸納總結(jié),得出一個(gè) “數(shù)據(jù)-->類別” 的映射函數(shù),來對剩余的數(shù)據(jù)進(jìn)行分類,這就屬于監(jiān)督學(xué)習(xí)。 而半監(jiān)督學(xué)習(xí)指的是在訓(xùn)練數(shù)據(jù)十分稀少的情況下,通過利用一些沒有類標(biāo)的數(shù)據(jù),提高學(xué)習(xí)準(zhǔn)確率的方法。

          我們使用一些傳統(tǒng)的監(jiān)督學(xué)習(xí)方法做分類的時(shí)候,往往是訓(xùn)練樣本規(guī)模越大,分類的效果就越好。但是在現(xiàn)實(shí)生活的很多場景中,標(biāo)記樣本地獲取是比較困難的,這需要領(lǐng)域內(nèi)的專家來進(jìn)行人工標(biāo)注,所花費(fèi)的時(shí)間成本和經(jīng)濟(jì)成本都是很大的。而且,如果訓(xùn)練樣本的規(guī)模過于龐大,訓(xùn)練的時(shí)間花費(fèi)也會(huì)比較多。那么有沒有辦法,能夠使用較少的訓(xùn)練樣本來獲得性能較好的分類器呢?主動(dòng)學(xué)習(xí)(Active Learning)為我們提供了這種可能。主動(dòng)學(xué)習(xí)通過一定的算法查詢最有用的未標(biāo)記樣本,并交由專家進(jìn)行標(biāo)記,然后用查詢到的樣本訓(xùn)練分類模型來提高模型的精確度。

          1.主動(dòng)學(xué)習(xí)簡介

          1. 主動(dòng)學(xué)習(xí)是指對需要標(biāo)記的數(shù)據(jù)進(jìn)行優(yōu)先排序的過程,這樣可以確定哪些數(shù)據(jù)對訓(xùn)練監(jiān)督模型產(chǎn)生最大的影響。
          2. 主動(dòng)學(xué)習(xí)是一種學(xué)習(xí)算法可以交互式查詢用戶(teacher 或 oracle),用真實(shí)標(biāo)簽標(biāo)注新數(shù)據(jù)點(diǎn)的策略。主動(dòng)學(xué)習(xí)的過程也被稱為優(yōu)化實(shí)驗(yàn)設(shè)計(jì)。
          3. 主動(dòng)學(xué)習(xí)的動(dòng)機(jī)在于認(rèn)識(shí)到并非所有標(biāo)有標(biāo)簽的樣本都同等重要

          主動(dòng)學(xué)習(xí)是一種策略/算法,是對現(xiàn)有模型的增強(qiáng)。而不是新模型架構(gòu)。主動(dòng)學(xué)習(xí)背后的關(guān)鍵思想是,如果允許機(jī)器學(xué)習(xí)算法選擇它學(xué)習(xí)的數(shù)據(jù),這樣就可以用更少的訓(xùn)練標(biāo)簽實(shí)現(xiàn)更高的準(zhǔn)確性。——Active Learning Literature Survey, Burr Settles。通過為專家的標(biāo)記工作進(jìn)行優(yōu)先級(jí)排序可以大大減少訓(xùn)練模型所需的標(biāo)記數(shù)據(jù)量。降低成本,同時(shí)提高準(zhǔn)確性。

          主動(dòng)學(xué)習(xí)不是一次為所有的數(shù)據(jù)收集所有的標(biāo)簽,而是對模型理解最困難的數(shù)據(jù)進(jìn)行優(yōu)先級(jí)排序,并僅對那些數(shù)據(jù)要求標(biāo)注標(biāo)簽。然后模型對少量已標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練完成后再次要求對最不確定數(shù)據(jù)進(jìn)行更多的標(biāo)記。

          通過對不確定的樣本進(jìn)行優(yōu)先排序,模型可以讓專家(人工)集中精力提供最有用的信息。這有助于模型更快地學(xué)習(xí),并讓專家跳過對模型沒有太大幫助的數(shù)據(jù)。這樣在某些情況下,可以大大減少需要從專家那里收集的標(biāo)簽數(shù)量,并且仍然可以得到一個(gè)很好的模型。這樣可以為機(jī)器學(xué)習(xí)項(xiàng)目節(jié)省時(shí)間和金錢!

          1.1 active learning的基本思想

          主動(dòng)學(xué)習(xí)的模型如下:

          A=(C,Q,S,L,U),

          其中 C 為一組或者一個(gè)分類器,L是用于訓(xùn)練已標(biāo)注的樣本。Q 是查詢函數(shù),用于從未標(biāo)注樣本池U中查詢信息量大的信息,S是督導(dǎo)者,可以為U中樣本標(biāo)注正確的標(biāo)簽。學(xué)習(xí)者通過少量初始標(biāo)記樣本L開始學(xué)習(xí),通過一定的查詢函數(shù)Q選擇出一個(gè)或一批最有用的樣本,并向督導(dǎo)者詢問標(biāo)簽,然后利用獲得的新知識(shí)來訓(xùn)練分類器和進(jìn)行下一輪查詢。主動(dòng)學(xué)習(xí)是一個(gè)循環(huán)的過程,直至達(dá)到某一停止準(zhǔn)則為止這個(gè)準(zhǔn)則可以是迭代次數(shù),也可以是準(zhǔn)確率等指標(biāo)達(dá)到設(shè)定值

          在各種主動(dòng)學(xué)習(xí)方法中,查詢函數(shù)的設(shè)計(jì)最常用的策略是:不確定性準(zhǔn)則(uncertainty)和差異性準(zhǔn)則(diversity)。 不確定性越大代表信息熵越大,包含的信息越豐富;而差異性越大代表選擇的樣本能夠更全面地代表整個(gè)數(shù)據(jù)集。

          對于不確定性,我們可以借助信息熵的概念來進(jìn)行理解。我們知道信息熵是衡量信息量的概念,也是衡量不確定性的概念。信息熵越大,就代表不確定性越大,包含的信息量也就越豐富。事實(shí)上,有些基于不確定性的主動(dòng)學(xué)習(xí)查詢函數(shù)就是使用了信息熵來設(shè)計(jì)的,比如熵值裝袋查詢(Entropy query-by-bagging)。所以,不確定性策略就是要想方設(shè)法地找出不確定性高的樣本,因?yàn)檫@些樣本所包含的豐富信息量,對我們訓(xùn)練模型來說就是有用的。

          那么差異性怎么來理解呢?之前說到或查詢函數(shù)每次迭代中查詢一個(gè)或者一批樣本。我們當(dāng)然希望所查詢的樣本提供的信息是全面的,各個(gè)樣本提供的信息不重復(fù)不冗余,即樣本之間具有一定的差異性。在每輪迭代抽取單個(gè)信息量最大的樣本加入訓(xùn)練集的情況下,每一輪迭代中模型都被重新訓(xùn)練,以新獲得的知識(shí)去參與對樣本不確定性的評估可以有效地避免數(shù)據(jù)冗余。但是如果每次迭代查詢一批樣本,那么就應(yīng)該想辦法來保證樣本的差異性,避免數(shù)據(jù)冗余。

          從上圖也可以看出來,在相同數(shù)目的標(biāo)注數(shù)據(jù)中,主動(dòng)學(xué)習(xí)算法比監(jiān)督學(xué)習(xí)算法的分類誤差要低。這里注意橫軸是標(biāo)注數(shù)據(jù)的數(shù)目,對于主動(dòng)學(xué)習(xí)而言,相同的標(biāo)注數(shù)據(jù)下,主動(dòng)學(xué)習(xí)的樣本數(shù)>監(jiān)督學(xué)習(xí),這個(gè)對比主要是為了說明兩者對于訓(xùn)練樣本的使用效率不同:主動(dòng)學(xué)習(xí)訓(xùn)練使用的樣本都是經(jīng)過算法篩選出來對于模型訓(xùn)練有幫助的數(shù)據(jù),所以效率高。但是如果是相同樣本的數(shù)量下去對比兩者的誤差,那肯定是監(jiān)督學(xué)習(xí)占優(yōu),這是毋庸置疑的。

          1.2active learning與半監(jiān)督學(xué)習(xí)的不同

            很多人認(rèn)為主動(dòng)學(xué)習(xí)也屬于半監(jiān)督學(xué)習(xí)的范疇了,但實(shí)際上是不一樣的,半監(jiān)督學(xué)習(xí)和直推學(xué)習(xí)(transductive learning)以及主動(dòng)學(xué)習(xí),都屬于利用未標(biāo)記數(shù)據(jù)的學(xué)習(xí)技術(shù),但基本思想還是有區(qū)別的。

            如上所述,主動(dòng)學(xué)習(xí)的“主動(dòng)”,指的是主動(dòng)提出標(biāo)注請求,也就是說,還是需要一個(gè)外在的能夠?qū)ζ湔埱筮M(jìn)行標(biāo)注的實(shí)體(通常就是相關(guān)領(lǐng)域人員),即主動(dòng)學(xué)習(xí)是交互進(jìn)行的。

            而半監(jiān)督學(xué)習(xí),特指的是學(xué)習(xí)算法不需要人工的干預(yù),基于自身對未標(biāo)記數(shù)據(jù)加以利用。

          2.主動(dòng)學(xué)習(xí)基礎(chǔ)策略(小試牛刀)

          2.1常見主動(dòng)學(xué)習(xí)策略

          在未標(biāo)記的數(shù)據(jù)集上使用主動(dòng)學(xué)習(xí)的步驟是:

          • 首先需要做的是需要手動(dòng)標(biāo)記該數(shù)據(jù)的一個(gè)非常小的子樣本。
          • 一旦有少量的標(biāo)記數(shù)據(jù),就需要對其進(jìn)行訓(xùn)練。該模型當(dāng)然不會(huì)很棒,但是將幫助我們了解參數(shù)空間的哪些領(lǐng)域需要首標(biāo)記。
          • 訓(xùn)練模型后,該模型用于預(yù)測每個(gè)剩余的未標(biāo)記數(shù)據(jù)點(diǎn)的類別。
          • 根據(jù)模型的預(yù)測,在每個(gè)未標(biāo)記的數(shù)據(jù)點(diǎn)上選擇分?jǐn)?shù)
          • 一旦選擇了對標(biāo)簽進(jìn)行優(yōu)先排序的最佳方法,這個(gè)過程就可以進(jìn)行迭代重復(fù):在基于優(yōu)先級(jí)分?jǐn)?shù)進(jìn)行標(biāo)記的新標(biāo)簽數(shù)據(jù)集上訓(xùn)練新模型。一旦在數(shù)據(jù)子集上訓(xùn)練完新模型,未標(biāo)記的數(shù)據(jù)點(diǎn)就可以在模型中運(yùn)行并更新優(yōu)先級(jí)分值,繼續(xù)標(biāo)記。
          • 通過這種方式,隨著模型變得越來越好,我們可以不斷優(yōu)化標(biāo)簽策略。

          2.1.1基于數(shù)據(jù)流的主動(dòng)學(xué)習(xí)方法

          基于流(stream-based)的主動(dòng)學(xué)習(xí)中,未標(biāo)記的樣例按先后順序逐個(gè)提交給選擇引擎,由選擇引擎決定是否標(biāo)注當(dāng)前提交的樣例,如果不標(biāo)注,則將其丟棄。

          在基于流的主動(dòng)學(xué)習(xí)中,所有訓(xùn)練樣本的集合以流的形式呈現(xiàn)給算法。每個(gè)樣本都被單獨(dú)發(fā)送給算法。算法必須立即決定是否標(biāo)記這個(gè)示例。從這個(gè)池中選擇的訓(xùn)練樣本由oracle(人工的行業(yè)專家)標(biāo)記,在顯示下一個(gè)樣本之前,該標(biāo)記立即由算法接收。

          于基于流的算法不能對未標(biāo)注樣例逐一比較,需要對樣例的相應(yīng)評價(jià)指標(biāo)設(shè)定閾值,當(dāng)提交給選擇引擎的樣例評價(jià)指標(biāo)超過閾值,則進(jìn)行標(biāo)注,但這種方法需要針對不同的任務(wù)進(jìn)行調(diào)整,所以難以作為一種成熟的方法投入使用。

          2.1.2基于數(shù)據(jù)池的主動(dòng)學(xué)習(xí)方法

          基于池(pool-based)的主動(dòng)學(xué)習(xí)中則維護(hù)一個(gè)未標(biāo)注樣例的集合,由選擇引擎在該集合中選擇當(dāng)前要標(biāo)注的樣例。

          在基于池的抽樣中,訓(xùn)練樣本從一個(gè)大的未標(biāo)記數(shù)據(jù)池中選擇。從這個(gè)池中選擇的訓(xùn)練樣本由oracle標(biāo)記。

          2.1.3 基于查詢的主動(dòng)學(xué)習(xí)方法

          這種基于委員會(huì)查詢的方法使用多個(gè)模型而不是一個(gè)模型。

          委員會(huì)查詢(Query by Committee),它維護(hù)一個(gè)模型集合(集合被稱為委員會(huì)),通過查詢(投票)選擇最“有爭議”的數(shù)據(jù)點(diǎn)作為下一個(gè)需要標(biāo)記的數(shù)據(jù)點(diǎn)。通過這種委員會(huì)可的模式以克服一個(gè)單一模型所能表達(dá)的限制性假設(shè)(并且在任務(wù)開始時(shí)我們也不知道應(yīng)該使用什么假設(shè))。

          有兩個(gè)假設(shè)前提:

          1. 所有模型在已標(biāo)注數(shù)據(jù)上結(jié)果一致
          2. 所有模型對于未標(biāo)注結(jié)果樣本集存在部分分歧

          2.2 不確定性度量

          識(shí)別接下來需要標(biāo)記的最有價(jià)值的樣本的過程被稱為“抽樣策略”或“查詢策略”。在該過程中的評分函數(shù)稱為“acquisition function”。該分?jǐn)?shù)的含義是:得分越高的數(shù)據(jù)點(diǎn)被標(biāo)記后,對模型訓(xùn)練后的產(chǎn)生價(jià)值就越高。有很多中不同的采樣策略,例如不確定性抽樣,多樣性采樣等,在本節(jié)中,我們將僅關(guān)注最常用策略的不確定性度量。

          不確定性抽樣是一組技術(shù),可以用于識(shí)別當(dāng)前機(jī)器學(xué)習(xí)模型中的決策邊界附近的未標(biāo)記樣本。這里信息最豐富的例子是分類器最不確定的例子。模型最不確定性的樣本可能是在分類邊界附近的數(shù)據(jù)。而我們模型學(xué)習(xí)的算法將通過觀察這些分類最困難的樣本來獲得有關(guān)類邊界的更多的信息。

          讓我們以一個(gè)具體的例子,假設(shè)正在嘗試建立一個(gè)多類分類,以區(qū)分3類貓,狗,馬。該模型可能會(huì)給我們以下預(yù)測:

          {
              "Prediction": {
                  "Label": "Cat",
                  "Prob": {
                      "Cat": 0.9352784428596497,
                      "Horse": 0.05409964170306921,
                      "Dog": 0.038225741147994995,
                  }
              }
          }
          

          這個(gè)輸出很可能來自softmax,它使用指數(shù)將對數(shù)轉(zhuǎn)換為0-1范圍的分?jǐn)?shù)。

          2.2.1最小置信度:(Least confidence)

          最小置信度=1(100%置信度)和每個(gè)項(xiàng)目的最自信的標(biāo)簽之間的差異。

          雖然可以單獨(dú)按置信度的順序進(jìn)行排名,但將不確定性得分轉(zhuǎn)換為0-1范圍,其中1是最不確定的分?jǐn)?shù)可能很有用。因?yàn)樵谶@種情況下,我們必須將分?jǐn)?shù)標(biāo)準(zhǔn)化。我們從1中減去該值,將結(jié)果乘以N/(1-N),n為標(biāo)簽數(shù)。這時(shí)因?yàn)樽畹椭眯哦扔肋h(yuǎn)不會(huì)小于標(biāo)簽數(shù)量(所有標(biāo)簽都具有相同的預(yù)測置信度的時(shí)候)。

          讓我們將其應(yīng)用到上面的示例中,不確定性分?jǐn)?shù)將是:(1-0.9352) *(3/2)= 0.0972。

          最小置信度是最簡單,最常用的方法,它提供預(yù)測順序的排名,這樣可以以最低的置信度對其預(yù)測標(biāo)簽進(jìn)行采樣。

          2.2.2置信度抽樣間距(margin of confidence sampling)

          不確定性抽樣的最直觀形式是兩個(gè)置信度做高的預(yù)測之間的差值。也就是說,對于該模型預(yù)測的標(biāo)簽對比第二高的標(biāo)簽的差異有多大?這被定義為:

          不確定性抽樣的最直觀形式是兩個(gè)置信度做高的預(yù)測之間的差值。也就是說,對于該模型預(yù)測的標(biāo)簽對比第二高的標(biāo)簽的差異有多大?這被定義為:

          同樣我們可以將其轉(zhuǎn)換為0-1范圍,必須再次使用1減去該值,但是最大可能的分?jǐn)?shù)已經(jīng)為1了,所以不需要再進(jìn)行其他操作。

          讓我們將置信度抽樣間距應(yīng)用于上面的示例數(shù)據(jù)。“貓”和“馬”是前兩個(gè)。使用我們的示例,這種不確定性得分將為1.0 - (0.9352–0.0540)= 0.1188。

          2.2.3抽樣比率 (Ratio sampling)

          置信度比是置信度邊緣的變化,是兩個(gè)分?jǐn)?shù)之間的差異比率而不是間距的差異的絕對值。

          2.2.4 熵抽樣(Entropy Sampling)

          應(yīng)用于概率分布的熵包括將每個(gè)概率乘以其自身的對數(shù),然后求和取負(fù)數(shù):

          讓我們在示例數(shù)據(jù)上計(jì)算熵:

          得到 0 - sum(–0.0705,–0.0903,–0.2273)= 0.3881

          除以標(biāo)簽數(shù)的log得到0.3881/ log2(3)= 0.6151

          3.主動(dòng)學(xué)習(xí)方法歸類

          3.1 基于不確定性的主動(dòng)學(xué)習(xí)方法

          基于不確定性的主動(dòng)學(xué)習(xí)方法將最小化條件熵作為尋找判定函數(shù)的依據(jù)。

          Bayesian Active Learning for Classification and Preference Learning(論文 2011年)通過貪婪地找到一個(gè)能使當(dāng)前模型熵最大程度減少的數(shù)據(jù)點(diǎn)x,但由于模型參數(shù)維度很高,直接求解困難,因此在給定數(shù)據(jù)D和新增數(shù)據(jù)點(diǎn)x條件下,模型預(yù)測和模型參數(shù)之間的互信息。

          Deep Bayesian Active Learning with Image Data(論文,代碼 2017年)中實(shí)現(xiàn)了這一思路,過程如下:

          (1)從整體的數(shù)據(jù)中選一個(gè)子集作為初始訓(xùn)練集,來訓(xùn)練任務(wù)模型(分類,分割等等)

          (2)用訓(xùn)好的模型在剩余未標(biāo)注的圖像上以train模式跑多組預(yù)測,記錄對每個(gè)樣本的輸出。

          (3)計(jì)算對每個(gè)樣本的熵作為不確定性分?jǐn)?shù)。

          (4)從大到小依次選擇下一組數(shù)據(jù)標(biāo)注好后加入訓(xùn)練集,更新訓(xùn)練模型(在上一代模型上fine-tuning),直到滿足停止條件。

          考慮到深度學(xué)習(xí)中,不能每次選一個(gè)數(shù)據(jù)樣本就重新訓(xùn)練一次模型,而是以批數(shù)據(jù)的形式進(jìn)行訓(xùn)練,BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning(論文 2019年)中,把原來的一個(gè)樣本變成了一批樣本。

          3.2基于最近鄰和支持向量的分類器的方法

          基于不確定性的主動(dòng)學(xué)習(xí)方法依賴模型預(yù)測的分類概率來確定模型對該樣本的不確定性,但這個(gè)概率并不可靠,因?yàn)槭褂胹oftmax分類器的神經(jīng)網(wǎng)絡(luò)并不能識(shí)別分布外樣本,且很容易對OOD樣本做出過度自信的預(yù)測。

          OOD(Out of Distribution(OOD) detection指的是模型能夠檢測出 OOD 樣本,而 OOD 樣本是相對于 In Distribution(ID) 樣本來說的。傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常的假設(shè)是模型訓(xùn)練和測試的數(shù)據(jù)是獨(dú)立同分布的(IID, Independent Identical Distribution),這里訓(xùn)練和測試的數(shù)據(jù)都可以說是 In Distribution(ID) 。在實(shí)際應(yīng)用當(dāng)中,模型部署上線后得到的數(shù)據(jù)往往不能被完全控制的,也就是說模型接收的數(shù)據(jù)有可能是 OOD樣本,也可以叫異常樣本(outlier, abnormal)。

          基于深度模型的Out of Distribution(OOD)檢測相關(guān)方法介紹

          在主動(dòng)學(xué)習(xí)中,初始階段使用非常少的標(biāo)注樣本訓(xùn)練模型,意味著大量的未標(biāo)注樣本可能都是OOD樣本,若模型過早的給這部分樣本一個(gè)過度自信的預(yù)測概率,就可能使我們錯(cuò)失一些有價(jià)值的OOD樣本。如圖所示,初始訓(xùn)練階段,模型缺乏虛線框以外的區(qū)域的訓(xùn)練數(shù)據(jù),但softmax分類器仍然會(huì)對這些區(qū)域給出很自信的預(yù)測,導(dǎo)致選擇新的待標(biāo)注樣本時(shí),圖中的q點(diǎn)會(huì)被忽略,而若q點(diǎn)正好不是class B,則會(huì)影響主動(dòng)學(xué)習(xí)的性能。

          3.2.1 NNClassifier

          針對這個(gè)問題NNclassifier中設(shè)計(jì)了一個(gè)基于最近鄰和支持向量的分類器來取代softmax, 使模型能對遠(yuǎn)離已有訓(xùn)練數(shù)據(jù)的區(qū)域產(chǎn)生較高的不確定性。

          具體而言,每類訓(xùn)練學(xué)習(xí)N個(gè)支持向量,基于樣本特征與各類的支持向量之間的距離,就可以定義分類概率為與這N個(gè)支持向量的核函數(shù)的最大距離:

          $pc\left(fx\right)=\max n \delta\left(-d\left(fx, m_{c, n}\right)\right)$

          定義了新的可以意識(shí)到OOD樣本的分類器之后,作者給出了對應(yīng)的主動(dòng)學(xué)習(xí)策略:

          Rejection confidence,用于度量遠(yuǎn)離所有支持向量的樣本,如圖(b)所示; confusion confidence,用于度量遠(yuǎn)離支持向量以及同時(shí)靠近多個(gè)不同類支持向量的樣本,如圖?所示。

          $\begin{aligned} &M{\text {rejection }}(x)=\sumc\left(1-pc\left(fx\right)\right) \ &M{\text {confusion }}(x)=\sumc\left(1+pc\left(fx\right)-\max c pc\left(f_x\right)\right) \end{aligned}$

          3.2.2 RBF network + Gradient Penalty

          Amersfoort用RBF神經(jīng)網(wǎng)絡(luò)來促使網(wǎng)絡(luò)具有良好的OOD樣本不確定性,同時(shí)給出了基于梯度范數(shù)的雙邊正則來削弱特征崩潰(feature collapse)的問題。與NNClassifier相同,本文的作者也定義了一個(gè)與各類特征距離的函數(shù)K來幫助檢測OOD樣本,損失函數(shù)同樣定義成逐類的二值交叉熵。不同于NNClassifier的是,這里的距離是每個(gè)樣本與該類樣本的指數(shù)滑動(dòng)平均得到的。 $Kc\left(f\theta(x), ec\right)=\exp \left(-\left|Wc f\theta(x)-ec\right|_2^2 /\left(2 n \sigma^2\right)\right)$

          另一個(gè)不同點(diǎn)在于本文加入了一個(gè)雙邊梯度正則項(xiàng)。 $\max \left(0,\left|\operatorname{grad}z \sumc K{\mathrm{c}}\right|F^2-1\right)$

          這個(gè)正則項(xiàng)的作用有兩個(gè),一個(gè)是保證平滑性,也就是相似的輸入有相似的輸出,這個(gè)是由max()中的梯度部分保證的,而梯度-1則起到避免特征崩潰的作用,也就是相比單純的使用特征范數(shù)正則,-1能夠避免模型將很多不同的輸入映射到完全相同的特征,也就是feature collapse。

          3.3基于特征空間覆蓋的方法

          接下來主要介紹基于特征空間覆蓋的主動(dòng)學(xué)習(xí)代表性工作:coreset。coreset的主要貢獻(xiàn):給出了基于特征空間覆蓋的主動(dòng)學(xué)習(xí)算法的近似損失上界;證明了新添加的樣本在能夠縮小標(biāo)注樣本對剩余樣本的覆蓋半徑時(shí),才能提高近似效果。

          coreset認(rèn)為主動(dòng)學(xué)習(xí)目標(biāo)就是縮小核心集誤差,即主動(dòng)學(xué)習(xí)選出的樣本損失與全體樣本損失之間的差別。

          我們在主動(dòng)學(xué)習(xí)挑選新樣本時(shí),并不知道樣本的標(biāo)簽,也就沒法直接求核心集損失。作者把核心集損失的上界轉(zhuǎn)換做剩余訓(xùn)練樣本與挑選出的標(biāo)注樣本間的最大距離。因此,主動(dòng)學(xué)習(xí)問題等價(jià)于選擇添加一組標(biāo)注樣本,使得其他樣本對標(biāo)注樣本集的最大距離$\delta_s$ 最小,也就是k-center集覆蓋問題。如圖所示,藍(lán)色為挑選出的標(biāo)注樣本,紅色為其他樣本。

          3.4 基于對抗學(xué)習(xí)的方法

          3.4.1VAAL

          Variational Adversarial Active Learning(地址 2019年)描述了一種基于池的半監(jiān)督主動(dòng)學(xué)習(xí)算法,它以對抗的方式(關(guān)于對抗學(xué)習(xí)的詳細(xì)介紹參見這里)隱式地學(xué)習(xí)了這種采樣機(jī)制。與傳統(tǒng)的主動(dòng)學(xué)習(xí)算法不同,VAAL與任務(wù)無關(guān),也就是說,它不依賴于試圖獲取標(biāo)注數(shù)據(jù)的任務(wù)的性能。VAAL使用變分自編碼器(VAE)和訓(xùn)練好的對抗網(wǎng)絡(luò)來學(xué)習(xí)潛在空間,以區(qū)分未標(biāo)注和標(biāo)注的數(shù)據(jù)。

          核心思想 本文的出發(fā)點(diǎn)可以理解如下:之前很多方法的uncertainty都是基于模型的,也就是說需要有個(gè)分割/分類等模型計(jì)算預(yù)測結(jié)果,然后從結(jié)果的好壞去分析相應(yīng)的被預(yù)測樣本的價(jià)值。而本文的uncertainty是基于數(shù)據(jù)本身的,也就是說并非基于預(yù)測結(jié)果本身去分析,而是直接基于樣本自身的特征去處理

          核心思想:利用VAE對已標(biāo)注的數(shù)據(jù)和未標(biāo)注的數(shù)據(jù)進(jìn)行編碼。因此,對于一個(gè)未標(biāo)注的數(shù)據(jù),如果其編碼向量與潛在空間中向量的差異足夠大,那么我們就認(rèn)為該樣本是有價(jià)值的。

          而對于樣本的選擇,是通過一個(gè)對抗網(wǎng)絡(luò)來實(shí)現(xiàn)的,該對抗網(wǎng)絡(luò)被用來區(qū)分一個(gè)樣本是已標(biāo)注還是未標(biāo)注。因此上文的VAE還有一個(gè)額外的任務(wù),即他的編碼要讓判別器難以區(qū)分已經(jīng)標(biāo)注還是沒有標(biāo)注。

          網(wǎng)絡(luò)結(jié)構(gòu) VAE和對抗網(wǎng)絡(luò)之間的最大最小博弈是這樣進(jìn)行的:VAE試圖欺騙對抗網(wǎng)絡(luò)去預(yù)測,所有的數(shù)據(jù)點(diǎn)都來自已標(biāo)注池;對抗網(wǎng)絡(luò)則學(xué)習(xí)如何區(qū)分潛在空間中的不相似性。其結(jié)構(gòu)如下:

          VAE和對抗網(wǎng)絡(luò)之間的最大最小博弈是這樣進(jìn)行的:VAE試圖欺騙對抗網(wǎng)絡(luò)去預(yù)測,所有的數(shù)據(jù)點(diǎn)都來自已標(biāo)注池;對抗網(wǎng)絡(luò)則學(xué)習(xí)如何區(qū)分潛在空間中的不相似性。其結(jié)構(gòu)如下:

          主動(dòng)學(xué)習(xí)策略

          1. 一開始隨機(jī)選擇10%的圖像開始訓(xùn)練,此時(shí)記訓(xùn)練的網(wǎng)絡(luò)為版本1。對于版本1,訓(xùn)練會(huì)迭代max_iterations次,與一般網(wǎng)絡(luò)訓(xùn)練過程的差別在于每個(gè)iteration除了訓(xùn)練"任務(wù)模型"外,還得去訓(xùn)練VAE與判別器。而當(dāng)?shù)Y(jié)束后,訓(xùn)練得到的"任務(wù)模型"其實(shí)與直接隨機(jī)抽取10%的圖像訓(xùn)練沒有區(qū)別,因?yàn)閂AE與判別器只對下一個(gè)網(wǎng)絡(luò)版本有貢獻(xiàn)。
          2. 利用VAE與判別器內(nèi)包含的經(jīng)驗(yàn),一次性抽取5%的新數(shù)據(jù)加入訓(xùn)練集,此時(shí)開始訓(xùn)練網(wǎng)絡(luò)版本2。而這里特別關(guān)鍵的一點(diǎn)是,版本2仍然是從預(yù)訓(xùn)練VGG開始從頭訓(xùn)練的(而非在版本1的基礎(chǔ)上繼續(xù)finetune)。至此一直迭代到選取50%的數(shù)據(jù)結(jié)束。

          模型特點(diǎn) 本文的強(qiáng)化學(xué)習(xí)有點(diǎn)"離線"的味道,即最后選取出的50%數(shù)據(jù)可以很輕松的遷移至其他模型中,選擇的過程只依賴VAE與判別器,而與具體的任務(wù)無關(guān)。

          此外該模型訓(xùn)練十分耗時(shí)——從10%逐步提升5%至50%,相當(dāng)于順序訓(xùn)練了9個(gè)相同的模型,再考慮訓(xùn)練VAE與判別器的耗時(shí),訓(xùn)練該主動(dòng)學(xué)習(xí)框架的所需時(shí)間可能高達(dá)原有基礎(chǔ)網(wǎng)絡(luò)的10倍。

          3.4.2SRAAL

          SRAAL(論文 https://openaccess.thecvf.com/contentCVPR2020/html/ZhangState-RelabelingAdversarialActiveLearningCVPR2020_paper.html)是VAAL的一個(gè)改進(jìn)版。在VAAL中,判別器的訓(xùn)練的時(shí)候只有兩種狀態(tài),標(biāo)注/未標(biāo)注。SRAAL的作者認(rèn)為這樣忽略了一些信息,有時(shí)候任務(wù)模型已經(jīng)能很確信的對某個(gè)未標(biāo)注樣本做預(yù)測了,就應(yīng)該降低選擇這個(gè)樣本的優(yōu)先級(jí)。

          為了實(shí)現(xiàn)這個(gè)思路,作者給出了一個(gè)任務(wù)模型預(yù)測不確定度的計(jì)算函數(shù)用這個(gè)函數(shù)的輸出結(jié)果作為生成對抗網(wǎng)絡(luò)的判別器訓(xùn)練過程中,無標(biāo)注樣本的標(biāo)簽,而不用簡單的個(gè)一個(gè)二值變量

          3.4.3ARAL

          VAAL有效的一個(gè)關(guān)鍵的因素實(shí)際上是同時(shí)利用標(biāo)注/無標(biāo)注的樣本共同訓(xùn)練產(chǎn)生特征映射,而不像之前基于特征的coreset等主動(dòng)學(xué)習(xí)方法,僅用標(biāo)注數(shù)據(jù)訓(xùn)練產(chǎn)生特征

          ARAL(https://arxiv.org/abs/1912.09720 2019.11)更進(jìn)一步,也用這些個(gè)無標(biāo)注樣本來訓(xùn)練任務(wù)模型(如分類器)本身,整體仍然是在VAAL基礎(chǔ)上做的,只是增加了cgan的判別器來實(shí)現(xiàn)半監(jiān)督訓(xùn)練任務(wù)模型。整體來說,基于池的主動(dòng)學(xué)習(xí)用標(biāo)注樣本來訓(xùn)練任務(wù)模型,合成的主動(dòng)學(xué)習(xí)標(biāo)注合成的樣本來訓(xùn)練任務(wù)模型。

          相比之下,VAAL用標(biāo)注數(shù)據(jù)訓(xùn)練任務(wù)模型,用所有數(shù)據(jù)來訓(xùn)練產(chǎn)生特征;ARAL用所有的訓(xùn)練數(shù)據(jù),合成數(shù)據(jù)來訓(xùn)練任務(wù)模型、產(chǎn)生特征映射。相當(dāng)于使用了半監(jiān)督的學(xué)習(xí)方法,與和之前純基于監(jiān)督訓(xùn)練的主動(dòng)學(xué)習(xí)方法比較自然有所提升。

          4.融合不確定性和多樣性的學(xué)習(xí)方法☆

          之前介紹了基于不確定性的方法,以及基于多樣性的方法。接下來我們來看看融合兩者的方法。就動(dòng)機(jī)而言,如果只用不確定性標(biāo)準(zhǔn)來選樣本,在批量選擇的場景中,很容易出現(xiàn)選到冗余樣本的問題。而在深度學(xué)習(xí)中,由于訓(xùn)練開銷的緣故,通常都采用批主動(dòng)學(xué)習(xí),所以為了提高主動(dòng)學(xué)習(xí)的效率,就得考慮批量選擇高不確定性樣本時(shí)的多樣性問題。而從多樣性樣本選擇方法的角度來說,單純的特征空間覆蓋算法不能區(qū)分模型是否已經(jīng)能很好預(yù)測某部分樣本,會(huì)限制這類方法所能達(dá)到的上限。

          融合不確定性和多樣性的思路主要有三種:

          1. 完全延續(xù)信息論的分析思路,也就是batchBALD,在批量選擇的過程中不采取每個(gè)樣本互信息直接相加,而用求并的方法來避免選到冗余樣本;
          2. 先用不確定性標(biāo)準(zhǔn)選出大于budget size的候選集,再用集覆蓋的思路來選擇特征差異大的樣本;
          3. 是2的擴(kuò)展,通過在梯度嵌入空間聚類來選樣本,從而避開人工給定候選樣本集大小的問題

          4.1信息論思路

          第一種從理論上來看很優(yōu)雅,從信息論的角度推出怎么在批量選擇的場景里選到對模型參數(shù)改善最有效的一組樣本。但計(jì)算復(fù)雜度很高,可能并不是很實(shí)用,該論文中的實(shí)驗(yàn)部分也都是在很小的數(shù)據(jù)集上完成的。

          4.2 構(gòu)建候選集+大差異樣本——SA

          這類方法實(shí)現(xiàn)起來最簡單,非常啟發(fā)式。整個(gè)主動(dòng)學(xué)習(xí)分兩步來做,第一步先用不確定性(熵,BALD等)選超出主動(dòng)學(xué)習(xí)budget size的候選樣本集,在用多樣性的方法,選擇能最好覆蓋這個(gè)候選集的一組樣本。

          SA 2017 用Bootstrapping訓(xùn)練若干個(gè)模型,用這些模型預(yù)測的variance來表示不確定性,之后再用候選集中樣本特征相似度來選取與已經(jīng)選到的樣本差異最大的樣本,就類似coreset-greedy的做法。

          CoreLog 2021 基于Proper Scoring Rules給了表示不確定性的度量,先選出不確定性大的前k%個(gè)樣本,再用kmeans聚類來選擇多樣的樣本。

          這種結(jié)合的方式?jīng)]毛病,但有個(gè)小的問題,很難說清咋確定這個(gè)候選集大小,到底多大能算作高不確定性,能丟到候選集里。

          4.3 梯度嵌入空間——badge☆

          badge:https://arxiv.org/abs/1906.03671 2020 和第二類方法的思路很像,不確定性的用模型參數(shù)就某個(gè)樣本的梯度大小來表示,多樣性用kmeans++來保證。但這個(gè)方法很巧妙的地方在于,通過把這個(gè)問題丟到梯度嵌入空間來做(而不像第二類方法在樣本的特征空間保證多樣性),使樣本的多樣性和不確定性能同時(shí)得到保證。

          梯度范數(shù)大小表示不確定性很好理解,和之前用熵之類的指標(biāo)來表示不確定性類似,模型預(yù)測的概率小,意味著熵大,也意味著如果把這樣本標(biāo)了,模型要有較大的變化才能擬合好這個(gè)樣本,也就是求出來的梯度大。梯度表示多樣性,是這類方法的獨(dú)特之處,用梯度向量來聚類,選到的差異大的樣本就變成:讓模型參數(shù)的更新方向不同的樣本,而不是樣本特征本身不同。

          在用梯度表示了不確定性和多樣性之后,怎么來選一批既有高不確定性,又不同的樣本呢?badge的做法是Kmeans++聚類,第一個(gè)樣本選梯度范數(shù)最大的樣本,之后依據(jù)每個(gè)樣本梯度與選到的樣本梯度的差的范數(shù)來采樣新的樣本。這里注意這個(gè)差是兩個(gè)向量的差,所以自然的避免了重復(fù)的選到梯度方向接近且范數(shù)都比較大的一組樣本。

          5. 基于變化最大的方法

          這一類方法核心的觀點(diǎn)是,不管不確定性或多樣性,而是希望選出的樣本能使模型產(chǎn)生的變化最大。變化最大可以著眼于loss最大,也可以關(guān)注梯度的情況,比如梯度范數(shù)大小。

          learning loss 2019 在任務(wù)模型上加一個(gè)小的附屬子網(wǎng)絡(luò)用來學(xué)習(xí)預(yù)測樣本的損失值。訓(xùn)練任務(wù)模型的時(shí)候,也同時(shí)訓(xùn)練這個(gè)預(yù)測損失模塊,之后就用這個(gè)模塊來預(yù)測對哪個(gè)未標(biāo)注樣本的損失大,就選他。整個(gè)算法的流程圖如下

          損失預(yù)測模塊的結(jié)構(gòu)和損失計(jì)算方法如下:

          6.總結(jié)

          主動(dòng)學(xué)習(xí)(Active Learning)綜述以及在文本分類和序列標(biāo)注應(yīng)用項(xiàng)目鏈接fork一下,含實(shí)踐程序,因篇幅有限就沒放在本博客中,如有需求請自行fork https://aistudio.baidu.com/aistudio/projectdetail/4897371?contributionType=1

          獲得有用是標(biāo)注數(shù)據(jù)在訓(xùn)練時(shí)是非常重要的,但是標(biāo)注數(shù)據(jù)可能很非常的費(fèi)事費(fèi)力,并且如果標(biāo)注的質(zhì)量不佳也會(huì)對訓(xùn)練產(chǎn)生很大的影響。主動(dòng)學(xué)習(xí)是解決這個(gè)問題的一個(gè)方向,并且是一個(gè)非常好的方向。


          主站蜘蛛池模板: 精品久久国产一区二区三区香蕉| 午夜视频一区二区| 亚洲日本一区二区三区在线不卡| 色偷偷一区二区无码视频| 无码精品视频一区二区三区| 亚洲综合无码一区二区三区| 一本大道在线无码一区| 一区二区三区影院| 亚洲国产av一区二区三区丶| 无码人妻精品一区二区蜜桃AV| 国产福利电影一区二区三区久久老子无码午夜伦不 | 精品无码一区二区三区在线| 免费一区二区三区四区五区| 亚洲AV无码一区二区三区人| 国产亚洲情侣一区二区无码AV| 国产在线步兵一区二区三区| 欧美日韩精品一区二区在线视频| 无码少妇一区二区性色AV| 国模无码一区二区三区不卡| 亚洲国产精品成人一区| www一区二区三区| www.亚洲一区| 国产亚洲自拍一区| 国产精品日本一区二区在线播放| 亚洲熟妇av一区二区三区漫画| 国产一区二区三区免费观看在线 | 亚洲AⅤ无码一区二区三区在线 | 久久久久久免费一区二区三区 | 国产成人综合亚洲一区| 夜夜高潮夜夜爽夜夜爱爱一区| 亚洲av成人一区二区三区观看在线| 日韩精品一区二区三区色欲AV| 亚洲一区无码中文字幕乱码| 国产精品亚洲一区二区麻豆| 亚洲Av永久无码精品一区二区| 国产Av一区二区精品久久| 国产成人精品一区二区三在线观看| 国产无人区一区二区三区| 一区二区三区四区在线视频| 国产在线aaa片一区二区99| 天堂国产一区二区三区|