Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 国产又黄又粗又色又刺激视频 ,精品视频一区二区三三区四区,亚洲酒色1314狠狠做

          整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          爬蟲學習路線大綱

          天分享下基礎爬蟲或者小規模爬蟲,應該掌握哪些技能、需要如何學起!

          【文末有獲取方式】

          【文末有獲取方式】

          Python 基礎

          • 環境搭建
            • Python安裝
            • 開發工具 - PyCharm,VS Code
          • 變量
            • 定義變量
            • 命名規則
            • 基本數據類型
          • 基本數據結構
            • 字符串
            • 列表
            • 字典
            • 集合
            • 元組
          • 流程控制
            • 條件
            • 循環
          • 函數
            • 調用函數
            • 定義函數
            • 函數參數
            • lambda 函數
          • 面向對象編程
            • 類和對象
            • 訪問限制
            • 裝飾器

          數據采集與解析

          • HTTP 基本原理
            • URI 和 URL 統一資源定位符
            • HTTP&HTTPS 請求與響應
            • HTML 組成原理
          • WEB 基本原理
            • JavaScript&HTML&CSS
            • 節點樹與節點
            • Web 加載原理
            • 靜動態 Web 頁面
          • Socket 庫
            • 基于 socket 協議的爬蟲
          • Requests 庫
            • requests 庫的使用
            • cookie 與 session
            • 模擬登錄
            • 請求頭模擬
            • IP 代理
          • 正則表達式
            • re 模塊的使用
            • 基本字符串、數字等匹配規則
            • 貪婪與非貪婪匹配
          • Xpath
            • 執行原理
            • 節點操作
            • 元素操作

          、前言

          jsoup 是一款Java 的HTML解析器,我們使用它可直接解析URL地址、HTML文本內容。除此之外,它提供了一套非常友好的API,使得我們可以比較便利的通過DOM,CSS等操作類型,獲取對應網頁元素屬性及數據操作。

          jsoup官網:https://jsoup.org/

          二、核心功能

          2.1、功能描述

          ① 從一個URL,文件或字符串中解析HTML

          ② 使用DOM或CSS選擇器來查找、取出數據使用DOM或CSS選擇器來查找、取出數據

          ③ 可操作HTML元素、屬性、文本可操作HTML元素、屬性、文本

          Tips:jsoup是基于MIT協議發布的,可放心使用于商業項目

          2.2、Maven地址

                  <dependency>
                      <groupId>org.jsoup</groupId>
                      <artifactId>jsoup</artifactId>
                      <version>1.11.3</version>
                  </dependency>

          三、核心API

          6個包提供用于開發jsoup應用程序的類和接口。

          org.jsoup

          org.jsoup.examples

          org.jsoup.helper

          org.jsoup.nodes

          org.jsoup.parser
          org.jsoup.safety

          org.jsoup.salect

          主要類:

          Jsoup 類提供了連接,清理和解析HTML文檔的方法

          Document 獲取HTML文檔

          Element 獲取、操作HTML節點

          四、實例代碼

          4.1、三種加載HTML的方法

          
              public static void main(String[] args) {
                  /* 從URL加載HTML */
                  Document document = Jsoup.connect("http://www.baidu.com").get();
                  String title = document.title();
                  /* 獲取html中的標題 */
                  System.out.println("title :"+title);
          
                  /* 從字符串加載HTML */
                  String html = "<html><head><title>First parse</title></head>"
                          + "<body><p>Parsed HTML into a doc.</p></body></html>";
                  Document doc = Jsoup.parse(html);
                  title = doc.title();
                  System.out.println("title :"+title);
          
                  /* 從文件加載HTML */
                  doc = Jsoup.parse(new File("F:\\jsoup\\html\\index.html"),"utf-8");
                  title = doc.title();
                  System.out.println("title :"+title);
              }
          

          4.2、獲取html中的head、body、url等信息

          
              public static void main(String[] args) {
                  Document document = Jsoup.connect("http://www.baidu.com").get();
                  String title = document.title();
          
                  System.out.println("title :"+title);
                  /* 獲取html中的head */
                  System.out.println(document.head());
                  /* 獲取html中的body */
          
                  /* 獲取HTML頁面中的所有鏈接 */
                  Elements links = document.select("a[href]");
                  for (Element link : links){
                      System.out.println("link : "+ link.attr("href"));
                      System.out.println("text :"+ link.text());
                  }
              }
           

          4.3、獲取URL的元信息

          
              public static void main(String[] args) {
                  Document document = Jsoup.connect("https://passport.lagou.com").get();
          
                  System.out.println(document.head());
                  /* 獲取URL的元信息 */
                  String description = document.select("meta[name=description]").get(0).attr("content");
                  System.out.println("Meta description : " + description);
          
                  String keywords = document.select("meta[name=keywords]").first().attr("content");
                  System.out.println("Meta keyword : " + keywords);
              }
           

          4.4、根據class名稱獲取表單

          
              public static void main(String[] args) {
                  Document document = Jsoup.connect("https://baidu.com").get();
                  /* 獲取拉勾網登入頁面的body */
                  /* System.out.println(document.body()); */
                  /* 根據class名稱獲取表單 */
                  Elements formElement = document.getElementsByClass("form_body");
                  System.out.println(formElement.html());
                  /* 獲取URL的元信息 */
                  for (Element inputElement : formElement) {
                      String placeholder = inputElement.getElementsByTag("input").attr("placeholder");
                      System.out.println(placeholder);
                  }
              }
           

          4.5、提取并打印表單參數

          
              public static void main(String[] args) {
                  Document document = Jsoup.parse(new File("F:\\jsoup\\html\\login.html"),"utf-8");
                  Element loginform = document.getElementById("registerform");
          
                  Elements inputElements = loginform.getElementsByTag("input");
                  for (Element inputElement : inputElements) {
                      String key = inputElement.attr("name");
                      String value = inputElement.attr("value");
                      System.out.println("Param name: "+key+" -- Param value: "+value);
                  }
              }
           

          4.6、設置元素的html內容

          
              public static void main(String[] args) {
                  Document document = Jsoup.parse(new File("F:\\jsoup\\html\\index.html"),"utf-8");
                  System.out.println(document.body());
                  System.out.println("*************");
                  Element div = document.select("div").first();
                  div.html("<p>Hello</p>");
                  div.prepend("<p>Fiest</p>");
                  div.append("<p>Last</p>");
                  System.out.println(document.body());
                  System.out.println(div.text());
          
                  /* 對元素包裹一個外部HTML內容 */
                  div.wrap("<div id=\"div2\"></div>");
                  System.out.println(document.body());
              }
           

          4.7、設置元素的文本內容

          javascript 是一門單線程的語言,在同一個時間只能做完成一件任務,如果有多個任務,就必須排隊,前面一個任務完成,再去執行后面的任務。作為瀏覽器端的腳本語言,javascript 的主要功能是用來和用戶交互以及操作 dom。假設 javascript 不是單線程語言,在一個線程里我們給某個 dom 節點增加內容的時候,另一個線程同時正在刪除這個 dom 節點的內容,則會造成混亂。

          由于 js 單線程的設計,假設 js 程序的執行都是同步。如果執行一些耗時較長的程序,例如 ajax 請求,在請求開始至請求響應的這段時間內,當前的工作線程一直是空閑狀態, ajax 請求后面的 js 代碼只能等待請求結束后執行,因此會導致 js 阻塞的問題。

          javascript 單線程指的是瀏覽器中負責解釋和執行 javascript 代碼的只有一個線程,即為 js 引擎線程,但是瀏覽器的渲染進程是提供多個線程的,如下:

          1. js 引擎線程
          2. 事件觸發線程
          3. 定時器觸發線程
          4. 異步 http 請求線程
          5. GUI 渲染線程

          一、異步 & 同步

          為解決上述類似上述 js 阻塞的問題,js 引入了同步和異步的概念。

          1、什么是同步?

          “同步”就是后一個任務等待前一個任務結束后再去執行。

          2、什么是異步?

          “異步”與同步不同,每一個異步任務都有一個或多個回調函數。webapi 會在其相應的時機里將回調函數添加進入消息隊列中,不直接執行,然后再去執行后面的任務。直至當前同步任務執行完畢后,再把消息隊列中的消息添加進入執行棧進行執行。

          異步任務在瀏覽器中一般是以下:

          1. 網絡請求
          2. 計時器
          3. DOM 監聽事件
          4. ...

          二、什么是執行棧(stack)、堆(heap)、事件隊列(task queue)?

          1、執行棧

          “棧”是一種數據結構,是一種線性表。特點為 LIFO,即先進后出 (last in, first out)。

          利用數組的 push 和 shift 可以實現壓棧和出棧的操作。

          在代碼運行的過程中,函數的調用會形成一個由若干幀組成的棧。

          function foo(b) {
            let a = 10;
            return a + b + 11;
          }
          
          function bar(x) {
            let y = 3;
            return foo(x * y);
          }
          
          console.log(bar(7))

          上面代碼最終會在控制臺打印42,下面梳理一下它的執行順序。

          1. console.log 函數作為第一幀壓入棧中。
          2. 調用 bar,第二幀被壓入棧中。幀中包含著 bar 的變量對象。
          3. bar 調用 foo,foo 做一位第三幀被壓入棧中,幀中包含著 foo 的變量對象。
          4. foo 執行完畢然后返回。被彈出棧。
          5. bar 執行完畢然后返回,被彈出棧。
          6. log 函數接收到 bar 的返回值。執行完畢后,出棧。此時棧已空。

          2、堆

          對象被分配在堆中,堆是一個用來表示一大塊(通常是非結構化的)內存區域的計算機術語。

          堆和棧的區別

          首先,stack 是有結構的,每個區塊按照一定次序存放,可以明確知道每個區塊的大小;heap 是沒有結構的,數據可以任意存放。因此,

          stack 的尋址速度要快于 heap。

          其次,每個線程分配一個 stack,每個進程分配一個 heap,也就是說,stack 是線程獨占的,heap 是線程共用的。

          此外,stack 創建的時候,大小是確定的,數據從超過這個大小,就發生 stack overflow 錯誤,而 heap 的大小是不確定的,

          需要的話可以不斷增加。

          public void Method1()
          {
              int i=4;
          
              int y=2;
          
              class1 cls1 = new class1();
          }

          上面代碼這三個變量和一個對象實例在內存中的存放方式如下。

          從上圖可以看到,i、y和cls1都存放在stack,因為它們占用內存空間都是確定的,而且本身也屬于局部變量。但是,cls1指向的對象實例存放在heap,因為它的大小不確定。作為一條規則可以記住,所有的對象都存放在heap。

          接下來的問題是,當Method1方法運行結束,會發生什么事?

          回答是整個stack被清空,i、y和cls1這三個變量消失,因為它們是局部變量,區塊一旦運行結束,就沒必要再存在了。而heap之中的那個對象實例繼續存在,直到系統的垃圾清理機制(garbage collector)將這塊內存回收。因此,一般來說,內存泄漏都發生在heap,即某些內存空間不再被使用了,卻因為種種原因,沒有被系統回收。

          3、事件隊列和事件循環

          隊列是一種數據結構,也是一種特殊的線性表。特點為 FIFO,即先進先出(first in, first out)

          利用數組的 push 和 pop 可實現入隊和出隊的操作。

          事件循環和事件隊列的維護是由事件觸發線程控制的。

          事件觸發線程線程同樣是由瀏覽器渲染引擎提供的,它會維護一個事件隊列。

          js 引擎遇到上文所列的異步任務后,會交個相應的線程去維護異步任務,等待某個時機,然后由事件觸發線程將異步任務對應的回調函數加入到事件隊列中,事件隊列中的函數等待被執行。

          js 引擎在執行過程中,遇到同步任務,會將任務直接壓入執行棧中執行,當執行棧為空(即 js 引擎線程空閑), 事件觸發線程 會從事件隊列中取出一個任務(即異步任務的回調函數)放入執行在棧中執行。

          執行完了之后,執行棧再次為空,事件觸發線程會重復上一步的操作,再從事件隊列中取出一個消息,這種機制就被稱為 事件循環 (Event Loop)機制。

          為了更好地理解Event Loop,請看下圖(轉引自Philip Roberts的演講《Help, I'm stuck in an event-loop》)。

          例子代碼:

          console.log('script start')
          
          setTimeout(() => {
            console.log('timer 1 over')
          }, 1000)
          
          setTimeout(() => {
            console.log('timer 2 over')
          }, 0)
          
          console.log('script end')
          
          // script start
          // script end
          // timer 2 over
          // timer 1 over

          模擬 js 引擎對其執行過程:

          第一輪事件循環:

          1. console.log 為同步任務,入棧,打印“script start”。出棧。
          2. setTimeout 為異步任務,入棧,交給定時器觸發線程處理(在1秒后加入將回調加入事件隊列)。出棧。
          3. setTimeout 為異步任務,入棧,交給定時器觸發線程處理(在4ms之內將回調加入事件隊列)。出棧。
          4. console.log 為同步任務,入棧,打印"script end"。出棧。

          此時,執行棧為空,js 引擎線程空閑。便從事件隊列中讀取任務,此時隊列如下:

          第二輪事件循環

          1. js 引擎線程從事件隊列中讀取 cb2 加入執行棧并執行,打印”time 2 over“。出棧。

          第三輪事件循環

          1. js 引擎從事件隊列中讀取 cb1 加入執行棧中并執行,打印”time 1 over“ 。出棧。

          注意點:

          上面,timer 2 的延時為 0ms,HTML5標準規定 setTimeout 第二個參數不得小于4(不同瀏覽器最小值會不一樣),不足會自動增加,所以 "timer 2 over" 還是會在 "script end" 之后。

          就算延時為0ms,只是 time 2 的回調函數會立即加入事件隊列而已,回調的執行還是得等到執行棧為空時執行。

          四、宏任務 & 微任務

          在 ES6 新增 Promise 處理異步后,js 執行引擎的處理過程又發生了新的變化。

          看代碼:

          console.log('script start')
          
          setTimeout(function() {
              console.log('timer over')
          }, 0)
          
          Promise.resolve().then(function() {
              console.log('promise1')
          }).then(function() {
              console.log('promise2')
          })
          
          console.log('script end')
          
          // script start
          // script end
          // promise1
          // promise2
          // timer over

          這里又新增了兩個新的概念, macrotask (宏任務)和 microtask (微任務)。

          所有的任務都劃分到宏任務和微任務下:

          • macrotask : script 主代碼塊、setTimeout、setInterval、requestAnimationFrame、node 中的setimmediate 等。
          • microtask : Promise.then catch finally、MutationObserver、node 中的process.nextTick 等。

          js 引擎首先執行主代碼塊。

          執行棧每次執行的代碼就是一個宏任務,包括任務隊列(宏任務隊列)中的。執行棧中的任務執行完畢后,js 引擎會從宏任務隊列中去添加任務到執行棧中,即同樣是事件循環的機制。

          當在執行宏任務遇到微任務 Promise.then 時,會創建一個微任務,并加入到微任務隊列中的隊尾。

          微任務是在宏任務執行的時候創建的,而在下一個宏任務執行之前,瀏覽器會對頁面重新渲染(task >> render >> task(任務隊列中讀取))。 同時,在上一個宏任務執行完成后,頁面渲染之前,會執行當前微任務隊列中的所有微任務。

          所以上述代碼的執行過程就可以解釋了。

          js 引擎執行 promise.then 時,promise1、promise2 被認為是兩個微任務按照代碼的先后順序被加入到微任務隊列中,script end執行后,空。

          此時當前宏任務(script 主代碼塊)執行完畢,并不從當前宏任務隊列中讀取任務。而是立馬清空當前宏任務所產生的微任務隊列。將兩個微任務依次放入執行棧中執行。執行完畢,打印 promise1、promise2。棧空。 此時,第一輪事件循環結束。

          緊接著,再去讀取宏任務隊列中的任務,time over 被打印。棧空。

          因此,宏任務和微任務的執行機制如下:

          1. 執行一個宏任務(棧中沒有就從宏任務隊列中獲取)
          2. 執行過程中遇到微任務,就將它添加到微任務的任務隊列中
          3. 宏任務執行完畢,立即執行當前微任務隊列中的所有微任務(依次執行)
          4. 當前所有微任務執行完畢后,開始檢查渲染,GUI 線程接管渲染
          5. 渲染完畢后,JS 引擎繼續開始下一個宏任務,從宏任務隊列中獲取

          async & await

          因為,async 和 await 本質上還是基于 Promise 的封裝,而 Promise 是屬于微任務的一種。所以使用 await 關鍵字與 Promise.then 效果類似:

          setTimeout(_ => console.log(4))
          
          async function main() {
            console.log(1)
            await Promise.resolve()
            console.log(3)
          }
          
          main()
          
          console.log(2)
          // 1
          // 2
          // 3
          // 4

          async 函數在 await 之前的代碼都是同步執行的, 可以理解為 await 之前的代碼都屬于 new Promise 時傳入的代碼,await 之后的所有代碼都是 Promise.then 中的回調,即在微任務隊列中。

          五、總結

          1. js 單線程實際上解釋執行 js 代碼的只有一個線程,但是瀏覽器的渲染是多線程的。
          2. 異步和同步的概念與區別,異步任務有哪些。
          3. 棧、堆、隊列的特點和使用場景。
          4. 事件隊列以及事件循環機制。
          5. es6 下,宏任務與微任務的執行過程。

          參考:

          • JavaScript 異步與事件循環
          • 并發模型與事件循環
          • 微任務、宏任務與Event-Loop
          • JavaScript 運行機制詳解:再談Event Loop
          • JS事件循環
          • [譯] 深入理解 JavaScript 事件循環(二)— task and microtask
          • Help, I'm stuck in an event-loop

          原文作者:大芒果哇

          原文地址:https://www.cnblogs.com/shenggao/p/13799566.html


          主站蜘蛛池模板: 国产AV国片精品一区二区| 中文字幕在线观看一区| 日韩精品一区二区三区四区| 国产91精品一区二区麻豆网站| 成人精品一区二区三区校园激情| 国模吧无码一区二区三区| 福利国产微拍广场一区视频在线 | 精品91一区二区三区| 污污内射在线观看一区二区少妇| 在线|一区二区三区| 日韩精品一区二区三区中文精品| 精品视频一区二区三区免费| 亚洲日本一区二区一本一道 | 日本中文字幕在线视频一区| 亚洲国产AV无码一区二区三区| 精品无码av一区二区三区| 国产探花在线精品一区二区| 日韩国产一区二区| 国产精品亚洲不卡一区二区三区| 国产婷婷色一区二区三区深爱网 | 亚洲欧美一区二区三区日产 | 国产精品自在拍一区二区不卡| 美日韩一区二区三区| 精品人妻无码一区二区三区蜜桃一 | 午夜精品一区二区三区免费视频| 精品成人一区二区三区四区| 亚洲一区二区三区在线视频| 国产伦精品一区二区| 美女福利视频一区二区| 天堂不卡一区二区视频在线观看 | 亚洲综合无码精品一区二区三区| 一区 二区 三区 中文字幕| 精品无码中出一区二区| 麻豆精品一区二区综合av| 日韩经典精品无码一区| 国产亚洲一区二区手机在线观看| 久久精品一区二区| 97久久精品无码一区二区天美 | 亚洲av区一区二区三| 综合人妻久久一区二区精品| 无码人妻一区二区三区免费n鬼沢|