整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          靜態網頁爬蟲①

          靜態網頁爬蟲①

          理數據

          前面我們說過了通過 requests 庫獲取數據,這里我們要說如何處理數據

          處理數據我們需要用到一個強大的第三方庫——BeautifulSoup !

          “美味的湯,綠色的濃湯,在熱氣騰騰的蓋碗里裝!誰不愿意嘗一嘗,這樣的好湯?晚餐用的湯,美味的湯!”

          BeautifulSoup 庫的名字取自劉易斯·卡羅爾在《愛麗絲夢游仙境》里的同名詩歌。就像它在仙境中的說法一樣,BeautifulSoup 嘗試化平淡為神奇。它通過定位 HTML 標簽來格式化和組織復雜的網頁源代碼,用簡單易用的 Python 對象為我們展現出 HTML 結構信息。

          處理數據分為兩步:

          解析數據:將網頁源代碼解析成 Python 能“讀懂”的格式

          提取數據:將網頁源代碼中無關數據過濾掉,只提取出我們所需要的數據

          解析數據

          我們以豆瓣讀書 Top250 為例,它的網址是:https://book.douban.com/top250。

          我們來看看如何將其網頁源代碼解析成 BeautifulSoup 對象:

          import requests
          from bs4 import BeautifulSoup
          
          headers={
            'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
          }
          res=requests.get('https://book.douban.com/top250', headers=headers)
          soup=BeautifulSoup(res.text, 'html.parser')

          Tips:相比之前我們添加 headers 參數,這是為了應對豆瓣的反爬蟲機制。

          我們通過 from bs4 import BeautifulSoup 語句導入 BeautifulSoup,然后使用 BeautifulSoup(res.text, 'html.parser') 語句將網頁源代碼的字符串形式解析成了 BeautifulSoup 對象。

          創建 BeautifulSoup 對象時需要傳入兩個參數,第一個參數是要解析的 HTML 文本,即網站源代碼的字符串形式(res.text)。第二個參數是 解析HTML 的解析器,html.parser 是 Python 中內置的解析器,較為簡單方便.


          我們將網頁源代碼解析成了 BeautifulSoup 對象,如果我們將他打印出來會發現竟然和原來的網頁源代碼(也就是 res.text)一模一樣!既然都一樣,我們何苦費這么大力將網頁源代碼解析成 BeautifulSoup 對象 呢?

          相比字符串,BeautifulSoup 對象 里有很多強大的方法和屬性。通過這些方法和屬性,我們就能方便快捷地提取出我們所需要的數據。

          提取數據

          BeautifulSoup 對象 里的方法和屬性有很多,我們這里只提及其中最常用的一些,這些足以應付大多數場景。

          find() 方法和 find_all() 方法

          BeautifulSoup 對象 里的 find() 和 find_all() 是我們提取數據最常用的兩個方法。借助它們,我們可以過濾掉 HTML 頁面里的無用數據,輕松地找到我們需要的數據。

          我們來看一下 find() 和 find_all() 的作用和區別:


          我們可以通過例子來更好地理解他們:
          假設我們獲取到的網頁源代碼如下:

          <div class="content">
            <a href="https://douban.com">登錄/注冊</a>
            <h1>豆瓣讀書 Top 250</h1>
            <div class="artile">
              <a href="https://movie.douban.com">豆瓣電影</a>
              <div class="item">
                <a href="https://book.douban.com/subject/1770782/">追風箏的人</a>
              </div>
              <div class="item">
                <a href="https://book.douban.com/subject/25862578/">解憂雜貨店</a>
              </div>
              <div class="item">
                <a href="https://book.douban.com/subject/1084336/">小王子</a>
              </div>
            </div>
          </div>
          soup=BeautifulSoup(res.text, 'html.parser')
          print(soup.find('a'))
          # 輸出:<a href="https://douban.com">登錄/注冊</a>
          print(soup.find_all('a'))
          # 輸出:[
          # <a href="https://douban.com">登錄/注冊</a>,
          # <a href="https://movie.douban.com">豆瓣電影</a>,
          # <a href="https://book.douban.com/subject/1770782/">追風箏的人</a>,
          # <a href="https://book.douban.com/subject/25862578/">解憂雜貨店</a>,
          # <a href="https://book.douban.com/subject/1084336/">小王子</a>
          # ]

          它倆的用法基本一樣,都是傳入 HTML 標簽名稱,返回符合該 HTML 標簽的數據。區別是 find() 方法只返回第一個符合條件的標簽,而 find_all() 方法返回所有符合條件的標簽列表。他們的返回值分別是 BeautifulSoup 中的 Tag 對象 和由 Tag 對象組成的列表。(后面會提到)

          除了傳入 HTML 標簽名稱 外,這兩個方法還支持傳入 HTML 屬性 進行篩選,返回符合條件的數據。舉個例子:

          # 查找 id='doubanapp-tip' 的 div 標簽
          soup.find('div', id='doubanapp-tip')
          # 查找所有 class='rating_nums' 的 span 標簽
          soup.find_all('span', class_='rating_nums')

          class 和 id 這兩個 HTML 屬性 具有很強的標識性,因此是數據篩選中最常用的兩個屬性,我們要重點關注。

          Tips:因為 class 是 Python 中定義類的關鍵字,因此用 class_ 表示 HTML 中的 class。

          通過 id、class 等 HTML 屬性的篩選,我們就可以快速準確的找到我們需要的數據。當一個條件無法精確定位到我們想要的數據時,我們還可以傳入多個 HTML 屬性進行篩選,返回同時符合這些條件的數據。

          我們再來看個例子:

          # 查找 id='doubanapp-tip' 且 class='rating_nums' 的 div 標簽
          soup.find('div', id='doubanapp-tip', class_='rating_nums')

          Tag對象

          BeautifulSoup 將 HTML 中的元素封裝成了 Tag 對象。和 BeautifulSoup 對象 一樣,Tag 對象 里也有 find() 和 find_all() 方法。因此,我們可以不斷地調用這兩個方法,一層一層地找到我們需要的數據。我們還是以前面的 HTML 代碼為例提取其中的書名:

          <div class="content">
            <a href="https://douban.com">登錄/注冊</a>
            <h1>豆瓣讀書 Top 250</h1>
            <div class="books">
              <a href="https://movie.douban.com">豆瓣電影</a>
              <div class="item">
                <a href="https://book.douban.com/subject/1770782/">追風箏的人</a>
              </div>
              <div class="item">
                <a href="https://book.douban.com/subject/25862578/">解憂雜貨店</a>
              </div>
              <div class="item">
                <a href="https://book.douban.com/subject/1084336/">小王子</a>
              </div>
            </div>
          </div>

          我們可以看到,書名在 a 標簽 中。但如果直接使用 soup.find_all(‘a’) 的話,第二行的“登錄/注冊”和第五行的“豆瓣電影”也會被獲取到,因此我們需要將這些無效數據過濾掉。

          我們分析一下不難發現,書名在 class=“item” 的 div 標簽 里的 a 標簽 內。我們只要先找到所有 class=“item” 的 div 標簽,然后再找到其中的 a 標簽 即可,因此我們可以像下面這樣來獲取書名的數據:

          # 找到所有 class_='item' 的 div 標簽
          items=soup.find_all('div', class_='item')
          for i in items:
            # 找到 class_='item' 的 div 標簽中的 a 標簽
            print(i.find('a'))
          # 輸出:
          # <a href="https://book.douban.com/subject/1770782/">追風箏的人</a>
          # <a href="https://book.douban.com/subject/25862578/">解憂雜貨店</a>
          # <a href="https://book.douban.com/subject/1084336/">小王子</a>

          這樣,我們就找到了所有書名的數據。此時返回的還是 Tag 對象。如果我們只想要書名和對應的鏈接呢?這就用到了 Tag 對象 的 text 屬性和 HTML 屬性名取值。

          items=soup.find_all('div', class_='item')
          for i in items:
            tag=i.find('a')
            # 獲取 text 屬性
            name=tag.text
            # 獲取 href 屬性值
            link=tag['href']
            print(name, link)
          # 輸出:
          # 追風箏的人 https://book.douban.com/subject/1770782/
          # 解憂雜貨店 https://book.douban.com/subject/25862578/
          # 小王子 https://book.douban.com/subject/1084336/

          我們通過 Tag 對象 的 text 屬性拿到了 a 標簽里的文字內容,即 追風箏的人 等。然后我們通過和字典取值一樣的方式,將 HTML 屬性名 作為鍵,得到了對應屬性的值。這里是以 href 屬性為例,其他的 HTML 屬性也同樣可以。


          我們來總結一下 Tag 對象 的常用屬性和方法:


          CSS選擇器

          有沒有什么方法可以直接就找到我們需要的數據,而不用多次查找嗎?

          答案是肯定的,需要用到 CSS 選擇器。

          在 CSS 選擇器中,# 代表 id,. 代表 class。比如:#login 表示 id=‘login’ 的所有元素,.item 表示 class=‘item’ 的所有元素。

          我們也可以直接通過標簽名選擇對應的元素,比如:a 表示所有的 a 元素,p 表示所有的 p 元素。

          它們也可以組合在一起,選擇同時符合條件的元素,比如:a#login 表示所有 id=‘login’ 的 a 元素,p.item 表示所有 class=‘item’ 的 p 元素,#login.item 表示所有 id=‘login’ 且 class=‘item’ 的元素,.item.book 表示所有 class 同時為 item 和 book 的元素。

          需要注意的是,選擇同時符合條件的元素,選擇器之間不能有空格,如果寫成 .item .book 就是另一個意思了。這是新的知識點——子元素選擇。

          當兩個選擇器之間加了空格,表示子元素選擇。還是以 .item .book 為例,它表示選擇所有 class=‘item’ 的元素里面 class=‘book’ 的元素,即嵌套在 class=‘item’ 的元素里面 class=‘book’ 的元素。

          這個嵌套可以是任意層級的,只要在里面就行,不要求直接嵌套在第一層。如果只需要直接嵌套在第一層符合條件的元素,可以用 > 分隔。比如:.item > .book。

          來看個例子感受一下它們的區別:

          from bs4 import BeautifulSoup
          
          html='''
          <div class="item">
            <p class="book">小王子</p>
            <div class="hot">
              <p class="book">追風箏的人</p>
            </div>
          </div>'''
          
          soup=BeautifulSoup(html, 'html.parser')
          
          print(soup.select('.item.book'))
          # 輸出:[]
          
          print(soup.select('.item .book'))
          # 輸出:[<p class="book">小王子</p>, <p class="book">追風箏的人</p>]
          
          print(soup.select('.item > .book'))
          # 輸出:[<p class="book">小王子</p>]

          了解了 CSS 選擇器的基本語法后,我們來看看如何在 BeautifulSoup 中使用。

          BeautifulSoup 對象 有一個 select() 方法,我們將 CSS 選擇器 傳進去即可直接找到我們需要的元素。上面查找在 class=“item” 的 div 標簽 里的 a 標簽 的代碼就可以這樣寫:

          items=soup.select('div.item a')
          for i in items:
            name=i.text
            link=i['href']
            print(name, link)
          # 輸出:
          # 追風箏的人 https://book.douban.com/subject/1770782/
          # 解憂雜貨店 https://book.douban.com/subject/25862578/
          # 小王子 https://book.douban.com/subject/1084336/

          靜態網頁爬蟲的過程

          對于靜態網頁爬蟲的過程,可以總結成下圖:


          我們現在對豆瓣top250中的前25個電影的名字以及名字進行爬取:

          import requests
          from bs4 import BeautifulSoup
          
          headers={
              'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.41 Safari/537.36 Edg/101.0.1210.32'
          }
          
          #首先對網頁發出請求并獲得響應
          req=requests.get('https://movie.douban.com/top250',headers=headers)
          #將網頁的源代碼形式解析
          soup=BeautifulSoup(req.text,'html.parser')
          
          #進行元素的第一次提取
          result1=soup.select('.item .pic')
          
          num=0
          for i in result1:
              num +=1
              name=i.select('a img')[0]['alt']
              link=i.select('a')[0]['href']
              print(num,' ',name,link)

          結果:



          文章知識點與官方知識檔案匹配,可進一步學習相關知識 , 免費領取有關于java面試題材料和講解!


          原文出處:https://blog.csdn.net/zyb18507175502/article/details/124636025?spm=1001.2100.3001.7377&utm_medium=distribute.pc_feed_blog_category.none-task-blog-classify_tag-5-124636025-null-null.nonecase&depth_1-utm_source=distribute.pc_feed_blog_category.none-task-blog-classify_tag-5-124636025-null-null.nonecase

          、HTML簡介

          1.HTML是什么?

          HTML:htper text markup language超文本標記(標簽)語言

          由各種標簽組成,用來制作網頁,告訴瀏覽器如何顯示頁面

          2.作用

          • 制作網頁,控制網頁和內容的顯示
          • 插入圖片、音樂、視頻、動畫等多媒體
          • 通過鏈接來檢索信息
          • 使用表單獲取用戶的信息,實現交互

          3.版本

          w3c:world wide web consortium萬維網聯盟,制定web技術相關標準和規范的組織,HTML技術hi由w3c制定的標準

          兩個版本:HTML4.0.1、HTML5.0-----通常H5

          官網:http://www.W3shcool.com.cn

          4.擴展名

          HTML文檔是以.html或.htm結尾

          二、HTML文檔結構

          1.基本結構

          1.1簡介

          • HTML標簽是由尖括號括起來的關鍵詞,如,通常是成對出現的,如<html></html>
          • <html>為根標簽,包含: <head>頭部和<body>主體部分
          • 頭部提供關于網頁的相關信息,如標題、文檔類型、字符編碼、關鍵字等摘要信息
          • 主體部分提供網頁的顯示內容,真正顯示在頁面中的內容
          • 合理地進行縮進
          • 標簽名不區分大小寫,但是一般要用小寫

          1.2.開發工具

          記事本notepad、sublime、Notepad++、Dreamweaver、VScode、Webstorm等

          使用步驟:

          1. 新建文件(cltr+N),然后保存(ctrl+s),指定擴展名為.html
          2. 編寫HTML代碼
          3. 在瀏覽器中打開文件

          使用技巧:

          • 先保存再寫代碼,否則代碼無顏色提示
          • 創建一個文件夾,用于保存所有的網頁內容,將文件夾拖拽到sublime中,便于管理
          • 顯示/隱藏側邊欄方式1:查看–>側邊欄–>顯示/隱藏側邊欄方式2:ctrl+K緊接著按B
          • 顯示多欄方式1:查看–>布局–>列數:2列方式2:Alt+shift+2

          1.3瀏覽器

          常見的瀏覽器:IE瀏覽器微軟、chrome谷歌瀏覽器、fifirefox火狐、safari蘋果

          瀏覽器的作用是讀取html文件,并以網頁的形式來顯示

          瀏覽器不會直接顯示html標簽,而是使用標簽來解釋網頁的內容

          2.標簽

          2.1標簽的組成

          一個完整的html標簽的組成:

          <標簽名 屬性名="屬性值">內容</標簽名>

          <!DOCTYPE html>
          <html lang="en">
          	<head>
          		<meta charset="UTF-8">
          		<title>標簽</title>
          	</head>
          	<body  bgcolor="red" text="blue">
          		html從入門到精通!
              </body>
          </html>
          12345678910

          屬性值要用雙撇號括起來,一般用雙引號

          2.2標簽的分類

          根據標簽是否關閉,分為,關閉型和非關閉型

          • 關閉型:有結束標簽,即標簽成對出現
          <html></html>
          <head></head>
          <title></title>

          非關閉型:沒有結束標簽

          <meta>
          <br>
          <h1>....<h6>

          根據標簽是否獨占一行,分為塊級標簽和行級標簽

          塊級標簽:顯示為塊狀,獨占一行

          <h1>大家好</h1>
          <hr>

          行級標簽:在行內顯示,可與其他內容在同一行顯示

          <span></span>

          2.3注釋

          注釋在瀏覽器中不會顯示,是用來標注解釋html語句,但通過查看源代碼的方式可以看到

          語法:

          <--注釋內容-->

          2.4實體字符

          也稱為特殊字符,用于顯示一些特殊符號,如<>&空格等

          語法:

          <&實體字符的名稱>

          2.5文檔類型

          在html文檔的第一行,使用<!DOCTYPE html>

          聲明HTML文檔的類型用來告訴瀏覽器頁面的文檔嘞型,用來制定html版本的規范

          目前基本上最常用的html5

          <!DOCTYPE html>
          <html lang="en">
          <head>
          	<meta charset="UTF-8">
          	<title>Document</title>
          </head>
          <body>
          	
          </body>
          </html>
          12345678910

          三\常用標簽

          3.1基本標簽

          • 塊級標簽\親啊后有明顯的間隔 |
            | h1…h5 | 標題標簽 | 按照h1到h6逐漸變小.塊級標簽 |
            | | | |
            | | | |


          • 三、常用標簽

          1.基本標簽

          1.1 有序列表
          ol:ordered listli:list item默認使用阿拉伯數字、從1開始標記,可以通過屬性進行修改
          · type屬性:設置列表的符號標記、取值;數字1(默認)、字母(a或A)、羅馬數字(i或I) · start屬性:設置起始值,值必須是數字
          1.2 無序列表
          ul:unodered list
          li:list item
          默認情況下使用實心圓表作為符號標記,可以通過屬性進行修改
          · type屬性:設置列表的符號標記、取值:disc實心圓(默認)、circle空心圓、square正方形、none不 顯示項目符號
          1.3 定義列表
          dl:definition list
          dt:definition title
          dd:definition description
          1.4 水平線標簽
          hr:horizontal
          常用屬性:
          · color:顏色

          兩種方式:

          顏色名稱:如red、green、blue、white、black、pink、orange等

          16進制的RGB表示法:Red、Green、Blue用法:#RRGGBB 每種顏色的取值范值0-255,轉換為16 進制00-FF

          如: #FF0000 紅色 #00FF00綠色 #0000FF藍色 #FFFFFF白色、#CCCCCC #FF7300桔色

          · size:粗細,數值

          · width寬度

          兩種寫法:

          ? 像素:絕對值(固定值)

          ? 百分比:相對值,相對于水平線標簽所在父容器寬度的百分比

          · align對齊

          ? 取值:center居中 left right
          1.5圖像標簽
          img:image
          常見的圖片格式:.jpg .png .gif .bmp
          常見的屬性:
          · src:source指定圖片的路徑(來源),必選叁數

          如果圖片與html源代碼在同一個文件夾中,可以直接在src中寫圖片名稱即可

          習慣上,我們會將多個圖片與html代碼文檔分別放在同一個文件夾project中的不同目錄下,此時需要 在src中指定圖片的路徑為相對路徑

          路徑的分類:

          ? · 相對路徑

          ? 表示: ./當前路徑
          …/當前位置的上一級文件夾

          ? 提示:…/image

          ? · alt:當圖片無法顯示時顯示的提示信息

          ? · title:當鼠標放到圖片上時顯示的提示信息

          ? · width和 height:設置圖片的寬度和高度
          默認圖片以原始尺寸顯示

          ? 如果只設置其中一個,則另一個會按比例縮放

          ? 如果同時設置寬和高,可能導致圖片變形

          ? 兩種寫法:

          ? 像素:絕對值(固定值)

          ? 百分比:相對值,相對于父容器的尺寸的百分比
          2.其他標簽

          為了更好語義化
          3.頭部標簽
          · meta定義網頁的摘要信息,如字符編碼,關鍵詞,描述,作者等
          · title定義網頁的標題
          · style定義內容css樣式
          · link引用外部css樣式
          · script定義或引用腳本
          · base定義基礎路徑
          默認以當前頁面文件所在的位置為相對路徑參照
          4.標簽嵌套
          一個標簽中嵌套另外一個標簽
          標簽不能亂嵌套
          瀏覽器渲染后顯示的頁面代碼與編碼時有所不同
          chrome瀏覽器提供的開發工具:幫助開發人員查看和調試頁面的
          如何打開:
          · Elements:從瀏覽器的角度來看頁面,瀏覽器渲染頁面時內部的結構
          · console:控制臺,顯示各種警告和錯誤信息
          · network:查看網絡請求信息,瀏覽器向服務器請求了哪些資源,資源大小,
          加載資源所消耗的時間

          四、超鏈接
          1.簡介
          使用超鏈接可以從一個頁面跳轉到另外一個頁面,實現頁面之間導航
          當鼠標移動到超鏈接文本或圖片時,鼠標箭頭會變成一只小手
          超鏈接有三種類型:
          普通鏈接/頁面間的鏈接,跳轉到另一個頁面 錨鏈接:鏈接到錨點(鏈接到同一個頁面的指定位置) 功能鏈接:實現特殊功能(發郵件,下載)
          2.基本用法
          使用 標簽來創建超鏈接
          語法格式:

          常用屬性:
          href:鏈接地址或路徑,鏈接地址

          world

          鏈接文本或圖片

          1 2 3 4 5 1 target:鏈接打開的位置,取值

          路徑分類:
          絕對路徑 以根開始的路徑
          file:///D:/software/b.html https://www.baidu.com/img/bd_logo1.png
          相對路徑 相對于當前頁面文件所在的路徑,不是以根開始的路徑 ./ 當前路徑 …/ 當前位置上一級目錄

          3.錨鏈接
          3.1簡介
          點擊鏈接后跳轉到某一個頁面的指定位置(錨點anchor)
          錨鏈接的分類:
          頁面內的錨鏈接 頁面間的錨鏈接
          3.2 頁面內的錨鏈接
          步驟:

          1. 定義錨點(標記)
          2. 鏈接錨點
            _self 自身,當前,默認值 _blank新的,空白的 _parent父層框架 _top頂層框架
            目標位置
            1 2 3 4
            1

          3.3 頁面間的錨鏈接

          4.功能鏈接
          5.URL
          5.1 簡介
          URL:Uniform Resource Locator 統一資源定位器,用來定位資源所在的位置,最常見的就是網址

          5.2 組成
          一個完整的URL由8個部分組成:
          協議:prococol 如 http:超文本傳輸協議,用來訪問WEB網站Hyper text Transfer protocal https:更加安全的協議 SSL安全套接子層 ftp文件傳輸協議,用來訪問服務器上的文件,實現文件的上傳和下載File Transfer protocol file:文件協議,用來訪問本地文件 主機名hostname服務器地址或服務器Netbios名稱,如www.baidu.com ftp://10.255.254.254 端口:port位于主機名的后面,使用冒號進行分隔 不同的協議使用不同的端口,如http使用80端口,https使用的443端口,ftp使用20和21 如果使用的是默認端口,則端口可以省略 如果使用的不是默認端口,則必須指定端口http://59.49.32.213:7070/ 路徑:path目標文件所在的路徑結構,如:www.baidu.com/img/ 資源resource要訪問的目標文件,如bd_logo1.png 查詢字符串:query string 也稱為參數 在資源后面使用?開頭的一組名稱/值
          鏈接文本
          鏈接文本
          https://www.baidu.com/img/bd_logo1.png?name=tom&age=2&sex=male https://www.w3school.com.cn/html/html_quotation_elements.asp file:///C:/Users/Administrator/Desktop/project/code/09.%E5%B8%B8%E7%94%A8%E6%A0%87%E7%A D%BE3.html http://www.sxgjpx.net/ ftp://10.255.254.253/
          1
          1
          1 2 3
          4 5
          名稱和值之間以=分隔,多個之間用&分隔,如:name=tom&age=2&sex=male 錨點anchor,在資源后面使用#開頭的文本,如#6 身份認證authentication,指定身份信息,如:ftp://賬戶:密碼@ftp.bbshh010.com
          五、表格
          1.簡介
          表格是一個規則的行列結構,每個表格是由若干行組成,每行由若干個單元格組成
          table row column
          2.基本結構
          2.1 table標簽
          用來定義表格
          常用屬性:
          border:表格邊框 默認為0 width/height:寬度/高度 bordercolor:邊框的顏色 align:對齊方式,取值:left(默認) center居中 right居右 bgcolor:背景顏色 background:背景圖片 cellspacing間距:單元格與單元格之間的距離 cellpadding邊距:單元格中的內容到邊界之間的距離
          2.2 tr標簽
          用來定義行:table row
          常用屬性:
          align:水平對齊 取值:left(默認) center right valign垂直對齊 取值:top center bottom bgcolor:背景顏色 background:背景圖片
          2.3 td標簽
          用來定義單元格,table data
          常用屬性:align、valign、bgcolor、background
          注意:表格必須是由行組成,行必須由單元格來組成,數據必須放到單元格中
          3.合并單元格
          合并單元格也稱為單元格的跨行跨列
          兩個屬性:
          rowspan 設置單元格所跨的行數 colspan 設置單元格所跨的列數
          步驟:

          1. 在跨越的單元格中設置rowspan/colspan屬性 2. 將被跨越的單元格刪除
            必須要保證每行的實際列數是相同的,否則表格可能會出錯亂
            4.高級標簽
            4.1caption標簽
            表格的標題標簽
            4.2thead標簽
            表格的頭部table head
            4.3th標簽
            表格的頭部標題table head title
            一般用在thead中,設置頭部的標題,替代td標簽,與td的區別,th中的文本會加粗且居中顯示
            4.4tbody標簽
            表格的主體table body
            4.5tfoot標簽
            表格的底部table foot




          六、表單
          1.簡介
          表單是一個包含若干個表單元素的區域,用于獲取瑣類型的用戶數據

          表單元素是允許用戶在表單輸入信息的元素,如文本框、密碼框、單選按鈕、復選框、下拉列表、按鈕等
          2.表單結構
          2.1表單語法

          1

          2.2form標簽
          用來定義表單,可以包含多個表單元素
          常用屬性:
          action:提交數據給誰處理,即處理數據的程序,默認為當前頁面 method:提交數據的方式或方法,取值:get(默認),post get和post的區別: get:以查詢字符串的形式提交,在地址欄中能看到,長度有限制,不安全 post以表單數據組的形式進行提交,在地址欄中看不到,長度無限制,安全 enctype(encode type)編碼類型:提交數據的編碼,取值:application/X-www-form-urlencoded(默 認)、multipart/form-data(文件上傳)
          3.表單元素
          大多數的表單元素都是使用 標簽來定義的,通過設置屬性type來定義不同的表單元素

          1

          3.1單行文本框
          常用屬性:
          ·name名稱,很重要,如果沒有定義name屬性,則該表單元素的數據是無法提交的

          ·value初始值

          ·size顯示寬度

          ·maxlength:大字符數,默認是沒有限制

          ·readonly只讀:readonly=“readonly”,可簡寫readonly,即只寫屬性名

          ·disabled禁用:disabled=“disabled”, 可簡寫disabled完全禁用

          表單元素被提交的兩個條件,1.有name屬性2.非disabled

          3.2 單選按鈕
          常用屬性:

          ·name名稱:多個radio的name屬性必須相同,才能實現互斥(單選)

          ·value值

          ·checked:是否被選中,兩種狀態,選中,未選中 checked=“checked” 簡寫 checked

          3.3 復選框
          常用屬性與單選按鈕radio類似

          3.4 文件選擇器
          常用屬性:

          ·name:名稱

          ·accept設置可選擇的文件類型,用來限制上傳的文件類型

          使用MIME格式字符串對資源類型進行限制

          常見的MIME類型:

          ·純文本:text/plain text/xml text/html

          · 圖像:image/png image/jpeg image/gif

          4.特殊表單元素

          4.1下拉列表

          select常用屬性:

          ·name名稱

          ·size行數,同時顯示多個選項

          ·multiple允許同時選擇多個

          option常用屬性:

          ·value選項值

          ·selected設置默認選中項

          optgroup常用屬性:

          ·label分組的標簽

          4.2文本域

          ·name名稱

          ·rows行數

          ·cols列數


          5、其他標簽

          5.1 label標簽

          為表單元素提供標簽,當選中label標簽中的文本內容時會自動將光標切換到與之相關聯的表單元素。

          常用屬性:

          ·for必須將該屬性值設置為與相關聯的表單元素的Id屬性值相同。

          注:幾乎所有HTML標簽都具有id屬性,且id值必須唯一。

          5.2 button標簽

          也表示按鈕,與input按鈕類似

          語法:

          1按鈕文字或圖像

          常用屬性:

          ·type按鈕的類型,取值: submit(默認)、reset、button

          5.3 fieldset和legend標簽

          fieldset標簽,對表單元素進行分組

          legend標簽,對分組添加標題

          七、內嵌框架
          1、簡介

          使用iframe可以在一個頁面中引用另一個頁面,實現復用、靈活

          2、基本用法

          語法:

          1

          常用屬性:

          · src:引用的頁面

          · width/height寬度/高度 ,像素或百分比

          · frameborder是否顯示邊框,取值:1(yes) 0(no)—默認

          · scrolling是否顯示滾動條,取值:yes no auto

          · name屬性 為框架定義名稱

          3、在框架中打開鏈接

          1

          2

          3鏈接的文本或圖像

          八、HTML5簡介

          1、發展

          W3C于1992年12月發布了HTML4.0.1標準
          W3C于2014年10月發布了HTML5標準

          2、特點

          · 取消了過時的標簽,如font、center等,它們僅具有展示外觀的功能

          · 增加了一些更具有語義化的標簽,如header、footer、aside等

          · 增加了一些新功能標簽,如canvas、audio、video

          · 增加了一些表單控件,如email、date、time、url、search等

          · 可以直接在瀏覽器中繪畫(canvas),無需flash

          · 增加了本地存儲的支持

          3、兼容性

          http://caniuse.com

          提供了各種瀏覽器版本對HTML5和CSS規范的支持度

          九、HTML5新增內容
          1、結構相關的標簽

          用來進行頁面結構布局,本身無任何特殊樣式,需要使用CSS進行樣式設置

          · article定義一個獨立的內容,完整的文章

          · section定義文檔的章節、段落

          · header文章的頭部、頁眉、標題

          · footer文章的底部、頁腳、標注

          · aside定義側邊欄

          · figure圖片區域

          · figcaption為圖片區域定義標題

          · nav定義導航菜單

          結構標簽只是表明各部分的角色,并無實際的外觀樣式,與普通div相同

          2、語義相關的標簽
          2.1 mark標簽
          標注,用來突出顯示文本,默認添加黃色背景
          2.2 time標簽
          定義日期和時間,便于搜索引擎智能查找
          2.3 details和 summary標簽
          默認顯示summary中的內容,點擊后顯示details中的內容
          注:并不是所有的瀏覽器都兼容,chrome、opera支持、Firefox、IE瀏覽器不支持
          2.4 meter標簽
          計數儀,表示度量
          常用屬性:

          · max定義大值,默認為1

          · min定義小值,默認為0

          · value定義當前值

          · high定義限定為高的值

          · low定義限定為低的值

          · optimum定義佳值

          規則:

          1. 如果optimum大于high,則表示值越大越好

          當value大于high時為綠色

          當value在low與high之間時為黃色

          當value小于low時為紅色

          1. 如果optimum小于low,則表示值越小越好

          當value小于low時為綠色

          當value在low與high之間時為黃色

          當value大于high時為紅色

          1. 當optimum介于low和high之間,則表示值在low和high之間好當value在low與high之間時顯示綠色,否則顯示黃色

          2.5 progress標簽
          進度條,表示運行中的進度
          常用屬性:

          · value定義當前值

          · max定義完成的值

          3.表單相關
          3.1 新增表單元素
          新增以下type類型:

          · email接收郵箱

          · url接收URL

          · tel接收電話號碼,目前僅在移動設備上有效

          · search搜索文框

          · number/range接收數字/數字滑塊,包含min,max,step屬性

          · date/month/week/time/datetime日期時間選擇器,兼容性不好

          · color顏色拾取

          作用:

          · 具有格式校驗的功能

          · 可以與移動設備的鍵盤相關聯

          3.2新增表單屬性
          form標簽的屬性:

          · autocomplete是否啟動表單的自動完成功能, 取值:on(默認)、o?

          · novalidate提交表單時不進行校驗,默認會進行表單校驗

          3.3 新增表單元素的屬性
          新增表單元素屬性:input/select/textarea等

          · placeholder提示文字

          · required是否必填

          · autocomplete是否啟用該表單元素的自動完成功能

          · autofocus設置初始焦點元素

          · pattern使用正則表達式(RegExp后面會講解),進行數據校驗

          · list使文本元素具有下拉列表的功能,需要配合datalist和option標簽一起使用

          · form可以將表單元素寫在form標簽外面,然后通過該屬性關聯指定的表單

          4、多媒體標簽
          4.1audio標簽
          在頁面中插入音頻,不同的瀏覽器對音頻格式的支持不一樣
          audio常用屬性:

          · src音頻文件的來源

          · controls是否顯示控制面板,默認不顯示

          · autoplay是否自動播放,默認不自動播放

          · loop是否循環播放

          · muted是否靜音

          · preload是否預加載,取值:none不預加載、auto預加載(默認)、metadata只加載元數據

          如果設置了autoplay屬性,則該屬性無效

          可以結合source標簽使用,指定多個音頻文,瀏覽器會檢測并使用第一個可用的音頻文件

          4.2 video標簽
          在頁面中插入視頻,不同的瀏覽器對視頻格式的支持不一樣
          用法與audio標簽基本相同,增加屬性:

          · widht/height視頻播放器的寬度/高度

          · poster在視頻加載前顯示的圖片

          案例1hello.html

          <html>
          	<body>
          		<tiele>HTML技術</tiele>
          	</body>
          	<body>
          		大家好,歡迎學習html技術!
          	</body>
          </html>1234567

          效果

          [外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-h271e4v6-1593240920352)(C:\Users\lenovo\Desktop\新建文件夾\靜態網頁2\案例\result\案例1.png)]

          案例2標簽的組成.html

          <!DOCTYPE html>
          <html lang="en">
          <head>
          	<meta charset="UTF-8">
          	<title>標簽</title>
          </head>
          <body text="blue">
          	標簽的組成
          	<br>
          	html從入門到精通!
          	<hr>
          	<h1>標簽的分類</h1>
          	<hr>
          
          	<h2>標簽的分類</h2>
          	<hr>
          
          	<h6>標簽的分類</h6>
          	<hr>
          
          	<span>哈哈</span>嘿嘿
          	
          </body>
          </html>1234567891011121314151617181920212223

          效果

          [外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-jx6zJE1P-1593240920354)(C:\Users\lenovo\Desktop\新建文件夾\靜態網頁2\案例\result\案例2.png)]

          案例3實體字符.html

          <!DOCTYPE html>
          <html lang="en">
          <head>
          	<meta charset="UTF-8">
          	<title>Document</title>
          </head>
          <body>
          	圖書:<<HTML從入門到精通<<
          	<hr>
          
          	北京      上海      廣州
          	<hr>
          
          	在HTML中用<表示<小于號
          	<hr>
          
          	“HTML語言” 或 &qout;HTML語言&qout;
          	<hr>
          
          	版權所有? 2000-2020 高教培訓
          	<hr>
          
          	×關閉符號
          </body>
          </html>123456789101112131415161718192021222324

          效果

          [外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-nuFLl3hm-1593240920355)(C:\Users\lenovo\Desktop\新建文件夾\靜態網頁2\案例\result\案例3.png)]

          (剩下的下期出)

          原文鏈接:https://blog.csdn.net/WanXuang/article/details/106982782?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160513384519724835852804%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=160513384519724835852804&biz_id=&utm_medium=distribute.pc_search_top_result.none-task-code-2~all~top_position~default-1-106982782-12.nonecase&utm_term=html

          作者:WanXuang

          出處:從CSDN

          態網頁與動態網頁的區別在常見的形式上靜態頁面多數以html或xml結尾,這種通稱為靜態網頁;

          靜態網頁是以固定的鏈接形式出現,每一個網頁都存到服務器上,無論是否有用戶訪問網站都會存在,也有利于搜索引擎的抓取;

          動態網頁多數是以asp或php結尾,最明顯的特征就是鏈接后面會帶有大量的參數和問號,因此我們判斷是否為動態網頁,最簡單的方法就是看看鏈接后面有沒有就可以了。

          這種動態網頁,實際上并不是獨立存在于服務器上的網頁文件,只有瀏覽者發出請求后,服務才會返回一個完整的網頁。

          動態鏈接后面的大量參數,可能會讓搜索引擎的蜘蛛陷入死循環,雖然各大搜索引擎對外稱蜘蛛也可以很好的處理動態url,網慧天下小編建議還是盡量不要使用動態頁面。


          主站蜘蛛池模板: 少妇人妻精品一区二区| 日韩一区二区视频| 97人妻无码一区二区精品免费| 日韩一区在线视频| 国内偷窥一区二区三区视频| 学生妹亚洲一区二区| 九九久久99综合一区二区| 一区二区高清在线| 激情久久av一区av二区av三区| 一区二区三区国产精品| 国产在线一区二区综合免费视频| 日韩一区二区三区在线观看| 无码人妻一区二区三区av| 一区二区传媒有限公司| 精品国产AV一区二区三区| 中文字幕精品一区二区日本| 亚洲国产一区二区三区青草影视| 狠狠色成人一区二区三区| 久久精品一区二区影院| 上原亚衣一区二区在线观看| 国产av福利一区二区三巨 | 久久精品一区二区东京热| 韩国福利一区二区三区高清视频| 亚洲日本中文字幕一区二区三区 | 久久久av波多野一区二区| 中文字幕一区二区三区久久网站| 亚洲国产老鸭窝一区二区三区| 亚洲AV成人一区二区三区AV| 日韩精品无码一区二区三区免费| 91久久精品午夜一区二区| 中文字幕日韩精品一区二区三区| 亚洲国产成人久久一区二区三区 | 亚洲伦理一区二区| 亚洲一区在线免费观看| 精产国品一区二区三产区| 国产成人一区二区三区电影网站| 国产一区二区三区视频在线观看| 国产精品免费一区二区三区| 国产在线一区二区在线视频 | 波多野结衣一区在线| 无码AV中文一区二区三区|