靜態網頁爬蟲①

理數據

前面我們說過了通過 requests 庫獲取數據,這里我們要說如何處理數據

處理數據我們需要用到一個強大的第三方庫——BeautifulSoup !

“美味的湯，綠色的濃湯，在熱氣騰騰的蓋碗里裝！誰不愿意嘗一嘗，這樣的好湯？晚餐用的湯，美味的湯！”

BeautifulSoup 庫的名字取自劉易斯·卡羅爾在《愛麗絲夢游仙境》里的同名詩歌。就像它在仙境中的說法一樣，BeautifulSoup 嘗試化平淡為神奇。它通過定位 HTML 標簽來格式化和組織復雜的網頁源代碼，用簡單易用的 Python 對象為我們展現出 HTML 結構信息。

處理數據分為兩步：

解析數據:將網頁源代碼解析成 Python 能“讀懂”的格式

提取數據：將網頁源代碼中無關數據過濾掉，只提取出我們所需要的數據

解析數據

我們以豆瓣讀書 Top250 為例，它的網址是：https://book.douban.com/top250。

我們來看看如何將其網頁源代碼解析成 BeautifulSoup 對象：

import requests
from bs4 import BeautifulSoup

headers={
  'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
}
res=requests.get('https://book.douban.com/top250', headers=headers)
soup=BeautifulSoup(res.text, 'html.parser')

Tips：相比之前我們添加 headers 參數，這是為了應對豆瓣的反爬蟲機制。

我們通過 from bs4 import BeautifulSoup 語句導入 BeautifulSoup，然后使用 BeautifulSoup(res.text, 'html.parser') 語句將網頁源代碼的字符串形式解析成了 BeautifulSoup 對象。

創建 BeautifulSoup 對象時需要傳入兩個參數，第一個參數是要解析的 HTML 文本，即網站源代碼的字符串形式（res.text）。第二個參數是解析HTML 的解析器，html.parser 是 Python 中內置的解析器，較為簡單方便.

我們將網頁源代碼解析成了 BeautifulSoup 對象，如果我們將他打印出來會發現竟然和原來的網頁源代碼（也就是 res.text）一模一樣！既然都一樣，我們何苦費這么大力將網頁源代碼解析成 BeautifulSoup 對象呢？

相比字符串，BeautifulSoup 對象里有很多強大的方法和屬性。通過這些方法和屬性，我們就能方便快捷地提取出我們所需要的數據。

提取數據

BeautifulSoup 對象里的方法和屬性有很多，我們這里只提及其中最常用的一些，這些足以應付大多數場景。

find() 方法和 find_all() 方法

BeautifulSoup 對象里的 find() 和 find_all() 是我們提取數據最常用的兩個方法。借助它們，我們可以過濾掉 HTML 頁面里的無用數據，輕松地找到我們需要的數據。

我們來看一下 find() 和 find_all() 的作用和區別：

我們可以通過例子來更好地理解他們：
假設我們獲取到的網頁源代碼如下：

<div class="content">
  <a href="https://douban.com">登錄/注冊</a>
  <h1>豆瓣讀書 Top 250</h1>
  <div class="artile">
    <a href="https://movie.douban.com">豆瓣電影</a>
    <div class="item">
      <a href="https://book.douban.com/subject/1770782/">追風箏的人</a>
    </div>
    <div class="item">
      <a href="https://book.douban.com/subject/25862578/">解憂雜貨店</a>
    </div>
    <div class="item">
      <a href="https://book.douban.com/subject/1084336/">小王子</a>
    </div>
  </div>
</div>

soup=BeautifulSoup(res.text, 'html.parser')
print(soup.find('a'))
# 輸出：<a href="https://douban.com">登錄/注冊</a>
print(soup.find_all('a'))
# 輸出：[
# <a href="https://douban.com">登錄/注冊</a>,
# <a href="https://movie.douban.com">豆瓣電影</a>,
# <a href="https://book.douban.com/subject/1770782/">追風箏的人</a>,
# <a href="https://book.douban.com/subject/25862578/">解憂雜貨店</a>,
# <a href="https://book.douban.com/subject/1084336/">小王子</a>
# ]

它倆的用法基本一樣，都是傳入 HTML 標簽名稱，返回符合該 HTML 標簽的數據。區別是 find() 方法只返回第一個符合條件的標簽，而 find_all() 方法返回所有符合條件的標簽列表。他們的返回值分別是 BeautifulSoup 中的 Tag 對象和由 Tag 對象組成的列表。(后面會提到)

除了傳入 HTML 標簽名稱外，這兩個方法還支持傳入 HTML 屬性進行篩選，返回符合條件的數據。舉個例子：

# 查找 id='doubanapp-tip' 的 div 標簽
soup.find('div', id='doubanapp-tip')
# 查找所有 class='rating_nums' 的 span 標簽
soup.find_all('span', class_='rating_nums')

class 和 id 這兩個 HTML 屬性具有很強的標識性，因此是數據篩選中最常用的兩個屬性，我們要重點關注。

Tips：因為 class 是 Python 中定義類的關鍵字，因此用 class_ 表示 HTML 中的 class。

通過 id、class 等 HTML 屬性的篩選，我們就可以快速準確的找到我們需要的數據。當一個條件無法精確定位到我們想要的數據時，我們還可以傳入多個 HTML 屬性進行篩選，返回同時符合這些條件的數據。

我們再來看個例子：

# 查找 id='doubanapp-tip' 且 class='rating_nums' 的 div 標簽
soup.find('div', id='doubanapp-tip', class_='rating_nums')

Tag對象

BeautifulSoup 將 HTML 中的元素封裝成了 Tag 對象。和 BeautifulSoup 對象一樣，Tag 對象里也有 find() 和 find_all() 方法。因此，我們可以不斷地調用這兩個方法，一層一層地找到我們需要的數據。我們還是以前面的 HTML 代碼為例提取其中的書名：

<div class="content">
  <a href="https://douban.com">登錄/注冊</a>
  <h1>豆瓣讀書 Top 250</h1>
  <div class="books">
    <a href="https://movie.douban.com">豆瓣電影</a>
    <div class="item">
      <a href="https://book.douban.com/subject/1770782/">追風箏的人</a>
    </div>
    <div class="item">
      <a href="https://book.douban.com/subject/25862578/">解憂雜貨店</a>
    </div>
    <div class="item">
      <a href="https://book.douban.com/subject/1084336/">小王子</a>
    </div>
  </div>
</div>

我們可以看到，書名在 a 標簽中。但如果直接使用 soup.find_all(‘a’) 的話，第二行的“登錄/注冊”和第五行的“豆瓣電影”也會被獲取到，因此我們需要將這些無效數據過濾掉。

我們分析一下不難發現，書名在 class=“item” 的 div 標簽里的 a 標簽內。我們只要先找到所有 class=“item” 的 div 標簽，然后再找到其中的 a 標簽即可，因此我們可以像下面這樣來獲取書名的數據：

# 找到所有 class_='item' 的 div 標簽
items=soup.find_all('div', class_='item')
for i in items:
  # 找到 class_='item' 的 div 標簽中的 a 標簽
  print(i.find('a'))
# 輸出：
# <a href="https://book.douban.com/subject/1770782/">追風箏的人</a>
# <a href="https://book.douban.com/subject/25862578/">解憂雜貨店</a>
# <a href="https://book.douban.com/subject/1084336/">小王子</a>

這樣，我們就找到了所有書名的數據。此時返回的還是 Tag 對象。如果我們只想要書名和對應的鏈接呢？這就用到了 Tag 對象的 text 屬性和 HTML 屬性名取值。

items=soup.find_all('div', class_='item')
for i in items:
  tag=i.find('a')
  # 獲取 text 屬性
  name=tag.text
  # 獲取 href 屬性值
  link=tag['href']
  print(name, link)
# 輸出：
# 追風箏的人 https://book.douban.com/subject/1770782/
# 解憂雜貨店 https://book.douban.com/subject/25862578/
# 小王子 https://book.douban.com/subject/1084336/

我們通過 Tag 對象的 text 屬性拿到了 a 標簽里的文字內容，即追風箏的人等。然后我們通過和字典取值一樣的方式，將 HTML 屬性名作為鍵，得到了對應屬性的值。這里是以 href 屬性為例，其他的 HTML 屬性也同樣可以。

我們來總結一下 Tag 對象的常用屬性和方法：

CSS選擇器

有沒有什么方法可以直接就找到我們需要的數據，而不用多次查找嗎？

答案是肯定的，需要用到 CSS 選擇器。

在 CSS 選擇器中，# 代表 id，. 代表 class。比如：#login 表示 id=‘login’ 的所有元素，.item 表示 class=‘item’ 的所有元素。

我們也可以直接通過標簽名選擇對應的元素，比如：a 表示所有的 a 元素，p 表示所有的 p 元素。

它們也可以組合在一起，選擇同時符合條件的元素，比如：a#login 表示所有 id=‘login’ 的 a 元素，p.item 表示所有 class=‘item’ 的 p 元素，#login.item 表示所有 id=‘login’ 且 class=‘item’ 的元素，.item.book 表示所有 class 同時為 item 和 book 的元素。

需要注意的是，選擇同時符合條件的元素，選擇器之間不能有空格，如果寫成 .item .book 就是另一個意思了。這是新的知識點——子元素選擇。

當兩個選擇器之間加了空格，表示子元素選擇。還是以 .item .book 為例，它表示選擇所有 class=‘item’ 的元素里面 class=‘book’ 的元素，即嵌套在 class=‘item’ 的元素里面 class=‘book’ 的元素。

這個嵌套可以是任意層級的，只要在里面就行，不要求直接嵌套在第一層。如果只需要直接嵌套在第一層符合條件的元素，可以用 > 分隔。比如：.item > .book。

來看個例子感受一下它們的區別：

from bs4 import BeautifulSoup

html='''
<div class="item">
  <p class="book">小王子</p>
  <div class="hot">
    <p class="book">追風箏的人</p>
  </div>
</div>'''

soup=BeautifulSoup(html, 'html.parser')

print(soup.select('.item.book'))
# 輸出：[]

print(soup.select('.item .book'))
# 輸出：[<p class="book">小王子</p>, <p class="book">追風箏的人</p>]

print(soup.select('.item > .book'))
# 輸出：[<p class="book">小王子</p>]

了解了 CSS 選擇器的基本語法后，我們來看看如何在 BeautifulSoup 中使用。

BeautifulSoup 對象有一個 select() 方法，我們將 CSS 選擇器傳進去即可直接找到我們需要的元素。上面查找在 class=“item” 的 div 標簽里的 a 標簽的代碼就可以這樣寫：

items=soup.select('div.item a')
for i in items:
  name=i.text
  link=i['href']
  print(name, link)
# 輸出：
# 追風箏的人 https://book.douban.com/subject/1770782/
# 解憂雜貨店 https://book.douban.com/subject/25862578/
# 小王子 https://book.douban.com/subject/1084336/

靜態網頁爬蟲的過程

對于靜態網頁爬蟲的過程，可以總結成下圖：

我們現在對豆瓣top250中的前25個電影的名字以及名字進行爬取：

import requests
from bs4 import BeautifulSoup

headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.41 Safari/537.36 Edg/101.0.1210.32'
}

#首先對網頁發出請求并獲得響應
req=requests.get('https://movie.douban.com/top250',headers=headers)
#將網頁的源代碼形式解析
soup=BeautifulSoup(req.text,'html.parser')

#進行元素的第一次提取
result1=soup.select('.item .pic')

num=0
for i in result1:
    num +=1
    name=i.select('a img')[0]['alt']
    link=i.select('a')[0]['href']
    print(num,' ',name,link)

結果：

文章知識點與官方知識檔案匹配，可進一步學習相關知識 , 免費領取有關于java面試題材料和講解！

原文出處：https://blog.csdn.net/zyb18507175502/article/details/124636025?spm=1001.2100.3001.7377&utm_medium=distribute.pc_feed_blog_category.none-task-blog-classify_tag-5-124636025-null-null.nonecase&depth_1-utm_source=distribute.pc_feed_blog_category.none-task-blog-classify_tag-5-124636025-null-null.nonecase

、HTML簡介

1.HTML是什么?

HTML:htper text markup language超文本標記(標簽)語言

由各種標簽組成，用來制作網頁，告訴瀏覽器如何顯示頁面

2.作用

制作網頁，控制網頁和內容的顯示
插入圖片、音樂、視頻、動畫等多媒體
通過鏈接來檢索信息
使用表單獲取用戶的信息，實現交互

3.版本

w3c:world wide web consortium萬維網聯盟，制定web技術相關標準和規范的組織，HTML技術hi由w3c制定的標準

兩個版本:HTML4.0.1、HTML5.0-----通常H5

官網：http://www.W3shcool.com.cn

4.擴展名

HTML文檔是以.html或.htm結尾

二、HTML文檔結構

1.基本結構

1.1簡介

HTML標簽是由尖括號括起來的關鍵詞，如,通常是成對出現的,如<html></html>
以 <html>為根標簽，包含： <head>頭部和<body>主體部分
頭部提供關于網頁的相關信息，如標題、文檔類型、字符編碼、關鍵字等摘要信息
主體部分提供網頁的顯示內容，真正顯示在頁面中的內容
合理地進行縮進
標簽名不區分大小寫，但是一般要用小寫

1.2.開發工具

記事本notepad、sublime、Notepad++、Dreamweaver、VScode、Webstorm等

使用步驟：

新建文件(cltr+N)，然后保存（ctrl+s）,指定擴展名為.html
編寫HTML代碼
在瀏覽器中打開文件

使用技巧：

先保存再寫代碼，否則代碼無顏色提示
創建一個文件夾，用于保存所有的網頁內容，將文件夾拖拽到sublime中，便于管理
顯示/隱藏側邊欄方式1:查看–>側邊欄–>顯示/隱藏側邊欄方式2:ctrl+K緊接著按B
顯示多欄方式1：查看–>布局–>列數：2列方式2：Alt+shift+2

1.3瀏覽器

常見的瀏覽器：IE瀏覽器微軟、chrome谷歌瀏覽器、fifirefox火狐、safari蘋果

瀏覽器的作用是讀取html文件，并以網頁的形式來顯示

瀏覽器不會直接顯示html標簽，而是使用標簽來解釋網頁的內容

2.標簽

2.1標簽的組成

一個完整的html標簽的組成：

<標簽名屬性名="屬性值">內容</標簽名>

<!DOCTYPE html>
<html lang="en">
	<head>
		<meta charset="UTF-8">
		<title>標簽</title>
	</head>
	<body  bgcolor="red" text="blue">
		html從入門到精通!
    </body>
</html>
12345678910

屬性值要用雙撇號括起來，一般用雙引號

2.2標簽的分類

根據標簽是否關閉，分為，關閉型和非關閉型

關閉型：有結束標簽，即標簽成對出現

<html></html>
<head></head>
<title></title>

非關閉型：沒有結束標簽

<meta>
<br>
<h1>....<h6>

根據標簽是否獨占一行，分為塊級標簽和行級標簽

塊級標簽：顯示為塊狀，獨占一行

<h1>大家好</h1>
<hr>

行級標簽：在行內顯示，可與其他內容在同一行顯示

2.3注釋

注釋在瀏覽器中不會顯示,是用來標注解釋html語句,但通過查看源代碼的方式可以看到

語法:

<--注釋內容-->

2.4實體字符

也稱為特殊字符,用于顯示一些特殊符號,如<>&空格等

語法:

<&實體字符的名稱>

2.5文檔類型

在html文檔的第一行,使用<!DOCTYPE html>

聲明HTML文檔的類型用來告訴瀏覽器頁面的文檔嘞型,用來制定html版本的規范

目前基本上最常用的html5

<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>Document</title>
</head>
<body>
	
</body>
</html>
12345678910

三\常用標簽

3.1基本標簽

塊級標簽\親啊后有明顯的間隔 |
| h1…h5 | 標題標簽 | 按照h1到h6逐漸變小.塊級標簽 |
| | | |
| | | |

三、常用標簽

1.基本標簽

1.1 有序列表
ol:ordered listli:list item默認使用阿拉伯數字、從1開始標記，可以通過屬性進行修改
· type屬性：設置列表的符號標記、取值；數字1（默認）、字母（a或A）、羅馬數字(i或I) · start屬性：設置起始值，值必須是數字
1.2 無序列表
ul:unodered list
li:list item
默認情況下使用實心圓表作為符號標記，可以通過屬性進行修改
· type屬性：設置列表的符號標記、取值：disc實心圓（默認）、circle空心圓、square正方形、none不顯示項目符號
1.3 定義列表
dl:definition list
dt:definition title
dd:definition description
1.4 水平線標簽
hr:horizontal
常用屬性：
· color:顏色

兩種方式：

顏色名稱：如red、green、blue、white、black、pink、orange等

16進制的RGB表示法：Red、Green、Blue用法：#RRGGBB 每種顏色的取值范值0-255，轉換為16 進制00-FF

如: #FF0000 紅色 #00FF00綠色 #0000FF藍色 #FFFFFF白色、#CCCCCC #FF7300桔色

· size:粗細，數值

· width寬度

兩種寫法：

? 像素：絕對值（固定值）

? 百分比：相對值，相對于水平線標簽所在父容器寬度的百分比

· align對齊

? 取值：center居中 left right
1.5圖像標簽
img:image
常見的圖片格式：.jpg .png .gif .bmp
常見的屬性：
· src:source指定圖片的路徑（來源），必選叁數

如果圖片與html源代碼在同一個文件夾中，可以直接在src中寫圖片名稱即可

習慣上，我們會將多個圖片與html代碼文檔分別放在同一個文件夾project中的不同目錄下，此時需要在src中指定圖片的路徑為相對路徑

路徑的分類：

? · 相對路徑

? 表示： ./當前路徑
…/當前位置的上一級文件夾

? 提示：…/image

? · alt:當圖片無法顯示時顯示的提示信息

? · title:當鼠標放到圖片上時顯示的提示信息

? · width和 height:設置圖片的寬度和高度
默認圖片以原始尺寸顯示

? 如果只設置其中一個，則另一個會按比例縮放

? 如果同時設置寬和高，可能導致圖片變形

? 兩種寫法：

? 像素：絕對值（固定值）

? 百分比：相對值，相對于父容器的尺寸的百分比
2.其他標簽

為了更好語義化
3.頭部標簽
· meta定義網頁的摘要信息，如字符編碼，關鍵詞，描述，作者等
· title定義網頁的標題
· style定義內容css樣式
· link引用外部css樣式
· script定義或引用腳本
· base定義基礎路徑
默認以當前頁面文件所在的位置為相對路徑參照
4.標簽嵌套
一個標簽中嵌套另外一個標簽
標簽不能亂嵌套
瀏覽器渲染后顯示的頁面代碼與編碼時有所不同
chrome瀏覽器提供的開發工具：幫助開發人員查看和調試頁面的
如何打開：
· Elements:從瀏覽器的角度來看頁面，瀏覽器渲染頁面時內部的結構
· console:控制臺，顯示各種警告和錯誤信息
· network:查看網絡請求信息，瀏覽器向服務器請求了哪些資源，資源大小，
加載資源所消耗的時間

四、超鏈接
1.簡介
使用超鏈接可以從一個頁面跳轉到另外一個頁面，實現頁面之間導航
當鼠標移動到超鏈接文本或圖片時，鼠標箭頭會變成一只小手
超鏈接有三種類型:
普通鏈接/頁面間的鏈接，跳轉到另一個頁面錨鏈接：鏈接到錨點（鏈接到同一個頁面的指定位置）功能鏈接：實現特殊功能(發郵件，下載)
2.基本用法
使用標簽來創建超鏈接
語法格式：

常用屬性：
href:鏈接地址或路徑,鏈接地址

world

鏈接文本或圖片

1 2 3 4 5 1 target:鏈接打開的位置,取值

路徑分類：
絕對路徑以根開始的路徑
file:///D:/software/b.html https://www.baidu.com/img/bd_logo1.png
相對路徑相對于當前頁面文件所在的路徑,不是以根開始的路徑 ./ 當前路徑 …/ 當前位置上一級目錄

3.錨鏈接
3.1簡介
點擊鏈接后跳轉到某一個頁面的指定位置（錨點anchor）
錨鏈接的分類：
頁面內的錨鏈接頁面間的錨鏈接
3.2 頁面內的錨鏈接
步驟：

定義錨點（標記）
鏈接錨點
_self 自身，當前，默認值 _blank新的，空白的 _parent父層框架 _top頂層框架
目標位置
1 2 3 4
1

3.3 頁面間的錨鏈接

4.功能鏈接
5.URL
5.1 簡介
URL:Uniform Resource Locator 統一資源定位器,用來定位資源所在的位置，最常見的就是網址

5.2 組成
一個完整的URL由8個部分組成：
協議：prococol 如 http:超文本傳輸協議，用來訪問WEB網站Hyper text Transfer protocal https:更加安全的協議 SSL安全套接子層 ftp文件傳輸協議，用來訪問服務器上的文件，實現文件的上傳和下載File Transfer protocol file:文件協議，用來訪問本地文件主機名hostname服務器地址或服務器Netbios名稱,如www.baidu.com ftp://10.255.254.254 端口：port位于主機名的后面，使用冒號進行分隔不同的協議使用不同的端口，如http使用80端口,https使用的443端口,ftp使用20和21 如果使用的是默認端口，則端口可以省略如果使用的不是默認端口，則必須指定端口http://59.49.32.213:7070/ 路徑：path目標文件所在的路徑結構，如:www.baidu.com/img/ 資源resource要訪問的目標文件，如bd_logo1.png 查詢字符串：query string 也稱為參數在資源后面使用?開頭的一組名稱/值
鏈接文本
鏈接文本
https://www.baidu.com/img/bd_logo1.png?name=tom&age=2&sex=male https://www.w3school.com.cn/html/html_quotation_elements.asp file:///C:/Users/Administrator/Desktop/project/code/09.%E5%B8%B8%E7%94%A8%E6%A0%87%E7%A D%BE3.html http://www.sxgjpx.net/ ftp://10.255.254.253/
1
1
1 2 3
4 5
名稱和值之間以=分隔，多個之間用&分隔，如:name=tom&age=2&sex=male 錨點anchor，在資源后面使用#開頭的文本，如#6 身份認證authentication,指定身份信息，如：ftp://賬戶:密碼@ftp.bbshh010.com
五、表格
1.簡介
表格是一個規則的行列結構，每個表格是由若干行組成，每行由若干個單元格組成
table row column
2.基本結構
2.1 table標簽
用來定義表格
常用屬性：
border:表格邊框默認為0 width/height：寬度/高度 bordercolor:邊框的顏色 align:對齊方式，取值：left(默認) center居中 right居右 bgcolor:背景顏色 background:背景圖片 cellspacing間距：單元格與單元格之間的距離 cellpadding邊距：單元格中的內容到邊界之間的距離
2.2 tr標簽
用來定義行：table row
常用屬性：
align:水平對齊取值：left(默認) center right valign垂直對齊取值：top center bottom bgcolor:背景顏色 background:背景圖片
2.3 td標簽
用來定義單元格，table data
常用屬性：align、valign、bgcolor、background
注意：表格必須是由行組成，行必須由單元格來組成，數據必須放到單元格中
3.合并單元格
合并單元格也稱為單元格的跨行跨列
兩個屬性：
rowspan 設置單元格所跨的行數 colspan 設置單元格所跨的列數
步驟：

在跨越的單元格中設置rowspan/colspan屬性 2. 將被跨越的單元格刪除
必須要保證每行的實際列數是相同的，否則表格可能會出錯亂
4.高級標簽
4.1caption標簽
表格的標題標簽
4.2thead標簽
表格的頭部table head
4.3th標簽
表格的頭部標題table head title
一般用在thead中，設置頭部的標題，替代td標簽，與td的區別，th中的文本會加粗且居中顯示
4.4tbody標簽
表格的主體table body
4.5tfoot標簽
表格的底部table foot

六、表單
1.簡介
表單是一個包含若干個表單元素的區域，用于獲取瑣類型的用戶數據

表單元素是允許用戶在表單輸入信息的元素，如文本框、密碼框、單選按鈕、復選框、下拉列表、按鈕等
2.表單結構
2.1表單語法

2.2form標簽
用來定義表單，可以包含多個表單元素
常用屬性：
action:提交數據給誰處理，即處理數據的程序，默認為當前頁面 method:提交數據的方式或方法，取值：get(默認)，post get和post的區別： get:以查詢字符串的形式提交，在地址欄中能看到，長度有限制，不安全 post以表單數據組的形式進行提交，在地址欄中看不到，長度無限制，安全 enctype(encode type)編碼類型：提交數據的編碼，取值：application/X-www-form-urlencoded(默認)、multipart/form-data(文件上傳)
3.表單元素
大多數的表單元素都是使用標簽來定義的，通過設置屬性type來定義不同的表單元素

3.1單行文本框
常用屬性：
·name名稱，很重要，如果沒有定義name屬性，則該表單元素的數據是無法提交的

·value初始值

·size顯示寬度

·maxlength:大字符數，默認是沒有限制

·readonly只讀：readonly=“readonly”,可簡寫readonly,即只寫屬性名

·disabled禁用：disabled=“disabled”, 可簡寫disabled完全禁用

表單元素被提交的兩個條件，1.有name屬性2.非disabled

3.2 單選按鈕
常用屬性：

·name名稱：多個radio的name屬性必須相同，才能實現互斥（單選）

·value值

·checked:是否被選中，兩種狀態，選中，未選中 checked=“checked” 簡寫 checked

3.3 復選框
常用屬性與單選按鈕radio類似

3.4 文件選擇器
常用屬性：

·name:名稱

·accept設置可選擇的文件類型，用來限制上傳的文件類型

使用MIME格式字符串對資源類型進行限制

常見的MIME類型：

·純文本：text/plain text/xml text/html

· 圖像：image/png image/jpeg image/gif

4.特殊表單元素

4.1下拉列表

select常用屬性：

·name名稱

·size行數，同時顯示多個選項

·multiple允許同時選擇多個

option常用屬性：

·value選項值

·selected設置默認選中項

optgroup常用屬性：

·label分組的標簽

4.2文本域

·name名稱

·rows行數

·cols列數

5、其他標簽

5.1 label標簽

為表單元素提供標簽，當選中label標簽中的文本內容時會自動將光標切換到與之相關聯的表單元素。

常用屬性：

·for必須將該屬性值設置為與相關聯的表單元素的Id屬性值相同。

注：幾乎所有HTML標簽都具有id屬性，且id值必須唯一。

5.2 button標簽

也表示按鈕，與input按鈕類似

語法：

1按鈕文字或圖像

常用屬性：

·type按鈕的類型，取值: submit（默認）、reset、button

5.3 fieldset和legend標簽

fieldset標簽，對表單元素進行分組

legend標簽，對分組添加標題

七、內嵌框架
1、簡介

使用iframe可以在一個頁面中引用另一個頁面，實現復用、靈活

2、基本用法

語法：

常用屬性：

· src:引用的頁面

· width/height寬度/高度，像素或百分比

· frameborder是否顯示邊框，取值：1(yes) 0(no)—默認

· scrolling是否顯示滾動條，取值：yes no auto

· name屬性為框架定義名稱

3、在框架中打開鏈接

3鏈接的文本或圖像

八、HTML5簡介

1、發展

W3C于1992年12月發布了HTML4.0.1標準
W3C于2014年10月發布了HTML5標準

2、特點

· 取消了過時的標簽，如font、center等，它們僅具有展示外觀的功能

· 增加了一些更具有語義化的標簽，如header、footer、aside等

· 增加了一些新功能標簽，如canvas、audio、video

· 增加了一些表單控件，如email、date、time、url、search等

· 可以直接在瀏覽器中繪畫（canvas），無需flash

· 增加了本地存儲的支持

3、兼容性

http://caniuse.com

提供了各種瀏覽器版本對HTML5和CSS規范的支持度

九、HTML5新增內容
1、結構相關的標簽

用來進行頁面結構布局，本身無任何特殊樣式，需要使用CSS進行樣式設置

· article定義一個獨立的內容，完整的文章

· section定義文檔的章節、段落

· header文章的頭部、頁眉、標題

· footer文章的底部、頁腳、標注

· aside定義側邊欄

· figure圖片區域

· figcaption為圖片區域定義標題

· nav定義導航菜單

結構標簽只是表明各部分的角色，并無實際的外觀樣式，與普通div相同

2、語義相關的標簽
2.1 mark標簽
標注，用來突出顯示文本，默認添加黃色背景
2.2 time標簽
定義日期和時間，便于搜索引擎智能查找
2.3 details和 summary標簽
默認顯示summary中的內容，點擊后顯示details中的內容
注：并不是所有的瀏覽器都兼容，chrome、opera支持、Firefox、IE瀏覽器不支持
2.4 meter標簽
計數儀，表示度量
常用屬性：

· max定義大值，默認為1

· min定義小值，默認為0

· value定義當前值

· high定義限定為高的值

· low定義限定為低的值

· optimum定義佳值

規則：

如果optimum大于high，則表示值越大越好

當value大于high時為綠色

當value在low與high之間時為黃色

當value小于low時為紅色

如果optimum小于low，則表示值越小越好

當value小于low時為綠色

當value在low與high之間時為黃色

當value大于high時為紅色

當optimum介于low和high之間，則表示值在low和high之間好當value在low與high之間時顯示綠色，否則顯示黃色

2.5 progress標簽
進度條，表示運行中的進度
常用屬性：

· value定義當前值

· max定義完成的值

3.表單相關
3.1 新增表單元素
新增以下type類型：

· email接收郵箱

· url接收URL

· tel接收電話號碼，目前僅在移動設備上有效

· search搜索文框

· number/range接收數字/數字滑塊,包含min,max,step屬性

· date/month/week/time/datetime日期時間選擇器，兼容性不好

· color顏色拾取

作用：

· 具有格式校驗的功能

· 可以與移動設備的鍵盤相關聯

3.2新增表單屬性
form標簽的屬性：

· autocomplete是否啟動表單的自動完成功能，取值:on(默認)、o?

· novalidate提交表單時不進行校驗，默認會進行表單校驗

3.3 新增表單元素的屬性
新增表單元素屬性：input/select/textarea等

· placeholder提示文字

· required是否必填

· autocomplete是否啟用該表單元素的自動完成功能

· autofocus設置初始焦點元素

· pattern使用正則表達式（RegExp后面會講解），進行數據校驗

· list使文本元素具有下拉列表的功能，需要配合datalist和option標簽一起使用

· form可以將表單元素寫在form標簽外面，然后通過該屬性關聯指定的表單

4、多媒體標簽
4.1audio標簽
在頁面中插入音頻，不同的瀏覽器對音頻格式的支持不一樣
audio常用屬性：

· src音頻文件的來源

· controls是否顯示控制面板，默認不顯示

· autoplay是否自動播放，默認不自動播放

· loop是否循環播放

· muted是否靜音

· preload是否預加載，取值：none不預加載、auto預加載（默認）、metadata只加載元數據

如果設置了autoplay屬性，則該屬性無效

可以結合source標簽使用，指定多個音頻文，瀏覽器會檢測并使用第一個可用的音頻文件

4.2 video標簽
在頁面中插入視頻，不同的瀏覽器對視頻格式的支持不一樣
用法與audio標簽基本相同，增加屬性：

· widht/height視頻播放器的寬度/高度

· poster在視頻加載前顯示的圖片

案例1hello.html

<html>
	<body>
		<tiele>HTML技術</tiele>
	</body>
	<body>
		大家好，歡迎學習html技術!
	</body>
</html>1234567

效果

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-h271e4v6-1593240920352)(C:\Users\lenovo\Desktop\新建文件夾\靜態網頁2\案例\result\案例1.png)]

案例2標簽的組成.html

<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>標簽</title>
</head>
<body text="blue">
	標簽的組成
	<br>
	html從入門到精通！
	<hr>
	<h1>標簽的分類</h1>
	<hr>

	<h2>標簽的分類</h2>
	<hr>

	<h6>標簽的分類</h6>
	<hr>

	<span>哈哈</span>嘿嘿
	
</body>
</html>1234567891011121314151617181920212223

效果

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-jx6zJE1P-1593240920354)(C:\Users\lenovo\Desktop\新建文件夾\靜態網頁2\案例\result\案例2.png)]

案例3實體字符.html

<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>Document</title>
</head>
<body>
	圖書:<<HTML從入門到精通<<
	<hr>

	北京      上海      廣州
	<hr>

	在HTML中用<表示<小于號
	<hr>

	“HTML語言” 或 &qout;HTML語言&qout;
	<hr>

	版權所有? 2000-2020 高教培訓
	<hr>

	×關閉符號
</body>
</html>123456789101112131415161718192021222324

效果

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-nuFLl3hm-1593240920355)(C:\Users\lenovo\Desktop\新建文件夾\靜態網頁2\案例\result\案例3.png)]

（剩下的下期出）

原文鏈接：https://blog.csdn.net/WanXuang/article/details/106982782?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160513384519724835852804%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=160513384519724835852804&biz_id=&utm_medium=distribute.pc_search_top_result.none-task-code-2~all~top_position~default-1-106982782-12.nonecase&utm_term=html

作者：WanXuang

出處：從CSDN

態網頁與動態網頁的區別在常見的形式上靜態頁面多數以html或xml結尾，這種通稱為靜態網頁；

靜態網頁是以固定的鏈接形式出現，每一個網頁都存到服務器上，無論是否有用戶訪問網站都會存在，也有利于搜索引擎的抓取；

動態網頁多數是以asp或php結尾，最明顯的特征就是鏈接后面會帶有大量的參數和問號，因此我們判斷是否為動態網頁，最簡單的方法就是看看鏈接后面有沒有就可以了。

這種動態網頁，實際上并不是獨立存在于服務器上的網頁文件，只有瀏覽者發出請求后，服務才會返回一個完整的網頁。

動態鏈接后面的大量參數，可能會讓搜索引擎的蜘蛛陷入死循環，雖然各大搜索引擎對外稱蜘蛛也可以很好的處理動態url，網慧天下小編建議還是盡量不要使用動態頁面。

在線咨詢

上一篇：PM小技術：使用SAE發布在線Axure文檔
下一篇：Git配置與使用

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

靜態網頁爬蟲①

靜態網頁爬蟲的過程

、HTML簡介

1.HTML是什么?

2.作用

3.版本

4.擴展名

二、HTML文檔結構

1.基本結構

1.1簡介

1.2.開發工具

1.3瀏覽器

2.標簽

2.1標簽的組成

2.2標簽的分類

2.3注釋

2.4實體字符

2.5文檔類型

三\常用標簽

3.1基本標簽

案例1hello.html

案例2標簽的組成.html

案例3實體字符.html

您的項目需求