PHP 如何傳遞Session ID

通過Cookie傳遞Session ID

setcookie(session_name(),session_id(),0,'/');

第一個(gè)參數(shù)中調(diào)用session_name()函數(shù)，返回當(dāng)前session的名稱作為cookie的標(biāo)識(shí)名稱，session名稱的默認(rèn)值為PHPSESSID。

$_COOKIE[session_name()]等同于$_COOKIE["PHPSESSID"]

第二個(gè)參數(shù)中調(diào)用session_id()函數(shù)，返回當(dāng)期session ID作為cookie的值

第三個(gè)參數(shù)的值設(shè)置為0時(shí)，是通過在php.ini文件中由session_cookie_lifetime選項(xiàng)設(shè)置的值,session_cookie_lifetime選項(xiàng)默認(rèn)值為0,表示session ID將在客戶機(jī)的cookie中延續(xù)到瀏覽器關(guān)閉。

第四個(gè)參數(shù)"/",也是通過php配置文件制定的值，在php.ini中由session.cookie_path選項(xiàng)設(shè)置的值。默認(rèn)為"/",表示在cookie中設(shè)置的路徑在整個(gè)域內(nèi)都有效；

注意:當(dāng)用戶禁用cookie后,服務(wù)器每次session_start()都會(huì)創(chuàng)建一個(gè)全新的session文件,其后果就是無法讓多個(gè)頁面php去共享一份session文件;

2 通過URL傳遞session ID

第一種方法：使用session_name()和session_id()函數(shù)傳遞

<?php
session_start();
echo '<a href="demp.php?'.session_name().'='.session_id().'">鏈接演示</a>'; //注意:引號(hào)使用 '" 先單引號(hào),后雙引號(hào)
?>
<a href="index.php?sid=<?php echo session_id() ?>">首頁</a>
<form action="login.php?sid=<?php echo session_id() ?>" method="post">

注意：sid是自定義的變量,采用此種表單形式的：<form action="login.php?sid=<?php echo session_id() ?>" method="post">

表單接收過來的要給session_id()賦值,因?yàn)榉?wù)器不知道是使用哪個(gè)session_id;

if(isset($_GET["sid"])){
session_id($_GET["sid"]);
}

session_name() 是用來獲取或設(shè)置為當(dāng)前會(huì)話的會(huì)話名稱,獲取會(huì)話名稱來自php.ini配置文件中session.name = "PHPSESSID"的默認(rèn)值

session_id() 是用來獲取或設(shè)置為當(dāng)前會(huì)話的會(huì)話ID

第二種方法：使用SID常量傳遞

此外，可以用常量 SID, 在會(huì)話啟動(dòng)時(shí)被定義。

如果客戶端沒有發(fā)送適當(dāng)?shù)臅?huì)話 cookie 的話, 則 SID 的格式為 session_name=session_id，否則就為一個(gè)空字符串。

因此可以無條件將其嵌入到 URL 中去。

案例1：

<?php
session_start(); //開啟Session
$_SESSION["username"]="admin"; //注冊(cè)一個(gè)Session變量，保存用戶名
echo "Session ID: ".session_id()."<br>"; //在當(dāng)前頁面輸出Session ID
?>
<a href="test2.php?<?php echo SID ?>">通過URL傳遞Session ID</a> <!-- 在URL中附加SID -->

案例2：

Page1.php

<?php
Session_start(); //使用SESSION前必須調(diào)用該函數(shù)。
$_SESSION['name']="我是黑旋風(fēng)李逵!"; //注冊(cè)一個(gè)SESSION變量
$_SESSION['passwd']="mynameislikui";
$_SESSION['time']=time();
echo '<br /><a href="page2.php">通過COOKIE傳遞SESSION</a>'; //如果客戶端支持cookie，可通過該鏈接傳遞session到下一頁。
echo '<br /><a href="page2.php?' . SID . '">通過URL傳遞SESSION</a>';//客戶端不支持cookie時(shí)，使用該辦法傳遞session.
?>

Page2.php

<?php
session_start();
echo $_SESSION['name']; //
echo $_SESSION['passwd']; //
echo date('Y m d H:i:s', $_SESSION['time']);
echo '<br /><a href="page1.php">返回山一頁</a>';
?>
<a href="nextpage.php?<?php echo strip_tags(SID); ?>">clickhere</a>.

用 strip_tags() 來輸出 SID 以避免 XSS 相關(guān)的攻擊。

3 修改配置文件php.ini

session.use_trans_sid 默認(rèn)為 0(禁用)。

PHP 可以透明地自動(dòng)轉(zhuǎn)換連接設(shè)置php.ini中的session.use_trans_sid = 1或者編譯時(shí)打開打開了--enable-trans-sid選項(xiàng)”

鏈接文件、header函數(shù)跳轉(zhuǎn)、表單跳轉(zhuǎn)，都可以添加session_name=session_id信息

唯一的javascript腳本中<script language="javascript">location.href='index.php'</script>不能添加，必須手工添加SID

文使用Spring Session實(shí)現(xiàn)了Spring Boot水平擴(kuò)展，每個(gè)Spring Boot應(yīng)用與其他水平擴(kuò)展的Spring Boot一樣，都能處理用戶請(qǐng)求。如果宕機(jī)，Nginx會(huì)將請(qǐng)求反向代理到其他運(yùn)行的Spring Boot應(yīng)用上，如果系統(tǒng)需要增加吞吐量，只需要再啟動(dòng)更多的Spring Boot應(yīng)用即可。
本文選自《Spring Boot 2精髓：從構(gòu)建小系統(tǒng)到架構(gòu)分布式大系統(tǒng)》一書。

Spring Boot應(yīng)用通常會(huì)部署在多個(gè)Web服務(wù)器上同時(shí)提供服務(wù)，這樣做有很多好處：

單個(gè)應(yīng)用宕機(jī)不會(huì)停止服務(wù)，升級(jí)應(yīng)用可以逐個(gè)升級(jí)而不必停止服務(wù)。
提高了應(yīng)用整體的吞吐量。

我們稱這種部署方式為水平擴(kuò)展，前端通過Nginx提供反向代理，會(huì)話管理可以通過Spring Session，使用Redis來存放Session。部署Spring Boot應(yīng)用到任意一臺(tái)Web服務(wù)器上，從而提高了系統(tǒng)可靠性和可伸縮性。

1 水平擴(kuò)展實(shí)現(xiàn)

當(dāng)系統(tǒng)想提升處理能力的時(shí)候，通常用兩種選擇，一種是重置擴(kuò)展架構(gòu)，即提升現(xiàn)有系統(tǒng)硬件的處理能力，比如提高CPU頻率、使用更好的存儲(chǔ)器。另外一種選擇是水平擴(kuò)展架構(gòu)，即部署系統(tǒng)到更多的服務(wù)器上同時(shí)提供服務(wù)。這兩種方式各有利弊，現(xiàn)在通常都優(yōu)先采用水平擴(kuò)展架構(gòu)，這是因?yàn)椋?/p>

重置擴(kuò)展架構(gòu)

缺點(diǎn)：架構(gòu)中的硬件提升能力有限，而且硬件能力提升往往需要更多的花銷；

優(yōu)點(diǎn)：應(yīng)用系統(tǒng)不需要做任何改變。

水平擴(kuò)展

優(yōu)點(diǎn)：成本便宜；

缺點(diǎn)：更多的應(yīng)用導(dǎo)致管理更加復(fù)雜。對(duì)于Spring Boot 應(yīng)用，會(huì)話管理是一個(gè)難點(diǎn)。

Spring Boot 應(yīng)用水平擴(kuò)展有兩個(gè)問題需要解決，一個(gè)是將用戶的請(qǐng)求派發(fā)到水平部署的任意一臺(tái)Spring Boot應(yīng)用，通常用一個(gè)反向代理服務(wù)器來實(shí)現(xiàn)，本文將使用Nginx作為反向代理服務(wù)器。

反向代理（Reverse Proxy）方式是指接收internet上的連接請(qǐng)求，然后將請(qǐng)求轉(zhuǎn)發(fā)給內(nèi)部網(wǎng)絡(luò)上的服務(wù)器，并將從服務(wù)器上得到的結(jié)果返回給internet上請(qǐng)求連接的客戶端，此時(shí)代理服務(wù)器對(duì)外就表現(xiàn)為一個(gè)反向代理服務(wù)器。
正向代理服務(wù)器：局域網(wǎng)內(nèi)通過一個(gè)正向代理服務(wù)器訪問外網(wǎng)。

另外一個(gè)需要解決的問題是會(huì)話管理，單個(gè)Spring Boot應(yīng)用的會(huì)話由Tomcat來管理，會(huì)話信息與Tomcat存放在一起。如果部署多個(gè)Spring Boot應(yīng)用，對(duì)于同一個(gè)用戶請(qǐng)求，即使請(qǐng)求通過Nginx派發(fā)到不同的Web服務(wù)器上，也能共享會(huì)話信息。有兩種方式可以實(shí)現(xiàn)。

復(fù)制會(huì)話：Web服務(wù)器通常都支持Session復(fù)制，一臺(tái)應(yīng)用的會(huì)話信息改變將立刻復(fù)制到其他集群的Web服務(wù)器上。
集中式會(huì)話：所有Web服務(wù)器都共享一個(gè)會(huì)話，會(huì)話信息通常存放在一臺(tái)服務(wù)器上，本文使用Redis服務(wù)器來存放會(huì)話。

復(fù)制會(huì)話的缺點(diǎn)是每次會(huì)話改變需要復(fù)制到多臺(tái)Web服務(wù)器上，效率較低。因此Spring Boot應(yīng)用采用第二種方式（集中式會(huì)話方式），結(jié)構(gòu)如下圖所示。

上圖是一個(gè)大型分布式系統(tǒng)架構(gòu)，包含了三個(gè)獨(dú)立的子系統(tǒng)。業(yè)務(wù)子系統(tǒng)一和業(yè)務(wù)子系統(tǒng)二分別部署在一臺(tái)Tomcat服務(wù)器上，業(yè)務(wù)子系統(tǒng)三部署在兩臺(tái)Tomcat服務(wù)器上，采用水平擴(kuò)展。

架構(gòu)采用Nginx作為反向代理，其后的各個(gè)子系統(tǒng)都采用Spring Session，將會(huì)話存放在Redis中，因此，這些子系統(tǒng)雖然是分開部署的，支持水平擴(kuò)展，但能整合成一個(gè)大的系統(tǒng)。Nginx提供統(tǒng)一的入口，對(duì)于用戶訪問，將按照某種策略，比如根據(jù)訪問路徑派發(fā)到后面對(duì)應(yīng)的Spring Boot應(yīng)用中，Spring Boot調(diào)用Spring Session取得會(huì)話信息，Spring Session并沒有從本地存取會(huì)話，會(huì)話信息存放在Redis服務(wù)器上。

2 Nginx的安裝和配置

Nginx是一款輕量級(jí)的Web 服務(wù)器/反向代理服務(wù)器及電子郵件（IMAP/POP3）、TCP/UDP代理服務(wù)器，并在一個(gè)BSD-like協(xié)議下發(fā)行。由俄羅斯的程序設(shè)計(jì)師Igor Sysoev開發(fā)，供俄國(guó)大型的入口網(wǎng)站及搜索引擎Rambler使用。其特點(diǎn)是占有內(nèi)存少，并發(fā)能力強(qiáng)，事實(shí)上Nginx的并發(fā)能力確實(shí)在同類型的網(wǎng)頁服務(wù)器中表現(xiàn)較好，國(guó)內(nèi)使用Nginx的網(wǎng)站有百度、新浪、網(wǎng)易、騰訊等。

2.1 安裝Nginx

打開Nginx網(wǎng)站（http://nginx.org/），進(jìn)入下載頁面，根據(jù)自己的操作系統(tǒng)選擇下載，以Windows系統(tǒng)為例，下載nginx/Windows-1.11.10版本，直接解壓，然后運(yùn)行Nginx即可。

如果是Mac，可以運(yùn)行：

>brew install nginx

Nginx默認(rèn)會(huì)安裝在/usr/local/Cellar/nginx/目錄下，配置文件在/usr/local/etc/nginx/nginx.conf目錄下，日志文件在 /usr/local/var/log/nginx/目錄下。

以下是Nginx的常用命令：

nginx，啟動(dòng)Nginx，默認(rèn)監(jiān)聽80端口。
nginx -s stop，快速停止服務(wù)器。
nginx -s quit，停止服務(wù)器，但要等到請(qǐng)求處理完畢后關(guān)閉。
nginx -s reload，重新加載配置文件。

Nginx啟動(dòng)后，可以訪問http://127.0.0.1:80，會(huì)看到Nginx的歡迎頁面，如下圖所示。

如果80端口訪問不了，則可能是因?yàn)槟阆螺d的版本的原因，Nginx的HTTP端口配置成其他端口，編輯conf/nginx.conf，找到：

server {
listen 80;
}

修改listen參數(shù)到80端口即可。

Nginx的log目錄下提供了三個(gè)文件：

access.log，記錄了用戶的請(qǐng)求信息和響應(yīng)。
error.log，記錄了Nginx運(yùn)行的錯(cuò)誤日志。
nginx.pid，包含了Nginx的進(jìn)程號(hào)。

2.2 配置Nginx

Nginx的配置文件conf/nginx.conf下包含多個(gè)指令塊，我們主要關(guān)注http塊和location塊。

http塊：可以嵌套多個(gè)Server，配置代理、緩存、日志定義等絕大多數(shù)功能和第三方模塊，如mime-type定義、日志自定義、是否使用sendfile傳輸文件、連接超時(shí)時(shí)間、單連接請(qǐng)求數(shù)等。
location塊：配置請(qǐng)求的路由，以及各種頁面的處理情況。

由于本文主要是講水平擴(kuò)展Spring Boot應(yīng)用，因此，我們需要在http塊中增加upstream指令，內(nèi)容如下：

http {
upstream backend { server 127.0.0.1:9000; server 127.0.0.1:9001
}
}

backend也可以為任意名字，我們?cè)谙旅娴呐渲脤⒁玫剑?/p>

location / {
proxy_pass http://backend;
}

location后可以是一個(gè)正則表達(dá)式，我們這里用“/”表示所有客戶端請(qǐng)求都會(huì)傳給http:// backend，也就是我們配置的backend指令的地址列表。因此，整個(gè)http塊類似下面的樣子：

http {
include mime.types;
default_type application/octet-stream;
sendfile on; keepalive_timeout 65;
upstream backend {
server 127.0.0.1:9000;
server 127.0.0.1:9001;
}
server {
listen 80;
server_name localhost;
location / {
proxy_pass http://backend;
}
}
}

我們?cè)诤竺鎸?chuàng)建一個(gè)Spring Boot應(yīng)用，并分別以9000和9001兩個(gè)端口啟動(dòng)，然后在Spring Session的基礎(chǔ)上一步步來完成Spring Boot應(yīng)用的水平擴(kuò)展。

注意：Nginx反向代理默認(rèn)情況下會(huì)輪詢后臺(tái)應(yīng)用，還有一種配置是設(shè)置ip_hash，這樣，固定客戶端總是反向代理到后臺(tái)的某一個(gè)服務(wù)器。這種設(shè)置方式就不需要使用Spring Session來管理會(huì)話，使用Tomcat的會(huì)話管理即可。但弊端是如果服務(wù)器宕機(jī)或者因?yàn)榫S護(hù)重啟，則會(huì)話丟失。ip_hash設(shè)置如下：
upstream backend {
ip_hash; server 127.0.0.1:9000; server 127.0.0.1:9001
}

3 Spring Session

3.1 Spring Session介紹

在默認(rèn)情況下，Spring Boot使用Tomcat服務(wù)器的Session實(shí)現(xiàn)，我們編寫一個(gè)例子用于測(cè)試：

@Controller
public class SpringSessionCrontroller {
Log log = LogFactory.getLog(SpringSessionCrontroller.class);
@RequestMapping("/putsession.html")
public @ResponseBody String putSession(HttpServletRequest request){
HttpSession session = request.getSession(); log.info(session.getClass()); log.info(session.getId()); String name = "xiandafu";
session.setAttribute("user", name);
return "hey,"+name;
}
}

如果訪問服務(wù)/putsession.html，控制臺(tái)輸出為：

SpringSessionCrontroller : class org.apache.catalina.session.StandardSessionFacade
SpringSessionCrontroller : F567C587EA25CBD5B9A75C62AB51904D

可以看到，Session管理是通過Tomcat提供的org.apache.catalina.session.StandardSessionFacade實(shí)現(xiàn)的。

在配置文件application.properties中添加如下內(nèi)容：

spring.session.store-type=Redis|JDBC|Hazelcast|none

Spring Boot配置很容易切換到不同的Session管理方式，總共有以下幾種：

Redis，Session數(shù)據(jù)存放Redis中。
JDBC，會(huì)話數(shù)據(jù)存放在數(shù)據(jù)庫(kù)中，默認(rèn)情況下SPRING_SESSION表存放Session基本信息，如sessionId、創(chuàng)建時(shí)間、最后一次訪問時(shí)間等，SPRING_SESSION_ ATTRIBUTES存放了session數(shù)據(jù)，ATTRIBUTE_NAME列保存了Session的Key，ATTRIBUTE_BYTES列以字節(jié)形式保存了Session的Value，Spring Session會(huì)自動(dòng)創(chuàng)建這兩張表。
Hazelcast，Session數(shù)據(jù)存放到Hazelcast。
None，禁用Spring Session功能。

通過配置屬性spring.session.store-type來指定Session的存儲(chǔ)方式，如：

spring.session.store-type=Redis

修改為配置和增加Spring Session依賴后，如果訪問服務(wù)/putsession.html，控制臺(tái)輸出為：

SpringSessionCrontroller : class org.springframework.session.web.http.SessionRepositoryFilter$SessionRepositoryRequestWrapper$HttpSessionWrapperSpringSessionCrontroller : d4315e92-48e1-4a77-9819-f15df9361e68

可以看到，Session已經(jīng)替換為HttpSessionWrapper實(shí)現(xiàn)，這個(gè)類負(fù)責(zé)Spring Boot 的Session存儲(chǔ)類型的具體實(shí)現(xiàn)。

3.2 使用Redis

本將用Redis來保存Session，你需要安裝Redis，如未安裝，請(qǐng)參考《Spring Boot 2精髓：從構(gòu)建小系統(tǒng)到架構(gòu)分布式大系統(tǒng)》中Redis一章，Spring Boot的配置如下：

spring.session.store-type=Redis
spring.redis.host=127.0.0.1spring.redis.port=6379
spring.redis.password=Redis!123

還需要引入對(duì)Redis的依賴：

<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-data-redis</artifactId>
</dependency>

再次訪問/putsession.html后，我們通過Redis客戶端工具訪問Redis，比如使用redis-cli，輸入如下命令：

keys spring:session:*

查詢所有“spring:session:”開頭的keys，輸出如下：

3) "spring:session:sessions:expires:863c7e73-8249-4780-a08e-0ff2bdddda86"
...
7) "spring:session:sessions:863c7e73-8249-4780-a08e-0ff2bdddda86"

會(huì)話信息存放在“spring:session:sessions:”開頭的Key中，863c7e73-8249-4780-a08e-0ff2bdddda86代表一個(gè)會(huì)話id，“spring:session:sessions”是一個(gè)Hash數(shù)據(jù)結(jié)構(gòu)，可以用Redis HASH相關(guān)的命令來查看這個(gè)用戶會(huì)話的數(shù)據(jù)，使用hgetall查看會(huì)話所有的信息：

>hgetall "spring:session:sessions:863c7e73-8249-4780-a08e-0ff2bdddda86"1) "sessionAttr:user"2) "maxInactiveInterval"
.......

使用以下命令來查看該Session的user信息：

>HMGET "spring:session:sessions:863c7e73-8249-4780-a08e-0ff2bdddda86" sessionAttr:user

sessionAttr:user是Spring Session存入Redis的Key值，sessionAttr:是其前綴，user是我們?cè)赟pring Boot中設(shè)置會(huì)話的Key。其他Spring Boot默認(rèn)創(chuàng)建的Key還有：

creationTime，創(chuàng)建時(shí)間。
maxInactiveInterval，指定過期時(shí)間（秒）。
lastAccessedTime，上次訪問時(shí)間。
sessionAttr，以“sessionAttr:”為前綴的會(huì)話信息，比如sessionAttr: user。

因此，Spring Session使用Redis保存的會(huì)話將采用如下的Redis操作，類似如下：

>HMSET spring:session:sessions:863c7e73-8249-4780-a08e-0ff2bdddda86 creationTime 1404360000000 maxInactiveInterval 1800 lastAccessedTime 1404360000000 sessionAttr:attrName someAttrValue sessionAttr:attrName2 someAttrValue2

注意：Spring Session的Redis實(shí)現(xiàn)并不是每次通過Session類獲取會(huì)話信息或者保存的時(shí)候都會(huì)調(diào)用Redis操作，它會(huì)先嘗試從內(nèi)部的HashMap讀取值，如果沒有，才調(diào)用Redis的HMGET操作。同樣，當(dāng)保存會(huì)話的時(shí)候，也沒有立即調(diào)用Redis操作，而是先保存到HashMap中，等待服務(wù)請(qǐng)求結(jié)束后再將變化的值使用HMSET更新。如果你想在保存會(huì)話操作后立即更新到Redis中，需要配置成IMMEDIATE模式，修改配置屬性：
spring.session.redis.flushMode=IMMEDIATE

我們注意到，還有另外一個(gè)Redis Key是“spring:session:sessions:expires:863c7e73-8249-4780- a08e-0ff2bdddda86”，這是因?yàn)镽edis會(huì)話過期并沒有直接使用在session:sessions:key變量上，而是專門用在session:sessions:expires:key上，當(dāng)此Key過期后，會(huì)自動(dòng)清除對(duì)應(yīng)的會(huì)話信息。使用ttl查看會(huì)話過期時(shí)間：

>ttl spring:session:sessions:expires:863c7e73-8249-4780-a08e-0ff2bdddda86(integer) 1469

默認(rèn)是1800秒，即30分鐘，現(xiàn)在只剩下1469秒。

3.3 Nginx+Redis

在前文中，我們已經(jīng)配置了：

upstream backend {
server 127.0.0.1:9000;
server 127.0.0.1:9001
}

假設(shè)在本機(jī)上部署了兩個(gè)Spring Boot應(yīng)用，使用端口分別是9000和9001。進(jìn)入工程目錄，運(yùn)行mvn package，我們看到ch15.springsession\target\目錄下生成了ch17.springsession-0.0.1- SNAPSHOT.jar。然后進(jìn)入命令行，進(jìn)入target目錄，啟動(dòng)這個(gè)Spring Boot應(yīng)用：

java -jar target/ch15.springsession-0.0.1-SNAPSHOT.jar --server.port=9000

打開另外一個(gè)命令窗口，進(jìn)入工程目錄，運(yùn)行：

java -jar target/ch15.springsession-0.0.1-SNAPSHOT.jar --server.port=9001

這時(shí)候，我們就有兩臺(tái)Spring Boot應(yīng)用。接下來，我們?cè)L問以下地址，并刷新多次：

http://127.0.0.1/putsession.html

這時(shí)候就看到兩個(gè)Spring Boot應(yīng)用均有日志輸出，比如9000端口的應(yīng)用控制臺(tái)輸出如下：

class org.springframework.session.web.http.SessionRepositoryFilter....863c7e73-8249-4780-a08e-0ff2bdddda86

9001端口的Spring Boot應(yīng)用也有類似輸出：

class org.springframework.session.web.http.SessionRepositoryFilter....863c7e73-8249-4780-a08e-0ff2bdddda86

我們看到，兩個(gè)Spring Boot應(yīng)用都具有相同的sessionId，如果停掉任意一臺(tái)應(yīng)用，系統(tǒng)還有另外一臺(tái)服務(wù)器提供服務(wù)，會(huì)話信息保存在Redis中。

《Spring Boot 2精髓：從構(gòu)建小系統(tǒng)到架構(gòu)分布式大系統(tǒng)》

內(nèi)容豐富，涵蓋Spring Boot 2主流技術(shù),作者有近20年的IT行業(yè)從業(yè)背景，資歷深厚。

作者：李家智

圖書鏈接：http://item.jd.com/12214143.html

上一節(jié)我們了解了網(wǎng)站登錄驗(yàn)證和模擬登錄的基本原理。網(wǎng)站登錄驗(yàn)證主要有兩種實(shí)現(xiàn)方式，一種是基于 Session + Cookies 的登錄驗(yàn)證，另一種是基于 JWT 的登錄驗(yàn)證。接下來兩節(jié)，我們就通過兩個(gè)實(shí)例來分別講解這兩種登錄驗(yàn)證的分析和模擬登錄流程。

本節(jié)主要介紹 Session + Cookie 模擬登錄的流程。

1. 準(zhǔn)備工作

在本節(jié)開始之前，我們需要先做好如下準(zhǔn)備工作。

安裝好了 requests 請(qǐng)求庫(kù)并學(xué)會(huì)了其基本用法。
安裝好了 Selenium 庫(kù)并學(xué)會(huì)了其基本用法。

下面我們就用兩個(gè)案例來分別講解模擬登錄的實(shí)現(xiàn)。

2. 案例介紹

本節(jié)有一個(gè)適用于 Session + Cookie 模擬登錄的案例網(wǎng)站，網(wǎng)址為：https://login2.scrape.center/，訪問之后，我們會(huì)看到一個(gè)登錄頁面，如圖所示：

我們輸入用戶名和密碼（用戶名和密碼都是 admin），然后點(diǎn)擊登錄。登錄成功后，我們便可以看到一個(gè)和之前案例類似的電影網(wǎng)站，如圖所示。

這個(gè)網(wǎng)站是基于傳統(tǒng)的 MVC 模式開發(fā)的，因此也比較適合 Session + Cookie 的模擬登錄。

3. 模擬登錄

對(duì)于這個(gè)網(wǎng)站，我們?nèi)绻M登錄，就需要先分析登錄過程究竟發(fā)生了什么。我們打開開發(fā)者工具，重新執(zhí)行登錄操作，查看其登錄過程中發(fā)生的請(qǐng)求，如圖所示。

圖 10-5 登錄過程中發(fā)生的請(qǐng)求

從圖 10-5 中我們可以看到，在登錄的瞬間，瀏覽器發(fā)起了一個(gè) POST 請(qǐng)求，目標(biāo) URL 為 https://login2.scrape.center/login，并通過表單提交的方式像服務(wù)器提交了登錄數(shù)據(jù)，其中包括 username 和 password 兩個(gè)字段，返回的狀態(tài)碼是 302，Response Headers 的 location 字段為根頁面，同時(shí) Response Headers 還包含了 set-cookie 信息，設(shè)置了 Session ID。

由此我們可以發(fā)現(xiàn)，要實(shí)現(xiàn)模擬登錄，我們只需要模擬這個(gè)請(qǐng)求就好了。登錄完成后獲取 Response 設(shè)置的 Cookie，將它保存好，后續(xù)發(fā)出請(qǐng)求的時(shí)候帶上 Cookies 就可以正常訪問了。

好，那么我們就來用代碼實(shí)現(xiàn)一下吧！

在默認(rèn)情況下，每次 requests 請(qǐng)求都是獨(dú)立且互不干擾的，比如我們第一次調(diào)用了 post 方法模擬登錄了一下，緊接著再調(diào)用 get 方法請(qǐng)求主頁面。其實(shí)這是兩個(gè)完全獨(dú)立的請(qǐng)求，第一次請(qǐng)求獲取的 Cookie 并不能傳給第二次請(qǐng)求，因此常規(guī)的順序調(diào)用是不能起到模擬登錄效果的。

我們來看一段無效的代碼：

import requests
from urllib.parse import urljoin

BASE_URL = 'https://login2.scrape.center/'
LOGIN_URL = urljoin(BASE_URL, '/login')
INDEX_URL = urljoin(BASE_URL, '/page/1')
USERNAME = 'admin'
PASSWORD = 'admin'

response_login = requests.post(LOGIN_URL, data={
    'username': USERNAME,
    'password': PASSWORD
})

response_index = requests.get(INDEX_URL)
print('Response Status', response_index.status_code)
print('Response URL', response_index.url)

這里我們先定義了幾個(gè)基本的 URL 、用戶名和密碼，然后我們分別用 requests 請(qǐng)求了登錄的 URL 進(jìn)行模擬登錄，緊接著請(qǐng)求了首頁來獲取頁面內(nèi)容，能正常獲取數(shù)據(jù)嗎？由于 requests 可以自動(dòng)處理重定向，我們可以在最后把 Response 的 URL 打印出來，如果它的結(jié)果是 INDEX_URL，那么證明模擬登錄成功并成功爬取到了首頁的內(nèi)容。如果它跳回到了登錄頁面，那就說明模擬登錄失敗。

我們通過結(jié)果來驗(yàn)證一下，運(yùn)行結(jié)果如下：

Response Status 200
Response URL https://login2.scrape.center/login?next=/page/1

這里可以看到，其最終的頁面 URL 是登錄頁面的 URL。另外這里也可以通過 Response 的 text 屬性來驗(yàn)證下頁面源碼，其源碼內(nèi)容就是登錄頁面的源碼內(nèi)容，由于內(nèi)容較多，這里就不再輸出比對(duì)了。

總之，這個(gè)現(xiàn)象說明我們并沒有成功完成模擬登錄，這是因?yàn)?requests 直接調(diào)用 post、get 等方法，每次請(qǐng)求都是一個(gè)獨(dú)立的請(qǐng)求，都相當(dāng)于是新開了一個(gè)瀏覽器打開這些鏈接，所以這兩次請(qǐng)求對(duì)應(yīng)的 Session 并不是同一個(gè)，這里我們模擬了第一個(gè) Session 登錄，并不能影響第二個(gè) Session 的狀態(tài)，因此模擬登錄也就無效了。

那么怎樣才能實(shí)現(xiàn)正確的模擬登錄呢？

我們知道 Cookie 里面是保存了 Session ID 信息的，剛才也觀察到了登錄成功后 Response Headers 里面有 set-cookie 字段，實(shí)際上這就是讓瀏覽器生成了 Cookie。因?yàn)?Cookies 里面包含了 Session ID 的信息，所以只要后續(xù)的請(qǐng)求帶著這些 Cookie，服務(wù)器便能通過 Cookie 里的 Session ID 信息找到對(duì)應(yīng)的 Session 了，因此，服務(wù)端對(duì)于這兩次請(qǐng)求就會(huì)使用同一個(gè) Session 了。因?yàn)榈谝淮挝覀円呀?jīng)成功完成了模擬登錄，所以 Session 里面就記錄了用戶的登錄信息，在第二次訪問的時(shí)候，由于是同一個(gè) Session，服務(wù)器就能知道用戶當(dāng)前是登錄狀態(tài)，那就能夠返回正確的結(jié)果而不再是跳轉(zhuǎn)到登錄頁面了。

所以，這里的關(guān)鍵在于兩次請(qǐng)求的 Cookie 的傳遞。這里我們可以把第一次模擬登錄后的 Cookie 保存下來，在第二次請(qǐng)求的時(shí)候加上這個(gè) Cookie，代碼可以改寫如下：

import requests
from urllib.parse import urljoin

BASE_URL = 'https://login2.scrape.center/'
LOGIN_URL = urljoin(BASE_URL, '/login')
INDEX_URL = urljoin(BASE_URL, '/page/1')
USERNAME = 'admin'
PASSWORD = 'admin'

response_login = requests.post(LOGIN_URL, data={
    'username': USERNAME,
    'password': PASSWORD
}, allow_redirects=False)

cookies = response_login.cookies
print('Cookies', cookies)

response_index = requests.get(INDEX_URL, cookies=cookies)
print('Response Status', response_index.status_code)
print('Response URL', response_index.url)

由于 requests 可以自動(dòng)處理重定向，所以我們模擬登錄的過程要加上 allow_redirects 參數(shù)并將其設(shè)置為 False，使其不自動(dòng)處理重定向。我們將登錄之后返回的 Response 賦值為 response_login，這樣調(diào)用 response_login 的 cookies 就是獲取了網(wǎng)站的 Cookie 信息了。這里 requests 自動(dòng)幫我們解析了 Response Headers 的 set-cookie 字段并設(shè)置了 Cookie，所以我們不用再去手動(dòng)解析 Response Headers 的內(nèi)容了，直接使用 response_login 對(duì)象的 cookies 方法即可獲取 Cookie。

好，接下來我們?cè)俅斡?requests 的 get 方法來請(qǐng)求網(wǎng)站的 INDEX_URL。不過這里和之前不同，get 方法增加了一個(gè)參數(shù) cookies，這就是第一次模擬登錄完之后獲取的 Cookie，這樣第二次請(qǐng)求就能攜帶第一次模擬登錄獲取的 Cookie 信息了，此時(shí)網(wǎng)站會(huì)根據(jù) Cookie 里面的 Session ID 信息查找到同一個(gè) Session，校驗(yàn)其已經(jīng)是登錄狀態(tài)，然后返回正確的結(jié)果。

這里我們還是輸出最終的 URL，如果它是 INDEX_URL，就代表模擬登錄成功并獲取了有效數(shù)據(jù)，否則就代表模擬登錄失敗。

我們看下運(yùn)行結(jié)果：

Cookies <RequestsCookieJar[<Cookie sessionid=psnu8ij69f0ltecd5wasccyzc6ud41tc for login2.scrape.center/>]>
Response Status 200
Response URL https://login2.scrape.center/page/1

這下沒有問題了，我們發(fā)現(xiàn)其 URL 就是 INDEX_URL，模擬登錄成功了！同時(shí)還可以進(jìn)一步輸出 response_index 的 text 屬性看下是否獲取成功。

后續(xù)用同樣的方式爬取即可。但其實(shí)我們發(fā)現(xiàn)，這種實(shí)現(xiàn)方式比較煩瑣，每次還需要處理 Cookie 并一次傳遞，有沒有更簡(jiǎn)便的方法呢？

有的，我們可以直接借助于 requests 內(nèi)置的 Session 對(duì)象來幫我們自動(dòng)處理 Cookie，使用了 Session 對(duì)象之后，requests 會(huì)自動(dòng)保存每次請(qǐng)求后需要設(shè)置的 Cookie ，并在下次請(qǐng)求時(shí)自動(dòng)攜帶它，就相當(dāng)于幫我們維持了一個(gè) Session 對(duì)象，這樣就更方便了。

所以，剛才的代碼可以簡(jiǎn)化如下：

import requests
from urllib.parse import urljoin

BASE_URL = 'https://login2.scrape.center/'
LOGIN_URL = urljoin(BASE_URL, '/login')
INDEX_URL = urljoin(BASE_URL, '/page/1')
USERNAME = 'admin'
PASSWORD = 'admin'

session = requests.Session()

response_login = session.post(LOGIN_URL, data={
    'username': USERNAME,
    'password': PASSWORD
})

cookies = session.cookies
print('Cookies', cookies)

response_index = session.get(INDEX_URL)
print('Response Status', response_index.status_code)
print('Response URL', response_index.url)

可以看到，這里我們無須再關(guān)心 Cookie 的處理和傳遞問題，我們聲明了一個(gè) Session 對(duì)象，然后每次調(diào)用請(qǐng)求的時(shí)候都直接使用 Session 對(duì)象的 post 或 get 方法就好了。

運(yùn)行效果是完全一樣的，結(jié)果如下：

Cookies <RequestsCookieJar[<Cookie sessionid=ssngkl4i7en9vm73bb36hxif05k10k13 for login2.scrape.center/>]>
Response Status 200
Response URL https://login2.scrape.center/page/1

因此，為了簡(jiǎn)化寫法，這里建議直接使用 Session 對(duì)象進(jìn)行請(qǐng)求，這樣我們無須關(guān)心 Cookie 的操作了，實(shí)現(xiàn)起來會(huì)更加方便。

這個(gè)案例整體來說比較簡(jiǎn)單，但是如果碰上復(fù)雜一點(diǎn)的網(wǎng)站，如帶有驗(yàn)證碼，帶有加密參數(shù)等，直接用 requests 并不好處理模擬登錄，如果登錄不了，那整個(gè)頁面不就都沒法爬取了嗎？有沒有其他的方式來解決這個(gè)問題呢？當(dāng)然是有的，比如說我們可以使用 Selenium 來模擬瀏覽器，進(jìn)而實(shí)現(xiàn)模擬登錄，然后獲取模擬登錄成功后的 Cookie，再把獲取的 Cookie 交由 requests 等來爬取就好了。

這里我們還是以剛才的頁面為例，把模擬登錄這塊交由 Selenium 來實(shí)現(xiàn)，后續(xù)的爬取交由 requests 來實(shí)現(xiàn)，相關(guān)的代碼如下：

from urllib.parse import urljoin
from selenium import webdriver
import requests
import time

BASE_URL = 'https://login2.scrape.center/'
LOGIN_URL = urljoin(BASE_URL, '/login')
INDEX_URL = urljoin(BASE_URL, '/page/1')
USERNAME = 'admin'
PASSWORD = 'admin'

browser = webdriver.Chrome()
browser.get(BASE_URL)
browser.find_element_by_css_selector('input[name="username"]').send_keys(USERNAME)
browser.find_element_by_css_selector('input[name="password"]').send_keys(PASSWORD)
browser.find_element_by_css_selector('input[type="submit"]').click()
time.sleep(10)

# get cookies from selenium
cookies = browser.get_cookies()
print('Cookies', cookies)
browser.close()

# set cookies to requests
session = requests.Session()
for cookie in cookies:
    session.cookies.set(cookie['name'], cookie['value'])

response_index = session.get(INDEX_URL)
print('Response Status', response_index.status_code)
print('Response URL', response_index.url)

這里我們使用 Selenium 先打開了 Chrome，然后跳轉(zhuǎn)到了登錄頁面，隨后模擬輸入了用戶名和密碼，接著點(diǎn)擊了登錄按鈕，我們可以發(fā)現(xiàn)瀏覽器提示登錄成功，然后跳轉(zhuǎn)到了主頁面。

這時(shí)候，我們通過調(diào)用 get_cookies 方法便能獲取當(dāng)前瀏覽器所有的 Cookie，這就是模擬登錄成功之后的 Cookie，用這些 Cookie 我們就能訪問其他數(shù)據(jù)了。

接下來，我們聲明了 requests 的 Session 對(duì)象，然后遍歷了剛才的 Cookie 并將其設(shè)置到 Session 對(duì)象的 cookies 屬性上，接著再拿著這個(gè) Session 對(duì)象去請(qǐng)求 INDEX_URL，就也能夠獲取對(duì)應(yīng)的信息而不會(huì)跳轉(zhuǎn)到登錄頁面了。

運(yùn)行結(jié)果如下：

Cookies [{'domain': 'login2.scrape.center', 'expiry': 1589043753.553155, 'httpOnly': True, 'name': 'sessionid', 'path': '/', 'sameSite': 'Lax', 'secure': False, 'value': 'rdag7ttjqhvazavpxjz31y0tmze81zur'}]
Response Status 200
Response URL https://login2.scrape.center/page/1

可以看到，這里的模擬登錄和后續(xù)的爬取也成功了。所以說，如果碰到難以模擬登錄的過程，我們也可以使用 Selenium 等模擬瀏覽器的操作方式來實(shí)現(xiàn)，其目的就是獲取登錄后的 Cookie，有了 Cookie 之后，我們?cè)儆眠@些 Cookie 爬取其他頁面就好了。

所以這里我們也可以發(fā)現(xiàn)，對(duì)于基于 Session + Cookie 驗(yàn)證的網(wǎng)站，模擬登錄的核心要點(diǎn)就是獲取 Cookie。這個(gè) Cookie 可以被保存下來或傳遞給其他的程序繼續(xù)使用，甚至可以將 Cookie 持久化存儲(chǔ)或傳輸給其他終端來使用。

另外，為了提高 Cookie 利用率或降低封號(hào)概率，可以搭建一個(gè)賬號(hào)池實(shí)現(xiàn) Cookie 的隨機(jī)取用。