CSS 隱藏頁面元素有許多種方法。你可以將 opacity 設為 0、將 visibility 設為 hidden、將 display 設為 none 或者將 position 設為 absolute 然后將位置設到不可見區域。
你有沒有想過,為什么我們要有這么多技術來隱藏元素,而它們看起來都實現的是同樣的效果?每一種方法實際上與其他方法之間都有一些細微的不同,這些 不同決定了在一個特定的場合下使用哪一個方法。這篇教程將覆蓋到那些你需要記住的細小不同點,讓你根據不同情況選擇上面這些方法中適合的方法來隱藏元素。
opacity
opacity 屬性的意思是設置一個元素的透明度。它不是為改變元素的邊界框(bounding box)而設計的。這意味著將 opacity 設為 0 只能從視覺上隱藏元素。而元素本身依然占據它自己的位置并對網頁的布局起作用。它也將響應用戶交互。
.hide { opacity: 0;}
如果你打算使用 opacity 屬性在讀屏軟件中隱藏元素,很不幸,你并不能如愿。元素和它所有的內容會被讀屏軟件閱讀,就像網頁上的其他元素那樣。換句話說,元素的行為就和它們不透明時一致。
我還要提醒一句,opacity 屬性可以用來實現一些效果很棒的動畫。任何 opacity 屬性值小于 1 的元素也會創建一個新的堆疊上下文(stacking context)。
看下面的例子:
看 @SitePoint 提供的例子“用 opacity 隱藏元素”
當你的鼠標移到被隱藏的第 2 個的區塊上,元素狀態平滑地從完全透明過渡到完全不透明。區塊也將 cursor 屬性設置為了 pointer,這說明了用戶可以與它交互。
我自己是一名從事了多年開發的web前端老程序員,目前辭職在做自己的web前端私人定制課程,今年年初我花了一個月整理了一份最適合2019年學習的web前端學習干貨,各種框架都有整理,送給每一位前端小伙伴,想要獲取的可以關注我的頭條號并在后臺私信我:前端,即可免費獲取。
visibility
第二個要說的屬性是 visibility。將它的值設為 hidden 將隱藏我們的元素。如同 opacity 屬性,被隱藏的元素依然會對我們的網頁布局起作用。與 opacity 唯一不同的是它不會響應任何用戶交互。此外,元素在讀屏軟件中也會被隱藏。
這個屬性也能夠實現動畫效果,只要它的初始和結束狀態不一樣。這確保了 visibility 狀態切換之間的過渡動畫可以是時間平滑的(事實上可以用這一點來用 hidden 實現元素的延遲顯示和隱藏——譯者注)。
.hide { visibility: hidden;}
下面的例子演示了 visibility 與 opacity 有怎樣的不同:
看 @SitePoint 提供的例子“用 visibility 隱藏元素”
注意,如果一個元素的 visibility 被設置為 hidden,同時想要顯示它的某個子孫元素,只要將那個元素的 visibility 顯式設置為 visible 即可(就如例子里面的 .o-hide p——譯者注)。嘗試只 hover 在隱藏元素上,不要 hover 在 p 標簽里的數字上,你會發現你的鼠標光標沒有變成手指頭的樣子。此時,你點擊鼠標,你的 click 事件也不會被觸發。
而在 <div> 標簽里面的 <p> 標簽則依然可以捕獲所有的鼠標事件。一旦你的鼠標移動到文字上,<div> 本身變得可見并且事件注冊也隨之生效。
display
display 屬性依照詞義真正隱藏元素。將 display 屬性設為 none 確保元素不可見并且連盒模型也不生成。使用這個屬性,被隱藏的元素不占據任何空間。不僅如此,一旦 display 設為 none 任何對該元素直接打用戶交互操作都不可能生效。此外,讀屏軟件也不會讀到元素的內容。這種方式產生的效果就像元素完全不存在。
任何這個元素的子孫元素也會被同時隱藏。為這個屬性添加過渡動畫是無效的,它的任何不同狀態值之間的切換總是會立即生效。
不過請注意,通過 DOM 依然可以訪問到這個元素。因此你可以通過 DOM 來操作它,就像操作其他的元素。
.hide { display: none;}
看下面的例子:
@SitePoint 提供的例子“用 display 隱藏元素”
你將看到第二個塊元素內有一個 <p> 元素,它自己的 display 屬性被設置成 block,但是它依然不可見。這是 visibility:hidden 和 display:none 的另一個不同之處。在前一個例子里,將任何子孫元素 visibility 顯式設置成 visible 可以讓它變得可見,但是 display 不吃這一套,不管自身的 display值是什么,只要祖先元素的 display 是 none,它們就都不可見。
現在,將鼠標移到第一個塊元素上面幾次,然后點擊它。這個操作將讓第二個塊元素顯現出來,它其中的數字將是一個大于 0 的數。這是因為,元素即使被這樣設置成對用戶隱藏,還是可以通過 JavaScript 來進行操作。
position
假設有一個元素你想要與它交互,但是你又不想讓它影響你的網頁布局,沒有合適的屬性可以處理這種情況(opacity 和 visibility 影響布局, display 不影響布局但又無法直接交互——譯者注)。在這種情況下,你只能考慮將元素移出可視區域。這個辦法既不會影響布局,有能讓元素保持可以操作。下面是采用這 種辦法的 CSS:
.hide { position: absolute; top: -9999px; left: -9999px;}
下面的例子闡明了怎樣通過絕對定位的方式隱藏元素,并讓它和前面的那個例子效果一樣:
看 @SitePoint 提供的例子“用 position 屬性隱藏元素”
這種方法的主要原理是通過將元素的 top 和 left 設置成足夠大的負數,使它在屏幕上不可見。采用這個技術的一個好處(或者潛在的缺點)是用它隱藏的元素的內容可以被讀屏軟件讀取。這完全可以理解,是因為你只是將元素移到可視區域外面讓用戶無法看到它。
你得避免使用這個方法去隱藏任何可以獲得焦點的元素,因為如果那么做,當用戶讓那個元素獲得焦點時,會導致一個不可預料的焦點切換。這個方法在創建 自定義復選框和單選按鈕時經常被使用。(用 DOM 模擬復選框和單選按鈕,但用這個方法隱藏真正的 checkbox 和 radio 元素來“接收”焦點切換——譯者注)
clip-path
隱藏元素的另一種方法是通過剪裁它們來實現。在以前,這可以通過 clip 屬性來實現,但是這個屬性被廢棄了,換成一個更好的屬性叫做 clip-path。Nitish Kumar 最近在 SitePoint 發表了“介紹 clicp-path 屬性”這篇文章,通過閱讀它可以了解這個屬性的更多高級用法。
記住,clip-path 屬性還沒有在 IE 或者 Edge 下被完全支持。如果要在你的 clip-path 中使用外部的 SVG 文件,瀏覽器支持度還要更低。使用 clip-path 屬性來隱藏元素的代碼看起來如下:
.hide { clip-path: polygon(0px 0px,0px 0px,0px 0px,0px 0px);}
下面是一個實際使用它的例子:
看 @SitePoint 提供的例子“用 clip-path 屬性隱藏元素”
如果你把鼠標懸停在第一個元素上,它依然可以影響第二個元素,盡管第二個元素已經通過 clip-path 隱藏了。如果你點擊它,它會移除用來隱藏的 class,讓我們的元素從那個位置顯現出來。被隱藏元素中的文字仍然能夠通過讀屏軟件讀取,許多 WordPress 站點使用 clip-path 或者之前的 clip來實現專門為讀屏軟件提供的文字。
雖然我們的元素自身不再顯示,它也依然占據本該占據的矩形大小,它周圍的元素的行為就如同它可見時一樣。記住用戶交互例如鼠標懸停或者點擊在剪裁區 域之外也不可能生效。在我們的例子里,剪裁區大小為零,這意味著用戶將不能與隱藏的元素直接交互。此外,這個屬性能夠使用各種過渡動畫來實現不同的效果。
結論
在這篇教程里,我們看了 5 種不同的通過 CSS 隱藏元素的方法。每一種方法都與其他幾種有一點區別。知道你想要實現什么有助于你決定采用哪一個屬性,隨著時間推移,你就能根據實際需求本能地選擇最佳方式了。
在CSS中很多隱藏元素的方法,但這些方法的可訪問性、布局、動畫、性能和事件處理的方式有所不同。
通過css實現隱藏元素方法有如下:
1.display: none: 渲染樹不會渲染對象
2.visibility: hidden: 元素在頁面中仍占據空間,但是不會響應綁定的監聽事件。
3.opacity: 0: 元素在頁面中仍然占據空間,并且能夠響應元素綁定的監聽事件。
4.position: absolute: 通過使用絕對定位將元素移除可視區域內,以此來實現元素的隱藏。
5.z-index: 負值:來使其他元素遮蓋住該元素,以此來實現隱藏。
6.clip/clip-path: 元素仍在頁面中占據位置,但是不會響應綁定的監聽事件。
7.transform: scale(0,0): 將元素縮放為 0,元素仍在頁面中占據位置,但是不會響應綁定的監聽事件。
8、color alpha 透明度
9、可以通過使用width、height、padding、border-width 或 font-size 來縮小元素的尺寸
10、覆蓋另一個元素
11、transform 屬性可以用于元素的平移、縮放、旋轉或傾斜等。
1. visibility: hidden; 這個屬性只是簡單的隱藏某個元素, 但是元素占用的空間任然存在
2. opacity: 0; 一個CSS3屬性, 設置 0 可以使一個元素完全透明, 制作出和 visibility 一樣的效果 。 與 visibility 相比, 它可以被 transition 和 animate 。
3. position: absolute; 使元素脫離文檔流, 處于普通文檔之上, 給它設置一個很大的 left 負值定位, 使元素定位在可見區域之外 。
4. display: none; 元素會變得不可見, 并且不會再占用文檔的空間 。
5. transform: scale(0); 將一個元素設置為無限小, 這個元素將不可見 。 這個元素原來所在的位置將被保留 。
6. HTML5 hidden attribute; hidden 屬性的效果和 display:none; 相同, 這個屬性用于記錄一個元素的狀態 。
7. height: 0; overflow: hidden; 將元素在垂直方向上收縮為0, 使元素消失 。 只要元素沒有可見的邊框, 該技術就可以正常工作 。
8. filter: blur(0); 將一個元素的模糊度設置為0, 從而使這個元素“消失”在頁面中 。
設置元素的display為none是最常用的隱藏元素的方法
.hide {
display:none;
}
將元素設置為display:none后,元素在頁面上將徹底消失
元素本身占有的空間就會被其他元素占有,也就是說它會導致瀏覽器的重排和重繪
消失后,自身綁定的事件不會觸發,也不會有過渡效果
特點:元素不可見,不占據空間,無法響應點擊事件
可以將元素的color、background-color 和 border-color 等屬性設置為rgba(0,0,0,0),這樣就會使元素完全透明:
div {
color: rgba(0,0,0,0);
background-color: rgba(0,0,0,0);
}
這三個屬性都是支持設置動畫效果的,需要注意,透明度不能應用于帶有背景圖片的元素,除非它們是使用 linear-gradient 或類似方法生成的。
Alpha 通道可以設置為:
transform 屬性可以用于元素的平移、縮放、旋轉或傾斜等。可以使用 scale(0) 或者 translate(-9999px, 0px) 屬性值來將元素隱藏:
div {
transform: scale(0);
}
div {
translate(-9999px, 0px)
}
transform 屬性提供了出色的性能和硬件加速,因為元素被有效地移動到了單獨的層中,并且可以在 2D 或 3D 中進行動畫處理。原始的布局空間會保持原樣,并不會受影響。使用這種方式隱藏的元素不會觸發任何事件。
可以通過將元素的 z-index 屬性設置為負值,以實現元素的隱藏。這實際上就是將元素放在了我們看不到的層。
div {
z-index: -1;
}
position屬性允許使用top、bottom、left、right 從頁面中的默認位置移動元素。因此,絕對定位的元素可以通過左鍵:-9999px 等值移出屏幕:
div {
position: absolute;
left: -999px;
}
通過在元素的上面放置與背景顏色相同的元素,可以在視覺上隱藏一個元素。下面來使用::after偽元素來實現:
div::after {
position: absolute;
content: '';
top: 0;
bottom: 100%;
left: 0;
right: 0;
background-color: #fff;
}
雖然這從技術上講是可以實現的,但是這樣做需要更多的代碼。
可以通過使用width、height、padding、border-width 或 font-size 來縮小元素的尺寸以實現元素的隱藏。可能還需要應用 overflow: hidden; 來確保內容不會溢出。
div {
height: 0;
padding: 0;
overflow: hidden;
}
使用這種形式我們可以在隱藏過程中使用動畫效果,并且他的性能會比 transform 好很多。
設置元素的visibility為hidden也是一種常用的隱藏元素的方法
從頁面上僅僅是隱藏該元素,DOM結果均會存在,只是當時在一個不可見的狀態,不會觸發重排,但是會觸發重繪
.hidden{
visibility:hidden
}
給人的效果是隱藏了,所以他自身的事件不會觸發
特點:元素不可見,占據頁面空間,無法響應點擊事件
opacity屬性表示元素的透明度,將元素的透明度設置為0后,在我們用戶眼中,元素也是隱藏的
opacity: N 和 filter: opacity(N) 屬性可以傳遞一個 0 到 1 之間的數字,或者 0% 和 100% 之間的百分比,對應地表示完全透明和完全不透明。
不會引發重排,一般情況下也會引發重繪
如果利用 animation 動畫,對 opacity 做變化(animation會默認觸發GPU加速),則只會觸發 GPU 層面的 composite,不會觸發重繪
.transparent {
opacity:0;
}
由于其仍然是存在于頁面上的,所以他自身的的事件仍然是可以觸發的,但被他遮擋的元素是不能觸發其事件的
需要注意的是:其子元素不能設置opacity來達到顯示的效果
特點:改變元素透明度,元素不可見,占據頁面空間,可以響應點擊事件
在現代瀏覽器中,這兩者之間幾乎沒有實際的區別,但如果同時應用多種效果(模糊、對比度、灰度等)時,應該使用 filter 屬性。
注意:opacity 可以設置動畫并提供出色的性能,但頁面上保留完全透明的元素可能會觸發事件。
將元素的margin,border,padding,height和width等影響元素盒模型的屬性設置成0,如果元素內有子元素或內容,還應該設置其overflow:hidden來隱藏其子元素
.hiddenBox {
margin:0;
border:0;
padding:0;
height:0;
width:0;
overflow:hidden;
}
特點:元素不可見,不占據頁面空間,無法響應點擊事件
將元素移出可視區域
.hide {
position: absolute;
top: -9999px;
left: -9999px;
}
特點:元素不可見,不影響頁面布局
通過裁剪的形式
.hide {
clip-path: polygon(0px 0px,0px 0px,0px 0px,0px 0px);
}
特點:元素不可見,占據頁面空間,無法響應點擊事件
最常用的還是display:none和visibility:hidden,其他的方式只能認為是奇招,它們的真正用途并不是用于隱藏元素,所以并不推薦使用它們
關于display: none、visibility: hidden、opacity: 0的區別,如下表所示:
display: none | visibility: hidden | opacity: 0 | |
頁面中 | 不存在 | 存在 | 存在 |
重排 | 會 | 不會 | 不會 |
重繪 | 會 | 會 | 不一定 |
自身綁定事件 | 不觸發 | 不觸發 | 可觸發 |
transition | 不支持 | 支持 | 支持 |
子元素可復原 | 不能 | 能 | 不能 |
被遮擋的元素可觸發事件 | 能 | 能 | 不能 |
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title> CSS 幾種隱藏元素的方法(瑣碎知識點整理) </title>
</head>
<style>
.w_vis-hid-outer {
background-color: steelblue;
display: flex;
justify-content: flex-start;
align-items: center;
margin-bottom: 42px;
}
.w_vis-hid-outer p {
line-height: 62px;
padding: 0 24px;
}
.w_l-con {
background-color: tomato;
}
.w_r-con {
background-color: yellowgreen;
}
/* visibility: hidden 設置隱藏 */
.w_now-vis {
background-color: brown;
margin: 0 12px;
/* visibility: hidden; */
}
.w_opac-hid-outer {
background-color: slategray;
display: flex;
justify-content: flex-start;
align-items: center;
padding: 0 12px;
margin-bottom: 42px;
}
.w_opac-hid-outer p {
line-height: 62px;
padding: 0 24px;
}
.w_l-opa-con {
background-color: snow;
}
.w_r-opa-con {
background-color: tan;
}
/* opacity: 0 設置隱藏 */
.w_now-opac {
background-color: skyblue;
margin: 0 12px;
/* opacity: 0; */
}
.w_posi-hid-outer {
background-color: slategray;
display: flex;
justify-content: flex-start;
align-items: center;
padding: 0 12px;
margin-bottom: 42px;
}
.w_posi-hid-outer p {
line-height: 62px;
padding: 0 24px;
}
.w_l-pos-con {
background-color: snow;
margin-right: 12px;
}
.w_r-pos-con {
background-color: tan;
margin-left: 12px;
}
/* opacity: 0 設置隱藏 */
.w_now-posi {
background-color: skyblue;
/* position: absolute; */
/* left: -6666px; */
}
.w_disp-hid-outer {
background-color: red;
display: flex;
justify-content: flex-start;
align-items: center;
padding: 0 12px;
margin-bottom: 42px;
}
.w_disp-hid-outer p {
line-height: 62px;
padding: 0 24px;
}
.w_l-dis-con {
background-color: #ccc;
margin-right: 12px;
}
.w_r-dis-con {
background-color: #212121;
margin-left: 12px;
color: #FFF;
}
/* display: none 設置隱藏 */
.w_now-disp {
background-color: blueviolet;
/* display: none; */
}
.w_trans-hid-outer {
background-color: darkorange;
display: flex;
justify-content: flex-start;
align-items: center;
padding: 0 12px;
margin-bottom: 42px;
}
.w_trans-hid-outer p {
line-height: 62px;
padding: 0 24px;
}
.w_l-tran-con {
background-color: #ccc;
margin-right: 12px;
}
.w_r-tran-con {
background-color: #212121;
margin-left: 12px;
color: #FFF;
}
/* transform: scale(0) 設置隱藏 */
.w_now-trans {
background-color: blueviolet;
/* transform: scale(0); */
}
.w_hidd-hid-outer {
background-color: darksalmon;
display: flex;
justify-content: flex-start;
align-items: center;
padding: 0 12px;
margin-bottom: 42px;
}
.w_hidd-hid-outer p {
line-height: 62px;
padding: 0 24px;
}
.w_l-hid-con {
background-color: steelblue;
margin-right: 12px;
}
.w_r-hid-con {
background-color: #212121;
margin-left: 12px;
color: #FFF;
}
/* hidden attribute 設置隱藏 (在 html 元素標簽上設置) */
.w_now-hidd {
background-color: red;
}
</style>
<body>
<div class="w_hide-shel">
<!-- visibility: hidden 方法 -->
<div class="w_vis-hid-outer">
<p class="w_l-con">左側元素 -- 方法 1: visibility: hidden</p>
<p class="w_now-vis">中間 隱藏 元素</p>
<p class="w_r-con">右側元素 -- 方法 1: visibility: hidden</p>
</div>
<!-- opacity: 0 方法-->
<div class="w_opac-hid-outer">
<p class="w_l-opa-con">左側元素 -- 方法 2: opacity: 0</p>
<p class="w_now-opac">中間 隱藏 元素</p>
<p class="w_r-opa-con">右側元素 -- 方法 2: opacity: 0</p>
</div>
<!-- position: absolute 方法 -->
<div class="w_posi-hid-outer">
<p class="w_l-pos-con">左側元素 -- 方法 3: position: absolute</p>
<p class="w_now-posi">中間 隱藏 元素</p>
<p class="w_r-pos-con">右側元素 -- 方法 3: position: absolute</p>
</div>
<!-- display: none -->
<div class="w_disp-hid-outer">
<p class="w_l-dis-con">左側元素 -- 方法 4: display: none</p>
<p class="w_now-disp">中間 隱藏 元素</p>
<p class="w_r-dis-con">右側元素 -- 方法 4: display: none</p>
</div>
<!-- transform: scale(0) -->
<div class="w_trans-hid-outer">
<p class="w_l-tran-con">左側元素 -- 方法 5: display: none</p>
<p class="w_now-trans">中間 隱藏 元素</p>
<p class="w_r-tran-con">右側元素 -- 方法 5: display: none</p>
</div>
<!-- hidden attribute -->
<div class="w_hidd-hid-outer">
<p class="w_l-hid-con">左側元素 -- 方法 6: hidden attribute</p>
<p class="w_now-hidd">中間 隱藏 元素</p>
<!-- <p class="w_now-hidd" hidden="true">中間 隱藏 元素</p> -->
<p class="w_r-hid-con">右側元素 -- 方法 6: hidden attribute</p>
</div>
</div>
</body>
</html>
給大家分享我收集整理的各種學習資料,前端小白交學習流程,入門教程等回答-下面是學習資料參考。
前端學習交流、自學、學習資料等推薦 - 知乎
這篇文章我翻譯自:https://github.com/JonasCz/How-To-Prevent-Scraping,因為最近在看一些反爬的資料,無意間在 Github 發現這篇文章,我覺得寫的很全面,所以想要翻譯一下,順便進行吸收。另外讓我覺得非常贊的是這個文章從服務端和前端的角度都做了分析,我們應該從哪些點去做優化,而且每個點都舉了例子,有些還給出了注意點。雖然文中有些提到的一些點很基礎,也有很多我們目前在業務中也在使用,但是我還是從中吸收到了一些新東西,里面文中外部鏈接有很多,但是公眾號這里不允許外鏈,所以大家可以點擊文末最后的"閱讀原文"到 Github 去查看,Github Markdown 的排版可能也比這里更好 : )。
(最后,有些倉促,可能有些注意不到的措別字,還請多多包涵)
提示:這篇文章是我 Stack Overflow 這個問題回答的擴展,我把它整理在 Github 因為它實在是太長了,超過了 Stack Overflow 的字數限制(最多 3 萬個字,這文章已經超過 4 萬字)
歡迎大家修改、完善還有分享,本文使用 CC-BY-SA 3.0 許可。
不幸的是這挺難的,你需要在防抓和降低真實用戶以及搜索引擎的可訪問性之間做一下權衡。
為了防爬(也稱為網頁抓取、屏幕抓取、網站數據挖掘、網站收割或者網站數據獲取),了解他們的工作原理很重要,這能防止他們能高效爬取,這個就是這篇文章的主要內容。
通常情況下,抓取程序的目的是為了獲取你網站特定的信息,比如文章內容、搜索結果、產品詳情還有網站上藝術家或者相冊信息。他們爬取這些內容用于維護他們自己的網站(甚至通過你的內容賺錢!),或者制作和你網站不一樣的前端界面(比如去做移動 APP),還有一些可能作為個人研究或分析使用。
實際上,有特別多的爬蟲類型,而且他們的爬取方式都不太相同:
以上不同的爬蟲類型有很多相同點,很多爬蟲的行為也很相似,即使他們使用了不同的技術或者方案去爬取你的內容。
這些大多數都是我自己的想法,我在寫爬蟲時也遇到許多困難,還有一些是來源于網絡。
一些常見的檢測和防止爬蟲的方法:
周期性的檢查你的日志,如果發現有異常活動表明是自動爬取(爬蟲),類似某一個相同的 IP 很多相同的行為,那你就可以阻止或限制訪問。
一些常用的方法:
舉個例子,如果某個 IP 請求了你網站很多次,所有的訪問都有相同的 UserAgent 、屏幕尺寸(JavaScript 檢測),還有全都使用同樣的方式和固定的時間間隔點擊同一個按鈕,那它大概是一個屏幕爬蟲;你可以臨時限制相似的請求(比如 只限制來自那個 IP 特定 User-Agent 和 屏幕尺寸的請求),這樣你不會誤傷同樣使用這個 IP 的真實用戶,比如共享網絡鏈接的用戶。
更進一步,當你發現相似的請求,但是來自不同的 IP 地址,表明是分布式爬蟲(使用僵尸網絡或網絡代理的爬蟲)。如果你收到類似大量的請求,但是他們來自不同的 IP 地址,你可以拒絕訪問。再強調一下,小心不經意限制了真實用戶。
這種方法對那種運行 JavaScript 的屏幕爬蟲比較有效,因為你可以獲得他們大量的信息。
Stack Exchange 上關于 Secruity 的相關問題:
How to uniquely identify users with the same external IP address?
Why do people use IP address bans when IP addresses often change? 關于僅使用 IP 的其他限制
如果可行,要求創建用戶才可以查看你的內容。這個可以很好的遏制爬蟲,但很容易遏制真實用戶:
為了防止爬蟲創建大量的用戶,你應該:
要求注冊用戶對用戶和搜索引擎來說不友好;如果你要求必須注冊才可以看文章,那用戶也可能直接離開。
有時爬蟲會被運行在云服務商,比如 Amazon Web Services 或 Google App Engine,或者其他 VPS。限制這些來自云服務商的 IP 地址訪問你的網站(或出驗證碼)。你可以可以直接對來自爬取服務的 IP 地址限制訪問。
類似的,你也可以限制來自代理或 VPN 的 IP 地址,因為很多爬蟲會使用它們來防止被檢測到。
但是要知道限制來自代理服務器或 VPN 的 IP,也很容易影響到真實用戶。
如果你要封禁或限制訪問,你應該確保不要把導致封禁的原因告訴爬蟲,他們會根據提示修改自己的爬蟲程序。所以下面的這些錯誤最好不要出現:
想法的,展示一些不包含原因的友好信息會更好,比如下面的信息會更好:
如果真實用戶看到這個錯誤頁面,這個對真實用戶來說也十分友好。在后續訪問中,你也可以考慮展示驗證碼而不是直接封禁,如果真實用戶看到這個錯誤信息,對于合法用戶也會聯系你。
驗證碼(Captcha,“Completely Automated Test to Tell Computers and Humans Apart”)對于防爬十分有效。不幸的是,它也很容易惹惱用戶。
因此,如果你發現疑似爬蟲,而且想要阻止它的爬取行為,而不是封禁它以免它是真實用戶。你可以考慮顯示驗證碼在你再次允許訪問之前。
使用驗證碼的注意事項:
你可以在服務端將文字渲染成圖片顯示,他將防止簡單的爬蟲去獲取文字內容。
然而,這個對于屏幕閱讀器、搜索引擎、性能還有一些其他一些事情都不太好。這個在某些方面也是不違法的(源于訪問性問題,eg. the Americans with Disabilities Act),而且對于一些 OCR 爬蟲也能非常簡單的規避,所以不要采用這種方式。
你也可以用 CSS sprites 做類似的事情,但是也有相同的問題。
如果可以的話,不要讓腳本/爬蟲能獲取你所有的數據。舉個例子:你有一個新聞站,有大量的個人文章。你應該確保文章只能通過你自己網站的搜索到,如果你網站不是到處都有你的文章還有鏈接,那么確保它們只能被搜索功能訪問到。這意味著如果一個腳本想要獲取你網站的所有文章,就必須通過你站點文章中所有可能的短語去進行搜索,從而獲取所有的文章列表,但是這個會非常耗時,而且低效,從而讓爬蟲放棄。
以下操作會讓你完全暴露:
確保你不會暴露你的任何 API,很多時候都是無意間暴露。舉個例子,如果你正在使用 AJAX 或 Adobe Flash 的網絡請求 或 Java Applet(千萬不要用!)來加載你的數據,從這些網絡請求中找到要請求的 API 十分簡單,比如可以進行反編譯然后在爬蟲程序中使用這些接口。確保你混淆了你的 API 并且其他人要用它會非常難破解。
由于 HTML 解析器是通過分析頁面特定結構去獲取內容,我們可以故意修改這些結構來阻止這類爬蟲,甚至從根本上他們獲取內容。下面大多數做法對其他類型爬蟲如搜索引擎蜘蛛、屏幕爬蟲也有效。
處理 HTML 的爬蟲通過分析特定可識別的部分來處理 HTML。舉個例子:如果你所有的頁面都有 id 為 article-content 的 div 結構,然后里面有你的文章內容,那要獲取你站點所有文章內容是十分簡單的,只要解析那個 article-content 那個 div 就可以了,然后有這個結構的爬蟲就可以把你的文章隨便用在什么地方。
如果你常常修改 HTML 還有你頁面的結構, 那這類爬蟲就不能一直使用。
本質上來說,就是確保爬蟲從相似頁面獲取想要的內容變得不那么容易。
可以參考這個 PHP 的實現:How to prevent crawlers depending on XPath from getting page contents
這個和前一個類似。如果你根據不同用戶的位置/國家(根據 IP 獲取)來提供不同的 HTML,這個可能會破壞將站點 HTML 給用戶的爬蟲。比如,如果有人寫了一個移動 APP 來抓取你的站點,一開始可以用,但是對于不同地區的用戶就不起作用了,因為他們會獲取到不同的 HTML 結構,嵌入式的 HTML 將不不能正常使用。
舉個例子:你有一個包含搜索功能的網站, example.com/search?query=somesearchquery 的搜索結果是下面的 HTML 結構:
<div class="search-result">
<h3 class="search-result-title">Stack Overflow has become the world's most popular programming Q & A website</h3>
<p class="search-result-excerpt">The website Stack Overflow has now become the most popular programming Q & A website, with 10 million questions and many users, which...</p>
<a class"search-result-link" href="/stories/stack-overflow-has-become-the-most-popular">Read more</a>
</div>
(And so on, lots more identically structured divs with search results)
你可以猜到這個非常容易爬取:一個爬蟲需要做的就只是訪問搜索鏈接,然后從返回的 HTML 分析想要的數據。除了定期修改上面 HTML 的內容,你也可以 保留舊結構的 id 和 class,然后使用 CSS 進行隱藏,并使用假數據進行填充,從而給爬蟲投毒 。比如像下面這樣:
<div class="the-real-search-result">
<h3 class="the-real-search-result-title">Stack Overflow has become the world's most popular programming Q & A website</h3>
<p class="the-real-search-result-excerpt">The website Stack Overflow has now become the most popular programming Q & A website, with 10 million questions and many users, which...</p>
<a class"the-real-search-result-link" href="/stories/stack-overflow-has-become-the-most-popular">Read more</a>
</div>
<div class="search-result" style="display:none">
<h3 class="search-result-title">Visit example.com now, for all the latest Stack Overflow related news !</h3>
<p class="search-result-excerpt">EXAMPLE.COM IS SO AWESOME, VISIT NOW! (Real users of your site will never see this, only the scrapers will.)</p>
<a class"search-result-link" href="http://example.com/">Visit Now !</a>
</div>
(More real search results follow)
這意味著基于 id 或 class 獲取特定數據的爬蟲仍然能繼續工作,但是他們將會獲取假數據甚至廣告,而這些數據真實用戶是看不到的,因為他們被 CSS 隱藏了。
對上個例子進行補充,你可以在你的 HTML 里面增加不可見的蜜罐數據來抓住爬蟲。下面的例子來補充之前說的搜索結果:
<div class="search-result" style="display:none">
<h3 class="search-result-title">This search result is here to prevent scraping</h3>
<p class="search-result-excerpt">If you're a human and see this, please ignore it. If you're a scraper, please click the link below :-)
Note that clicking the link below will block access to this site for 24 hours.</p>
<a class"search-result-link" href="/scrapertrap/scrapertrap.php">I'm a scraper !</a>
</div>
(The actual, real, search results follow.)
一個來獲取所有內容的爬蟲將會被找到,就像獲取其他結果一樣,訪問鏈接,查找想要的內容。一個真人將不會看到(因為使用 CSS 隱藏),而且更不會訪問這個鏈接。而正規或者期望的蜘蛛比如谷歌的蜘蛛將不會訪問這個鏈接,因為你可以將 /scrapertrap/ 加入你的 robots.txt 中(不要忘記增加)
你可以讓你的 scrapertrap.php 做一些比如限制這個 IP 訪問的事情,或者強制這個 IP 之后的請求出驗證碼。
如果你確定某個訪問是爬蟲,你可以提供假的或者無用的數據;這將破壞爬蟲從你網站獲取的數據。你還應該把它和真實數據進行混淆,這樣爬蟲就不知道他們獲取的到底是真的還是假的數據。
舉個例子:如果你有一個新聞站,你檢測到了一個爬蟲,不要去直接封禁它,而是提供假的或者隨機生成的文章,那爬蟲獲取的數據將會被破壞。如果你將假數據和真實的數據進行混淆,那爬蟲很難獲取到他們想要的真實文章。
很多懶惰的程序員不會在他們的爬蟲發請求時帶上 UserAgent,而所有的瀏覽器包括搜索引擎蜘蛛都會攜帶。
如果請求你時沒有攜帶 UserAgent header 頭,你可以展示驗證碼,或者直接封禁或者限制訪問(或者像上面說的提供假數據或者其他的)
這個非常簡單去避免,但是作為一種針對書寫不當的爬蟲,是值得去做的。
很多情況下,爬蟲將會使用真實瀏覽器或搜索引擎爬蟲絕對不會使用的 UserAgent,比如:
如果你發現一些爬蟲使用真實瀏覽器或合法蜘蛛絕對不會使用的 UserAgent,你可以將其添加到你的黑名單中。
對上一章節的補充,你也可以檢查 [Referer] (https://en.wikipedia.org/wiki/HTTP_referer header) (是的,它是 Referer,而不是 Referrer),一些懶惰的爬蟲可能不會攜帶的這個,或者只是每次都攜帶一樣的(有時候是 “google.com”)。舉個例子,如果用戶是從站內搜索結果頁點擊進入文章詳情的,那要檢查 Referer 這個 header 頭是否存在還要看搜索結果頁的打點。
注意:
還是,作為一種防止簡單爬蟲的方法,也值得去實現。
一個真實瀏覽器(通常)會請求和下載資源比如 CSS 和 圖片。HTML 解析器和爬取器可能只關心特定的頁面和內容。
你可以基于訪問你資源的日志,如果你看到很多請求只請求 HTML,那它可能就是爬蟲。
注意搜索引擎蜘蛛、舊的移動設備、屏幕閱讀器和設置錯誤的設備可能也不會請求資源。
訪問你網站時,你可以要求 cookie 必須開啟。這個能識別沒有經驗和爬蟲新手,然而爬蟲要攜帶 Cookie 也十分簡單。如果你要求開啟 Cookie,你能使用它們來追蹤用戶和爬蟲的行為,然后基于此來實現頻率限制、封禁、或者顯示驗證碼而不僅僅依賴 IP 地址。
舉個例子:當用戶進行搜索時,設置一個唯一的 Cookie。當搜索結果加載出來之后,驗證這個 Cookie。如果一個用戶打開了所有的搜索結果(可以從 Cookie 中得知),那很可能就是爬蟲
使用 Cookie 可能是低效的,因為爬蟲也可以攜帶 Cookie 發送請求,也可以根據需要丟棄。如果你的網站只能在開啟 Cookie 時使用,你也不能給關閉 Cookie 的用戶提供服務。
要注意如果你使用 JavaScript 去設置和檢測 Cookie,你能封禁那些沒有運行 JavaScript 的爬蟲,因為它們沒辦法獲取和發送 Cookie。
你可以在頁面加載完成之后,使用 JavaScript + AJAX 來加載你的內容。這個對于那些沒有運行 JavaScript 的 HTML 分析器來說將無法取得數據。這個對于沒有經驗或者新手程序員寫的爬蟲非常有效。
注意:
如果你用 Ajax 和 JavaScript 加載你的數據,在傳輸的時候要混淆一下。比如,你可以在服務器端 encode 你的數據(比如簡單的使用 base64 或 負載一些的多次混淆、位偏移或者是進行加密),然后在客戶端在 Ajax 獲取數據之后再進行 decode。這意味著如果有人要抓包獲取你的請求就不能直接看到你頁面如何加載數據,而且那些人也不能直接通過 API 獲得你的數據,如果想要獲取數據,就必須要去解密你的算法。
下面是一些這個方式的缺點:
比如,CloudFlare 提供反蜘蛛和反爬蟲的防御,你只需要直接啟用它就可以了,另外 AWS 也提供類似服務。而且 Apache 的 mod_evasive 模塊也能讓你很輕松地實現頻率限制。
你應該直接告訴人們不要抓取你的網站,比如,在你的服務條款中表明。有些人確實會尊重它,而且不在你允許的情況下不會再去抓取數據。
律師們知道如何處理侵犯版權的事情,而且他們可以發送律師函。DMCA(譯者注:Digital Millennium Copyright Act,數字千年版權法案,是一個美國版權法律) 也能提供援助。
這看起來適得其反,但是你可以要求標明來源并包含返回你站點的鏈接。甚至也可以售賣你的 API 而賺取費用。
還有就是,Stack Exchange 提供了 API,但是必須要標明來源。
以我自己寫和幫忙別人寫爬蟲的經驗,我認為最有效的方法是:
擴展閱讀:
作者:h1z3y3
來源:微信公眾號: 360搜索技術團隊
出處:https://mp.weixin.qq.com/s?__biz=MzA5ODIxODE2Ng==&mid=2651137205&idx=1&sn=664a46d66f132c96780750d4e9b206eb
*請認真填寫需求信息,我們會在24小時內與您取得聯系。