本標記語言,即HTML(Hypertext Markup Language),是用于描述網頁文檔的一種標記語言。以下是小編為大家整理的HTML基本的標簽。
注:HTML 標簽對大小寫不敏感,但推薦使用小寫!
基本
<html>…</html> 定義 HTML 文檔
<head>…</head> 文檔的信息
<meta> HTML 文檔的元信息
<title>…</title> 文檔的標題
<link> 文檔與外部資源的關系
<style>…</style> 文檔的樣式信息
<body>…</body> 可見的頁面內容
<!--…--> 注釋
文本
<h1>...</h1> 標題字大小(h1~h6)
<b>...</b> 粗體字
<strong>...</strong> 粗體字(強調)
<i>...</i> 斜體字
<em>...</em> 斜體字(強調)
<u>...</u> 下劃線
<del>...</del> 刪除線(表示刪除)
<center>…</center> 居中文本
<ul>…</ul> 無序列表
<ol>…</ol> 有序列表
<li>…</li> 列表項目
<a href=”…”>…</a> 超鏈接
<font> 定義文本字體尺寸、顏色、大小
<sub> 下標
<sup> 上標
<br> 換行
<p> 段落
圖形
<img src=’”…”> 定義圖像
<hr> 水平線
表格
<table>…</table> 定義表格
<th>…</th> 定義表格中的表頭單元格
<tr>…</tr> 定義表格中的行
<td>…</td> 定義表格中的單元
其它
<form>…</form> 定義供用戶輸入的 HTML 表單
<frame> 定義框架集的窗口或框架
另加16進制顏色,但僅僅有16種顏色名可用英文字母,其余的要用16進制值。 記住哦!
aqua, black, blue, fuchsia, gray, green, lime, maroon, navy, olive, purple, red, silver, teal, white, yellow
蟲現在的火熱程度我就不說了,先說一下這門技術能干什么事兒,主要為以下三方面:
1.爬取數據,進行市場調研和商業分析
爬取知乎、豆瓣等網站的優質話題內容;抓取房產網站買賣信息,分析房價變化趨勢、做不同區域的房價分析;爬取招聘網站職位信息,分析各行業人才需求情況及薪資水平。
2.作為機器學習、數據挖掘的原始數據
比如你要做一個推薦系統,那么你可以去爬取更多維度的數據,做出更好的模型。
3.爬取優質的資源:圖片、文本、視頻
爬取游戲內的精美圖片,獲得圖片資源以及評論文本數據。
掌握正確的方法,在短時間內做到能夠爬取主流網站的數據,其實非常容易實現。
但建議你從一開始就要有一個具體的目標,在目標的驅動下,你的學習才會更加精準和高效。這里給你一條平滑的、零基礎快速入門的學習路徑:
1.了解爬蟲是怎么實現的
2.實現簡單的信息爬取
3.應對特殊網站的反爬蟲措施
4.Scrapy 與 進階分布式
01 了解爬蟲是怎么實現的
大部分爬蟲都是按“發送請求——獲得頁面——解析頁面——抽取并儲存內容”這樣的流程來進行,這其實也是模擬了我們使用瀏覽器獲取網頁信息的過程。
簡單來說,我們向服務器發送請求后,會得到返回的頁面,通過解析頁面之后,我們可以抽取我們想要的那部分信息,并存儲在指定的文檔或數據庫中。
在這部分你可以簡單了解 HTTP 協議及網頁基礎知識,比如 POST\GET、HTML、CSS、JS,簡單了解即可,不需要系統學習。
02 實現簡單的信息爬取
Python中爬蟲相關的包很多:urllib、requests、bs4、scrapy、pyspider 等,建議你從requests+Xpath 開始,requests 負責連接網站,返回網頁,Xpath 用于解析網頁,便于抽取數據。
如果你用過 BeautifulSoup,會發現 Xpath 要省事不少,一層一層檢查元素代碼的工作,全都省略了。掌握之后,你會發現爬蟲的基本套路都差不多,一般的靜態網站根本不在話下,像知乎、豆瓣等網站的公開信息都可以爬取下來。
當然如果你需要爬取異步加載的網站,可以學習瀏覽器抓包分析真實請求或者學習Selenium來實現自動化爬取,這樣,知乎、時光網、貓途鷹這些動態的網站也基本沒問題了。
你還需要了解 Python 的基礎知識,比如:文件讀寫操作:用來讀取參數、保存爬取內容list(列表)、dict(字典):用來序列化爬取的數據條件判斷(if/else):解決爬蟲中的判斷是否執行循環和迭代(for ……while):用來循環爬蟲步驟
03 應對特殊網站的反爬機制
爬蟲過程中也會經歷一些絕望啊,比如被網站封IP、比如各種奇怪的驗證碼、userAgent訪問限制、各種動態加載等等。
遇到這些反爬蟲的手段,當然還需要一些高級的技巧來應對,常規的比如訪問頻率控制、使用代理IP池、抓包、驗證碼的OCR處理等等。
比如我們經常發現有的網站翻頁后url并不變化,這通常就是異步加載。我們用開發者工具去分析網頁加載信息,通常能夠得到意外的收獲。
往往網站在高效開發和反爬蟲之間會偏向前者,這也為爬蟲提供了空間,掌握這些應對反爬蟲的技巧,絕大部分的網站已經難不到你了。
04 Scrapy 與進階分布式
使用 requests+xpath 和抓包大法確實可以解決很多網站信息的爬取,但是對于信息量比較大或者需要分模塊爬取的話,就會顯得寸步難行。
后來應用到了強大的 Scrapy 框架,它不僅能便捷地構建 Request,還有強大的 Selector 能夠方便地解析 Response,然而最讓人驚喜的還是它超高的性能,可以將爬蟲工程化、模塊化。
學會 Scrapy,自己去嘗試搭建了簡單的爬蟲框架,在做大規模數據爬取的時候能夠結構化、工程化地思考大規模的爬取問題,這使我可以從爬蟲工程的維度去思考問題。
再后來開始逐漸接觸到分布式爬蟲,這個東西聽著挺唬人,但其實就是利用多線程的原理讓多個爬蟲同時工作,能夠實現更高的效率。
其實學習到這里,你基本可以說就是一個爬蟲老司機了,外行看很難,但其實并沒有那么復雜。
因為爬蟲這種技術,既不需要你系統地精通一門語言,也不需要多么高深的數據庫技術,高效的姿勢就是從實際的項目中去學習這些零散的知識點,你能保證每次學到的都是最需要的那部分。
當然唯一麻煩的是,在具體的問題中,如何找到具體需要的那部分學習資源、如何篩選和甄別,是很多初學者面臨的一個大問題。
不過不用擔心,我們準備了一門非常系統的爬蟲課程,除了為你提供一條清晰的學習路徑,我們甄選了最實用的學習資源以及龐大的主流爬蟲案例庫。短時間的學習,你就能夠很好地掌握爬蟲這個技能,獲取你想得到的數據。
掃描上方二維碼,立即搶購
限時特惠99元,每100人購買漲價10元
課程大綱
高效的學習路徑
一上來就講理論、語法、編程語言是非常不合理的,我們會直接從具體的案例入手,通過實際的操作,學習具體的知識點。我們為你規劃了一條系統的學習路徑,讓你不再面對零散的知識點。
比如我們會直接教你網頁解析,減少你不必要的檢查網頁元素的操作,這些看似細節,但可能是很多人都會踩的坑。
20+實戰案例邊學邊練
- 超多案例,覆蓋主流網站 -
課程中提供了目前最常見的網站爬蟲案例:豆瓣、知乎、瓜子二手車、趕集網、鏈家網、王者榮耀……每個案例在課程視頻中都有詳細分析,老師帶你完成每一步操作,專治各種 “看得懂案例,寫不出代碼” 。
項目一:趕集網實戰項目
學會使用正則表達式提取整個網頁的數據。
項目二:王者榮耀之戰項目
1、破解王者榮耀高清壁紙下載鏈接。
2、利用多線程高速下載高清壁紙。
3、按照英雄名稱存儲對應壁紙。
項目三:鏈家網分布式爬蟲
1、用Scrapy框架實現商業爬蟲。
2、用多臺機器實現分布式爬蟲。
3、實現全國各個省市二手房信息的爬取。
4、將爬取下來的數據存儲到redis中。
講師介紹
黃勇老師
黃老師擁有多年實戰開發經驗,擅長Python、C、C++、前端、iOS等技術語言,用Python開發過多個大型企業網站,從零打造分布式爬蟲架構。目前專注于Python領域的課程研發和教學工作,曾給網易、360、華為等多家大公司員工做過Python技術培訓,具有豐富的實戰和教學經驗。
【課程信息】
「 課程名稱 」
《從零起步,系統掌握Python網絡爬蟲》
「 學習周期 」
建議每周至少學習8小時,一個月內完成課程
「 上課形式 」
錄播課程,可隨時開始上課,反復觀看
「 面向人群 」
零基礎的小白,或基礎薄弱的工程師
「 答疑形式 」
學習群老師隨時答疑,即便是最初級的問題
#限量優惠#
限量99元
(原價599)
每100人購買漲價10元
140余節課程,平均每課1元錢,堅持一個月,系統掌握Python進階
如今這個時間和知識都是碎片化的時代,C站根據C1-C4認證的成長路徑,進行知識細化整理,形成系統化的知識圖譜。
通過調研一線互聯網大廠的招聘JD,小編對標C站能力認證要求,為大家整理了系列技術干貨合集,助力小伙伴們順利進大廠~
小編根據C4認證的成長路徑整理了前端的相關資源,從零基礎帶你進入前端的世界。
歡迎大家獲取文章集合,一起學習~
一、HTML語義化標簽(10篇)
【html主要語義化標簽(一)】
【html語義化標簽】
【什么是HTML語義化標簽?常見HTML語義化標簽大全】
【前端初學者對html語義化標簽的理解】
【html5語義化標簽及優點】
【什么是HTML語義化標簽?為什么要用H5語義化標簽?HTML5語義化標簽有哪些】
【前端初學者對html語義化標簽的理解】
【在html中使用語義化標簽的好處】
【HTML5語義化標簽】
【一些常見html5語義化標簽】
二、HTML媒體標簽(10篇)
【HTML-多媒體標簽】
【HTML5-媒體標簽】
【關于 HTML 媒體標簽中 audio 和video 自動播放問題】
【HTML標簽常用標簽】
【HTML——多媒體標簽的基本屬性及使用】
【HTML——音樂視頻標簽】
【粗識 HTML5 video 標簽和MSE媒體源擴展】
【HTML_多媒體效果_embed標簽詳解】
【說說如何使用 HTML5 嵌入音頻和視頻(媒體標簽)】
【在html中嵌入多媒體文件】
三、HTML表單元素(10篇)
【HTML-表單(非常詳細)】
【HTML 表單制作】
【HTML中Form表單的使用】
【HTML列表 form表單 選擇按鈕】
【html中表單和標簽選擇器】
【html表單提交的方式】
【html表單制作】
【html表單整理,實例】
【垂直布局的HTML表單】
【HTML登錄表單】
四、CCS選擇器(10篇)
【這30個CSS選擇器,你必須熟記(上)】
【CSS選擇器到底有哪些?CSS筆記(一)】
【CSS選擇器】
【css選擇器---組合選擇器】
【css選擇器是什么?css選擇器有哪些類型?】
【CSS3選擇器介紹及用法總結】
【CSS的四種基本選擇器和四種高級選擇器】
【css的父選擇器】
【css選擇器& 選擇器的優先級】
【CSS選擇器的權重計算】
五、CSS布局(10篇)
【CSS五種布局方式】
【常見 五大CSS 布局方式 總結】
【幾種常見的 CSS 布局】
【HTML CSS + DIV實現整體布局 (推薦)】
【CSS布局篇之左右布局】
【常見 五大CSS 布局方式 總結】
【CSS百分比布局】
【div+css布局與table布局比較】
【CSS常見布局整理】
【css布局float浮動布局詳解】
小科普
CSDN軟件工程師能力認證(以下簡稱C系列認證)是由中國軟件開發者網CSDN制定并推出的一個能力認證標準。C系列認證歷經近一年的實際線下調研、考察、迭代、測試,并梳理出軟件工程師開發過程中所需的各項技術技能,結合企業招聘需求和人才應聘痛點,基于公開、透明、公正的原則,甑別人才時確保真實業務場景、全部上機實操、所有過程留痕、存檔不可篡改。
版權聲明:本文為CSDN博主「高校俱樂部」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
*請認真填寫需求信息,我們會在24小時內與您取得聯系。