「C#實(shí)戰(zhàn)」一行代碼搞定！高效移除HTML標(biāo)簽還原純凈文本

HTML文本中移除所有HTML標(biāo)記并提取純文本是我們經(jīng)常需要使用的文本內(nèi)容處理方式，比如搜索引擎、網(wǎng)站爬蟲或者本地文檔檢索系統(tǒng)需要提取網(wǎng)頁(yè)或HTML文檔的實(shí)際內(nèi)容進(jìn)行索引。通過(guò)去除HTML標(biāo)簽，可以專注于實(shí)際的文字信息，提高搜索結(jié)果的相關(guān)性和準(zhǔn)確性。在新聞聚合應(yīng)用或社交媒體平臺(tái)上展示網(wǎng)頁(yè)鏈接的摘要時(shí)，通常會(huì)提取并顯示純文本內(nèi)容以提供簡(jiǎn)潔的預(yù)覽。對(duì)于視覺(jué)障礙人士使用的輔助技術(shù)如屏幕閱讀器，它們無(wú)法解析復(fù)雜的HTML結(jié)構(gòu)，因此需要提取純文本以便朗讀給用戶。所以今天給大家分享一個(gè)使用正則表達(dá)式移除所有的Html標(biāo)記的方法，供有需要的朋友們參考：

第一個(gè)核心代碼是：正則表達(dá)式"<.*?>"

// 示例用法：

string inputHtml = "<html><body><h1>Hello, World!</h1>This is a <b>test</b>.</body></html>";

string plainText = RemoveHtmlTags(inputHtml);

Console.WriteLine(plainText); // 輸出: "Hello, World!This is a test."

public static string RemoveHtmlTags(string html)

{

// 正則表達(dá)式用于匹配HTML標(biāo)簽

Regex regex = new Regex("<.*?>", RegexOptions.Singleline | RegexOptions.Compiled);

// 使用正則表達(dá)式的Replace方法移除所有匹配的HTML標(biāo)簽

string result = regex.Replace(html, String.Empty);

return result;

}

這個(gè)正則表達(dá)式<.*?>是非貪婪匹配任何以 < 開始、以 > 結(jié)束的字符串，它會(huì)盡可能少地匹配字符以找到每個(gè)HTML標(biāo)簽。

請(qǐng)注意，雖然此方法對(duì)于簡(jiǎn)單場(chǎng)景可能有效，但對(duì)復(fù)雜的HTML文檔（特別是含有嵌套標(biāo)簽、注釋、CDATA等內(nèi)容）可能不夠健壯，因?yàn)樗鼰o(wú)法處理所有可能的HTML結(jié)構(gòu)。

第二個(gè)核心代碼是：正則表達(dá)式"<[^>]*>"

public static string ExtractPlainTextFromHtml(string html)

{

// 使用正則表達(dá)式匹配所有的HTML標(biāo)簽

// 注意：這個(gè)簡(jiǎn)單的正則表達(dá)式適用于大多數(shù)基礎(chǔ)HTML結(jié)構(gòu)，但可能無(wú)法處理復(fù)雜嵌套或特殊格式的HTML

Regex regex = new Regex("<[^>]*>", RegexOptions.Singleline | RegexOptions.Compiled);

// 使用Replace方法去除所有匹配到的HTML標(biāo)簽，并返回純文本內(nèi)容

string plainText = regex.Replace(html, String.Empty);

return plainText.Trim(); // 為了得到更整潔的結(jié)果，可以對(duì)結(jié)果進(jìn)行trim操作以去除多余的空白字符

}

在這段代碼中，我們定義了一個(gè)名為ExtractPlainTextFromHtml的方法，該方法利用正則表達(dá)式 <[^>]*> 來(lái)查找并替換所有HTML標(biāo)簽。這里的正則表達(dá)式表示任何以 < 開始、以 > 結(jié)束的非空字符串（即HTML標(biāo)簽），Singleline 選項(xiàng)使.能匹配換行符，以便跨多行搜索標(biāo)簽，而 Compiled 選項(xiàng)則是為了優(yōu)化正則表達(dá)式的性能。

第二個(gè)核心代碼是：正則表達(dá)式"<[^>]*>"

public static string RemoveHtmlTags(string html)

{

// 正則表達(dá)式，匹配所有HTML標(biāo)簽

string pattern = "<[^>]+>";

// 使用Regex.Replace方法移除所有匹配的HTML標(biāo)簽

return Regex.Replace(html, pattern, String.Empty);

}

請(qǐng)注意，此方法僅移除HTML標(biāo)記，不會(huì)解析或處理嵌入在HTML中的JavaScript代碼或其他非標(biāo)記內(nèi)容。此外，此方法也無(wú)法處理不規(guī)范或不符合預(yù)期格式的HTML標(biāo)記。如果需要更復(fù)雜的HTML解析或清理，您可能需要使用專門的HTML解析庫(kù)，如AngleSharp或HtmlAgilityPack等。

盡管上述方法對(duì)于許多簡(jiǎn)單場(chǎng)景已經(jīng)足夠有效，但在面對(duì)復(fù)雜的HTML文檔時(shí)，由于HTML本身的嵌套和特殊結(jié)構(gòu)，簡(jiǎn)單的正則表達(dá)式可能無(wú)法完美地解析并移除所有標(biāo)簽。在這種情況下，推薦使用專門為處理HTML設(shè)計(jì)的庫(kù)，如HtmlAgilityPack，它可以準(zhǔn)確地解析HTML并提供豐富的API用于提取純文本內(nèi)容。

者 | 浪里行舟

責(zé)編 | 郭芮

程序的運(yùn)行需要內(nèi)存。只要程序提出要求，操作系統(tǒng)或者運(yùn)行時(shí)就必須供給內(nèi)存。所謂的內(nèi)存泄漏簡(jiǎn)單來(lái)說(shuō)是不再用到的內(nèi)存，沒(méi)有及時(shí)釋放。為了更好避免內(nèi)存泄漏，我們先介紹Javascript垃圾回收機(jī)制。

在C與C++等語(yǔ)言中，開發(fā)人員可以直接控制內(nèi)存的申請(qǐng)和回收。但是在Java、C#、JavaScript語(yǔ)言中，變量的內(nèi)存空間的申請(qǐng)和釋放都由程序自己處理，開發(fā)人員不需要關(guān)心。也就是說(shuō)，Javascript具有自動(dòng)垃圾回收機(jī)制(Garbage Collecation)。

垃圾回收的必要性

下面這段話引自《JavaScript權(quán)威指南（第四版）》：

由于字符串、對(duì)象和數(shù)組沒(méi)有固定大小，所有當(dāng)他們的大小已知時(shí)，才能對(duì)他們進(jìn)行動(dòng)態(tài)的存儲(chǔ)分配。JavaScript程序每次創(chuàng)建字符串、數(shù)組或?qū)ο髸r(shí)，解釋器都必須分配內(nèi)存來(lái)存儲(chǔ)那個(gè)實(shí)體。只要像這樣動(dòng)態(tài)地分配了內(nèi)存，最終都要釋放這些內(nèi)存以便他們能夠被再用，否則，JavaScript的解釋器將會(huì)消耗完系統(tǒng)中所有可用的內(nèi)存，造成系統(tǒng)崩潰。

這段話解釋了為什么需要系統(tǒng)需要垃圾回收，JavaScript不像C/C++，它有自己的一套垃圾回收機(jī)制。

JavaScript垃圾回收的機(jī)制很簡(jiǎn)單：找出不再使用的變量，然后釋放掉其占用的內(nèi)存，但是這個(gè)過(guò)程不是時(shí)時(shí)的，因?yàn)槠溟_銷比較大，所以垃圾回收器會(huì)按照固定的時(shí)間間隔周期性的執(zhí)行。

var a = "浪里行舟";
var b = "前端工匠";
var a = b; //重寫a

這段代碼運(yùn)行之后，“浪里行舟”這個(gè)字符串失去了引用（之前是被a引用），系統(tǒng)檢測(cè)到這個(gè)事實(shí)之后，就會(huì)釋放該字符串的存儲(chǔ)空間以便這些空間可以被再利用。

垃圾回收機(jī)制

垃圾回收機(jī)制怎么知道，哪些內(nèi)存不再需要呢？

垃圾回收有兩種方法：標(biāo)記清除、引用計(jì)數(shù)。引用計(jì)數(shù)不太常用，標(biāo)記清除較為常用。

1.標(biāo)記清除

這是javascript中最常用的垃圾回收方式。當(dāng)變量進(jìn)入執(zhí)行環(huán)境是，就標(biāo)記這個(gè)變量為“進(jìn)入環(huán)境”。從邏輯上講，永遠(yuǎn)不能釋放進(jìn)入環(huán)境的變量所占用的內(nèi)存，因?yàn)橹灰獔?zhí)行流進(jìn)入相應(yīng)的環(huán)境，就可能會(huì)用到他們。當(dāng)變量離開環(huán)境時(shí)，則將其標(biāo)記為“離開環(huán)境”。

垃圾收集器在運(yùn)行的時(shí)候會(huì)給存儲(chǔ)在內(nèi)存中的所有變量都加上標(biāo)記。然后，它會(huì)去掉環(huán)境中的變量以及被環(huán)境中的變量引用的標(biāo)記。而在此之后再被加上標(biāo)記的變量將被視為準(zhǔn)備刪除的變量，原因是環(huán)境中的變量已經(jīng)無(wú)法訪問(wèn)到這些變量了。最后。垃圾收集器完成內(nèi)存清除工作，銷毀那些帶標(biāo)記的值，并回收他們所占用的內(nèi)存空間。

我們用個(gè)例子，解釋下這個(gè)方法：

var m = 0,n = 19 // 把 m,n,add() 標(biāo)記為進(jìn)入環(huán)境。
add(m, n) // 把 a, b, c標(biāo)記為進(jìn)入環(huán)境。
console.log(n) // a,b,c標(biāo)記為離開環(huán)境，等待垃圾回收。
function add(a, b) {
 a++
 var c = a + b
 return c
}

2.引用計(jì)數(shù)

所謂"引用計(jì)數(shù)"是指語(yǔ)言引擎有一張"引用表"，保存了內(nèi)存里面所有的資源（通常是各種值）的引用次數(shù)。如果一個(gè)值的引用次數(shù)是0，就表示這個(gè)值不再用到了，因此可以將這塊內(nèi)存釋放。

上圖中，左下角的兩個(gè)值，沒(méi)有任何引用，所以可以釋放。

如果一個(gè)值不再需要了，引用數(shù)卻不為0，垃圾回收機(jī)制無(wú)法釋放這塊內(nèi)存，從而導(dǎo)致內(nèi)存泄漏。

var arr = [1, 2, 3, 4];
arr = [2, 4, 5]
console.log('浪里行舟');

上面代碼中，數(shù)組[1, 2, 3, 4]是一個(gè)值，會(huì)占用內(nèi)存。變量arr是僅有的對(duì)這個(gè)值的引用，因此引用次數(shù)為1。盡管后面的代碼沒(méi)有用到arr，它還是會(huì)持續(xù)占用內(nèi)存。至于如何釋放內(nèi)存，我們下文介紹。

第三行代碼中，數(shù)組[1, 2, 3, 4]引用的變量arr又取得了另外一個(gè)值，則數(shù)組[1, 2, 3, 4]的引用次數(shù)就減1，此時(shí)它引用次數(shù)變成0，則說(shuō)明沒(méi)有辦法再訪問(wèn)這個(gè)值了，因而就可以將其所占的內(nèi)存空間給收回來(lái)。

但是引用計(jì)數(shù)有個(gè)最大的問(wèn)題：循環(huán)引用

function func() {
 let obj1 = {};
 let obj2 = {};
 obj1.a = obj2; // obj1 引用 obj2
 obj2.a = obj1; // obj2 引用 obj1
}

當(dāng)函數(shù) func 執(zhí)行結(jié)束后，返回值為 undefined，所以整個(gè)函數(shù)以及內(nèi)部的變量都應(yīng)該被回收，但根據(jù)引用計(jì)數(shù)方法，obj1 和 obj2 的引用次數(shù)都不為 0，所以他們不會(huì)被回收。

要解決循環(huán)引用的問(wèn)題，最好是在不使用它們的時(shí)候手工將它們?cè)O(shè)為空。上面的例子可以這么做：

obj1 = null;
obj2 = null;

哪些情況會(huì)引起內(nèi)存泄漏？

雖然JavaScript會(huì)自動(dòng)垃圾收集，但是如果我們的代碼寫法不當(dāng)，會(huì)讓變量一直處于“進(jìn)入環(huán)境”的狀態(tài)，無(wú)法被回收。

下面列一下內(nèi)存泄漏常見的幾種情況：

1.意外的全局變量

function foo(arg) {
 bar = "this is a hidden global variable";
}

bar沒(méi)被聲明,會(huì)變成一個(gè)全局變量，在頁(yè)面關(guān)閉之前不會(huì)被釋放。

另一種意外的全局變量可能由 this 創(chuàng)建：

function foo() {
 this.variable = "potential accidental global";
}
// foo 調(diào)用自己，this 指向了全局對(duì)象（window）
foo();

在 JavaScript 文件頭部加上 'use strict'，可以避免此類錯(cuò)誤發(fā)生。啟用嚴(yán)格模式解析 JavaScript ，避免意外的全局變量。

2.被遺忘的計(jì)時(shí)器或回調(diào)函數(shù)

var someResource = getData();
setInterval(function() {
 var node = document.getElementById('Node');
 if(node) {
 // 處理 node 和 someResource
 node.innerHTML = JSON.stringify(someResource));
 }
}, 1000);

這樣的代碼很常見，如果id為Node的元素從DOM中移除，該定時(shí)器仍會(huì)存在，同時(shí)，因?yàn)榛卣{(diào)函數(shù)中包含對(duì)someResource的引用，定時(shí)器外面的someResource也不會(huì)被釋放。

3.閉包

function bindEvent(){
 var obj=document.createElement('xxx')
 obj.onclick=function(){
 // Even if it is a empty function
 }
}

閉包可以維持函數(shù)內(nèi)局部變量，使其得不到釋放。上例定義事件回調(diào)時(shí)，由于是函數(shù)內(nèi)定義函數(shù)，并且內(nèi)部函數(shù)--事件回調(diào)引用外部函數(shù)，形成了閉包。

// 將事件處理函數(shù)定義在外面
function bindEvent() {
 var obj = document.createElement('xxx')
 obj.onclick = onclickHandler
}
// 或者在定義事件處理函數(shù)的外部函數(shù)中，刪除對(duì)dom的引用
function bindEvent() {
 var obj = document.createElement('xxx')
 obj.onclick = function() {
 // Even if it is a empty function
 }
 obj = null
}

解決之道，將事件處理函數(shù)定義在外部，解除閉包，或者在定義事件處理函數(shù)的外部函數(shù)中，刪除對(duì)dom的引用。

4.沒(méi)有清理的DOM元素引用

有時(shí)，保存 DOM 節(jié)點(diǎn)內(nèi)部數(shù)據(jù)結(jié)構(gòu)很有用。假如你想快速更新表格的幾行內(nèi)容，把每一行 DOM 存成字典（JSON 鍵值對(duì)）或者數(shù)組很有意義。此時(shí)，同樣的 DOM 元素存在兩個(gè)引用：一個(gè)在 DOM 樹中，另一個(gè)在字典中。將來(lái)你決定刪除這些行時(shí)，需要把兩個(gè)引用都清除。

var elements = {
 button: document.getElementById('button'),
 image: document.getElementById('image'),
 text: document.getElementById('text')
};
function doStuff() {
 image.src = 'http://some.url/image';
 button.click();
 console.log(text.innerHTML);
}
function removeButton() {
 document.body.removeChild(document.getElementById('button'));
 // 此時(shí)，仍舊存在一個(gè)全局的 #button 的引用
 // elements 字典。button 元素仍舊在內(nèi)存中，不能被 GC 回收。
}

雖然我們用removeChild移除了button，但是還在elements對(duì)象里保存著#button的引用，換言之，DOM元素還在內(nèi)存里面。

內(nèi)存泄漏的識(shí)別方法

新版本的chrome在 performance 中查看：

步驟：

打開開發(fā)者工具 Performance；
勾選 Screenshots 和 memory；
左上角小圓點(diǎn)開始錄制(record)；
停止錄制。

圖中 Heap 對(duì)應(yīng)的部分就可以看到內(nèi)存在周期性的回落也可以看到垃圾回收的周期,如果垃圾回收之后的最低值(我們稱為min)，min在不斷上漲，那么肯定是有較為嚴(yán)重的內(nèi)存泄漏問(wèn)題。

避免內(nèi)存泄漏的一些方式：

減少不必要的全局變量，或者生命周期較長(zhǎng)的對(duì)象，及時(shí)對(duì)無(wú)用的數(shù)據(jù)進(jìn)行垃圾回收；
注意程序邏輯，避免“死循環(huán)”之類的；
避免創(chuàng)建過(guò)多的對(duì)象。

總而言之需要遵循一條原則：不用了的東西要及時(shí)歸還。

垃圾回收的使用場(chǎng)景優(yōu)化

1.數(shù)組array優(yōu)化

將[]賦值給一個(gè)數(shù)組對(duì)象，是清空數(shù)組的捷徑(例如：arr = [];),但是需要注意的是，這種方式又創(chuàng)建了一個(gè)新的空對(duì)象，并且將原來(lái)的數(shù)組對(duì)象變成了一小片內(nèi)存垃圾！實(shí)際上，將數(shù)組長(zhǎng)度賦值為0（arr.length = 0）也能達(dá)到清空數(shù)組的目的，并且同時(shí)能實(shí)現(xiàn)數(shù)組重用，減少內(nèi)存垃圾的產(chǎn)生。

const arr = [1, 2, 3, 4];
console.log('浪里行舟');
arr.length = 0 // 可以直接讓數(shù)字清空，而且數(shù)組類型不變。
// arr = []; 雖然讓a變量成一個(gè)空數(shù)組,但是在堆上重新申請(qǐng)了一個(gè)空數(shù)組對(duì)象。

2. 對(duì)象盡量復(fù)用

對(duì)象盡量復(fù)用，尤其是在循環(huán)等地方出現(xiàn)創(chuàng)建新對(duì)象，能復(fù)用就復(fù)用。不用的對(duì)象，盡可能設(shè)置為null，盡快被垃圾回收掉。

var t = {} // 每次循環(huán)都會(huì)創(chuàng)建一個(gè)新對(duì)象。
for (var i = 0; i < 10; i++) {
 // var t = {};// 每次循環(huán)都會(huì)創(chuàng)建一個(gè)新對(duì)象。
 t.age = 19
 t.name = '123'
 t.index = i
 console.log(t)
}
t = null //對(duì)象如果已經(jīng)不用了，那就立即設(shè)置為null；等待垃圾回收。

3.在循環(huán)中的函數(shù)表達(dá)式，能復(fù)用最好放到循環(huán)外面

// 在循環(huán)中最好也別使用函數(shù)表達(dá)式。
for (var k = 0; k < 10; k++) {
 var t = function(a) {
 // 創(chuàng)建了10次 函數(shù)對(duì)象。
 console.log(a)
 }
 t(k)
}
// 推薦用法
function t(a) {
 console.log(a)
}
for (var k = 0; k < 10; k++) {
 t(k)
}
t = null

作者：浪里行舟，碩士研究生，專注于前端，運(yùn)營(yíng)有個(gè)人公眾號(hào)前端工匠，致力于打造適合初中級(jí)工程師能夠快速吸收的一系列優(yōu)質(zhì)文章。
聲明：本文為CSDN技術(shù)頭條專欄原創(chuàng)投稿，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

當(dāng)前互聯(lián)網(wǎng)信息爆炸的時(shí)代，高效準(zhǔn)確地抓取和處理網(wǎng)頁(yè)內(nèi)容成為眾多領(lǐng)域必備技能。網(wǎng)絡(luò)爬蟲技術(shù)搭配強(qiáng)大的HTML解析庫(kù)HtmlAgilityPack，能夠自動(dòng)化抽取并結(jié)構(gòu)化分析網(wǎng)頁(yè)數(shù)據(jù)。本篇我將帶領(lǐng)您深入了解如何使用C#編程語(yǔ)言結(jié)合HtmlAgilityPack，從HTML文檔中快速且準(zhǔn)確地獲取文章標(biāo)題。

假設(shè)我們通過(guò)網(wǎng)絡(luò)爬蟲程序成功獲取了一個(gè)網(wǎng)頁(yè)的HTML源代碼：

string htmlContent = "<html><head><title>這是文章標(biāo)題</title></head><body>介紹了主題和內(nèi)容...</body></html>";

為了從這段HTML文本中定位并提取出文章標(biāo)題，我們可以編寫如下的C#方法：

// 定義一個(gè)靜態(tài)方法用于從HTML字符串中提取文章標(biāo)題

public static string ExtractTitle(string htmlContent)

{

// 創(chuàng)建一個(gè)HtmlDocument對(duì)象以解析加載的HTML內(nèi)容

var htmlDocument = new HtmlDocument();

htmlDocument.LoadHtml(htmlContent);

// 使用XPath表達(dá)式精確匹配<head>標(biāo)簽內(nèi)的<title>標(biāo)簽節(jié)點(diǎn)

var titleNode = htmlDocument.DocumentNode.SelectSingleNode("//head/title");

// 如果找到了<title>節(jié)點(diǎn)，則返回其內(nèi)部文本內(nèi)容，并進(jìn)行trim操作去除多余空白；否則返回提示信息

return titleNode != null ? titleNode.InnerText.Trim() : "未找到頁(yè)面標(biāo)題";

}

接下來(lái)，在主程序入口處調(diào)用此方法并顯示提取結(jié)果：

static void Main(string[] args)

{

// 假設(shè)此處的htmlContent是從網(wǎng)絡(luò)爬蟲抓取的實(shí)際HTML數(shù)據(jù)

string pageTitle = ExtractTitle(htmlContent);

// 輸出提取得到的文章標(biāo)題

Console.WriteLine($"文章標(biāo)題: {pageTitle}");

Console.WriteLine(new string('\n', 100)); // 輸出多行空白以便區(qū)分輸出內(nèi)容

}

可以看到這個(gè)代碼展示了C#與HtmlAgilityPack在HTML內(nèi)容解析方面的強(qiáng)大能力，不僅能準(zhǔn)確無(wú)誤地從HTML文檔中摘取文章標(biāo)題，而且具備極高的靈活性和擴(kuò)展性。通過(guò)調(diào)整或增強(qiáng)XPath表達(dá)式，您可以輕松定位并抽取其他多種關(guān)鍵元素，比如正文、作者信息、發(fā)布日期等。面對(duì)日益復(fù)雜的數(shù)據(jù)抓取需求，這一技術(shù)手段將成為您的得力助手，助您從浩瀚的網(wǎng)頁(yè)信息海洋中篩選出有價(jià)值的精華內(nèi)容。不斷實(shí)踐和優(yōu)化此類解決方案，我們將在大數(shù)據(jù)時(shí)代更好地駕馭和利用網(wǎng)絡(luò)信息資源，實(shí)現(xiàn)更深層次的信息挖掘與應(yīng)用。

朋友們，如果你們覺(jué)得這個(gè)案例有用，那就盡情地使用它吧！別忘了關(guān)注我，我是代碼領(lǐng)域的詩(shī)人XY，一個(gè)樂(lè)于分享的人。我熱愛(ài)與大家分享我的知識(shí)和經(jīng)驗(yàn)，幫助你們解決問(wèn)題，激發(fā)你們的思考。我深信，只有通過(guò)分享和交流，我們才能不斷進(jìn)步，不斷創(chuàng)新。若你對(duì)更多相關(guān)話題感興趣，或者在學(xué)習(xí)工作中遇到難題，請(qǐng)隨時(shí)留言給我，我會(huì)為你撰寫更多相關(guān)內(nèi)容，并盡我所能幫助你解決難題。

在線咨詢

上一篇：用案例說(shuō)話，教你如何寫出有吸引力的開發(fā)信以及主題
下一篇：HTML5 實(shí)體名稱A

您的項(xiàng)目需求

*請(qǐng)認(rèn)真填寫需求信息，我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。

整合營(yíng)銷服務(wù)商

「C#實(shí)戰(zhàn)」一行代碼搞定！高效移除HTML標(biāo)簽還原純凈文本

您的項(xiàng)目需求