Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537
HTML文本中移除所有HTML標(biāo)記并提取純文本是我們經(jīng)常需要使用的文本內(nèi)容處理方式,比如搜索引擎、網(wǎng)站爬蟲或者本地文檔檢索系統(tǒng)需要提取網(wǎng)頁(yè)或HTML文檔的實(shí)際內(nèi)容進(jìn)行索引。通過(guò)去除HTML標(biāo)簽,可以專注于實(shí)際的文字信息,提高搜索結(jié)果的相關(guān)性和準(zhǔn)確性。在新聞聚合應(yīng)用或社交媒體平臺(tái)上展示網(wǎng)頁(yè)鏈接的摘要時(shí),通常會(huì)提取并顯示純文本內(nèi)容以提供簡(jiǎn)潔的預(yù)覽。對(duì)于視覺(jué)障礙人士使用的輔助技術(shù)如屏幕閱讀器,它們無(wú)法解析復(fù)雜的HTML結(jié)構(gòu),因此需要提取純文本以便朗讀給用戶。所以今天給大家分享一個(gè)使用正則表達(dá)式移除所有的Html標(biāo)記的方法,供有需要的朋友們參考:
第一個(gè)核心代碼是:正則表達(dá)式"<.*?>"
// 示例用法:
string inputHtml = "<html><body><h1>Hello, World!</h1>This is a <b>test</b>.</body></html>";
string plainText = RemoveHtmlTags(inputHtml);
Console.WriteLine(plainText); // 輸出: "Hello, World!This is a test."
public static string RemoveHtmlTags(string html)
{
// 正則表達(dá)式用于匹配HTML標(biāo)簽
Regex regex = new Regex("<.*?>", RegexOptions.Singleline | RegexOptions.Compiled);
// 使用正則表達(dá)式的Replace方法移除所有匹配的HTML標(biāo)簽
string result = regex.Replace(html, String.Empty);
return result;
}
這個(gè)正則表達(dá)式<.*?>是非貪婪匹配任何以 < 開始、以 > 結(jié)束的字符串,它會(huì)盡可能少地匹配字符以找到每個(gè)HTML標(biāo)簽。
請(qǐng)注意,雖然此方法對(duì)于簡(jiǎn)單場(chǎng)景可能有效,但對(duì)復(fù)雜的HTML文檔(特別是含有嵌套標(biāo)簽、注釋、CDATA等內(nèi)容)可能不夠健壯,因?yàn)樗鼰o(wú)法處理所有可能的HTML結(jié)構(gòu)。
第二個(gè)核心代碼是:正則表達(dá)式"<[^>]*>"
public static string ExtractPlainTextFromHtml(string html)
{
// 使用正則表達(dá)式匹配所有的HTML標(biāo)簽
// 注意:這個(gè)簡(jiǎn)單的正則表達(dá)式適用于大多數(shù)基礎(chǔ)HTML結(jié)構(gòu),但可能無(wú)法處理復(fù)雜嵌套或特殊格式的HTML
Regex regex = new Regex("<[^>]*>", RegexOptions.Singleline | RegexOptions.Compiled);
// 使用Replace方法去除所有匹配到的HTML標(biāo)簽,并返回純文本內(nèi)容
string plainText = regex.Replace(html, String.Empty);
return plainText.Trim(); // 為了得到更整潔的結(jié)果,可以對(duì)結(jié)果進(jìn)行trim操作以去除多余的空白字符
}
在這段代碼中,我們定義了一個(gè)名為ExtractPlainTextFromHtml的方法,該方法利用正則表達(dá)式 <[^>]*> 來(lái)查找并替換所有HTML標(biāo)簽。這里的正則表達(dá)式表示任何以 < 開始、以 > 結(jié)束的非空字符串(即HTML標(biāo)簽),Singleline 選項(xiàng)使.能匹配換行符,以便跨多行搜索標(biāo)簽,而 Compiled 選項(xiàng)則是為了優(yōu)化正則表達(dá)式的性能。
第二個(gè)核心代碼是:正則表達(dá)式"<[^>]*>"
public static string RemoveHtmlTags(string html)
{
// 正則表達(dá)式,匹配所有HTML標(biāo)簽
string pattern = "<[^>]+>";
// 使用Regex.Replace方法移除所有匹配的HTML標(biāo)簽
return Regex.Replace(html, pattern, String.Empty);
}
請(qǐng)注意,此方法僅移除HTML標(biāo)記,不會(huì)解析或處理嵌入在HTML中的JavaScript代碼或其他非標(biāo)記內(nèi)容。此外,此方法也無(wú)法處理不規(guī)范或不符合預(yù)期格式的HTML標(biāo)記。如果需要更復(fù)雜的HTML解析或清理,您可能需要使用專門的HTML解析庫(kù),如AngleSharp或HtmlAgilityPack等。
盡管上述方法對(duì)于許多簡(jiǎn)單場(chǎng)景已經(jīng)足夠有效,但在面對(duì)復(fù)雜的HTML文檔時(shí),由于HTML本身的嵌套和特殊結(jié)構(gòu),簡(jiǎn)單的正則表達(dá)式可能無(wú)法完美地解析并移除所有標(biāo)簽。在這種情況下,推薦使用專門為處理HTML設(shè)計(jì)的庫(kù),如HtmlAgilityPack,它可以準(zhǔn)確地解析HTML并提供豐富的API用于提取純文本內(nèi)容。
者 | 浪里行舟
責(zé)編 | 郭芮
程序的運(yùn)行需要內(nèi)存。只要程序提出要求,操作系統(tǒng)或者運(yùn)行時(shí)就必須供給內(nèi)存。所謂的內(nèi)存泄漏簡(jiǎn)單來(lái)說(shuō)是不再用到的內(nèi)存,沒(méi)有及時(shí)釋放。為了更好避免內(nèi)存泄漏,我們先介紹Javascript垃圾回收機(jī)制。
在C與C++等語(yǔ)言中,開發(fā)人員可以直接控制內(nèi)存的申請(qǐng)和回收。但是在Java、C#、JavaScript語(yǔ)言中,變量的內(nèi)存空間的申請(qǐng)和釋放都由程序自己處理,開發(fā)人員不需要關(guān)心。也就是說(shuō),Javascript具有自動(dòng)垃圾回收機(jī)制(Garbage Collecation)。
垃圾回收的必要性
下面這段話引自《JavaScript權(quán)威指南(第四版)》:
由于字符串、對(duì)象和數(shù)組沒(méi)有固定大小,所有當(dāng)他們的大小已知時(shí),才能對(duì)他們進(jìn)行動(dòng)態(tài)的存儲(chǔ)分配。JavaScript程序每次創(chuàng)建字符串、數(shù)組或?qū)ο髸r(shí),解釋器都必須分配內(nèi)存來(lái)存儲(chǔ)那個(gè)實(shí)體。只要像這樣動(dòng)態(tài)地分配了內(nèi)存,最終都要釋放這些內(nèi)存以便他們能夠被再用,否則,JavaScript的解釋器將會(huì)消耗完系統(tǒng)中所有可用的內(nèi)存,造成系統(tǒng)崩潰。
這段話解釋了為什么需要系統(tǒng)需要垃圾回收,JavaScript不像C/C++,它有自己的一套垃圾回收機(jī)制。
JavaScript垃圾回收的機(jī)制很簡(jiǎn)單:找出不再使用的變量,然后釋放掉其占用的內(nèi)存,但是這個(gè)過(guò)程不是時(shí)時(shí)的,因?yàn)槠溟_銷比較大,所以垃圾回收器會(huì)按照固定的時(shí)間間隔周期性的執(zhí)行。
var a = "浪里行舟"; var b = "前端工匠"; var a = b; //重寫a
這段代碼運(yùn)行之后,“浪里行舟”這個(gè)字符串失去了引用(之前是被a引用),系統(tǒng)檢測(cè)到這個(gè)事實(shí)之后,就會(huì)釋放該字符串的存儲(chǔ)空間以便這些空間可以被再利用。
垃圾回收機(jī)制
垃圾回收機(jī)制怎么知道,哪些內(nèi)存不再需要呢?
垃圾回收有兩種方法:標(biāo)記清除、引用計(jì)數(shù)。引用計(jì)數(shù)不太常用,標(biāo)記清除較為常用。
1.標(biāo)記清除
這是javascript中最常用的垃圾回收方式。當(dāng)變量進(jìn)入執(zhí)行環(huán)境是,就標(biāo)記這個(gè)變量為“進(jìn)入環(huán)境”。從邏輯上講,永遠(yuǎn)不能釋放進(jìn)入環(huán)境的變量所占用的內(nèi)存,因?yàn)橹灰獔?zhí)行流進(jìn)入相應(yīng)的環(huán)境,就可能會(huì)用到他們。當(dāng)變量離開環(huán)境時(shí),則將其標(biāo)記為“離開環(huán)境”。
垃圾收集器在運(yùn)行的時(shí)候會(huì)給存儲(chǔ)在內(nèi)存中的所有變量都加上標(biāo)記。然后,它會(huì)去掉環(huán)境中的變量以及被環(huán)境中的變量引用的標(biāo)記。而在此之后再被加上標(biāo)記的變量將被視為準(zhǔn)備刪除的變量,原因是環(huán)境中的變量已經(jīng)無(wú)法訪問(wèn)到這些變量了。最后。垃圾收集器完成內(nèi)存清除工作,銷毀那些帶標(biāo)記的值,并回收他們所占用的內(nèi)存空間。
我們用個(gè)例子,解釋下這個(gè)方法:
var m = 0,n = 19 // 把 m,n,add() 標(biāo)記為進(jìn)入環(huán)境。 add(m, n) // 把 a, b, c標(biāo)記為進(jìn)入環(huán)境。 console.log(n) // a,b,c標(biāo)記為離開環(huán)境,等待垃圾回收。 function add(a, b) { a++ var c = a + b return c }
2.引用計(jì)數(shù)
所謂"引用計(jì)數(shù)"是指語(yǔ)言引擎有一張"引用表",保存了內(nèi)存里面所有的資源(通常是各種值)的引用次數(shù)。如果一個(gè)值的引用次數(shù)是0,就表示這個(gè)值不再用到了,因此可以將這塊內(nèi)存釋放。
上圖中,左下角的兩個(gè)值,沒(méi)有任何引用,所以可以釋放。
如果一個(gè)值不再需要了,引用數(shù)卻不為0,垃圾回收機(jī)制無(wú)法釋放這塊內(nèi)存,從而導(dǎo)致內(nèi)存泄漏。
var arr = [1, 2, 3, 4]; arr = [2, 4, 5] console.log('浪里行舟');
上面代碼中,數(shù)組[1, 2, 3, 4]是一個(gè)值,會(huì)占用內(nèi)存。變量arr是僅有的對(duì)這個(gè)值的引用,因此引用次數(shù)為1。盡管后面的代碼沒(méi)有用到arr,它還是會(huì)持續(xù)占用內(nèi)存。至于如何釋放內(nèi)存,我們下文介紹。
第三行代碼中,數(shù)組[1, 2, 3, 4]引用的變量arr又取得了另外一個(gè)值,則數(shù)組[1, 2, 3, 4]的引用次數(shù)就減1,此時(shí)它引用次數(shù)變成0,則說(shuō)明沒(méi)有辦法再訪問(wèn)這個(gè)值了,因而就可以將其所占的內(nèi)存空間給收回來(lái)。
但是引用計(jì)數(shù)有個(gè)最大的問(wèn)題:循環(huán)引用
function func() { let obj1 = {}; let obj2 = {}; obj1.a = obj2; // obj1 引用 obj2 obj2.a = obj1; // obj2 引用 obj1 }
當(dāng)函數(shù) func 執(zhí)行結(jié)束后,返回值為 undefined,所以整個(gè)函數(shù)以及內(nèi)部的變量都應(yīng)該被回收,但根據(jù)引用計(jì)數(shù)方法,obj1 和 obj2 的引用次數(shù)都不為 0,所以他們不會(huì)被回收。
要解決循環(huán)引用的問(wèn)題,最好是在不使用它們的時(shí)候手工將它們?cè)O(shè)為空。上面的例子可以這么做:
obj1 = null; obj2 = null;
哪些情況會(huì)引起內(nèi)存泄漏?
雖然JavaScript會(huì)自動(dòng)垃圾收集,但是如果我們的代碼寫法不當(dāng),會(huì)讓變量一直處于“進(jìn)入環(huán)境”的狀態(tài),無(wú)法被回收。
下面列一下內(nèi)存泄漏常見的幾種情況:
1.意外的全局變量
function foo(arg) { bar = "this is a hidden global variable"; }
bar沒(méi)被聲明,會(huì)變成一個(gè)全局變量,在頁(yè)面關(guān)閉之前不會(huì)被釋放。
另一種意外的全局變量可能由 this 創(chuàng)建:
function foo() { this.variable = "potential accidental global"; } // foo 調(diào)用自己,this 指向了全局對(duì)象(window) foo();
在 JavaScript 文件頭部加上 'use strict',可以避免此類錯(cuò)誤發(fā)生。啟用嚴(yán)格模式解析 JavaScript ,避免意外的全局變量。
2.被遺忘的計(jì)時(shí)器或回調(diào)函數(shù)
var someResource = getData(); setInterval(function() { var node = document.getElementById('Node'); if(node) { // 處理 node 和 someResource node.innerHTML = JSON.stringify(someResource)); } }, 1000);
這樣的代碼很常見,如果id為Node的元素從DOM中移除,該定時(shí)器仍會(huì)存在,同時(shí),因?yàn)榛卣{(diào)函數(shù)中包含對(duì)someResource的引用,定時(shí)器外面的someResource也不會(huì)被釋放。
3.閉包
function bindEvent(){ var obj=document.createElement('xxx') obj.onclick=function(){ // Even if it is a empty function } }
閉包可以維持函數(shù)內(nèi)局部變量,使其得不到釋放。上例定義事件回調(diào)時(shí),由于是函數(shù)內(nèi)定義函數(shù),并且內(nèi)部函數(shù)--事件回調(diào)引用外部函數(shù),形成了閉包。
// 將事件處理函數(shù)定義在外面 function bindEvent() { var obj = document.createElement('xxx') obj.onclick = onclickHandler } // 或者在定義事件處理函數(shù)的外部函數(shù)中,刪除對(duì)dom的引用 function bindEvent() { var obj = document.createElement('xxx') obj.onclick = function() { // Even if it is a empty function } obj = null }
解決之道,將事件處理函數(shù)定義在外部,解除閉包,或者在定義事件處理函數(shù)的外部函數(shù)中,刪除對(duì)dom的引用。
4.沒(méi)有清理的DOM元素引用
有時(shí),保存 DOM 節(jié)點(diǎn)內(nèi)部數(shù)據(jù)結(jié)構(gòu)很有用。假如你想快速更新表格的幾行內(nèi)容,把每一行 DOM 存成字典(JSON 鍵值對(duì))或者數(shù)組很有意義。此時(shí),同樣的 DOM 元素存在兩個(gè)引用:一個(gè)在 DOM 樹中,另一個(gè)在字典中。將來(lái)你決定刪除這些行時(shí),需要把兩個(gè)引用都清除。
var elements = { button: document.getElementById('button'), image: document.getElementById('image'), text: document.getElementById('text') }; function doStuff() { image.src = 'http://some.url/image'; button.click(); console.log(text.innerHTML); } function removeButton() { document.body.removeChild(document.getElementById('button')); // 此時(shí),仍舊存在一個(gè)全局的 #button 的引用 // elements 字典。button 元素仍舊在內(nèi)存中,不能被 GC 回收。 }
雖然我們用removeChild移除了button,但是還在elements對(duì)象里保存著#button的引用,換言之,DOM元素還在內(nèi)存里面。
內(nèi)存泄漏的識(shí)別方法
新版本的chrome在 performance 中查看:
步驟:
圖中 Heap 對(duì)應(yīng)的部分就可以看到內(nèi)存在周期性的回落也可以看到垃圾回收的周期,如果垃圾回收之后的最低值(我們稱為min),min在不斷上漲,那么肯定是有較為嚴(yán)重的內(nèi)存泄漏問(wèn)題。
避免內(nèi)存泄漏的一些方式:
總而言之需要遵循一條原則:不用了的東西要及時(shí)歸還。
垃圾回收的使用場(chǎng)景優(yōu)化
1.數(shù)組array優(yōu)化
將[]賦值給一個(gè)數(shù)組對(duì)象,是清空數(shù)組的捷徑(例如:arr = [];),但是需要注意的是,這種方式又創(chuàng)建了一個(gè)新的空對(duì)象,并且將原來(lái)的數(shù)組對(duì)象變成了一小片內(nèi)存垃圾!實(shí)際上,將數(shù)組長(zhǎng)度賦值為0(arr.length = 0)也能達(dá)到清空數(shù)組的目的,并且同時(shí)能實(shí)現(xiàn)數(shù)組重用,減少內(nèi)存垃圾的產(chǎn)生。
const arr = [1, 2, 3, 4]; console.log('浪里行舟'); arr.length = 0 // 可以直接讓數(shù)字清空,而且數(shù)組類型不變。 // arr = []; 雖然讓a變量成一個(gè)空數(shù)組,但是在堆上重新申請(qǐng)了一個(gè)空數(shù)組對(duì)象。
2. 對(duì)象盡量復(fù)用
對(duì)象盡量復(fù)用,尤其是在循環(huán)等地方出現(xiàn)創(chuàng)建新對(duì)象,能復(fù)用就復(fù)用。不用的對(duì)象,盡可能設(shè)置為null,盡快被垃圾回收掉。
var t = {} // 每次循環(huán)都會(huì)創(chuàng)建一個(gè)新對(duì)象。 for (var i = 0; i < 10; i++) { // var t = {};// 每次循環(huán)都會(huì)創(chuàng)建一個(gè)新對(duì)象。 t.age = 19 t.name = '123' t.index = i console.log(t) } t = null //對(duì)象如果已經(jīng)不用了,那就立即設(shè)置為null;等待垃圾回收。
3.在循環(huán)中的函數(shù)表達(dá)式,能復(fù)用最好放到循環(huán)外面
// 在循環(huán)中最好也別使用函數(shù)表達(dá)式。 for (var k = 0; k < 10; k++) { var t = function(a) { // 創(chuàng)建了10次 函數(shù)對(duì)象。 console.log(a) } t(k) } // 推薦用法 function t(a) { console.log(a) } for (var k = 0; k < 10; k++) { t(k) } t = null
作者:浪里行舟,碩士研究生,專注于前端,運(yùn)營(yíng)有個(gè)人公眾號(hào)前端工匠,致力于打造適合初中級(jí)工程師能夠快速吸收的一系列優(yōu)質(zhì)文章。
聲明:本文為CSDN技術(shù)頭條專欄原創(chuàng)投稿,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
當(dāng)前互聯(lián)網(wǎng)信息爆炸的時(shí)代,高效準(zhǔn)確地抓取和處理網(wǎng)頁(yè)內(nèi)容成為眾多領(lǐng)域必備技能。網(wǎng)絡(luò)爬蟲技術(shù)搭配強(qiáng)大的HTML解析庫(kù)HtmlAgilityPack,能夠自動(dòng)化抽取并結(jié)構(gòu)化分析網(wǎng)頁(yè)數(shù)據(jù)。本篇我將帶領(lǐng)您深入了解如何使用C#編程語(yǔ)言結(jié)合HtmlAgilityPack,從HTML文檔中快速且準(zhǔn)確地獲取文章標(biāo)題。
假設(shè)我們通過(guò)網(wǎng)絡(luò)爬蟲程序成功獲取了一個(gè)網(wǎng)頁(yè)的HTML源代碼:
string htmlContent = "<html><head><title>這是文章標(biāo)題</title></head><body>介紹了主題和內(nèi)容...</body></html>";
為了從這段HTML文本中定位并提取出文章標(biāo)題,我們可以編寫如下的C#方法:
// 定義一個(gè)靜態(tài)方法用于從HTML字符串中提取文章標(biāo)題
public static string ExtractTitle(string htmlContent)
{
// 創(chuàng)建一個(gè)HtmlDocument對(duì)象以解析加載的HTML內(nèi)容
var htmlDocument = new HtmlDocument();
htmlDocument.LoadHtml(htmlContent);
// 使用XPath表達(dá)式精確匹配<head>標(biāo)簽內(nèi)的<title>標(biāo)簽節(jié)點(diǎn)
var titleNode = htmlDocument.DocumentNode.SelectSingleNode("//head/title");
// 如果找到了<title>節(jié)點(diǎn),則返回其內(nèi)部文本內(nèi)容,并進(jìn)行trim操作去除多余空白;否則返回提示信息
return titleNode != null ? titleNode.InnerText.Trim() : "未找到頁(yè)面標(biāo)題";
}
接下來(lái),在主程序入口處調(diào)用此方法并顯示提取結(jié)果:
static void Main(string[] args)
{
// 假設(shè)此處的htmlContent是從網(wǎng)絡(luò)爬蟲抓取的實(shí)際HTML數(shù)據(jù)
string pageTitle = ExtractTitle(htmlContent);
// 輸出提取得到的文章標(biāo)題
Console.WriteLine($"文章標(biāo)題: {pageTitle}");
Console.WriteLine(new string('\n', 100)); // 輸出多行空白以便區(qū)分輸出內(nèi)容
}
可以看到這個(gè)代碼展示了C#與HtmlAgilityPack在HTML內(nèi)容解析方面的強(qiáng)大能力,不僅能準(zhǔn)確無(wú)誤地從HTML文檔中摘取文章標(biāo)題,而且具備極高的靈活性和擴(kuò)展性。通過(guò)調(diào)整或增強(qiáng)XPath表達(dá)式,您可以輕松定位并抽取其他多種關(guān)鍵元素,比如正文、作者信息、發(fā)布日期等。面對(duì)日益復(fù)雜的數(shù)據(jù)抓取需求,這一技術(shù)手段將成為您的得力助手,助您從浩瀚的網(wǎng)頁(yè)信息海洋中篩選出有價(jià)值的精華內(nèi)容。不斷實(shí)踐和優(yōu)化此類解決方案,我們將在大數(shù)據(jù)時(shí)代更好地駕馭和利用網(wǎng)絡(luò)信息資源,實(shí)現(xiàn)更深層次的信息挖掘與應(yīng)用。
朋友們,如果你們覺(jué)得這個(gè)案例有用,那就盡情地使用它吧!別忘了關(guān)注我,我是代碼領(lǐng)域的詩(shī)人XY,一個(gè)樂(lè)于分享的人。我熱愛(ài)與大家分享我的知識(shí)和經(jīng)驗(yàn),幫助你們解決問(wèn)題,激發(fā)你們的思考。我深信,只有通過(guò)分享和交流,我們才能不斷進(jìn)步,不斷創(chuàng)新。若你對(duì)更多相關(guān)話題感興趣,或者在學(xué)習(xí)工作中遇到難題,請(qǐng)隨時(shí)留言給我,我會(huì)為你撰寫更多相關(guān)內(nèi)容,并盡我所能幫助你解決難題。
*請(qǐng)認(rèn)真填寫需求信息,我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。