從零之057 網頁代碼中提取文字（刪除多余空行）

上一章，我們已經實現了從網頁代碼文件中提取文字，但是我們發現，提取的文字中有很多空白行，如下圖

這樣，篇幅可能很長很長。現在我們有一個需要，就是能不能將這些空白行去除掉？本章就來研究這個問題。

首先，我們先對程序進行一下優化處理，把上一張最后程序中的自定義函數“去除html代碼”，移動到通用函數庫中。

上一章最后的程序如下

移動后程序變成下面這個樣子

此時，自定義函數已經移到了通用函數庫中。于是，我們看到，優化后的程序更加簡單易懂，下面我們研究去除空行的問題。

按照以前的習慣，我們先對主程序進行下改造，改造后的主程序變成下面的模樣

上面紅線標注的這一行，就是我們新增加的內容。我們編寫了一個函數，名字叫做去除空行，詳細內容如下圖，下面我們研究一下這個函數

第四行，我們定義的這個函數以及傳入的參數

第五行，定義了回收內容的變量

第六行，用換行符把內容分割成列表

第七行，對列表內所有的行進行遍歷

第八行，對列表中的內容進行空格刪除，然后看看是不是為空，用這樣的方式判斷行內是否有內容。

第九行，對有內容的行進行回收。

第十行，返回結果

于是我們得到了完整的程序，如下圖

運行后的效果如下圖

于是我們看到，所有的空行沒有了。剩下的行都是有內容的行。

我平時的工作中，偶爾會用 Java 做一些解析HTML的工作。有的時候我需要刪除所有的HTML標簽，只保留純文字內容。這個問題在做過一些爬蟲工作的朋友來說很簡單。下面來說說，我們平時使用到的集中解析的方法。

使用正則表達式

通過爬蟲爬到的HTML內容，從程序角度來講，就是一個字符串。我們可以對其按照純文本處理的方式來處理。

我們在做文本處理的時候，第一個想到的就是正則表達式。從一個字符串中刪除HTML，對于正則來說，還是比較簡單的。畢竟還是有固定的格式，比如“<...>”。

我們常用的的正則就是 <[^>]> 或者 <.*?> 。

我們在使用正則的時候，需要注意的是正則默認是貪婪匹配。也就是說，正則表達式<.*> 能夠匹配到更多的HTML內容，而不是單個標簽。

現在，讓我們測試一下它是否能從HTML源中刪除標簽。

正則測試刪除標簽1

在我們測試刪除HTML標簽之前，首先讓我們創建一個HTML例子，例如example1.html。

<!DOCTYPE html>
<html>
<head>
    <title>這是標題</title>
</head>
<body>
    <p>
        如果應用程序X沒有啟動，可能的原因是<br/>
        1. <a href="https://maven.apache.org">Maven</a>沒有安裝<br/>
        2. 磁盤空間不足<br/>
        3. 內存不足
    </p>
</body>
</html>

現在，讓我們寫一個測試，用String.replaceAll()來刪除HTML標簽。

String html = ... // load example1.html
String result = html.replaceAll("<[^>]`>", "");
System.out.println(result);

如果我們運行這個測試方法，我們會看到結果。

    這是標題



        如果應用程序X沒有啟動，可能的原因是
        1.Maven沒有安裝
        2.磁盤空間不足
        3.沒有足夠的內存

輸出結果保留了剝離后的HTML的空白處。我們在處理提取的文本時，可以很容易地刪除或跳過這些空行或空白處。

正則測試刪除標簽2

我們剛才已經看到了，通過使用Regex來刪除HTML標簽是非常簡單。但是粗暴的使用這種方法會有很多問題，我們不能預測最終的結果會是怎么樣的。

例如，一個HTML文檔可能有<script>或<style>標簽，而我們可能不希望在結果中出現它們的內容。

此外，<script>、<style>、甚至是<body>標簽中的文本可能包含 <或 >字符。如果是這種情況，我們的正則方法可能會出錯。

現在，讓我們看看另一個例子，比如example2.html。

<!DOCTYPE HTML>
<html>
<head>
    <title>這是標題</title>
</head>
<script>
    // some js function
</script>
<body>
    <p>
        如果應用程序X沒有啟動，可能的原因是<br/>
        1. <a
            id="link"
            href="http://maven.apache.org/">
            Maven
            </a> 沒有安裝<br/>
        2. 磁盤空間不足 (<1G) <br/>
        3. 內存不足(<64MB)<br/>
    </p>
</body>
</html>

現在我們有一個<script>標簽和 <字符在<body>標簽內。

如果我們對example2.html使用同樣的方法，我們會得到如下內容。

   這是標題
    // some js function
        如果應用程序X沒有啟動，可能的原因是
        1. 
            Maven
             沒有安裝
        2. 磁盤空間不足 (
        3. 內存不足(

顯然，由于"<"字符的存在，我們丟失了一些文本。所以正則在處理文本的時候并不是萬能的。我們可以使用一些 HTML 解析器來做這些比較復雜的場景。

使用Jsoup

Jsoup 是一個流行的HTML解析庫，如果想要從一個HTML文檔中提取文本，我們可以簡單地調用Jsoup.parse(htmlString).text()。

在項目中使用的時候，我們首先需要添加 jsoup 的依賴庫，我們這里就通過maven的方式引入。

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version>
</dependency>

我們用 example2.html來測試一下。

String html = ... // load example2.html
System.out.println(Jsoup.parse(html).text());

如果我們讓這個方法運行，它就會打印出來。

這是標題 如果應用程序X沒有啟動，可能的原因是 1.Maven沒有安裝 2.沒有足夠的（<1G）磁盤空間 3.沒有足夠的（<64MB）內存

從輸出結果可知，Jsoup已經成功地從HTML文檔中提取了文本。另外，<script>元素中的文本已經被忽略了。

此外，默認情況下，Jsoup會刪除所有的文本格式和空白處，比如換行符。

使用HTMLCleaner

HTMLCleaner 也是一個HTML解析庫。

首先，我們需要在pom.xml中添加HTMLCleaner 依賴。

<dependency>
    <groupId>net.sourceforge.htmlcleaner</groupId>
    <artifactId>htmlcleaner</artifactId>
    <version>2.25</version>
</dependency>

我們可以設置[各種參數]（http://htmlcleaner.sourceforge.net/parameters.php）來控制HTMLCleaner的解析行為。我們在這里使用HTMLCleaner在解析example2.html時跳過<script>元素。

String html = ... // load example2.html
CleanerProperties props = new CleanerProperties();
props.setPruneTags("script");
String result = new HtmlCleaner(props).clean(html).getText().toString();
System.out.println(result);

運行一下，HTMLCleaner將產生這樣的輸出。

這是標題



        如果應用程序X沒有啟動，可能的原因是：
        1.Maven沒有安裝
        2.沒有足夠的（<1G）磁盤空間
        3.內存不足（<64MB）

我們可以看到，<script>元素中的內容被忽略了， <br/>標簽轉換為提取的文本中的換行符。另外， HTMLCleaner 保留了HTML的空白內容。

總結

在這篇文章中，我們學習了幾種去除HTML的方法，我們需要注意的是，正則在文本處理的過程中并不是萬能的。

站建設過程中空格字符是網頁中最常見的垃圾代碼。但此處討論的空格字符并非HTML語言中的“&nbsp；”標簽，而是指代碼編輯環境下敲擊鍵盤上的空格鍵

所產生的符號。網頁中的每個空格都相當于一個字符，因此空格字符也會占很大的空間。初步統計，空格字符約占頁面總面積的1.5%。也可以說，一個100KB的頁面中，其中有1.5KB是空格字符。

空格字符通常會出現在每行代碼的開始和結束處，還有就是空行中。常見的有：

1、每行**始前的空格字符：是網頁制作軟件生成代碼時，默認產生的縮進字符；

2、空白行：在編寫代碼時利用空行或者注釋對不同功能模塊進行分割，這樣就產生了空白行；

3、每行代碼結束處的的空格字符：是在編寫HTML代碼時，不小心加上的。只要在每行代碼的結束位置向右移動光標，如果光標不換行，則說明該行后面還存在空格字符。

成都網站建設淺談幾種常見的清理方法：

1、每行**始前的空格字符

可以使用Dreamweaver或者EditPlus等軟件進行清理：

a:轉至HTML代碼編輯模式（如果是Dreamweaver）；

b:按Ctrl+A選擇全部代碼；

c:使用組合鍵Shift+Tab,直至刪除完所有空格為止。

2、空白行

只能手工逐行清理掉：

a:首先，使用鼠標選擇空行；

b:再按Delete鍵，即可刪除空行。

3、每行代碼結束處的的空格字符

可以使用Dreamweaver或者其他編輯軟件的替換功能進行清理：

a:用鼠標選擇“>”+“一個空格字符”，即“>”；

b:再按CTRL+F

C:“替換”處填上“>”，再點擊“替換全部”即可。

成都網站建設實踐發現，頁面經過清理空格字符，大概可以刪除70%左右的垃圾代碼。也就是說，空格字符的代碼量大概占垃圾代碼的70%。

成都蜀風科技打造與企業品牌相匹配的網站及微信開發，對每一個網站建設和微信開發項目，都以策略先行，再將創意與技術完美結合。為企業打造出與企業品牌氣質相匹配的網絡品牌形象。我們始終保持行業領先開發水平，不斷掌握領先的網絡技術。

在線咨詢

上一篇：HTML設置鏈接目標打開窗口
下一篇：html中img圖片進行等比例縮放的實例代碼

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商