整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          從零之057 網頁代碼中提取文字(刪除多余空行)

          上一章,我們已經實現了從網頁代碼文件中提取文字,但是我們發現,提取的文字中有很多空白行,如下圖

          這樣,篇幅可能很長很長。現在我們有一個需要,就是能不能將這些空白行去除掉?本章就來研究這個問題。

          首先,我們先對程序進行一下優化處理,把上一張最后程序中的自定義函數“去除html代碼”,移動到通用函數庫中。

          上一章最后的程序如下

          移動后程序變成下面這個樣子

          此時,自定義函數已經移到了通用函數庫中。于是,我們看到,優化后的程序更加簡單易懂,下面我們研究去除空行的問題。

          按照以前的習慣,我們先對主程序進行下改造,改造后的主程序變成下面的模樣

          上面紅線標注的這一行,就是我們新增加的內容。我們編寫了一個函數,名字叫做去除空行,詳細內容如下圖,下面我們研究一下這個函數

          第四行,我們定義的這個函數以及傳入的參數

          第五行,定義了回收內容的變量

          第六行,用換行符把內容分割成列表

          第七行,對列表內所有的行進行遍歷

          第八行,對列表中的內容進行空格刪除,然后看看是不是為空,用這樣的方式判斷行內是否有內容。

          第九行,對有內容的行進行回收。

          第十行,返回結果

          于是我們得到了完整的程序,如下圖

          運行后的效果如下圖

          于是我們看到,所有的空行沒有了。剩下的行都是有內容的行。

          我平時的工作中,偶爾會用 Java 做一些解析HTML的工作。有的時候我需要刪除所有的HTML標簽,只保留純文字內容。這個問題在做過一些爬蟲工作的朋友來說很簡單。下面來說說,我們平時使用到的集中解析的方法。

          使用正則表達式

          通過爬蟲爬到的HTML內容,從程序角度來講,就是一個字符串。我們可以對其按照純文本處理的方式來處理。

          我們在做文本處理的時候,第一個想到的就是正則表達式。從一個字符串中刪除HTML,對于正則來說,還是比較簡單的。畢竟還是有固定的格式,比如“<...>”。

          我們常用的的正則就是 <[^>]> 或者 <.*?>

          我們在使用正則的時候,需要注意的是正則默認是貪婪匹配。也就是說,正則表達式<.*> 能夠匹配到更多的HTML內容,而不是單個標簽。

          現在,讓我們測試一下它是否能從HTML源中刪除標簽。

          正則測試刪除標簽1

          在我們測試刪除HTML標簽之前,首先讓我們創建一個HTML例子,例如example1.html

          <!DOCTYPE html>
          <html>
          <head>
              <title>這是標題</title>
          </head>
          <body>
              <p>
                  如果應用程序X沒有啟動,可能的原因是<br/>
                  1. <a href="https://maven.apache.org">Maven</a>沒有安裝<br/>
                  2. 磁盤空間不足<br/>
                  3. 內存不足
              </p>
          </body>
          </html>
          
          

          現在,讓我們寫一個測試,用String.replaceAll()來刪除HTML標簽。

          String html = ... // load example1.html
          String result = html.replaceAll("<[^>]`>", "");
          System.out.println(result);
          

          如果我們運行這個測試方法,我們會看到結果。

              這是標題
          
          
          
                  如果應用程序X沒有啟動,可能的原因是
                  1.Maven沒有安裝
                  2.磁盤空間不足
                  3.沒有足夠的內存
          

          輸出結果保留了剝離后的HTML的空白處。我們在處理提取的文本時,可以很容易地刪除或跳過這些空行或空白處。

          正則測試刪除標簽2

          我們剛才已經看到了,通過使用Regex來刪除HTML標簽是非常簡單。但是粗暴的使用這種方法會有很多問題,我們不能預測最終的結果會是怎么樣的。

          例如,一個HTML文檔可能有<script><style>標簽,而我們可能不希望在結果中出現它們的內容。

          此外,<script><style>、甚至是<body>標簽中的文本可能包含 <>字符。如果是這種情況,我們的正則方法可能會出錯。

          現在,讓我們看看另一個例子,比如example2.html

          <!DOCTYPE HTML>
          <html>
          <head>
              <title>這是標題</title>
          </head>
          <script>
              // some js function
          </script>
          <body>
              <p>
                  如果應用程序X沒有啟動,可能的原因是<br/>
                  1. <a
                      id="link"
                      href="http://maven.apache.org/">
                      Maven
                      </a> 沒有安裝<br/>
                  2. 磁盤空間不足 (<1G) <br/>
                  3. 內存不足(<64MB)<br/>
              </p>
          </body>
          </html>
          

          現在我們有一個<script>標簽和 <字符在<body>標簽內。

          如果我們對example2.html使用同樣的方法,我們會得到如下內容。

             這是標題
              // some js function
                  如果應用程序X沒有啟動,可能的原因是
                  1. 
                      Maven
                       沒有安裝
                  2. 磁盤空間不足 (
                  3. 內存不足(
          

          顯然,由于"<"字符的存在,我們丟失了一些文本。所以正則在處理文本的時候并不是萬能的。我們可以使用一些 HTML 解析器來做這些比較復雜的場景。

          使用Jsoup

          Jsoup 是一個流行的HTML解析庫,如果想要從一個HTML文檔中提取文本,我們可以簡單地調用Jsoup.parse(htmlString).text()

          在項目中使用的時候,我們首先需要添加 jsoup 的依賴庫,我們這里就通過maven的方式引入。

          <dependency>
              <groupId>org.jsoup</groupId>
              <artifactId>jsoup</artifactId>
              <version>1.14.3</version>
          </dependency>
          

          我們用 example2.html來測試一下。

          String html = ... // load example2.html
          System.out.println(Jsoup.parse(html).text());
          

          如果我們讓這個方法運行,它就會打印出來。

          這是標題 如果應用程序X沒有啟動,可能的原因是 1.Maven沒有安裝 2.沒有足夠的(<1G)磁盤空間 3.沒有足夠的(<64MB)內存
          

          從輸出結果可知,Jsoup已經成功地從HTML文檔中提取了文本。另外,<script>元素中的文本已經被忽略了。

          此外,默認情況下,Jsoup會刪除所有的文本格式和空白處,比如換行符。

          使用HTMLCleaner

          HTMLCleaner 也是一個HTML解析庫。

          首先,我們需要在pom.xml中添加HTMLCleaner 依賴。

          <dependency>
              <groupId>net.sourceforge.htmlcleaner</groupId>
              <artifactId>htmlcleaner</artifactId>
              <version>2.25</version>
          </dependency>
          

          我們可以設置[各種參數](http://htmlcleaner.sourceforge.net/parameters.php)來控制HTMLCleaner的解析行為。我們在這里使用HTMLCleaner在解析example2.html時跳過<script>元素。

          String html = ... // load example2.html
          CleanerProperties props = new CleanerProperties();
          props.setPruneTags("script");
          String result = new HtmlCleaner(props).clean(html).getText().toString();
          System.out.println(result);
          

          運行一下,HTMLCleaner將產生這樣的輸出。

          這是標題
          
          
          
                  如果應用程序X沒有啟動,可能的原因是:
                  1.Maven沒有安裝
                  2.沒有足夠的(<1G)磁盤空間
                  3.內存不足(<64MB)
          

          我們可以看到,<script>元素中的內容被忽略了, <br/>標簽轉換為提取的文本中的換行符。另外, HTMLCleaner 保留了HTML的空白內容。

          總結

          在這篇文章中,我們學習了幾種去除HTML的方法,我們需要注意的是,正則在文本處理的過程中并不是萬能的。

          站建設過程中空格字符是網頁中最常見的垃圾代碼。但此處討論的空格字符并非HTML語言中的“&nbsp;”標簽,而是指代碼編輯環境下敲擊鍵盤上的空格鍵

          所產生的符號。網頁中的每個空格都相當于一個字符,因此空格字符也會占很大的空間。初步統計,空格字符約占頁面總面積的1.5%。也可以說,一個100KB的頁面中,其中有1.5KB是空格字符。

          空格字符通常會出現在每行代碼的開始和結束處,還有就是空行中。常見的有:

          1、每行**始前的空格字符:是網頁制作軟件生成代碼時,默認產生的縮進字符;

          2、空白行:在編寫代碼時利用空行或者注釋對不同功能模塊進行分割,這樣就產生了空白行;

          3、每行代碼結束處的的空格字符:是在編寫HTML代碼時,不小心加上的。只要在每行代碼的結束位置向右移動光標,如果光標不換行,則說明該行后面還存在空格字符。

          成都網站建設淺談幾種常見的清理方法:

          1、每行**始前的空格字符

          可以使用Dreamweaver或者EditPlus等軟件進行清理:

          a:轉至HTML代碼編輯模式(如果是Dreamweaver);

          b:按Ctrl+A選擇全部代碼;

          c:使用組合鍵Shift+Tab,直至刪除完所有空格為止。

          2、空白行

          只能手工逐行清理掉:

          a:首先,使用鼠標選擇空行;

          b:再按Delete鍵,即可刪除空行。

          3、每行代碼結束處的的空格字符

          可以使用Dreamweaver或者其他編輯軟件的替換功能進行清理:

          a:用鼠標選擇“>”+“一個空格字符”,即“>”;

          b:再按CTRL+F

          C:“替換”處填上“>”,再點擊“替換全部”即可。

          成都網站建設實踐發現,頁面經過清理空格字符,大概可以刪除70%左右的垃圾代碼。也就是說,空格字符的代碼量大概占垃圾代碼的70%。

          成都蜀風科技打造與企業品牌相匹配的網站及微信開發,對每一個網站建設和微信開發項目,都以策略先行,再將創意與技術完美結合。為企業打造出與企業品牌氣質相匹配的網絡品牌形象。我們始終保持行業領先開發水平,不斷掌握領先的網絡技術。


          主站蜘蛛池模板: 色多多免费视频观看区一区| 国产免费私拍一区二区三区| 国99精品无码一区二区三区| 国产精品一区二区三区99| 国产精品一区二区久久乐下载| 视频一区视频二区在线观看| 久久亚洲中文字幕精品一区 | 精品乱人伦一区二区三区| 亚洲一区二区三区影院 | 成人区人妻精品一区二区三区| 国产麻豆剧果冻传媒一区| 国产在线观看一区精品| 亚洲AV无码一区二区三区人| 国产一区二区三区在线观看免费| 好湿好大硬得深一点动态图91精品福利一区二区 | 国产av天堂一区二区三区| 亚洲av无码片区一区二区三区| 成人免费视频一区二区三区 | 无码中文人妻在线一区二区三区| 日韩A无码AV一区二区三区| 国产成人AV一区二区三区无码 | 日本一区二区三区爆乳| 亚洲av区一区二区三| 日韩精品一区二区三区老鸭窝 | 久久99国产精一区二区三区| 无码人妻精品一区二区三区9厂| 中文字幕一区二区三区永久 | 性色av一区二区三区夜夜嗨| 亚洲国产AV一区二区三区四区| 国产一区二区精品尤物| 午夜视频一区二区| 日韩精品无码一区二区三区不卡 | 97久久精品无码一区二区天美| V一区无码内射国产| 国产精品美女一区二区三区| 一区二区免费视频| 国产日韩一区二区三免费高清| 日本精品视频一区二区三区| 精品成人乱色一区二区| 日本一区二区在线| 久久精品中文字幕一区|