VBA技術資料MF188：將Txt文件轉換成Html

VBA技術資料MF188：將Txt文件轉換成Html文件

給VBA的定義：VBA是個人小型自動化處理的有效工具。利用好了，可以大大提高自己的工作效率，而且可以提高數據的準確度?！癡BA語言専攻”提供的教程一共九套，分為初級、中級、高級三大部分，教程是對VBA的系統講解，從簡單的入門、到入門后的提高、到數據庫、到字典、到Word VBA的應用、到高級網抓及類的應用、一直講到程序的分發。另外，為了方便大家在寫代碼是方便查找，“VBA語言専攻”又推出了一部VBA漢英手冊，這部手冊覆蓋了VBA的方方面面，與實際工作銜接度高。為了更好的完善學員的知識結構，豐富學員的實踐經驗，“VBA語言専攻”還提供給學員VBA工具，有較復雜些的NZ系列工具，較容易些的YZ系列，這個兩個工具系列一共是二十六份。

VBA是職場很好的利用工具，為了讓大家更廣泛看到VBA應用場景，“VBA語言専攻”還有MF系列技術資料提供。MF系列技術資料側重VBA應用技巧和疑難雜癥，目前提供640多份資料，會持續增加，里面有很多實用技巧提供。如果您已經成為我的學員（獲得我9套教程及漢英手冊中的兩套及以上）可以免費索獲這個系列部分資料;如果您是我的T3學員（獲得我的全部教程+手冊+NZ,YZ工具），那么您可以獲得我提供的所有MF系列技術資料，并享受永久更新；您如果還不是我的學員，您只能選擇分享，但需要擁有我的至少一套教程或者手冊。今日給大家介紹的是VBA技術資料MF188：將Txt文件轉換成Html文件

【分享成果，隨喜正能量】總以為來日方長，卻忘了世事無常。無論春風得意與聚散離合，一切都會過去的。飄風不終朝，驟雨不終日。一味地沉浸在過去的痛苦中，只會無端地消耗自己，去釋懷，去放下，把過去的一切當做磨礪，腳踏實地把今天的事做好，才是對未來的不辜負。。

MF188：將Txt文件轉換成Html文件

Html文件是超文本標記語言（英語：HyperText Markup Language，簡稱：HTML）是一種用于創建網頁的標準標記語言。您可以使用 HTML 來建立自己的 WEB 站點，HTML 運行在瀏覽器上，由瀏覽器來解析。本講的內容力爭實現VBA完成Html文件的轉換。在MF188的資料中，我們將探討如何使用Excel VBA代碼實現將Txt文件轉換成Html文件的方法，本節代碼您可以作單獨使用，也可以作為您的UDF利用。MF188料提供的內容有：① 將Txt文件裝換成Html文件

為了說明這節內容，我在給出的資料中會給出一個簡單的TXT文件，如下截圖：

一將Txt文件裝換成Html文件

我們先看實現上述功能的操作界面：

點擊按鈕后代碼會運行，會打開上述的txt文件，并將其裝換成HTML文件。

代碼見程序文件：VBA_ConvertTxtFilesToHtmFiles.xlsm

所周知,python最強大的地方在于，python社區匯總擁有豐富的第三方庫，開源的特性，使得有越來越多的技術開發者來完善。

python的完美性。

未來人工智能，大數據方向，區塊鏈的識別和進階都將以python為中心來展開。

咳咳咳！好像有點打廣告的嫌疑了。

當前互聯網信息共享時代，最重要的是什么?是數據。最有價值的是什么？是數據。最能直觀體現技術水平的是什么?還是數據。

所以，今天我們要分享的是：如何來獲取各個文件格式的文本信息。

普通文件的格式一般分為: txt普通文本信息，doc word文檔，html網頁內容，excel表格數據，以及特殊的mht文件。

一、Python處理html網頁信息

html類型的文本數據，內容是由前端代碼書寫的標簽+文本數據的格式，可以直接在chrome瀏覽器打開，清楚的展示出文本的格式。

python 獲取html文件的內容和獲取txt文件的方法相同，直接打開文件讀取就可以了。

讀取代碼如下:

with open(html_path, "r", encoding="utf-8") as f:
 file=f.read()

file 是html文件的文本內容。是一個網頁標簽的格式內容。

二、Python處理excel表格信息

python擁有直接操作excel表格的第三方庫xlwt,xlrd。調用對應的方法就可以讀寫excel表格數據。

讀取excel操作代碼如下:

filepath="C:\\Users\Administrator\Desktop\新建文件夾\笨笨 前程6份 武漢.xls"
sheet_name="UserList"
rb=xlrd.open_workbook(filepath)
sheet=rb.sheet_by_name(sheet_name)
# clox_list=[0, 9, 14, 15, 17]
for row in range(1, sheet.nrows):
 w=WriteToExcel()
 # for clox in clox_list:
 name=sheet.cell(row, 0).value
 phone=sheet.cell(row, 15).value
 address=sheet.cell(row, 9).value
 major=sheet.cell(row, 14).value
 age=sheet.cell(row, 8).value

其中row是表格數據對應的行數， cell獲取具體行數，列數的具體數據。

三、Python讀取doc文檔數據

python讀取doc文檔是最麻煩的。處理邏輯復雜。處理的方式也有很多種。

python 沒有直接處理doc文檔的第三方庫，但是有一個處理docx的第三方庫?？梢酝ㄟ^將doc文件轉換為docx文件，再調用第三方python庫pydocx來讀取doc文檔的內容。

這里需要注意的是,不要直接修改doc的后綴來修改成docx文件。直接通過修改后綴獲取的docx文件，pydocx無法讀取內容。

我們可以使用另外一個庫來修改doc為docx。

具體代碼如下:

def doSaveAas(self, doc_path):
 """
 將doc文檔轉換為docx文檔
 :rtype: object
 """
 docx_path=doc_path.replace("doc", "docx")
 word=wc.Dispatch('Word.Application')
 doc=word.Documents.Open(doc_path) # 目標路徑下的文件
 doc.SaveAs(docx_path, 12, False, "", True, "", False, False, False, False) # 轉化后路徑下的文件
 doc.Close()
 word.Quit()

代碼所需的包接口:

import os
import zipfile
from win32com import client as wc
import xlrd
from bs4 import BeautifulSoup
from pydocx import PyDocX
from lxml import html
from xpath_content import XpathContent
from write_to_excel import WriteToExcel

python處理docx文檔的方法有很多種，具體使用情況，根據個人需求來決定。

No.1 解壓docx文件

docx文件的原理，本質上就是一個壓縮的zip文件，通過解壓以后，就可以獲取原來文件的各個內容。

docx解壓后的文件結構如下:

docx文件的文本內容存儲結構如下:

文本內容存儲于word/document.xml文件中。

第一種方法，我們就可以先將docx還原成zip壓縮文件，再解壓zip文件，讀取word/document.xml文件的內容就ok了。

具體操作代碼如下:

def get_content(self):
 """
 獲取docx文檔的文本內容
 :rtype: object
 """
 os.chdir(r"C:\Users\Administrator\Desktop\新建文件夾") # 改變目錄到文件的目錄
 #
 os.rename("51 2014.09.12 1份Savannah.docx", "51 2014.09.12 1份Savannah.ZIP") # 重命名為zip文件
 f=zipfile.ZipFile('51 2014.09.12 1份Savannah.ZIP', 'r') # 進行解壓
 xml=f.read("word/document.xml")
 wordObj=BeautifulSoup(xml.decode("utf-8"))
 # print(wordObj)
 texts=wordObj.findAll("w:t")
 content=[]
 for text in texts:
 content.append(text.text)
 content_str="".join(content)
 return content_str

最后獲取到的就是docx文檔的所有文本數據了。

No.2 將docx文檔轉換成python能夠處理的文本格式

第一種方法，是依據docx文檔的原理來獲取數據,流程有點繁瑣，有沒有能直接讀取docx文檔內容的方法呢？答案，肯定是沒有的，別想了，洗洗回家睡吧。

直接讀取docx文檔的方法沒有，有沒有能夠將docx文檔轉換成python能夠輕松處理的文本格式呢？

這個可以有，前面說了，python擁有大量豐富的第三方庫（先夸一波我大python）,歷經千辛萬苦終于找到了，一個能轉換docx文檔格式的第三方庫,pydocx,pydocx庫中有個方法pydocx.to_html()就可以直接將docx文檔轉換為html文件，怎么樣？意不意外，驚喜不驚喜！

第二種方法，轉換文本格式的代碼如下:

def docx_to_html(self, docx_path):
 """
 docx文檔轉換成html響應
 :rtype: object
 """
 # docx_path="C:\\Users\Administrator\Desktop\新建文件夾\\51 2014.09.12 1份Savannah.docx"
 response=PyDocX.to_html(docx_path)

獲取到的response是html文件內容。

四、Python處理mht文件

mht文件是一種只能在IE瀏覽器上展示的文本格式，在chrome瀏覽器中打開是一堆的亂碼。

No.1 偽造IE請求mht文件內容

最基礎的讀取mht文本的方法就是偽造IE瀏覽器請求。

調用requests庫，發送get請求網頁鏈接，構造IE的請求頭信息。

理論上來說，這種方法是可行的。但是呢，不建議用，原因大家都懂得。

No.2 轉換文件格式

好了說正經的方法，猜測mht文件能否修改成其他文件格式來直接讀取呢？

docx,不行；html，不行；excel，更不用說了。

真相只有一個?。?！

直接修改后綴得到的docx，無法讀取。

so,我們想到的方法是什么呢。沒錯，就是修改成doc文檔。

方法是匪夷所思的，但也是靈感一現。

mht可以直接通過修改后綴轉換成doc文檔，doc文檔讀取文本內容的方法具體參考上面讀取doc文檔的方法。

如何獲取html文本的內容？

html文本的內容是網頁結構標簽數據，取出文本的方式是：re正則，或者xpath。

后續，小伙伴有需要的話，會再開一章詳細了解re,xapth的使用規則。

來源網絡，侵權聯系刪除

科技之巔#python html指定區域文本內容轉稱txt文本文件

1、首先，通過python，去將讀取遍歷程序目錄文件夾中，【html】文件夾里面的文件、文件

夾以及子目錄、子目錄里面的，獲取到該目錄下所有的【.html】文件后，返回一個list對象

2、遍歷完成后得到一個html文件列表對象，將該列表交給html_to_txt方法，html_to_txt方法

里面循環逐個讀取html文件中指定標簽中<DIV>標簽中<H1>標簽中的文字，和中指定標簽

<TD>里面<P>標簽的文字提取出來

3、讀取到的文本內容輸出到txt文件中，這里可以加上一個替換replace，把我們不需要的內

容替換之后，這里可以做多次替換，也可以加上換行之類的處理，再進行輸出，可根據自己

的需求修改，如果有什么不明之處，可以提問

在線咨詢

上一篇：為什么說TailwindCSS是2024 年前端最優
下一篇：JavaWeb01輕松掌握HTML（Java真正的全

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

VBA技術資料MF188：將Txt文件轉換成Html

MF188：將Txt文件轉換成Html文件

一 將Txt文件裝換成Html文件

您的項目需求

一將Txt文件裝換成Html文件