整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          Python 讀取各類文件格式的文本信息 - doc,excel,html,mht

          所周知,python最強大的地方在于,python社區匯總擁有豐富的第三方庫,開源的特性,使得有越來越多的技術開發者來完善。

          python的完美性。

          未來人工智能,大數據方向,區塊鏈的識別和進階都將以python為中心來展開。

          咳咳咳! 好像有點打廣告的嫌疑了。

          當前互聯網信息共享時代,最重要的是什么?是數據。最有價值的是什么?是數據。最能直觀體現技術水平的是什么?還是數據。

          所以,今天我們要分享的是:如何來獲取各個文件格式的文本信息。

          普通文件的格式 一般分為: txt普通文本信息,doc word文檔,html網頁內容,excel表格數據,以及特殊的mht文件。

          一、Python處理html網頁信息

          html類型的文本數據,內容是由前端代碼書寫的標簽+文本數據的格式,可以直接在chrome瀏覽器打開,清楚 的展示出文本的格式。

          python 獲取html文件的內容和獲取txt文件的方法相同,直接打開文件讀取就可以了。

          讀取代碼如下:

          with open(html_path, "r", encoding="utf-8") as f:
           file = f.read()
          

          file 是html文件的文本內容。是一個網頁標簽的格式內容。

          二、Python處理excel表格信息

          python擁有直接操作excel表格的第三方庫xlwt,xlrd。調用對應的方法就可以讀寫excel表格數據。

          讀取excel操作代碼如下:

          filepath = "C:\\Users\Administrator\Desktop\新建文件夾\笨笨 前程6份 武漢.xls"
          sheet_name = "UserList"
          rb = xlrd.open_workbook(filepath)
          sheet = rb.sheet_by_name(sheet_name)
          # clox_list = [0, 9, 14, 15, 17]
          for row in range(1, sheet.nrows):
           w = WriteToExcel()
           # for clox in clox_list:
           name = sheet.cell(row, 0).value
           phone = sheet.cell(row, 15).value
           address = sheet.cell(row, 9).value
           major = sheet.cell(row, 14).value
           age = sheet.cell(row, 8).value
          

          其中row是表格數據對應的行數, cell獲取具體行數,列數的具體數據。

          三、Python讀取doc文檔數據

          python讀取doc文檔是最麻煩的。處理邏輯復雜。處理的方式也有很多種。

          python 沒有直接處理doc文檔的第三方庫,但是有一個處理docx的第三方庫??梢酝ㄟ^將doc文件轉換為docx文件,再調用第三方python庫pydocx來讀取doc文檔的內容。

          這里需要注意的是,不要直接修改doc的后綴來修改成docx文件。直接通過修改后綴獲取的docx文件,pydocx無法讀取內容。

          我們可以使用另外一個庫來修改doc為docx。

          具體代碼如下:

          def doSaveAas(self, doc_path):
           """
           將doc文檔轉換為docx文檔
           :rtype: object
           """
           docx_path = doc_path.replace("doc", "docx")
           word = wc.Dispatch('Word.Application')
           doc = word.Documents.Open(doc_path) # 目標路徑下的文件
           doc.SaveAs(docx_path, 12, False, "", True, "", False, False, False, False) # 轉化后路徑下的文件
           doc.Close()
           word.Quit()
          

          代碼所需的包接口:

          import os
          import zipfile
          from win32com import client as wc
          import xlrd
          from bs4 import BeautifulSoup
          from pydocx import PyDocX
          from lxml import html
          from xpath_content import XpathContent
          from write_to_excel import WriteToExcel
          

          python處理docx文檔的方法有很多種,具體使用情況,根據個人需求來決定。

          No.1 解壓docx文件

          docx文件的原理,本質上就是一個壓縮的zip文件,通過解壓以后,就可以獲取原來文件的各個內容。

          docx解壓后的文件結構如下:



          docx文件的文本內容存儲結構如下:

          文本內容存儲于word/document.xml文件中。



          第一種方法,我們就可以先將docx還原成zip壓縮文件,再解壓zip文件,讀取word/document.xml文件的內容就ok了。

          具體操作代碼如下:

          def get_content(self):
           """
           獲取docx文檔的文本內容
           :rtype: object
           """
           os.chdir(r"C:\Users\Administrator\Desktop\新建文件夾") # 改變目錄到文件的目錄
           #
           os.rename("51 2014.09.12 1份Savannah.docx", "51 2014.09.12 1份Savannah.ZIP") # 重命名為zip文件
           f = zipfile.ZipFile('51 2014.09.12 1份Savannah.ZIP', 'r') # 進行解壓
           xml = f.read("word/document.xml")
           wordObj = BeautifulSoup(xml.decode("utf-8"))
           # print(wordObj)
           texts = wordObj.findAll("w:t")
           content = []
           for text in texts:
           content.append(text.text)
           content_str = "".join(content)
           return content_str
          

          最后獲取到的就是docx文檔的所有文本數據了。

          No.2 將docx文檔轉換成python能夠處理的文本格式

          第一種方法,是依據docx文檔的原理來獲取數據,流程有點繁瑣,有沒有能直接讀取docx文檔內容的方法呢?答案,肯定是沒有的,別想了,洗洗回家睡吧。

          直接讀取docx文檔的方法沒有,有沒有能夠將docx文檔轉換成python能夠輕松處理的文本格式呢?

          這個可以有,前面說了,python擁有大量豐富的第三方庫(先夸一波我大python),歷經千辛萬苦終于找到了,一個能轉換docx文檔格式的第三方庫,pydocx,pydocx庫中有個方法pydocx.to_html()就可以直接將docx文檔轉換為html文件,怎么樣?意不意外,驚喜不驚喜!

          第二種方法,轉換文本格式的代碼如下:

          def docx_to_html(self, docx_path):
           """
           docx文檔轉換成html響應
           :rtype: object
           """
           # docx_path = "C:\\Users\Administrator\Desktop\新建文件夾\\51 2014.09.12 1份Savannah.docx"
           response = PyDocX.to_html(docx_path)
          

          獲取到的response是html文件內容。

          四、Python處理mht文件

          mht文件是一種只能在IE瀏覽器上展示的文本格式,在chrome瀏覽器中打開是一堆的亂碼。

          No.1 偽造IE請求mht文件內容

          最基礎的讀取mht文本的方法就是偽造IE瀏覽器請求。

          調用requests庫,發送get請求網頁鏈接,構造IE的請求頭信息。

          理論上來說,這種方法是可行的。但是呢,不建議用,原因大家都懂得。


          No.2 轉換文件格式

          好了說正經的方法,猜測mht文件能否修改成其他文件格式來直接讀取呢?

          docx,不行;html,不行;excel,更不用說了。

          真相只有一個?。?!

          直接修改后綴得到的docx,無法讀取。

          so,我們想到的方法是什么呢。沒錯,就是修改成doc文檔。

          方法是匪夷所思的,但也是靈感一現。

          mht可以直接通過修改后綴轉換成doc文檔,doc文檔讀取文本內容的方法具體參考上面讀取doc文檔的方法。

          如何獲取html文本的內容?

          html文本的內容是網頁結構標簽數據,取出文本的方式是:re正則,或者xpath。

          后續,小伙伴有需要的話,會再開一章詳細了解re,xapth的使用規則。

          來源網絡,侵權聯系刪除

          設您需要使用 JavaScript 在服務器上讀取多個文件。Node.js 這樣的運行時環境中有許多讀取文件的方法。哪一種最好?讓我們來考慮各種方法。

          • Node.js 是什么?Node.js 如何安裝及如何配置環境?一文講解

          使用 fs.promises

          const fs = require('fs/promises');
          const readFile = fs.readFile;
          readFile("lipsum.txt", { encoding: 'utf-8' })
          .then((data) => {...})
          .catch((err) => {...})
          

          使用 fs.readFile 和 util.promisify

          const fs = require('fs');
          const util = require('util');
          const readFile = util.promisify(fs.readFile);
          readFile("lipsum.txt", { encoding: 'utf-8' })
          .then((data) => {...})
          .catch((err) => {...})
          

          使用 fs.readFileSync

          const fs = require('fs');
          const readFileSync = fs.readFileSync;
          var data = readFileSync("lipsum.txt", { encoding: 'utf-8' })
          

          使用 await fs.readFileSync

          const fs = require('fs');
          const readFileSync = fs.readFileSync;
          async function f(name, options) {
            return readFileSync(name, options);
          }
          

          使用 fs.readFile

          const fs = require('fs');
          const readFile = fs.readFile;
          fs.readFile('lipsum.txt', function read(err, data) {...});
          

          性能測試

          我寫了一個小的 性能測試,重復從磁盤讀取一個文件。這是一個簡單的循環,每次訪問同一個文件。我報告讀取文件 50,000 次需要的毫秒數。文件相對較?。猿^一千字節)。我使用裝有數十個 Ice Lake Intel 核心和大量內存的大型服務器。我使用的是 Node.js 20.1 和 Bun 1.0.14。Bun 是一個競爭的 JavaScript 運行時。

          我多次運行了基準測試,并在所有情況下報告最好的結果。您的結果可能會有所不同。


          Node.js時間

          Bun時間

          fs.promises

          2400 ms

          110 ms

          fs.readFile 和 util.promisify

          1500 ms

          180 ms

          fs.readFileSync

          140 ms

          140 ms

          await fs.readFileSync

          220 ms

          180 ms

          fs.readFile

          760 ms

          90 ms

          至少在我的系統上,在這個測試中,使用 Node.js 的 fs.promises 明顯比其他任何方法的成本更高。Bun 運行時在這個測試中比 Node.js 快得多。

          對于fs.promises,結果比看起來更糟的是以下這個意義。我發現readFileSync使用了 300 ms 的 CPU 時間,而fs.promises則使用了 7 秒的 CPU 時間。這是因為在基準測試期間,fs.promises觸發了多個核心的工作。

          將文件大小增加到例如 32kB,并不改變結論。如果使用顯著更大的文件,許多 Node.js 情況會因為“堆限制分配失敗”而出錯。Bun 即使在大文件中也能繼續運行。使用 Bun 的測試結果不改變結論:我的測試表明即使對于大文件,fs.readFile 也始終更快。

          致謝。我的基準測試靈感來源于 Evgenii Stulnikov 提供的一個測試案例。

          • 源自:https://lemire.me/blog/2024/03/12/how-to-read-files-quickly-in-javascript/

          于安全和隱私的原因,web 應用程序不能直接訪問用戶設備上的文件。如果需要讀取一個或多個本地文件,可以通過使用input file和FileReader來實現。在這篇文章中,我們將通過一些例子來看看它是如何工作的。

          文件操作的流程

          獲取文件

          由于瀏覽器中的 JS 無法從用戶的設備訪問本地文件,我們需要為用戶提供一種方法來選擇一個或多個文件供我們使用。這可以通過文件選擇器<input type='fule' />來完成。

          <input type="file" id="fileInput">

          如果想允選擇多個文件,可以添加multiple屬性:

          <input type="file" id="fileInput" multiple>

          我們可以通過change事件來監聽文件的選擇,也可以添加另一個 UI 元素讓用戶顯式地開始對所選文件的處理。

          input file 具有一個files屬性,該屬性是File對象的列表(可能有多個選擇的文件)。

          File對象如下所示:

          讀取文件

          讀取文件,主要使用的是[FileReader][1]類。

          「該對象擁有的屬性:」

          「FileReader.error」 :只讀,一個DOMException,表示在讀取文件時發生的錯誤 。

          「FileReader.readyState」:只讀 表示 FileReader 狀態的數字。取值如下:

          常量名值描述EMPTY0還沒有加載任何數據LOADING1數據正在被加載DONE2已完成全部的讀取請求

          「FileReader.result」:只讀,文件的內容。該屬性僅在讀取操作完成后才有效,數據的格式取決于使用哪個方法來啟動讀取操作。

          「該對象擁有的方法:」

          readAsText(file, encoding):以純文本形式讀取文件,讀取到的文本保存在result屬性中。第二個參數代表編碼格式。

          readAsDataUrl(file):讀取文件并且將文件以數據URI的形式保存在result屬性中。

          readAsBinaryString(file):讀取文件并且把文件以字符串保存在result屬性中。

          readAsArrayBuffer(file):讀取文件并且將一個包含文件內容的ArrayBuffer保存咋result屬性中。

          FileReader.abort():中止讀取操作。在返回時,readyState屬性為DONE。

          「文件讀取的過程是異步操作,在這個過程中提供了三個事件:progress、error、load事件?!?/strong>

          progress:每隔50ms左右,會觸發一次progress事件。

          error:在無法讀取到文件信息的條件下觸發。

          load:在成功加載后就會觸發。

          在下面的示例中,我們將使用readAsText和readAsDataURL方法來顯示文本和圖像文件的內容。

          例一:讀取文本文件

          為了將文件內容顯示為文本,change需要重寫一下:

          首先,我們要確保有一個可以讀取的文件。如果用戶取消或以其他方式關閉文件選擇對話框而不選擇文件,我們就沒有什么要讀取和退出函數。

          然后我們繼續創建一個FileReader。reader的工作是異步的,以避免阻塞主線程和 UI 更新,這在讀取大文件(如視頻)時非常重要。

          reader發出一個'load'事件(例如,類似于Image對象),告訴我們的文件已經讀取完畢。

          reader將文件內容保存在其result屬性中。此屬性中的數據取決于我們使用的讀取文件的方法。在我們的示例中,我們使用readAsText方法讀取文件,因此result將是一個文本字符串。

          例二:顯示本地選擇的圖片

          如果我們想要顯示圖像,將文件讀取為字符串并不是很有用。FileReader有一個readAsDataURL方法,可以將文件讀入一個編碼的字符串,該字符串可以用作<img>元素的源。本例的代碼與前面的代碼基本相同,區別是我們使用readAsDataURL讀取文件并將結果顯示為圖像:

          總結

          1)由于安全和隱私的原因,JavaScript 不能直接訪問本地文件。

          2)可以通過 input 類型為 file 來選擇文件,并對文件進行處理。

          3) file input 具有帶有所選文件的files屬性。

          4) 我們可以使用FileReader來訪問所選文件的內容。


          作者: Martin Splitt 譯者:前端小智 來源:dev

          原文:https://dev.to/g33konaut/reading-local-files-with-javascript-25hn


          主站蜘蛛池模板: 色婷婷一区二区三区四区成人网| 国产一区二区三区在线观看免费 | 亚洲精品精华液一区二区| AV鲁丝一区鲁丝二区鲁丝三区| 日本夜爽爽一区二区三区| 国产乱码精品一区二区三区中| 区三区激情福利综合中文字幕在线一区亚洲视频1 | 亚洲码一区二区三区| 岛国无码av不卡一区二区| 精品中文字幕一区在线| 人妻夜夜爽天天爽一区| 精品欧洲av无码一区二区三区| 亚洲AV福利天堂一区二区三| 亚洲无线码一区二区三区| 中文字幕一区二区三区有限公司| 男人的天堂亚洲一区二区三区| 色婷婷亚洲一区二区三区 | 精品无码人妻一区二区三区不卡 | 国产日韩高清一区二区三区 | 久久精品国产一区二区三区肥胖| 久久AAAA片一区二区| 免费视频精品一区二区| 国产一区二区三区在线免费 | 无码国产精成人午夜视频一区二区 | 亚洲一区综合在线播放| 亚洲AV美女一区二区三区| 久久精品一区二区三区不卡| 成人精品视频一区二区三区不卡 | 成人毛片一区二区| AV天堂午夜精品一区二区三区 | 久久精品国产一区| 精品无码人妻一区二区免费蜜桃 | 亚洲日韩国产一区二区三区在线| 蜜桃无码一区二区三区| 亚洲AV无码一区二区大桥未久| 欧美一区内射最近更新| 日本高清无卡码一区二区久久| 日韩经典精品无码一区| 曰韩精品无码一区二区三区| 一区二区免费视频| 理论亚洲区美一区二区三区|