誰說國產編譯器沒救了？這個 C/C++ 和 JavaScript 編譯器來了 - 程序人生 2020

述 | 楊曉兵

編輯 | 伍杏玲

出品 | CSDN（ID：CSDNnews）

編者前記：

編譯器是連接人類世界與機器世界之間的一座橋梁，它可將程序員理解的高級語言，轉換成程序高效執行的機器碼。在 C/C++ 編譯器里，有 VC、Borland C++、GCC、Watcom C/C++ 等國外熱門編譯器，但屬于國內自主研發的編譯器較少。

畢竟開發一款實用的編譯器不易，涉及前端詞法、語法分析、語意分析、大量的編譯優化等工作。而有一支團隊，不惜花費十余年精力完全自主研發出一款 YC 編譯器和 YC 瀏覽器內核。

為何他們不遺余力地自主研發編譯器和瀏覽器內核？這款編譯器有何優點呢？下面由 YC 編譯器的主要作者之一——楊曉兵，來講述這背后十多年來的漫漫研發路。

以下為楊曉兵自述：

初衷：“做一些對軟件行業進步有幫助的東西”

十多年前，我在中國科學院電子學研究所工作，參與設計一些硬件電路。當時我對硬件的興趣遠超軟件，后創業專門從事軟件工作。

我在創業的過程中發現，做此類軟件雖能賺錢，但無論做得怎樣，對軟件科學的進步都無絲毫作用。盡管付出很多，卻無成就感。

操作系統、數據庫、編譯器以及瀏覽器內核是不需要特殊專業知識的、開發難度非常大、最基礎的軟件產品。

我想從這幾種軟件中選擇其中一項來自主研發，雖然不能肯定做出什么成就，但我有希望能做出一些對軟件行業進步有所幫助的東西，使自己不枉踏入軟件這個行業。根據當時的情況，我發現可先從瀏覽器內核下手，于是我除了維護原有產品外，把主要精力都投入到瀏覽器的研發中。

創新將 C 代碼內嵌到 HTML

兩年后，我們研發完成瀏覽器內核的基本功能，如 HTML 的解析和顯示、JavaScript 腳本的執行等。

此時，我們發現 HTML 的標準越來越復雜，導致開發難度越來越大，如果按照這樣的發展，瀏覽器內核將無法走入市場。

于是我重新思考：如果把 C 語言處理成像 JavaScript 腳本嵌入到 HTML 中，用內嵌 C 代碼的 HTML 超文本做軟件的人機交互界面，這款內核應該會有點競爭優勢。

于是我們花費兩年半的時間將標準 C 語言以 JavaScript 相似的方式在 HTML 中執行，并擴展了一個 HTML 標簽：<user>，每個 user 標簽都可以用屬性 src 指定一個 C 源碼文件，user標簽的顯示界面和所有行為都由它的 C 代碼決定。

同時將 C 編譯器做成一個函數，用該函數編譯生成 C 程序的可執行代碼，執行代碼可被存入文件或直接執行。此時，我們將編譯器取名為 YC 編譯器，瀏覽器內核取名為 YC 瀏覽器。

三年又三年，漫漫研發路

隨后，我們繼續完善瀏覽器內核，將其中的一些內核代碼獨立出來用內嵌編譯器動態編譯執行，并將大部分內核源代碼開源。

與此同時，我們又遇到一個問題：YC 編譯器雖然編譯速度較快，生成的卻是字節碼，執行速度慢，而且與原生代碼相互調用（特別是回調函數）的處理相當繁瑣。因此用當時的 YC 編譯器難以勝任開源代碼的編譯工作。

為了解決自編譯瀏覽器內核代碼的問題，我們決定修改 YC 編譯器，使它的字節碼轉換為原生的執行碼，并擴展語法，使之具有少量的 C++ 語法。這個工作持續了三年。

三年后，YC 編譯器功能增多，它提供一個函數像調用動態鏈接庫一樣直接調用 C 源碼中的函數。此時，瀏覽器內核開源部分都可以用 YC 編譯器實時編譯執行了。

我們繼續改進瀏覽器內核，將速度很慢的 JavaScript 字節碼改為二進制原生代碼，使 JavaScript 的執行速度約提高約 100 多倍。同時將瀏覽器內核代碼全部模塊化并開源，每個模塊都用 YC 編譯器動態編譯執行，編譯器的部分源碼也開源（如內嵌匯編編譯器源碼、反匯編源碼、C/C++ 字節碼的執行源碼等），所有的開源代碼均由內嵌的 YC 編譯器自動檢測編譯，動態執行。這個工作大概耗時四年。

開發至此，我想起谷歌和火狐瀏覽器都已開源，為什么不去看看它們的源代碼呢？于是找到這兩個瀏覽器的源碼。

當時由于一些原因，我分析谷歌瀏覽器源碼沒有編譯通過，而火狐的源碼很順利就編譯成功了，于是我就走上了分析火狐源碼之路。

下載的火狐源碼由純 C 代碼和 C++ 代碼兩部分組成，經 Visual C++ 2013 編譯生成一個 xul.dll 文件和一個 firefox.exe 文件。

我首先分析了它的 C 代碼，將所有的輸出函數全部改為類接口，并讓 xul.dll 通過 YC 編譯器函數 YC_cppLoad 進行實時編譯，然后用類接口調用 C 源碼中的函數。這一步進行得很順利，若修改了火狐的 C 代碼，只要重新運行火狐瀏覽器便可生效，無需其它操作。

曾經的辦公桌

接下來開始分析火狐 C++ 代碼。YC 編譯器只實現了少數幾個 C++ 語法，不能編譯火狐 C++ 代碼，故分析起來非常困難。

為什么火狐 C 代碼容易分析，而它的 C++ 代碼難以分析呢？原來我用 YC 編譯器將它的 C 代碼生成匯編代碼文件、變量結構定義文件、宏定義文件和預編譯文件，通過這幾個文件，大大減少了分析難度。

因此我再次決定修改 YC 編譯器，使之完全支持 C++11 標準，因為火狐 C++ 代碼幾乎使用了所有的 C++11 語法特性。先使用 STL 標準模板庫代碼進行編譯器的修改和調試，出乎預料，這個過程竟用了三年時間！之后，我用 YC++ 編譯器開始調試火狐 C++ 代碼。原以為 STL 那么復雜的代碼都可以編譯通過并正確執行，火狐 C++ 代碼應該能很快就編譯通過。沒想到，很多語法細節 STL 沒有用到，而火狐 C++ 源碼用到了。于是又繼續修改 YC 編譯器，對火狐 C++ 的各個模塊進行編譯，這個過程持續了一年多。

雖然 YC 編譯器可以編譯全部火狐 C++ 代碼，但如何生成執行代碼呢？先從主程序 Firefox.cpp 入手，經整理，這個程序可用 YC 編譯器生成執行代碼 Firefox.exe，并能順利運行。

由于火狐 C++ 各模塊耦合緊密，很難拆分，經過一個多月的工作，仍未能將其拆成多個獨立的源碼模塊以便于用 YC 編譯器實時編譯，動態執行，這也許是我對火狐 C++ 源碼的整體結構還不甚清楚之故，只見其樹木不見其森林。

楊曉兵

當我準備對火狐 C++ 代碼進行再一次總體分析時，有個偶然的機會參與到一個學校管理系統的開發中，因原有的管理系統經常出故障，操作極其不方便。盡管沒有開發 Web 服務程序的經歷，但我做的軟件與 Web 服務器有極大關系。

經了解，要開發這種管理系統需要的軟件有：Apache 或 Nginx 服務器，數據庫 MySQL 或其它，編程工具 ASP 或 JSP 或 PHP 等，于是啟發我們自己研發這些工具。YC 的 C/C++ 和 JavaScript 編譯器和 HTML 解析器正好派上用場。

經過一段時間，一個穩定的、可任意擴展的、多線程高并發的 HTTP 服務器就完成了。該服務器處理 YSP 文件生成網頁傳給瀏覽器。

YSP 是我設計的與 ASP、JSP 和 PHP 功能相似的一種網頁編程語言。YC 服務器執行 YSP 文件中的內嵌 C/C++ 或 JavaScript 代碼，生成 HTML 超文本傳給終端設備。工具做好后，不久便做出了管理系統的雛形，這個雛形在發布的 YC 編譯器中可見到。

做了上述這些工作后，我想是時候該寫本書介紹一下 YC 編譯器了，經過一段時間編寫的《YC編譯器—多語言程序設計》（暫名）即將出版。

當我把書完成后，便立即投入64位的C/C++和JavaScript編譯器的開發，目前開發進展順利，已進入測試階段。

編者后記：

三年時間，可將一個呱呱落地的嬰兒變成蹦蹦跳跳的幼兒，可將一名懵懂的職場新人變成沉穩的老兵。而楊曉兵團隊沉下心，迎難而上，花費三年又三年、再一年、兩年、四年的時間只為突破一個個技術難點，最終自研出 YC 編譯器和 YC 瀏覽器內核。

在這過程中，楊曉兵坦言最大的挑戰不僅是技術，還有思維的高度。這期間不僅有大量的研發工作，還為了優化，多次重寫代碼，讓他堅持下來的是想為計算機軟件科學的發展做貢獻的匠心。

目前楊曉兵團隊正在開發 64 位 C/C++ 編譯器，談及未來，楊曉兵表示先在國內推廣，再走向海外。祝福楊曉兵。

YC編譯器傳送門：http://www.ycbro.com

果只想看js，直接從JavaScript標題開始。

在C#里面，深度clone有System.ICloneable。創建現有實例相同的值創建類的新實例

克隆原理

值類型變量與引用類型變量

如果我們有兩個值類型的變量，將其中一個變量的值賦給另一個，實際上會創建該值的一個副本，這個副本與原來的值沒有什么關系——這意味著改變其中一個的值不會影響另一個變量的值。
如果是兩個引用類型的變量，其中一個變量的值賦給另一個的話（不包括string類型，CLR會對其有特殊處理），并沒有創建值的副本，而是使兩個變量執行同一個對象——這意味著改變對象的值會同時影響兩個變量。要真正地創建引用類型的副本，我們必須克隆（clone）變量指向的對象。

C# 深度克隆

實現ICloneable接口使一個類型成為可克隆的（cloneable），這需要提供Clone方法來提供該類型的對象的副本。Clone方法不接受任何參數，返回object類型的對象（不管是何種類型實現該接口）。所以我們獲得副本后仍需要進行顯式地轉換。

實現ICloneable接口的方式取決于我們的類型的數據成員。

如果類型僅包含值類型（int，byte等類型）和string類型的數據成員，我們只要在Clone方法中初始化一個新的對象，將其的數據成員設置為當前對象的各個成員的值即可。事實上，object類的 MemberwiseClone方法會自動完成該過程。
如果自定義類型包含引用類型的數據成員，必須考慮Clone方法是實現淺拷貝（shallow copy）還是深拷貝（deep copy）。

淺拷貝(shallow copy)是指副本對象中的引用類型的數據成員與源對象的數據成員指向相同的對象。相當于創建了一個新的對象，只是這個對象的所有內容，都和被拷貝的對象一模一樣而已，即兩者的修改是隔離的，相互之間沒有影響
深拷貝(deep copy)則必須創建整個對象的結構，副本對象中的引用類型的數據成員與源對象的數據成員指向不同的對象。

拷貝者和被拷貝者若是同一個地址，則為淺拷貝，反之為深拷貝。

淺拷貝是容易實現的，就是使用前面提到的MemberwiseClone方法。開發人員往往希望使用的類型能夠實現深拷貝，但會發現這樣的類型并不多。這種情況在System.Collections命名空間中尤其常見，這里面的類在其Clone方法中實現的都是淺拷貝。這么做主要出于兩個原因：

創建一個大對象的副本對性能影響較大；
通用的集合類型可能會包含各種各樣的對象，在這種情況下實現深拷貝并不可行，因為集合中的對象并非都是可克隆的，另外還存在循環引用的情況，這會讓深拷貝過程陷入死循環。

C#克隆來自《實現可克隆（Cloneable）的類型》，代碼實現參考原文。

C++內存深度克隆

回顧下基礎知識，指針和引用主要有以下區別：

引用必須被初始化，但是不分配存儲空間。指針不聲明時初始化，在初始化的時候需要分配存儲空間。
引用初始化后不能被改變，指針可以改變所指的對象。
不存在指向空值的引用，但是存在指向空值的指針——引用不能為空，指針可以為空。
指針指向一塊內存，它的內容是所指內存的地址；而引用則是某塊內存的別名——指針是一個實體，而引用僅是個別名。
引用沒有const，指針有const，const的指針不可變
引用是類型安全的，而指針不是 (引用比指針多了類型檢查）
指針和引用的自增(++)運算意義不一樣；
引用沒有const，指針有const，const的指針不可變；

cont int p 這個p指針不是一個普通的指針，它是個常量指針，即只能對其初始化，而不能賦值

稍微有點c語言基礎的人都能看得出深度拷貝和淺拷貝的差異。總而言之，拷貝者和被拷貝者若是同一個地址，則為淺拷貝，反之為深拷貝。

一般的賦值操作是深度拷貝：

//深度拷貝
int a = 5;//在內存中找一塊區域，命名為 a，用它來存放整數數據類型 5
int b = a;//在內存中找一塊區域，命名為 b，把a拷貝一份，賦給b
char str1 = "HelloWorld";
char str2 = str1;

簡單的指針指向，則是淺拷貝：

//淺拷貝
int a = 5;
int *b = &a; //c指向a的地址; &為取地址符，&a就是a這個變量的地址。
int *b; //int *b：定義了一個變量b，它是指針型的，關聯數據類型 為int.
b = &a; //int *b=&a表示b指針所指向的數據，等于a的地址. int *b =a 表示b指針指向a,即把a賦值給*b；
// *a=b表示a指針所指向的數據，等于b。*a=&b表示a指針所指向的數據，等于b的地址du。

char* str1 = "HelloWorld";
char* str2 = str1;

將上面的淺拷貝改為深度拷貝后：

//深度拷貝
int a = 8;
int *p = new int;//new int(a)
*p = a;
char* str1 = "HelloWorld";
int len = strlen(str1);
char *str2 = new char[len];
memcpy(str2, str1, len);

以字符串拷貝為例

淺拷貝后，str1和str2同指向0x123456，不管哪一個指針，對該空間內容的修改都會影響另一個指針。
str1和str2指向不同的內存空間，各自的空間的內容一樣。因為空間不同，所以不管哪一個指針，對該空間內容的修改都不會影響另一個指針。

在某些狀況下，類內成員變量需要動態開辟堆內存，如果實行位拷貝，也就是把對象里的值完全復制給另一個對象，如A=B。這時，如果B中有一個成員變量指針已經申請了內存，那A中的那個成員變量也指向同一塊內存。這就出現了問題：當B把內存釋放了（如：析構），這時A內的指針就是野指針了，出現運行錯誤。

深拷貝和淺拷貝可以簡單理解為：如果一個類擁有資源，當這個類的對象發生復制過程的時候，資源重新分配，這個過程就是深拷貝，反之，沒有重新分配資源，就是淺拷貝。

深拷貝和淺拷貝的定義可以簡單理解成：如果一個類擁有資源(堆，或者是其它系統資源)，當這個類的對象發生復制過程的時候，這個過程就可以叫做深拷貝，反之對象存在資源，但復制過程并未復制資源的情況視為淺拷貝。

淺拷貝資源后在釋放資源的時候會產生資源歸屬不清的情況導致程序運行出錯。

IplImage *p1 = cvLoadImage( "Lena.jpg" );
IplImage *p2 = p1;
p1 = NULL ;//or cvReleaseImage(p1);釋放圖像

以下的思考不知對不對——編程小翁

IplImage *是OpenCV里面的東西，它代表一張圖。經過第二句后，p1與p2指向相同的對象，在底層就是指向同一塊內存塊。問題就來了，在第三句執行完畢后，p2還指向原來的對象嗎？調試表明，YES。以前一直糾結著，p1都被置為空了(NULL)，那原來的對象是不是也跟著被銷毀了？其實，錯了。
首先，我們應該把指針與其所指的對象分開看。指針重定向或者被置為NULL，對于其原先所指的對象的沒有影響的。（但其實，應該會造成內存泄露，因為如果沒有其他指針“接管”這部分內存塊，就成無名的內存塊擺在那邊了，也就無法釋放掉）在p1重定向后，p2仍舊指向原來的對象。在此刻，p1與p2其實就是兩個無關的事務了，也就是“分家”了。

java 深度克隆

java深度拷貝一般都用分裝好的工具。沒有必要重復造輪子。apache和spring都提供了BeanUtils的深度拷貝工具包。

把對象寫到流里的過程是串行化（Serilization）過程，但是在Java程序師圈子里又非常形象地稱為“冷凍”或者“腌咸菜（picking）”過程；而把對象從流中讀出來的并行化（Deserialization）過程則叫做“解凍”或者“回鮮(depicking)”過程。應當指出的是，寫在流里的是對象的一個拷貝，而原對象仍然存在于JVM里面，因此“腌成咸菜”的只是對象的一個拷貝，Java咸菜還可以回鮮。
在Java語言里深復制一個對象，常常可以先使對象實現Serializable接口，然后把對象（實際上只是對象的一個拷貝）寫到一個流里（腌成咸菜），再從流里讀出來（把咸菜回鮮），便可以重建對象。
在項目中我們需要克隆的對象可能包含多層引用類型，這就要涉及到多層克隆問題，多層克隆不僅要將克隆對象實現序列化接口，引用對象也同樣的要實現序列化接口：

翻看JDK源碼，Object類里面的clone方法定義如下

protected native Object clone() throws CloneNotSupportedException;

是“bitwise（逐位）的復制，將該對象的內存空間完全復制到新的空間中去”這樣實現的。

JavaScript深度拷貝

JavaScript深度克隆，首先想到是JSON.parse(JSON.stringify(target))，但是

JSON 克隆不支持函數、引用、undefined、Date、RegExp 等
遞歸克隆要考慮環、爆棧
要考慮 Date、RegExp、Function 等特殊對象的克隆方式
要不要克隆 __proto__，如果要克隆，就非常浪費內存；如果不克隆，就不是深克隆。
循環引用如何深度克隆

JSON.parse(JSON.stringify(target))數據及結構丟失

JSON.stringify() 將值轉換為相應的JSON格式：

轉換值如果有 toJSON() 方法，該方法定義什么值將被序列化。Date 日期調用了 toJSON() 將其轉換為了 string 字符串（同Date.toISOString()），因此會被當做字符串處理。
布爾值、數字、字符串的包裝對象在序列化過程中會自動轉換成對應的原始值。
非數組對象的屬性不能保證以特定的順序出現在序列化后的字符串中。
undefined和null、任意的函數、正則表達式、symbol 值、NaN 和 Infinity 等，在序列化過程中會被忽略（出現在非數組對象的屬性值中時）或者被轉換成 null（出現在數組中時）。函數、undefined 被單獨轉換時，會返回 undefined，如JSON.stringify(function(){}) or JSON.stringify(undefined)。NaN 和 Infinity 格式的數值及 null 都會被當做 null。正則轉換為空對象。
對包含循環引用的對象（對象之間相互引用，形成無限循環）執行此方法，會拋出錯誤。
所有以 symbol 為屬性鍵的屬性都會被完全忽略掉，即便 replacer 參數中強制指定包含了它們。
其他類型的對象，包括 Map/Set/WeakMap/WeakSet，僅會序列化可枚舉的屬性。

循環引用的對象使用 JSON.stringify 為什么會報錯

let obj1={},obj2={};

obj1.a = obj2;

obj2.b = obj1;

結果就是。obj1.a.b.a.b.a.b.a.b.a.b.a……………………無限循環引用

obj1 這個對象和 obj2 會無限相互引用，JSON.tostringify 無法將一個無限引用的對象序列化為 JOSN 字符串。

目前幾乎所有的直接深復制對象的都有這樣那樣的問題都不是很完美，但實際工作中需要用到完美深復制對象的場景也少之又少，包括jquery提供的extend方法也由于考慮到內存占用問題在多層嵌套的數據里捉襟見肘。所以我們很多時候需要定制 clone 函數

一般手寫的克隆函數都是這個樣子

function clone(Obj) {
    var buf;
    if (Obj instanceof Array) {
        buf = [];
        //創建一個空的數組
        var i = Obj.length;
        while (i--) {
            buf[i] = clone(Obj[i]);
        }
        return buf;
    } else if (Obj instanceof Object) {
        buf = {};
        //創建一個空對象
        for (var k in Obj) {
            //為這個對象添加新的屬性
            buf[k] = clone(Obj[k]);
        }
        return buf;
    } else {
        //普通變量直接賦值
        return Obj;
    }
}

精煉下

// 方法一：
function clone (obj) {
   if (typeof obj !== 'object') return false
    var o = obj.constructor === Array ? [] : {};
    for (var e in this) {
        o[e] = typeof this[e] === "object" ? this[e].clone() : this[e];
    }
    return o;
};

增加判斷類型

switch (Object.prototype.toString.call(obj).toLowerCase()) {
  case  '[object Array]':
    // clone array
    break
  case  '[object Object]':
    // clone object
    break
  case '[object Date]':
    return new Date(obj)
    break
  case '[object RegExp]':
    retrun =new RegExp(obj)
    /* let flags = ''
    if (obj.global) flags += 'g'
    if (obj.ignoreCase) flags += 'i'
    if (obj.multiline) flags += 'm' */
    // ***
    break
  case '[object HTMLBodyElement]':
    // Dom Element clone，// 遍歷Dom樹，每個節點 cloneNode(true)，個人覺得沒有必要。
    return obj.cloneNode(true)
  case '[object Function]':
    // new function inherit && extent obj
    // return (new obj()).constructor; 
    break
  case '[object Symbol]':
      // Symbol 既然定義為唯一的。那么久沒有所謂的復制
      throw new Error('')
  // JavaScript 各種內置對象 類型太多了。不能入戲太深
  default:
    return obj
}

其實這個只是造火箭面試的一個考核。實際就是數據復制而已。但是，比較處理循環引用是重點。

解決循環引用的方案探討

循環引用的問題關鍵就是 obj1.a.b.a.b.a.b.a.b.a.b.a……………………無限循環引用，溢出問題。

WeakMap解決循環引用死循環

WeakMap 其中的鍵是弱引用的。其鍵必須是對象，而值可以是任意的(我一般用此來緩存計算結果，參考java中利用WeakHashMap實現緩存)。

const deepClone = (obj, hash=new WeakMap) => {
    let data = new obj.constructor();
    // 取出循環引用
    if(hash.get(obj)) return hash.get(obj)
    hash.set(obj, data);
    for(var k in obj) {
        if(obj.hasOwnProperty(k)){
          data[k] = deepClone(obj[k], hash);
        }
      }
   return obj;
}

WeakMap 健弱引用，幫助我們解決問題。

使用Array循環引用死循環

function deepClone(source,uniqueList=[]){
    // determineUnique
    if(determineIteration){
        return uniqueData.target;
    }
    uniqueList.push({source:source,target:target});
    //TODO deep clone
}
function determineIteration(uniqueList,target){
    retrun uniqueList.find(item=>item.source===target)
}

deepClone始終有性能問題，如果業務層（大概率）是擔心修改引用數據，使用immutable庫或者immer庫才是解決問題的正路。

目前使用較多還是 lodash deepclone

參考文章：

實現可克隆（Cloneable）的類型 https://www.cnblogs.com/anderslly/archive/2007/04/08/implementingcloneabletype.html

ICloneable 的方法實現不要輕易使用ICloneable https://blog.csdn.net/iteye_14608/article/details/82404997

關于c中int a=1; int b=a類型問題的思考 https://www.cnblogs.com/wengzilin/archive/2013/03/25/2980520.html

轉載本站文章《深度克隆從C#/C/Java漫談到JavaScript真復制》,請注明出處：https://www.zhoulujun.cn/html/webfront/ECMAScript/js6/2018_1219_8450.html

TML （超文本標記語言）是所有瀏覽器都支持的主要網頁文件格式。它經常用于將數據和信息顯示為網頁。在某些情況下，我們可能需要將 HTML 文檔轉換為JPG、PNG、TIFF、BMP、GIF等圖像格式。在本文中，我們將學習如何將 HTML 轉換為 PNG、JPEG、BMP、GIF、或 Python 中的 TIFF 圖像。

Aspose.Words for .NET官方最新版免費下載試用，歷史版本下載，在線文檔和幫助文件下載-慧都網

將 HTML 轉換為圖像的 Python API

為了將 HTML 轉換為圖像格式，我們將使用Aspose.Words for Python API。它是在 Python 應用程序中以編程方式讀取和操作各種類型文檔的完整解決方案。它使我們能夠生成、修改、轉換、渲染和打印 Microsoft Word（DOC、DOCX、ODT）、PDF和 Web（HTML、Markdown）文檔。

請在控制臺中使用以下 pip 命令從PyPI安裝 API ：

> pip install aspose-words

在 Python 中將 HTML 轉換為 JPG 圖像

我們可以按照以下步驟輕松地將 HTML 文檔轉換為 JPG 圖像：

首先，使用Document類加載 HTML 文件。
或者，使用ImageSaveOptions類對象指定圖像保存選項。
接下來，循環瀏覽文檔中的所有頁面。
之后，使用extract_pages()方法提取每個頁面。
最后，使用save()方法將頁面保存為 JPG。

以下代碼示例展示了如何在 Python 中將 HTML 轉換為 JPG 圖像。

# This code example demonstrates how to convert HTML document to JPG images.
import aspose.words as aw

# Load an existing Word document
doc = aw.Document("C:\\Files\\sample.html")

# Specify image save options
# Set save format as JPEG
imageOptions = aw.saving.ImageSaveOptions(aw.SaveFormat.JPEG)

# Set the "JpegQuality" property to "10" to use stronger compression when rendering the document.
# This will reduce the file size of the document, but the image will display more prominent compression artifacts.
imageOptions.jpeg_quality = 10

# Change the horizontal resolution.
# The default value for these properties is 96.0, for a resolution of 96dpi.
# Similarly, change vertical resolution by setting vertical_resolution
imageOptions.horizontal_resolution = 72

# Save the pages as JPG
for page in range(0, doc.page_count):
extractedPage = doc.extract_pages(page, 1)
extractedPage.save(f"C:\\Files\\Images\\Page_{page + 1}.jpg", imageOptions)

在 Python 中將 HTML 轉換為 PNG 圖像

我們可以按照以下步驟將 HTML 文檔轉換為 PNG 圖像：

首先，使用Document類加載 HTML 文件。
接下來，創建ImageSaveOptions類的實例。
然后，指定圖像保存選項，例如image_brightness、image_contrast。
接下來，循環瀏覽文檔中的所有頁面。
之后，使用extract_pages()方法提取每個頁面。
最后，使用save()方法將頁面保存為 JPG。

以下代碼示例展示了如何在 Python 中將 HTML 轉換為 PNG 圖像。

# This code example demonstrates how to convert HTML document to PNG images.
import aspose.words as aw

# Load an existing Word document
doc = aw.Document("C:\\Files\\sample.html")

# Specify image save options
# Set save format as PNG
imageOptions = aw.saving.ImageSaveOptions(aw.SaveFormat.PNG)

# Change the image's brightness and contrast.
# Both are on a 0-1 scale and are at 0.5 by default.
imageOptions.image_brightness = 0.3
imageOptions.image_contrast = 0.7

# Save the pages as PNG
for page in range(0, doc.page_count):
extractedPage = doc.extract_pages(page, 1)
extractedPage.save(f"C:\\Files\\Images\\Page_{page + 1}.png", imageOptions)

Python中的HTML到BMP轉換

我們可以按照以下步驟將 HTML 文檔轉換為 BMP 圖像：

首先，使用Document類加載 HTML 文件。
接下來，循環瀏覽文檔中的所有頁面。
之后，使用extract_pages()方法提取每個頁面。
最后，使用save()方法將頁面保存為 JPG。

以下代碼示例展示了如何在 Python 中將 HTML 轉換為 BMP 圖像。

# This code example demonstrates how to convert HTML document to BMP images.
import aspose.words as aw

# Load an existing Word document
doc = aw.Document("C:\\Files\\sample.html")

# Save the pages as BMP
for page in range(0, doc.page_count):
extractedPage = doc.extract_pages(page, 1)
extractedPage.save(f"C:\\Files\\Images\\Page_{page + 1}.bmp")

在 Python 中將 HTML 轉換為 GIF 圖像

同樣，我們也可以按照前面提到的步驟將 HTML 文檔轉換為 GIF 圖像。但是，我們只需要在步驟 4 中將圖像保存為帶有“.gif”擴展名的 GIF。

以下代碼示例展示了如何在 Python 中將 HTML 轉換為 GIF 圖像。

# This code example demonstrates how to convert HTML document to GIF images.
import aspose.words as aw

# Load an existing Word document
doc = aw.Document("C:\\Files\\sample.html")

# Save the pages as GIF
for page in range(0, doc.page_count):
extractedPage = doc.extract_pages(page, 1)
extractedPage.save(f"C:\\Files\\Images\\Page_{page + 1}.gif")

在 Python 中將 HTML 轉換為 TIFF 圖像

我們還可以按照以下步驟將 HTML 文檔轉換為 TIFF 圖像：

使用Document類加載 HTML 文件。
使用save()方法將文檔保存為 TIFF 。

以下代碼示例展示了如何在 Python 中將 HTML 文檔轉換為 TIFF 圖像。

# This code example demonstrates how to convert HTML document to TIFF images.
import aspose.words as aw

# Load an existing Word document
doc = aw.Document("C:\\Files\\sample.html")

# Save the document as TIFF
doc.save(f"C:\\Files\\Images\\Output.tiff")

Python中的HTML字符串到圖像的轉換

我們可以按照以下步驟從 HTML 字符串動態生成圖像文件：

首先，創建Document類的實例。
接下來，創建DocumentBuilder類的實例。
之后，使用insert_html()方法插入 HTML 字符串。
最后，使用save()方法將文檔保存為 JPG。

以下代碼示例展示了如何在 Python 中將 HTML 字符串轉換為 JPG 圖像。

# This code example demonstrates how to convert HTML string to an image.
import aspose.words as aw

# Create document object
doc = aw.Document()

# Create a document builder object
builder = aw.DocumentBuilder(doc)

# Insert HTML
builder.insert_html("<ul>\r\n" +
"<li>Item1</li>\r\n" +
"<li>Item2</li>\r\n" +
"</ul>")

# Save the document as JPG
doc.save(f"C:\\Files\\Output.jpg")

結論

在本文中，我們學習了如何：

以編程方式將 HTML 文檔轉換為圖像；
將 HTML 文件的內容轉換為 PNG、JPEG、BMP、GIF 或 TIFF 圖像；
生成 HTML 文檔并使用 Python 將其轉換為圖像。

在線咨詢

上一篇：html實現點擊圖片放大功能
下一篇：搭建自己的 typescript 項目 + 開發自己的腳手架工具 ts-cli

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商