PDF轉HTML格式如何轉？看完這篇你就會了

DF轉HTML在網絡應用中越來越受到重視，PDF作為一種電子文件格式廣泛應用于各種場景，例如在線教育、電子商務等。但是PDF作為一種專有格式，在網絡應用中存在一定的限制，比如不便于搜索引擎索引的問題。因此，將PDF轉換為HTML格式就顯得尤為重要。HTML作為一種開放標準，在瀏覽器中的兼容性強，結構清晰，方便搜索引擎抓取，能很好地解決PDF在網絡應用中的一些問題。那你們知道PDF怎么轉HTML嗎？下面就為大家分享幾種不錯的方法。

以下是可以將PDF轉HTML的方法：

一、使用全能PDF轉換助手將PDF轉HTML

這是一款功能豐富的PDF轉換工具，支持將PDF文件轉換為多種格式，包括HTML。它具有直觀的操作界面和簡單易用的操作流程，即使對于初學者也很友好。

【轉換步驟】

步驟一：打開軟件后，選擇“PDF轉HTML”功能。

步驟二：添加PDF文件，接著調整“頁碼選擇”，然后點擊“開始轉換”即可。

二、使用HODO將PDF轉HTML

這是一個受歡迎的PDF轉HTML平臺，它專注于提供出色的轉換質量和準確性。它的轉換引擎使用先進的算法，可以保留原始PDF文件的布局和格式，并將其轉換為高質量的HTML文件。

【轉換步驟】

步驟一：使用瀏覽器打開平臺的網站后，選擇“PDFto HTML”功能。

步驟二：添加PDF文件，接著平臺就會自動識別并進行轉換。

三、使用ZAMZAR將PDF轉HTML

這是另一個在線文件轉換平臺，提供多種文件格式之間的轉換服務，包括PDF到HTML的轉換。這個平臺非常方便使用，我們不需要安裝任何軟件。

【轉換步驟】

步驟一：打開平臺后，通過“ChooseFiles”上傳PDF文件。

步驟二：在“WebFormats”中選擇“HTML”格式，接著點擊“ConvertNow”就能完成轉換。

看完這篇文章，大家都學會PDF怎么轉HTML了嗎？以上三種方法都可以很好地實現PDF到HTML的轉換，幫助我們利用PDF內容在網頁中發揮更廣泛的價值。具體選擇哪種方法，需要大家結合自身實際轉換需求來定。

spose.PDF for .NET是一種高級PDF處理和解析API，用于在跨平臺應用程序中執行文檔管理和操作任務。API可以輕松用于生成，修改，轉換，渲染，保護和打印PDF文檔，而無需使用Adobe Acrobat。此外，還提供PDF壓縮選項，表格創建和操作，圖形和圖像功能，廣泛的超鏈接功能，印章和水印任務，擴展的安全控制和自定義字體處理。

HTML到PDF的轉換在將不同文件格式相互轉換之間具有其自身的意義，可以使用其他可用的應用程序，工具和在線服務將HTML轉換為PDF。同樣，我們也可以使用編程的方式，將HTML轉換為PDF。

在Aspose.PDF for .Net中，提供了免費的HTML到PDF的基本轉換，而且還允許指定各種選項來實現所需的功能，比如將網頁轉換為PDF、使用SVG數據渲染HTML等等。接下來我們一起通過示例解讀的方式學習如何實現這些功能。

將HTML轉換到PDF

只需使用幾行代碼和資源加載回調就可以以非?；镜姆绞綄TML轉換為PDF，以下是使您達到目的的代碼段：

// The path to the documents directory.
string dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();
HtmlLoadOptions options = new HtmlLoadOptions();
options.CustomLoaderOfExternalResources = new LoadOptions.ResourceLoadingStrategy(SamePictureLoader);
Document pdfDocument = new Document(dataDir + "HTMLToPDF.html", options);
pdfDocument.Save("HTMLToPDF_out.pdf");
private static LoadOptions.ResourceLoadingResult SamePictureLoader(string resourceURI)
{
 string dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();
 byte[] resultBytes = File.ReadAllBytes(dataDir + "aspose-logo.jpg");
 LoadOptions.ResourceLoadingResult result = new LoadOptions.ResourceLoadingResult(resultBytes);
 return result;
}

將網頁轉換為PDF

通常需要將網頁轉換為PDF，并且如果手動執行此操作，則需要執行多個步驟。API提供的功能可以使用下面顯示的代碼執行。需要注意的是，以下代碼段涵蓋了Web頁面到PDF轉換操作的兩個主要和基本方面：

下載網頁正在使用的資源，例如 CSS、圖片
提供憑據以防訪問頁面

//文檔目錄的路徑。
string dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();
//創建對該URL的請求。
WebRequest request = WebRequest.Create("https:// En.wikipedia.org/wiki/Main_Page");
//如果服務器需要，請設置憑據。
request.Credentials = CredentialCache.DefaultCredentials;
//在請求超時之前以毫秒為單位超時
// Request.Timeout = 100;
//獲取響應。
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
//獲取包含服務器返回內容的流。
Stream dataStream = response.GetResponseStream();
//使用StreamReader打開流以方便訪問。
StreamReader reader = new StreamReader(dataStream);
//閱讀內容。
string responseFromServer = reader.ReadToEnd();
reader.Close();
dataStream.Close();
response.Close();
MemoryStream stream = new MemoryStream(System.Text.Encoding.UTF8.GetBytes(responseFromServer));
HtmlLoadOptions options = new HtmlLoadOptions("https:// En.wikipedia.org/wiki/");
//加載HTML文件
Document pdfDocument = new Document(stream, options);
options.PageInfo.IsLandscape = true;
//將輸出另存為PDF格式
pdfDocument.Save(dataDir + "WebPageToPDF_out.pdf");

使用SVG數據渲染HTML

以下代碼段顯示了如何將帶有SVG圖形標簽的HTML文件轉換為Tagged PDF Document：

//文檔目錄的路徑
string dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();
//設置輸入文件路徑
string inFile = dataDir + "HTMLSVG.html";
//設置輸出文件路徑
string outFile = dataDir + "RenderHTMLwithSVGData.pdf";
//初始化HtmlLoadOptions
HtmlLoadOptions options = new HtmlLoadOptions(Path.GetDirectoryName(inFile));
//初始化Document對象
Document pdfDocument = new Document(inFile, options);
//保存
pdfDocument.Save(outFile);

點擊下方“了解更多”免費下載最新版Aspose.PDF for .NET

↓↓↓

要使用的是wkhtmltopdf的Python封裝——pdfkit

安裝

1. Install python-pdfkit:

$ pip install pdfkit

2. Install wkhtmltopdf:

Debian/Ubuntu:

$ sudo apt-get install wkhtmltopdf

Redhat/CentOS

sudo yum intsall wkhtmltopdf

MacOS

brew install Caskroom/cask/wkhtmltopdf

使用

一個簡單的例子:

import pdfkit

pdfkit.from_url('http://google.com', 'out.pdf')

pdfkit.from_file('test.html', 'out.pdf')

pdfkit.from_string('Hello!', 'out.pdf')

你也可以傳遞一個url或者文件名列表:

pdfkit.from_url(['google.com', 'yandex.ru', 'engadget.com'], 'out.pdf')

pdfkit.from_file(['file1.html', 'file2.html'], 'out.pdf')

也可以傳遞一個打開的文件:

with open('file.html') as f:

pdfkit.from_file(f, 'out.pdf')

如果你想對生成的PDF作進一步處理，你可以將其讀取到一個變量中:

# 設置輸出文件為False，將結果賦給一個變量

pdf = pdfkit.from_url('http://google.com', False)

你可以制定所有的 wkhtmltopdf 選項 http://wkhtmltopdf.org/usage/wkhtmltopdf.txt. 你可以移除選項名字前面的 '--' .如果選項沒有值, 使用None, False or * 作為字典值:

options = {

'page-size': 'Letter',

'margin-top': '0.75in',

'margin-right': '0.75in',

'margin-bottom': '0.75in',

'margin-left': '0.75in',

'encoding': "UTF-8",

'no-outline': None

}

pdfkit.from_url('http://google.com', 'out.pdf', options=options)

默認情況下, PDFKit 將會顯示所有的 wkhtmltopdf 輸出. 如果你不想看到這些信息，你需要傳遞一個 quiet 選項:

options = {

'quiet': ''

}

pdfkit.from_url('google.com', 'out.pdf', options=options)

由于wkhtmltopdf的命令語法 , TOC 和 Cover 選項必須分開指定:

toc = {

'xsl-style-sheet': 'toc.xsl'

}

cover = 'cover.html'

pdfkit.from_file('file.html', options=options, toc=toc, cover=cover)

當你轉換文件、或字符串的時候，你可以通過css選項指定擴展的 CSS 文件。

# 單個 CSS 文件

css = 'example.css'

pdfkit.from_file('file.html', options=options, css=css)

# Multiple CSS files

css = ['example.css', 'example2.css']

pdfkit.from_file('file.html', options=options, css=css)

你也可以通過你的HTML中的meta tags傳遞任意選項：

body = """

<html>

<head>

</head>

Hello World!

</html>

"""

pdfkit.from_string(body, 'out.pdf') #with --page-size=Legal and --orientation=Landscape

配置

每個API調用都有一個可選的參數。這應該是pdfkit.configuration()API 調用的一個實例. 采用configuration 選項作為初始化參數?？捎玫倪x項有:

wkhtmltopdf ——wkhtmltopdf二進制文件所在的位置。默認情況下pdfkit 會嘗試使用which (在類UNIX系統中) 或 where (在Windows系統中)來判斷
meta_tag_prefix -- pdfkit的前綴指定 meta tags（元標簽） - 默認情況是pdfkit-

示例：針對wkhtmltopdf不在系統路徑中（不在$PATH里面)

PATH里面）:

config = pdfkit.configuration(wkhtmltopdf='/opt/bin/wkhtmltopdf'))

pdfkit.from_string(html_string, output_file, configuration=config)

問題

IOError:'No wkhtmltopdf executable found':

確保 wkhtmltopdf 在你的系統路徑中（PATH），會通過 configuration進行了配置 (詳情看上文描述)。在Windows系統中使用where wkhtmltopdf命令或在 linux系統中使用 which wkhtmltopdf 會返回 wkhtmltopdf二進制可執行文件所在的確切位置.

IOError: 'Command Failed'

如果出現這個錯誤意味著 PDFKit不能處理一個輸入。你可以嘗試直接在錯誤信息后面直接運行一個命令來查看是什么導致了這個錯誤（某些版本的 wkhtmltopdf會因為段錯誤導致處理失?。?/p>

正常生成，但是出現中文亂碼

確保兩項：

1）、你的系統中有中文字體

2）、在html中加入

下面是我隨便寫的一個HTML表格：

<html>

<body>

<tr>

</tr>

<tr>

</tr>

<tr>

</tr>

<tr>

</tr>

<tr>

<th align="left">tOTAL</th>

</tr>

</table>

</body>

</html>

下面是生成的PDF截圖

在線咨詢

上一篇：一款很酷炫的自動化測試報告框架 ExtentReport
下一篇：HTML 音頻(Audio)

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

PDF轉HTML格式如何轉？看完這篇你就會了

將HTML轉換到PDF

將網頁轉換為PDF

使用SVG數據渲染HTML

您的項目需求