免費領取：PDF轉word,Excel,ppt,html等工具安裝教程（附安裝包）

費領取：PDF轉word,Excel,ppt,html等工具安裝教程（附安裝包）

今天卯卯分享給伙伴們的是PDF文件格式轉換工具安裝教程（附安裝包），PDF轉換工具支持Word, Doc, RTF, TXT, Excel , PPT等。

（領取方式見文章末尾）

如果你需要編輯PDF文件，手邊又沒有相關的編輯軟件，也不必煩惱，只要你的電腦中安裝了PDF格式轉換器，那么你完全可以使用它來進行PDF文件的編輯和修改，以實現PDF轉WORD文檔。

1.下載軟件壓縮包

2.解壓軟件，雙擊PDF運行軟件

PDF文件格式轉換工具

3.輸入注冊郵箱，注冊碼激活

PDF文件格式轉換工具

4.軟件安裝完成

PDF文件格式轉換工具

免費領取：PDF轉word,Excel,ppt,html等工具安裝教程（附安裝包）。

ava實現在線預覽- -之poi實現word、excel、ppt轉html

簡介

java實現在線預覽功能是一個大家在工作中也許會遇到的需求，如果公司有錢，直接使用付費的第三方軟件或者云在線預覽服務就可以了，例如永中office、office web 365(http://www.officeweb365.com/)他們都有云在線預覽服務，就是要錢0.0

如果想要免費的，可以用openoffice，還需要借助其他的工具(例如swfTools、FlexPaper等)才行，可參考這篇文章http://blog.csdn.net/z69183787/article/details/17468039，寫的挺細的，實現原理就是：

1.通過第三方工具openoffice，將word、excel、ppt、txt等文件轉換為pdf文件；

2.通過swfTools將pdf文件轉換成swf格式的文件；

3.通過FlexPaper文檔組件在頁面上進行展示。

當然如果裝了Adobe Reader XI，那把pdf直接拖到瀏覽器頁面就可以直接打開預覽，這樣就不需要步驟2、3了，前提就是客戶裝了Adobe Reader XI這個pdf閱讀器。

我這里介紹通過poi實現word、excel、ppt轉html，這樣就可以放在頁面上了。

word轉html

excel轉html

ppt轉html

其實只是ppt轉圖片，有了圖片后放到頁面上去，點擊下一頁就一張張顯示就可以了。這里只介紹ppt轉圖片的過程。

ppt轉圖片有個缺陷，就是ppt里不是宋體的字有些可能會變成框框。

以上都需要引入poi的jar包。

要實現在線預覽，只需把轉換得到的html在新標簽頁打開或者鑲嵌到某塊區域就可以展現了。

.什么是tika?

Tika是一個內容分析工具，自帶全面的parser工具類，能解析基本所有常見格式的文件，得到文件的metadata，content等內容，返回格式化信息。總的來說可以作為一個通用的解析工具。特別對于搜索引擎的數據抓去和處理步驟有重要意義。Tika是Apache的Lucene項目下面的子項目，在lucene的應用中可以使用tika獲取大批量文檔中的內容來建立索引，非常方便，也很容易使用。Apache Tika toolkit可以自動檢測各種文檔(如word,ppt,xml,csv,ppt等)的類型并抽取文檔的元數據和文本內容。Tika集成了現有的文檔解析庫，并提供統一的接口，使針對不同類型的文檔進行解析變得更簡單。Tika針對搜索引擎索引、內容分析、轉化等非常有用。

Tika架構

應用程序員可以很容易地在他們的應用程序集成Tika。Tika提供了一個命令行界面和圖形用戶界面，使它比較人性化。在本章中，我們將討論構成Tika架構的四個重要模塊。下圖顯示了Tika的四個模塊的體系結構：

語言檢測機制。
MIME檢測機制。
Parser接口。
Tika Facade 類.

語言檢測機制

每當一個文本文件被傳遞到Tika，它將檢測在其中的語言。它接受沒有語言的注釋文件和通過檢測該語言添加在該文件的元數據信息。支持語言識別，Tika 有一類叫做語言標識符在包org.apache.tika.language及語言識別資料庫里面包含了語言檢測從給定文本的算法。Tika 內部使用N-gram算法語言檢測。

MIME檢測機制

Tika可以根據MIME標準檢測文檔類型。Tika默認MIME類型檢測是使用org.apache.tika.mime.mimeTypes。它使用org.apache.tika.detect.Detector 接口大部分內容類型檢測。內部Tika使用多種技術，如文件匹配替換，內容類型提示，魔術字節，字符編碼，以及其他一些技術。

解析器接口

org.apache.tika.parser 解析器接口是Tika解析文檔的主要接口。該接口從提取文檔中的文本和元數據，并總結了其對外部用戶愿意寫解析器插件。采用不同的具體解析器類，具體為各個文檔類型，Tika 支持大量的文件格式。這些格式的具體類不同的文件格式提供支持，無論是通過直接實現邏輯分析器或使用外部解析器庫。

Tika Facade 類

使用的Tika facade類是從Java調用Tika的最簡單和直接的方式，而且也沿用了外觀的設計模式。可以在 Tika API的org.apache.tika包Tika 找到外觀facade類。通過實現基本用例，Tika作為facade的代理。它抽象了的Tika庫的底層復雜性，例如MIME檢測機制，解析器接口和語言檢測機制，并提供給用戶一個簡單的接口來使用。

2.代碼工程

實驗目標

實現word文檔轉html

pom.xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <artifactId>springboot-demo</artifactId>
        <groupId>com.et</groupId>
        <version>1.0-SNAPSHOT</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>

    <artifactId>tika</artifactId>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
    </properties>
    <dependencies>

        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-autoconfigure</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-test</artifactId>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.tika</groupId>
            <artifactId>tika-parsers</artifactId>
            <version>1.17</version>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
        </dependency>

    </dependencies>
</project>

controller

package com.et.tika.controller;

import com.et.tika.convertor.WordToHtmlConverter;
import com.et.tika.dto.ConvertedDocumentDTO;
import lombok.extern.slf4j.Slf4j;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.multipart.MultipartFile;

import java.util.HashMap;
import java.util.Map;

@RestController
@Slf4j
public class HelloWorldController {
    @RequestMapping("/hello")
    public Map<String, Object> showHelloWorld(){
        Map<String, Object> map = new HashMap<>();
        map.put("msg", "HelloWorld");
        return map;
    }
    @Autowired
    WordToHtmlConverter converter;



    /**
     * Transforms the Word document into HTML document and returns the transformed document.
     *
     * @return  The content of the uploaded document as HTML.
     */
    @RequestMapping(value = "/api/word-to-html", method = RequestMethod.POST)
    public ConvertedDocumentDTO convertWordDocumentIntoHtmlDocument(@RequestParam(value = "file", required = true) MultipartFile wordDocument) {
        log.info("Converting word document into HTML document");

        ConvertedDocumentDTO htmlDocument = converter.convertWordDocumentIntoHtml(wordDocument);

        log.info("Converted word document into HTML document.");
        log.trace("The created HTML markup looks as follows: {}", htmlDocument);

        return htmlDocument;
    }
}

WordToHtmlConverter

package com.et.tika.convertor;


import com.et.tika.dto.ConvertedDocumentDTO;
import com.et.tika.exception.DocumentConversionException;
import lombok.extern.slf4j.Slf4j;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.stereotype.Component;
import org.springframework.web.multipart.MultipartFile;
import org.xml.sax.SAXException;

import javax.xml.transform.OutputKeys;
import javax.xml.transform.TransformerException;
import javax.xml.transform.sax.SAXTransformerFactory;
import javax.xml.transform.sax.TransformerHandler;
import javax.xml.transform.stream.StreamResult;
import java.io.IOException;
import java.io.InputStream;
import java.io.StringWriter;

/**
 *
 */
@Component
@Slf4j
public class WordToHtmlConverter {


    /**
     * Converts a .docx document into HTML markup. This code
     * is based on <a href="http://stackoverflow.com/a/9053258/313554">this StackOverflow</a> answer.
     *
     * @param wordDocument  The converted .docx document.
     * @return
     */
    public ConvertedDocumentDTO convertWordDocumentIntoHtml(MultipartFile wordDocument) {
        log.info("Converting word document: {} into HTML", wordDocument.getOriginalFilename());
        try {
            InputStream input = wordDocument.getInputStream();
            Parser parser = new OOXMLParser();

            StringWriter sw = new StringWriter();
            SAXTransformerFactory factory = (SAXTransformerFactory)
                    SAXTransformerFactory.newInstance();
            TransformerHandler handler = factory.newTransformerHandler();
            handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "utf-8");
            handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html");
            handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");
            handler.setResult(new StreamResult(sw));

            Metadata metadata = new Metadata();
            metadata.add(Metadata.CONTENT_TYPE, "text/html;charset=utf-8");
            parser.parse(input, handler, metadata, new ParseContext());
            return new ConvertedDocumentDTO(wordDocument.getOriginalFilename(), sw.toString());
        }
        catch (IOException | SAXException | TransformerException | TikaException ex) {
            log.error("Conversion failed because an exception was thrown", ex);
            throw new DocumentConversionException(ex.getMessage(), ex);
        }
    }
}

dto

package com.et.tika.dto;

import org.apache.commons.lang.builder.ToStringBuilder;

/**
 *
 */
public  class ConvertedDocumentDTO {

    private final String contentAsHtml;
    private final String filename;

    public ConvertedDocumentDTO(String filename, String contentAsHtml) {
        this.contentAsHtml = contentAsHtml;
        this.filename = filename;
    }

    public String getContentAsHtml() {
        return contentAsHtml;
    }

    public String getFilename() {
        return filename;
    }

    @Override
    public String toString() {
        return new ToStringBuilder(this)
                .append("filename", this.filename)
                .append("contentAsHtml", this.contentAsHtml)
                .toString();
    }
}

自定義異常

package com.et.tika.exception;

/**
 *
 */
public final class DocumentConversionException extends RuntimeException {

    public DocumentConversionException(String message, Exception ex) {
        super(message, ex);
    }
}

以上只是一些關鍵代碼，所有代碼請參見下面代碼倉庫

代碼倉庫

https://github.com/Harries/springboot-demo

3.測試

啟動Spring Boot應用

測試word轉html

4.引用

https://tika.apache.org/
http://www.liuhaihua.cn/archives/710679.html

在線咨詢

上一篇：個人防疫手冊（第二版）
下一篇：在學習html？這一篇文章就夠了

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

免費領取：PDF轉word,Excel,ppt,html等工具安裝教程（附安裝包）

費領取：PDF轉word,Excel,ppt,html等工具安裝教程（附安裝包）

ava實現在線預覽- -之poi實現word、excel、ppt轉html

簡介

word轉html

excel轉html

ppt轉html

.什么是tika?

Tika架構

語言檢測機制

MIME檢測機制

解析器接口

Tika Facade 類

2.代碼工程

實驗目標

pom.xml

controller

WordToHtmlConverter

dto

自定義異常

代碼倉庫

3.測試

測試word轉html

4.引用

您的項目需求