Spring Boot集成tika實現word轉html

.什么是tika?

Tika是一個內容分析工具，自帶全面的parser工具類，能解析基本所有常見格式的文件，得到文件的metadata，content等內容，返回格式化信息。總的來說可以作為一個通用的解析工具。特別對于搜索引擎的數據抓去和處理步驟有重要意義。Tika是Apache的Lucene項目下面的子項目，在lucene的應用中可以使用tika獲取大批量文檔中的內容來建立索引，非常方便，也很容易使用。Apache Tika toolkit可以自動檢測各種文檔(如word,ppt,xml,csv,ppt等)的類型并抽取文檔的元數據和文本內容。Tika集成了現有的文檔解析庫，并提供統一的接口，使針對不同類型的文檔進行解析變得更簡單。Tika針對搜索引擎索引、內容分析、轉化等非常有用。

Tika架構

應用程序員可以很容易地在他們的應用程序集成Tika。Tika提供了一個命令行界面和圖形用戶界面，使它比較人性化。在本章中，我們將討論構成Tika架構的四個重要模塊。下圖顯示了Tika的四個模塊的體系結構：

語言檢測機制。
MIME檢測機制。
Parser接口。
Tika Facade 類.

語言檢測機制

每當一個文本文件被傳遞到Tika，它將檢測在其中的語言。它接受沒有語言的注釋文件和通過檢測該語言添加在該文件的元數據信息。支持語言識別，Tika 有一類叫做語言標識符在包org.apache.tika.language及語言識別資料庫里面包含了語言檢測從給定文本的算法。Tika 內部使用N-gram算法語言檢測。

MIME檢測機制

Tika可以根據MIME標準檢測文檔類型。Tika默認MIME類型檢測是使用org.apache.tika.mime.mimeTypes。它使用org.apache.tika.detect.Detector 接口大部分內容類型檢測。內部Tika使用多種技術，如文件匹配替換，內容類型提示，魔術字節，字符編碼，以及其他一些技術。

解析器接口

org.apache.tika.parser 解析器接口是Tika解析文檔的主要接口。該接口從提取文檔中的文本和元數據，并總結了其對外部用戶愿意寫解析器插件。采用不同的具體解析器類，具體為各個文檔類型，Tika 支持大量的文件格式。這些格式的具體類不同的文件格式提供支持，無論是通過直接實現邏輯分析器或使用外部解析器庫。

Tika Facade 類

使用的Tika facade類是從Java調用Tika的最簡單和直接的方式，而且也沿用了外觀的設計模式。可以在 Tika API的org.apache.tika包Tika 找到外觀facade類。通過實現基本用例，Tika作為facade的代理。它抽象了的Tika庫的底層復雜性，例如MIME檢測機制，解析器接口和語言檢測機制，并提供給用戶一個簡單的接口來使用。

2.代碼工程

實驗目標

實現word文檔轉html

pom.xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <artifactId>springboot-demo</artifactId>
        <groupId>com.et</groupId>
        <version>1.0-SNAPSHOT</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>

    <artifactId>tika</artifactId>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
    </properties>
    <dependencies>

        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-autoconfigure</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-test</artifactId>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.tika</groupId>
            <artifactId>tika-parsers</artifactId>
            <version>1.17</version>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
        </dependency>

    </dependencies>
</project>

controller

package com.et.tika.controller;

import com.et.tika.convertor.WordToHtmlConverter;
import com.et.tika.dto.ConvertedDocumentDTO;
import lombok.extern.slf4j.Slf4j;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.multipart.MultipartFile;

import java.util.HashMap;
import java.util.Map;

@RestController
@Slf4j
public class HelloWorldController {
    @RequestMapping("/hello")
    public Map<String, Object> showHelloWorld(){
        Map<String, Object> map = new HashMap<>();
        map.put("msg", "HelloWorld");
        return map;
    }
    @Autowired
    WordToHtmlConverter converter;



    /**
     * Transforms the Word document into HTML document and returns the transformed document.
     *
     * @return  The content of the uploaded document as HTML.
     */
    @RequestMapping(value = "/api/word-to-html", method = RequestMethod.POST)
    public ConvertedDocumentDTO convertWordDocumentIntoHtmlDocument(@RequestParam(value = "file", required = true) MultipartFile wordDocument) {
        log.info("Converting word document into HTML document");

        ConvertedDocumentDTO htmlDocument = converter.convertWordDocumentIntoHtml(wordDocument);

        log.info("Converted word document into HTML document.");
        log.trace("The created HTML markup looks as follows: {}", htmlDocument);

        return htmlDocument;
    }
}

WordToHtmlConverter

package com.et.tika.convertor;


import com.et.tika.dto.ConvertedDocumentDTO;
import com.et.tika.exception.DocumentConversionException;
import lombok.extern.slf4j.Slf4j;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.stereotype.Component;
import org.springframework.web.multipart.MultipartFile;
import org.xml.sax.SAXException;

import javax.xml.transform.OutputKeys;
import javax.xml.transform.TransformerException;
import javax.xml.transform.sax.SAXTransformerFactory;
import javax.xml.transform.sax.TransformerHandler;
import javax.xml.transform.stream.StreamResult;
import java.io.IOException;
import java.io.InputStream;
import java.io.StringWriter;

/**
 *
 */
@Component
@Slf4j
public class WordToHtmlConverter {


    /**
     * Converts a .docx document into HTML markup. This code
     * is based on <a href="http://stackoverflow.com/a/9053258/313554">this StackOverflow</a> answer.
     *
     * @param wordDocument  The converted .docx document.
     * @return
     */
    public ConvertedDocumentDTO convertWordDocumentIntoHtml(MultipartFile wordDocument) {
        log.info("Converting word document: {} into HTML", wordDocument.getOriginalFilename());
        try {
            InputStream input = wordDocument.getInputStream();
            Parser parser = new OOXMLParser();

            StringWriter sw = new StringWriter();
            SAXTransformerFactory factory = (SAXTransformerFactory)
                    SAXTransformerFactory.newInstance();
            TransformerHandler handler = factory.newTransformerHandler();
            handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "utf-8");
            handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html");
            handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");
            handler.setResult(new StreamResult(sw));

            Metadata metadata = new Metadata();
            metadata.add(Metadata.CONTENT_TYPE, "text/html;charset=utf-8");
            parser.parse(input, handler, metadata, new ParseContext());
            return new ConvertedDocumentDTO(wordDocument.getOriginalFilename(), sw.toString());
        }
        catch (IOException | SAXException | TransformerException | TikaException ex) {
            log.error("Conversion failed because an exception was thrown", ex);
            throw new DocumentConversionException(ex.getMessage(), ex);
        }
    }
}

dto

package com.et.tika.dto;

import org.apache.commons.lang.builder.ToStringBuilder;

/**
 *
 */
public  class ConvertedDocumentDTO {

    private final String contentAsHtml;
    private final String filename;

    public ConvertedDocumentDTO(String filename, String contentAsHtml) {
        this.contentAsHtml = contentAsHtml;
        this.filename = filename;
    }

    public String getContentAsHtml() {
        return contentAsHtml;
    }

    public String getFilename() {
        return filename;
    }

    @Override
    public String toString() {
        return new ToStringBuilder(this)
                .append("filename", this.filename)
                .append("contentAsHtml", this.contentAsHtml)
                .toString();
    }
}

自定義異常

package com.et.tika.exception;

/**
 *
 */
public final class DocumentConversionException extends RuntimeException {

    public DocumentConversionException(String message, Exception ex) {
        super(message, ex);
    }
}

以上只是一些關鍵代碼，所有代碼請參見下面代碼倉庫

代碼倉庫

https://github.com/Harries/springboot-demo

3.測試

啟動Spring Boot應用

測試word轉html

4.引用

https://tika.apache.org/
http://www.liuhaihua.cn/archives/710679.html

當今數字化的時代，HTML和PDF已經成為兩種最常用的文件格式。HTML用于網頁內容的展示，而PDF則以其高度的可讀性和不依賴于平臺的特性，成為文檔分享和傳播的首選格式。然而，在辦公環境中，我們經常需要在這兩種格式之間進行轉換。那有沒有一種方法可以一鍵完成，批量轉換HTML為PDF格式，從而提升我們的辦公效率呢？現在一起來看看“辦公提效工具”如何批量操作的技巧吧。

把想要的網頁保存在本地磁盤中。

如何實現一鍵完成，批量轉換HTML為PDF呢？這里我們介紹一款常用的工具——辦公提效工具。辦公提效工具是一款強大的PDF編輯軟件，它提供了“批量轉換”功能，可以方便地將多個HTML文件一次性轉換為PDF格式。具體步驟如下：

操作1、在辦公提效工具面板上選擇“PDF編輯工具”進入該編輯頁。

操作2、選擇轉換模式，支持多種格式轉換。下面選擇“html轉pdf”。

操作3、在面板上點擊“添加文件”，接著在彈出的文件選擇對話框中，選擇需要轉換的HTML文件，然后點擊“打開”自動導入到列表中。

操作4、選擇新文件保存位置，下面選擇“原文件相同位置”。

操作5、以上都設定好后，在面板上點擊“開始轉換”進入任務轉換，接著看到狀態欄中轉換進度發生變化。

操作6、轉換成功點擊“打開文件夾”進入路徑看到已轉的兩個pdf文件。

操作7、打開pdf文件看到內容與網頁相同。該有的文字和圖片等內容版面一致。

通過以上步驟，我們就可以輕松實現一鍵完成，批量轉換HTML為PDF格式。這種方法不僅可以大大提升我們的辦公效率，還可以避免一個個等待的煩惱。同時，辦公提效工具還提供了許多其他的功能，如新建PDF文檔、修改原PDF文檔等，使得我們可以在處理PDF文件時更加得心應手。

總之，一鍵完成，批量轉換HTML為PDF格式的方法，是提升辦公效率的有效途徑之一。通過合理地利用工具和技術，我們可以更加高效地處理大量的文件和數據，從而更好地滿足工作需求。

擬機為我們提供了一個無限可能的世界。在這個世界里，我們可以嘗試、學習、甚至犯錯，而不必擔心現實生活中的后果。Emacs，作為一款強大的文本編輯器，它的Org模式更是讓人們在組織復雜信息時如魚得水。但是，當我們嘗試將Org文件轉換為HTML格式時，有時會遇到一個令人困惑的問題：“source block missing language specification #include”。這是什么意思？它又該如何解決呢？

在深入探討之前，讓我們先來思考一個問題：為什么我們要將Org文件轉換為HTML？答案可能各有不同，但一個共同點是，我們都希望能夠更好地分享和展示我們的工作。HTML作為一種廣泛支持的格式，能夠讓我們的內容在不同的平臺上呈現出一致的效果。這就像是我們穿上了一件合身的外衣，讓內在的價值得以外顯。

當我們遇到“source block missing language specification #include”的提示時，我們應該怎么辦呢？首先，我們需要理解這個提示的含義。在Emacs的Org模式中，當我們使用源代碼塊時，通常需要指定語言類型，比如#+BEGIN_SRC python。這樣，Emacs就能夠知道如何高亮和格式化我們的代碼。但如果我們忘記了這一步，就會收到上述的提示。

解決這個問題的方法其實很簡單。我們只需要回到源代碼塊的開始，確保正確地指定了語言類型。如果是包含在文件中的代碼，比如C語言的頭文件，我們可以使用#+INCLUDE: "file.h" src c這樣的語法來引入。

通過這個簡單的修正，我們就能夠順利地將Org文件轉換為HTML，而不會再有任何阻礙。這個過程就像是我們在虛擬世界中解決了一個謎題，獲得了前進的鑰匙。

并且可以嘗試以下幾種方法來解決：

方法一：添加語言規范

在 Org 文檔中，對于包含代碼塊的文本，需要添加語言規范，以便 Org-mode 正確地解析和轉換代碼。

具體步驟如下：

在代碼塊的開頭，添加一行指示語言規范的注釋。例如，對于 C 語言代碼，可以添加以下注釋：

#lang c

再次嘗試將 Org 文檔轉換為 HTML。

方法二：使用 org-babel

org-babel 是 Org-mode 的一個擴展包，可以用于將代碼塊轉換為各種格式，包括 HTML。

具體步驟如下：

安裝 org-babel 擴展包。

M-x package-install RET org-babel

在 Org 文檔中，將代碼塊標記為 babel 塊。例如，對于 C 語言代碼，可以使用以下標記：

#+begin_src c#include <stdio.h>int main() {  printf("Hello, world!\n");  return 0;}#+end_src

再次嘗試將 Org 文檔轉換為 HTML。

方法三：使用 org-html-export-filter

org-html-export-filter 是 Org-mode 的一個函數，可以用于在導出 HTML 時自定義代碼塊的轉換。

具體步驟如下：

在 Emacs 配置文件中，添加以下代碼：

(defun my-org-html-export-filter (block)  "自定義代碼塊的轉換。"  (if (string-match-p "^#lang\s+c\s*$" (org-block-property block :language))    (org-html-export-filter-block-as-code block "c" "highlight")    (org-html-export-filter-block-as-verbatim block)))(add-hook 'org-html-export-filter-alist 'my-org-html-export-filter)

再次嘗試將 Org 文檔轉換為 HTML。

以上三種方法都可以解決 Org 轉為 HTML 時提示“source block missing language specification #include<stdio.h>”的問題。具體選擇哪種方法，可以根據自己的實際情況和需求來決定。

在線咨詢

上一篇：HTML 鏈接
下一篇：來篇Java集合框架綜述，助你吃透它（建議收藏常看）！

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

Spring Boot集成tika實現word轉html

.什么是tika?

Tika架構

語言檢測機制

MIME檢測機制

解析器接口

Tika Facade 類

2.代碼工程

實驗目標

pom.xml

controller

WordToHtmlConverter

dto

自定義異常

代碼倉庫

3.測試

測試word轉html

4.引用

您的項目需求