docx4j (只能是docx)word转pdf 【增加:中文宋体(中文正文)类型转换乱码】

本文介绍了一种使用Java将.docx文件转换为PDF的方法。通过docx4j库及一系列相关依赖,实现了字体映射等功能,并提供了完整的示例代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

直接用java代码进行 word 转pdf ,测试没有问题

docx4j 依赖的库:

<dependency>
    <groupId>args4j</groupId>
    <artifactId>args4j</artifactId>
    <version>2.32</version>
</dependency>
<dependency>
    <groupId>org.docx4j</groupId>
    <artifactId>docx4j</artifactId>
    <version>3.2.1</version>
</dependency>
<dependency>
    <groupId>fr.opensagres.xdocreport</groupId>
    <artifactId>org.apache.poi.xwpf.converter.pdf</artifactId>
    <version>1.0.6</version>
</dependency>
<dependency>
    <groupId>fr.opensagres.xdocreport</groupId>
    <artifactId>org.odftoolkit.odfdom.converter.pdf</artifactId>
    <version>1.0.6</version>
</dependency>
<dependency>
    <groupId>com.googlecode.jaxb-namespaceprefixmapper-interfaces</groupId>
    <artifactId>JAXBNamespacePrefixMapper</artifactId>
    <version>2.2.4</version>
    <scope>runtime</scope>
</dependency>
<dependency>
    <groupId>com.sun.xml.bind</groupId>
    <artifactId>jaxb-impl</artifactId>
    <version>2.2.11</version>
</dependency>
<dependency>
    <groupId>com.sun.xml.bind</groupId>
    <artifactId>jaxb-core</artifactId>
    <version>2.2.11</version>
</dependency>       <!-- https://mvnrepository.com/artifact/org.apache.xmlbeans/xmlbeans -->
<dependency>
    <groupId>org.apache.xmlbeans</groupId>
    <artifactId>xmlbeans</artifactId>
    <version>2.6.0</version>
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>3.14</version><!--$NO-MVN-MAN-VER$-->
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-scratchpad</artifactId>
    <version>3.14</version><!--$NO-MVN-MAN-VER$-->
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>3.14</version><!--$NO-MVN-MAN-VER$-->
</dependency>

java 代码如下:

/**
 * docx文档转换为PDF
 *
 * @param pdfPath PDF文档存储路径
 * @throws Exception 可能为Docx4JException, FileNotFoundException, IOException等
 */
public static void convertDocxToPDF(String docxPath, String pdfPath) throws Exception {
    OutputStream os = null;
    try {
        InputStream is = new FileInputStream(new File(docxPath));
        WordprocessingMLPackage mlPackage = WordprocessingMLPackage.load(is);
        Mapper fontMapper = new IdentityPlusMapper();
        fontMapper.put("隶书", PhysicalFonts.get("LiSu"));
        fontMapper.put("宋体",PhysicalFonts.get("SimSun"));
        fontMapper.put("微软雅黑",PhysicalFonts.get("Microsoft Yahei"));
        fontMapper.put("黑体",PhysicalFonts.get("SimHei"));
        fontMapper.put("楷体",PhysicalFonts.get("KaiTi"));
        fontMapper.put("新宋体",PhysicalFonts.get("NSimSun"));
        fontMapper.put("华文行楷", PhysicalFonts.get("STXingkai"));
        fontMapper.put("华文仿宋", PhysicalFonts.get("STFangsong"));
        fontMapper.put("宋体扩展",PhysicalFonts.get("simsun-extB"));
        fontMapper.put("仿宋",PhysicalFonts.get("FangSong"));
        fontMapper.put("仿宋_GB2312",PhysicalFonts.get("FangSong_GB2312"));
        fontMapper.put("幼圆",PhysicalFonts.get("YouYuan"));
        fontMapper.put("华文宋体",PhysicalFonts.get("STSong"));
        fontMapper.put("华文中宋",PhysicalFonts.get("STZhongsong"));

        mlPackage.setFontMapper(fontMapper);

        os = new java.io.FileOutputStream(pdfPath);

        FOSettings foSettings = Docx4J.createFOSettings();
        foSettings.setWmlPackage(mlPackage);
        Docx4J.toFO(foSettings, os, Docx4J.FLAG_EXPORT_PREFER_XSL);

    }catch(Exception ex){
        ex.printStackTrace();
    }finally {
        IOUtils.closeQuietly(os);
    }
}

 

在使用 docx4j 处理 Word 文档时,中文乱码是一个常见问题,尤其是在将 `.docx` 文件换为 PDF 或生成带有中文字体的文档时。以下是几种有效的解决方案,结合了实际应用中的经验和常见问题的排查方法。 ### 字体映射配置 由于 docx4j 在解析 `.docx` 文件时会读取字体名称,而这些字体名称在文档中通常是中文的(如“宋体”、“黑体”),但在系统字体库中可能以英文名称存在(如 `SimSun`、`SimHei`),因此需要进行字体名称的映射。可以通过配置字体映射表来解决这一问题。 ```java // 示例:在换前设置字体映射 FontMapper fontMapper = new FontMapper(); fontMapper.put("宋体", "SimSun"); fontMapper.put("黑体", "SimHei"); fontMapper.put("楷体", "KaiTi"); fontMapper.put("仿宋", "FangSong"); // 将字体映射器设置到换器中 FOSettings foSettings = Docx4J.toFO.getFOSettings(); foSettings.setFontMapper(fontMapper); ``` ### 安装中文字体(适用于 Linux) 如果运行环境是 Linux 系统,通常缺少 Windows 中常见的中文字体(如 `SimSun`)。可以通过将 Windows 系统中的字体文件复制到 Linux 系统并安装来解决字体缺失的问题。字体文件通常位于 `C:\Windows\Fonts` 目录下,将 `simsun.ttc` 或 `SimHei.ttf` 等字体文件复制到 Linux 系统的字体目录(如 `/usr/share/fonts/truetype/`),然后执行字体缓存更新命令: ```bash fc-cache -fv ``` ### 使用统一字体(如黑体)规避问题 在某些情况下,即使配置了字体映射和安装了字体,生成的 PDF 仍可能出现乱码。此时可以尝试将 `.docx` 模板中的字体统一设置为黑体(`SimHei`),因为该字体在多数系统中支持较好,且较少出现映射问题。 ### 设置默认编码 乱码问题也可能与系统默认编码有关。在 Java 应用中,确保 JVM 启动参数中指定了正确的编码格式,例如: ```bash -Dfile.encoding=UTF-8 ``` 此外,在程序中也可以显式指定编码格式: ```java System.setProperty("file.encoding", "UTF-8"); ``` ### 日志与调试 如果上述方法仍无法解决问题,建议开启 docx4j 的日志输出,查看字体加载和换过程中的详细信息,有助于定位问题所在。可以通过配置 `log4j.properties` 或使用 `java.util.logging` 来启用调试日志。 --- ###
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值