解析/转换旧的 Word 文档?(msword2/5) [英] Parsing / Converting legacy Word documents? (msword2 / 5)

查看:27
本文介绍了解析/转换旧的 Word 文档?(msword2/5)的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我们得到了一些非常旧的 .doc 文件.通常我们使用 tika(我们的应用程序通常会提取文本,然后进行 PDF/A 转换),但显然 当前 不支持 msword2(和 msword5).我发现的唯一替代方案是 Libreoffice 命令行.还有什么吗?

We got some really old .doc documents. Normally we use tika (our application normally does a text extract and then a PDF/A convert) but apparently msword2 (and msword5) are not supported currently. The only alternative I found was Libreoffice commandline. Is there anything else?

搜索这个非常困难,因为其他人似乎都在寻找 1995 年的旧"

而不是 <1991

Searching for this is quite hard since everyone else seems to be looking for "old" as in 1995< and not <1991

推荐答案

我们已经对这个问题进行了更多的研究,似乎唯一的答案是我们需要使用某个版本的 libwps 库(这是相同的LibreOffice 使用).

We have looked into the issue a bit more and it seems that the only answer is that we need to use some version of the libwps library (which is the same LibreOffice uses).

我们将研究使用 Libreoffice 命令行或库本身的利弊,并且可能只会创建一个微服务供我们的应用程序使用.

We will look into the pros and cons of using Libreoffice commandline or the library itself and will probably just create a microservice for our application to use.

这篇关于解析/转换旧的 Word 文档?(msword2/5)的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆