如何提取纯文本从MS Word文档文件在纯C ++? [英] How to extract plain text from MS word document file in pure C++?

查看:171
本文介绍了如何提取纯文本从MS Word文档文件在纯C ++?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

有没有纯C ++库从.doc文件中提取纯文本?

Is there any pure C++ library to extract plain text from a .doc file?

我正在开发一个C ++程序来读取.doc和.pdf文件。我必须从文件中提取纯文本并将其写入一个.txt文件。

I'm developing a C++ program to read .doc and .pdf files. I have to extract plain text from the file and write it into a .txt file.

推荐答案

Abiword使用的开源C库, wv

You could have a look at the open source C library used by Abiword, wv.

您还可以调用批量转换工具

You can also call out to a batch convert tool

  • Open source batch converter, based on OpenOffice: http://dag.wieers.com/home-made/unoconv/
  • The open source for unix: http://www.wagner.pp.ru/~vitus/software/catdoc/
  • Proprietary for windows: http://doc2txt.com/. Note I havn't tried this one.

这篇关于如何提取纯文本从MS Word文档文件在纯C ++?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆