如何提取纯文本从MS Word文档文件在纯C ++? [英] How to extract plain text from MS word document file in pure C++?
本文介绍了如何提取纯文本从MS Word文档文件在纯C ++?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
有没有纯C ++库从.doc文件中提取纯文本?
Is there any pure C++ library to extract plain text from a .doc file?
我正在开发一个C ++程序来读取.doc和.pdf文件。我必须从文件中提取纯文本并将其写入一个.txt文件。
I'm developing a C++ program to read .doc and .pdf files. I have to extract plain text from the file and write it into a .txt file.
推荐答案
Abiword使用的开源C库, wv 。
You could have a look at the open source C library used by Abiword, wv.
您还可以调用批量转换工具
You can also call out to a batch convert tool
- 基于OpenOffice打开源批量转换器: http://dag.wieers.com/home-made/unoconv/
- unix的开放源代码: http://www.wagner.pp。 ru /〜vitus / software / catdoc /
- 专用于Windows: http: //doc2txt.com/ 。注意我没有尝试这个。
- Open source batch converter, based on OpenOffice: http://dag.wieers.com/home-made/unoconv/
- The open source for unix: http://www.wagner.pp.ru/~vitus/software/catdoc/
- Proprietary for windows: http://doc2txt.com/. Note I havn't tried this one.
这篇关于如何提取纯文本从MS Word文档文件在纯C ++?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文