TIKA - 参考API

用户可以使用Tika facade类将Tika嵌入到他们的应用程序中.它有方法来探索Tika的所有功能.由于它是一个门面类,Tika抽象了其功能背后的复杂性.除此之外,用户还可以在他们的应用程序中使用各种类型的Tika.

User Application

Tika Class(外观)

这是Tika图书馆中最突出的类,遵循立面设计模式.因此,它抽象了所有内部实现,并提供了访问Tika功能的简单方法.下表列出了此类的构造函数及其描述.

package :  org.apache.tika

class :  Tika

Sr.No.构造函数&描述
1

Tika()

使用默认配置并构造Tika类.

2

Tika(探测器探测器)

通过接受探测器实例作为参数来创建Tika外观

3

Tika(探测器探测器,分析器解析器)

通过接受检测器和解析器实例作为参数来创建Tika外观.

4

Tika(检测器检测器,解析器解析器,转换器转换器)

通过接受检测器,解析器和转换器实例作为参数来创建Tika外观.

5

Tika(TikaConfig config)

创建Tika门面通过接受TikaConfig类的对象作为参数.

方法和描述

以下是Tika facade class : 的重要方法;

Sr.No.方法&描述
1

parse ToString (文件文件)

此方法及其所有变体解析作为参数传递的文件并返回提取的文本内容以String格式.默认情况下,此字符串参数的长度是有限的.

2

int getMaxStringLength ()

返回返回的字符串的最大长度parseToString方法.

3

void setMaxStringLength (int maxStringLength)

设置parseToString方法返回的字符串的最大长度.

4

Reader 解析(文件文件)

此方法及其所有变体解析作为参数传递的文件以java.io.reader对象的形式返回提取的文本内容.

5

字符串检测( InputStream 流,元数据元数据)

此方法及其所有变体都接受一个InputStream对象和一个Me tadata对象作为参数,检测给定文档的类型,并将文档类型名称返回为String对象.该方法抽象出Tika使用的检测机制.

6

String translate ( InputStream text, String targetLanguage)

此方法及其所有变体接受InputStream对象和表示我们希望翻译文本的语言的String,并将给定文本转换为所需语言,尝试自动检测源语言.

分析器接口

这是Tika包的所有解析器类实现的接口.

package :  org.apache.tika.parser

接口 : 解析器

方法和描述

以下是Tika Parser接口的重要方法 :

Sr.No.方法&描述
1

解析(InputStream流,ContentHandler处理程序,元数据元数据,ParseContext上下文)

此方法将给定文档解析为一系列XHTML和SAX事件.解析后,它将提取的文档内容放在ContentHandler类的对象中,并将元数据放在元数据类的对象中.

元数据类

此类实现各种界面,如CreativeCommons,Geographic,HttpHeaders,Message,MSOffice,ClimateForcast,TIFF,TikaMetadataKeys,TikaMimeKeys,可序列化以支持各种数据模型.下表列出了此类的构造函数和方法及其描述.

package :  org.apache.tika.metadata

class : 元数据

Sr.No.构造函数&描述
1

元数据()

构造一个新的空元数据.

Sr.No.方法&描述
1

add(属性,字符串值)

将元数据属性/值映射添加到给定文档.使用此函数,我们可以将值设置为属性.

2

add(字符串名称,字符串值)

添加元数据属性/值映射到给定文档.使用此方法,我们可以为文档的现有元数据设置新名称值.

3

String get(Property property)

返回给定元数据属性的值(如果有).

4

字符串get(字符串名称)

返回值(如果有的话,给出元数据名称.

5

日期getDate(属性)

返回Date元数据属性的值./p>

6

String [] getValues(Property property)

返回元数据属性的所有值.

7

String [] getValues(String name)

返回给定元数据nam的所有值e.

8

String [] names()

返回元数据对象中元数据元素的所有名称.

9

set(属性,日期)

设置给定元数据属性的日期值

10

set(Property property,String [] values)

将多个值设置为元数据属性.

语言标识符类

此类标识给定内容的语言.下表列出了此类的构造函数及其描述.

package :  org.apache.tika.language

class : 语言标识符

Sr.No.构造函数&描述
1

LanguageIdentifier(LanguageProfile配置文件)

实例化语言标识符.在这里你必须传递一个LanguageProfile对象作为参数.

2

LanguageIdentifier(字符串内容)

此构造函数可以通过以下方式实例化语言标识符从文本内容传递字符串.

Sr.No.方法&描述
1

String getLanguage()

返回给当前LanguageIdentifier对象的语言.