Office文件的Mime类型检测导致application/x-tika-ooxml



我正在尝试检测文件输入流的mime类型。

我的类路径中只有tika核心。我使用的是2.0.0版本。

然而,对于docx文件";application/x-tika-ooxml";总是被检测到。Office文件检测总是导致x-tika-ooxml。

我也尝试在TikaInputStream中包装输入流,但结果相同。

下面是我的代码

public class TikaTester {

public static void main (String a[]) {

try {
FileInputStream stream = new FileInputStream("/Users/<>/Downloads/Test DMS.docx");
detectMimeType(stream);
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

}

public static void detectMimeType(InputStream stream) {
Tika tika = new Tika();
try {
String mimeType = tika.detect(stream);
System.out.println("Mime type detected " + mimeType);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}

}

如果我在类路径中添加tika解析器,并且需要使用TikaInputStream,这就可以了。

可能是tika核心没有用于office文件的解析器。

最新更新