Apache Tika
Apache Tika
简介
Apache Tika 可以检测并提取来自一千多种不同文件类型(如PPT、XLS和PDF)的元数据和文本。
使用方式
启动服务
可以选用 Docker 的方式使用:
1 |
|
1 |
|
也可以通过下载包,并通过 java 来使用,下载地址
读取数据
首先可以准备好要解析的数据文件,然后安装依赖:
1 |
|
然后编写如下程序即可:
1 |
|
Apache Tika 可以检测并提取来自一千多种不同文件类型(如PPT、XLS和PDF)的元数据和文本。
可以选用 Docker 的方式使用:
1 |
|
1 |
|
也可以通过下载包,并通过 java 来使用,下载地址
首先可以准备好要解析的数据文件,然后安装依赖:
1 |
|
然后编写如下程序即可:
1 |
|