Apache Tika

简介

Apache Tika 可以检测并提取来自一千多种不同文件类型（如PPT、XLS和PDF）的元数据和文本。

使用方式

启动服务

可以选用 Docker 的方式使用：

FROM apache/tika:latest
USER root
RUN apt update && apt install fonts-wqy-zenhei fonts-wqy-microhei xfonts-wqy -y
USER 35002:35002

services:
  tika:
    build: .
    image: custom/tika:latest
    ports:
      - "9998:9998"

也可以通过下载包，并通过 java 来使用，下载地址

读取数据

首先可以准备好要解析的数据文件，然后安装依赖：

1	`pip install tika`

然后编写如下程序即可：

from tika import parser

def read_docx(file_path):
    parsed = parser.from_file(file_path)
    text = parsed.get('content', '')
    return text.strip()

if __name__ == "__main__":
    file_path = 'xxx.xxx' 
    content = read_docx(file_path)
    print(content)

参考资料

官方网站

#Python #Apache Tika

Apache Tika

https://wangqian0306.github.io/2024/tika/

作者

WangQian

发布于

2024年10月14日

许可协议

React 上一篇

Kivy 下一篇