pdf
pdf2htmlEX
pdf2htmlEX 项目可以将 PDF 转换为 HTML,而不会丢失文本或格式。
使用方式
1
| docker run -ti --rm -v ./test.pdf:/pdf/ -w /pdf pdf2htmlex/pdf2htmlex --zoom 1.3 test.pdf
|
参考资料
官方项目
Wiki
Stirling-PDF
Stirling-PDF 是一个强大的、本地托管的基于 Web 的 PDF 操作工具,功能包括拆分、合并、转换、重新组织、添加图像、旋转、压缩等。
使用方式
1 2 3 4 5 6 7 8 9 10 11 12 13 14
| services: stirling-pdf: image: frooodle/s-pdf:latest ports: - '8080:8080' volumes: - /location/of/trainingData:/usr/share/tessdata - /location/of/extraConfigs:/configs - /location/of/customFiles:/customFiles/ - /location/of/logs:/logs/ environment: - DOCKER_ENABLE_SECURITY=false - INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false - LANGS=en_GB
|
注:OCR 需要模型文件放在 trainingData 目录下,中文需要 chi_sim.traineddata 文件。
模型文件地址
参考资料
官方项目