

Pdf Extract Api
简介 :
pdf-extract-api是一个使用现代OCR技术和Ollama支持的模型将任何文档或图片转换为结构化的JSON或Markdown文本的API。它使用FastAPI构建,并使用Celery进行异步任务处理,Redis用于缓存OCR结果。该API无需云或外部依赖,所有处理都在本地开发或服务器环境中完成,确保数据安全。它支持PDF到Markdown的高精度转换,包括表格数据、数字或数学公式,并且可以使用Ollama支持的模型进行PDF到JSON的转换。此外,该API还支持LLM改进OCR结果,去除PDF中的个人身份信息(PII),以及分布式队列处理和缓存。
需求人群 :
目标受众包括需要高精度文档转换服务的开发者和企业,特别是那些对数据隐私和安全性有高要求的用户。该API适合需要将大量文档转换为结构化数据的场合,如法律文件、医疗报告和财务发票等。
使用场景
将MRI报告转换为Markdown和JSON
将发票转换为JSON并去除PII
使用不同的OCR策略进行PDF到Markdown的转换
产品特色
高精度PDF到Markdown和JSON的转换
使用PyTorch基于Marker的OCR和Ollama模型进行本地处理
支持LLM改进OCR文本结果
去除PDF中的个人身份信息(PII)
分布式队列处理使用Celery
使用Redis缓存OCR结果
命令行工具用于发送任务和处理结果
使用教程
1. 克隆仓库到本地
2. 设置环境变量并创建.env文件
3. 使用Docker Compose构建并运行Docker容器
4. 使用CLI工具上传文件进行OCR转换
5. 获取OCR结果
6. 清除OCR缓存
精选AI产品推荐

Pseudoeditor
PseudoEditor是一款免费在线伪代码编辑器。它具有语法高亮、自动完成等功能,帮助您更轻松地编写伪代码。您还可以使用我们的伪代码编译器功能进行测试。无需下载,即可立即使用。
开发与工具
4.5M

Erbuilder
Softbuilder的AI-powered ER diagrams generation是一款基于人工智能技术的数据建模工具,能够根据自然语言的数据模型描述、用户故事或需求自动生成ER图。通过使用OpenAI GPT,它能够快速生成精美的ER图,大大提高了数据建模的效率。此外,它还提供数据模型文档、验证、探索等功能,可满足各种数据建模需求。Softbuilder的AI-powered ER diagrams generation适用于各类企业和组织,帮助用户轻松创建和管理数据模型。
开发与工具
4.1M