Pdf Extract Api : 高精度将图片或PDF转换为Markdown文本或JSON结构化文档的API

Pdf Extract Api

开发与工具 API服务 #api #pdf #json #ocr #extract #anonymization #pii #ocr-python #llm 普通产品开源

简介 :

pdf-extract-api是一个使用现代OCR技术和Ollama支持的模型将任何文档或图片转换为结构化的JSON或Markdown文本的API。它使用FastAPI构建，并使用Celery进行异步任务处理，Redis用于缓存OCR结果。该API无需云或外部依赖，所有处理都在本地开发或服务器环境中完成，确保数据安全。它支持PDF到Markdown的高精度转换，包括表格数据、数字或数学公式，并且可以使用Ollama支持的模型进行PDF到JSON的转换。此外，该API还支持LLM改进OCR结果，去除PDF中的个人身份信息（PII），以及分布式队列处理和缓存。

需求人群 :

目标受众包括需要高精度文档转换服务的开发者和企业，特别是那些对数据隐私和安全性有高要求的用户。该API适合需要将大量文档转换为结构化数据的场合，如法律文件、医疗报告和财务发票等。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 76.5K

使用场景

将MRI报告转换为Markdown和JSON

将发票转换为JSON并去除PII

使用不同的OCR策略进行PDF到Markdown的转换

产品特色

高精度PDF到Markdown和JSON的转换

使用PyTorch基于Marker的OCR和Ollama模型进行本地处理