Pdf Extract Api : 高精度將圖片或PDF轉換為Markdown文本或JSON結構化文檔的API

Pdf Extract Api

開發與工具 API服務 #api #pdf #json #ocr #extract #anonymization #pii #ocr-python #llm 普通產品開源

簡介 :

pdf-extract-api是一個使用現代OCR技術和Ollama支持的模型將任何文檔或圖片轉換為結構化的JSON或Markdown文本的API。它使用FastAPI構建，並使用Celery進行異步任務處理，Redis用於緩存OCR結果。該API無需雲或外部依賴，所有處理都在本地開發或服務器環境中完成，確保數據安全。它支持PDF到Markdown的高精度轉換，包括表格數據、數字或數學公式，並且可以使用Ollama支持的模型進行PDF到JSON的轉換。此外，該API還支持LLM改進OCR結果，去除PDF中的個人身份信息（PII），以及分佈式隊列處理和緩存。

需求人群 :

目標受眾包括需要高精度文檔轉換服務的開發者和企業，特別是那些對數據隱私和安全性有高要求的用戶。該API適合需要將大量文檔轉換為結構化數據的場合，如法律文件、醫療報告和財務發票等。

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 73.1K

使用場景

將MRI報告轉換為Markdown和JSON

將發票轉換為JSON並去除PII

使用不同的OCR策略進行PDF到Markdown的轉換

產品特色

高精度PDF到Markdown和JSON的轉換

使用PyTorch基於Marker的OCR和Ollama模型進行本地處理