pdf-extract-api
P
Pdf Extract Api
簡介 :
pdf-extract-api是一個使用現代OCR技術和Ollama支持的模型將任何文檔或圖片轉換為結構化的JSON或Markdown文本的API。它使用FastAPI構建,並使用Celery進行異步任務處理,Redis用於緩存OCR結果。該API無需雲或外部依賴,所有處理都在本地開發或服務器環境中完成,確保數據安全。它支持PDF到Markdown的高精度轉換,包括表格數據、數字或數學公式,並且可以使用Ollama支持的模型進行PDF到JSON的轉換。此外,該API還支持LLM改進OCR結果,去除PDF中的個人身份信息(PII),以及分佈式隊列處理和緩存。
需求人群 :
目標受眾包括需要高精度文檔轉換服務的開發者和企業,特別是那些對數據隱私和安全性有高要求的用戶。該API適合需要將大量文檔轉換為結構化數據的場合,如法律文件、醫療報告和財務發票等。
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 73.1K
使用場景
將MRI報告轉換為Markdown和JSON
將發票轉換為JSON並去除PII
使用不同的OCR策略進行PDF到Markdown的轉換
產品特色
高精度PDF到Markdown和JSON的轉換
使用PyTorch基於Marker的OCR和Ollama模型進行本地處理
支持LLM改進OCR文本結果
去除PDF中的個人身份信息(PII)
分佈式隊列處理使用Celery
使用Redis緩存OCR結果
命令行工具用於發送任務和處理結果
使用教程
1. 克隆倉庫到本地
2. 設置環境變量並創建.env文件
3. 使用Docker Compose構建並運行Docker容器
4. 使用CLI工具上傳文件進行OCR轉換
5. 獲取OCR結果
6. 清除OCR緩存
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase