

Pdf Extract Api
簡介 :
pdf-extract-api是一個使用現代OCR技術和Ollama支持的模型將任何文檔或圖片轉換為結構化的JSON或Markdown文本的API。它使用FastAPI構建,並使用Celery進行異步任務處理,Redis用於緩存OCR結果。該API無需雲或外部依賴,所有處理都在本地開發或服務器環境中完成,確保數據安全。它支持PDF到Markdown的高精度轉換,包括表格數據、數字或數學公式,並且可以使用Ollama支持的模型進行PDF到JSON的轉換。此外,該API還支持LLM改進OCR結果,去除PDF中的個人身份信息(PII),以及分佈式隊列處理和緩存。
需求人群 :
目標受眾包括需要高精度文檔轉換服務的開發者和企業,特別是那些對數據隱私和安全性有高要求的用戶。該API適合需要將大量文檔轉換為結構化數據的場合,如法律文件、醫療報告和財務發票等。
使用場景
將MRI報告轉換為Markdown和JSON
將發票轉換為JSON並去除PII
使用不同的OCR策略進行PDF到Markdown的轉換
產品特色
高精度PDF到Markdown和JSON的轉換
使用PyTorch基於Marker的OCR和Ollama模型進行本地處理
支持LLM改進OCR文本結果
去除PDF中的個人身份信息(PII)
分佈式隊列處理使用Celery
使用Redis緩存OCR結果
命令行工具用於發送任務和處理結果
使用教程
1. 克隆倉庫到本地
2. 設置環境變量並創建.env文件
3. 使用Docker Compose構建並運行Docker容器
4. 使用CLI工具上傳文件進行OCR轉換
5. 獲取OCR結果
6. 清除OCR緩存
精選AI產品推薦

Pseudoeditor
PseudoEditor是一款免費在線偽代碼編輯器。它具有語法高亮、自動完成等功能,幫助您更輕鬆地編寫偽代碼。您還可以使用我們的偽代碼編譯器功能進行測試。無需下載,即可立即使用。
開發與工具
4.5M

Erbuilder
Softbuilder的AI-powered ER diagrams generation是一款基於人工智能技術的數據建模工具,能夠根據自然語言的數據模型描述、用戶故事或需求自動生成ER圖。通過使用OpenAI GPT,它能夠快速生成精美的ER圖,大大提高了數據建模的效率。此外,它還提供數據模型文檔、驗證、探索等功能,可滿足各種數據建模需求。Softbuilder的AI-powered ER diagrams generation適用於各類企業和組織,幫助用戶輕鬆創建和管理數據模型。
開發與工具
4.1M