Pdf Extract Api : 画像またはPDFを高精度でMarkdownテキストまたはJSON構造化ドキュメントに変換するAPI

Pdf Extract Api

開発とツール APIサービス #api #pdf #json #ocr #抽出 #匿名化 #pii #ocr-python #llm 通常製品オープンソース

紹介 :

pdf-extract-apiは、最新のOCR技術とOllama対応モデルを使用して、あらゆるドキュメントや画像を構造化されたJSONまたはMarkdownテキストに変換するAPIです。FastAPIで構築されており、Celeryによる非同期タスク処理、RedisによるOCR結果のキャッシングを使用しています。クラウドや外部依存関係を必要とせず、すべての処理はローカル開発環境またはサーバー環境で行われ、データの安全性を確保します。PDFからMarkdownへの高精度変換（表データ、数値、数式を含む）をサポートし、Ollama対応モデルを使用してPDFからJSONへの変換も可能です。さらに、LLMによるOCR結果の改善、PDFからの個人情報（PII）の削除、分散キュー処理、キャッシングにも対応しています。

ターゲットユーザー :

高精度なドキュメント変換サービスを必要とする開発者や企業、特にデータプライバシーとセキュリティに高い要求を持つユーザーを対象としています。大量のドキュメントを構造化データに変換する必要がある場合（法律文書、医療レポート、財務明細書など）に適しています。

総訪問数： 502.6M

最も高い割合の地域： US(19.34%)

ウェブサイト閲覧数： 54.6K

使用シナリオ

MRIレポートをMarkdownとJSONに変換する

請求書をJSONに変換し、PIIを削除する

異なるOCR戦略を使用してPDFをMarkdownに変換する

製品特徴

高精度なPDFからMarkdownおよびJSONへの変換

PyTorchベースのMarkerを用いたOCRおよびOllamaモデルによるローカル処理