pdf-extract-api
P
Pdf Extract Api
紹介 :
pdf-extract-apiは、最新のOCR技術とOllama対応モデルを使用して、あらゆるドキュメントや画像を構造化されたJSONまたはMarkdownテキストに変換するAPIです。FastAPIで構築されており、Celeryによる非同期タスク処理、RedisによるOCR結果のキャッシングを使用しています。クラウドや外部依存関係を必要とせず、すべての処理はローカル開発環境またはサーバー環境で行われ、データの安全性を確保します。PDFからMarkdownへの高精度変換(表データ、数値、数式を含む)をサポートし、Ollama対応モデルを使用してPDFからJSONへの変換も可能です。さらに、LLMによるOCR結果の改善、PDFからの個人情報(PII)の削除、分散キュー処理、キャッシングにも対応しています。
ターゲットユーザー :
高精度なドキュメント変換サービスを必要とする開発者や企業、特にデータプライバシーとセキュリティに高い要求を持つユーザーを対象としています。大量のドキュメントを構造化データに変換する必要がある場合(法律文書、医療レポート、財務明細書など)に適しています。
総訪問数: 502.6M
最も高い割合の地域: US(19.34%)
ウェブサイト閲覧数 : 54.6K
使用シナリオ
MRIレポートをMarkdownとJSONに変換する
請求書をJSONに変換し、PIIを削除する
異なるOCR戦略を使用してPDFをMarkdownに変換する
製品特徴
高精度なPDFからMarkdownおよびJSONへの変換
PyTorchベースのMarkerを用いたOCRおよびOllamaモデルによるローカル処理
LLMによるOCRテキスト結果の改善
PDFからの個人情報(PII)の削除
Celeryを用いた分散キュー処理
Redisを用いたOCR結果のキャッシング
タスク送信と結果処理のためのコマンドラインツール
使用チュートリアル
1. リポジトリをローカルにクローンする
2. 環境変数を設定し、.envファイルを作成する
3. Docker Composeを使用してDockerコンテナを構築し、実行する
4. CLIツールを使用してファイルアップロードを行い、OCR変換を実行する
5. OCR結果を取得する
6. OCRキャッシュをクリアする
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase