

Pdf Extract Api
紹介 :
pdf-extract-apiは、最新のOCR技術とOllama対応モデルを使用して、あらゆるドキュメントや画像を構造化されたJSONまたはMarkdownテキストに変換するAPIです。FastAPIで構築されており、Celeryによる非同期タスク処理、RedisによるOCR結果のキャッシングを使用しています。クラウドや外部依存関係を必要とせず、すべての処理はローカル開発環境またはサーバー環境で行われ、データの安全性を確保します。PDFからMarkdownへの高精度変換(表データ、数値、数式を含む)をサポートし、Ollama対応モデルを使用してPDFからJSONへの変換も可能です。さらに、LLMによるOCR結果の改善、PDFからの個人情報(PII)の削除、分散キュー処理、キャッシングにも対応しています。
ターゲットユーザー :
高精度なドキュメント変換サービスを必要とする開発者や企業、特にデータプライバシーとセキュリティに高い要求を持つユーザーを対象としています。大量のドキュメントを構造化データに変換する必要がある場合(法律文書、医療レポート、財務明細書など)に適しています。
使用シナリオ
MRIレポートをMarkdownとJSONに変換する
請求書をJSONに変換し、PIIを削除する
異なるOCR戦略を使用してPDFをMarkdownに変換する
製品特徴
高精度なPDFからMarkdownおよびJSONへの変換
PyTorchベースのMarkerを用いたOCRおよびOllamaモデルによるローカル処理
LLMによるOCRテキスト結果の改善
PDFからの個人情報(PII)の削除
Celeryを用いた分散キュー処理
Redisを用いたOCR結果のキャッシング
タスク送信と結果処理のためのコマンドラインツール
使用チュートリアル
1. リポジトリをローカルにクローンする
2. 環境変数を設定し、.envファイルを作成する
3. Docker Composeを使用してDockerコンテナを構築し、実行する
4. CLIツールを使用してファイルアップロードを行い、OCR変換を実行する
5. OCR結果を取得する
6. OCRキャッシュをクリアする
おすすめAI製品

Pseudoeditor
PseudoEditorは無料で使用できるオンライン擬似コードエディタです。構文の強調表示や自動補完などの機能を備えており、擬似コードの作成を容易にします。さらに、内蔵の擬似コードコンパイラ機能でテストすることも可能です。ダウンロード不要ですぐにご利用いただけます。
開発とツール
3.8M

Coze
Cozeは、次世代AIチャットボット構築プラットフォームです。AIチャットボットアプリケーションの迅速な作成、デバッグ、最適化が可能です。コーディング不要で、チャットボットを簡単に作成し、様々なプラットフォームに公開できます。豊富なプラグインも提供しており、データとの連携、アイデアをボットスキルへの変換、長期記憶の装備、会話の開始など、ボットの機能を拡張できます。
開発とツール
3.7M